Duplicar posible:
Which characters make a url invalid?¿Qué caracteres son válidos en una URL?
estoy tratando de eliminar la parte no URL de una cadena grande. La mayoría de las expresiones regulares que encontré son como [A-Za-z0-9-_.!~*'()]
, pero hay más cosas que puede contener una url. Como http://127.0.0.1:8080/test?v=123#this
por ejemplo
¿Cuáles son los últimos caracteres para una URL válida?
EDIT:
que parecen ser:
A-Za-z0-9 -._ ~:?!/# [] @ $ & '() * +,; = y% seguidos por valor hexadecimal
¿Has mirado el RFC? http://www.faqs.org/rfcs/rfc1738.html – ale