Estoy escribiendo un rastreador de sitios web en php y ya tengo un código que puede extraer todos los enlaces de un sitio. Un problema: los sitios usan una combinación de direcciones absolutas y relativas. Ejemplos (http reemplazados con hxxp ya que no puedo publicar hipervínculos):php convertir todos los enlaces a las URL absolutas
hxxp: //site.com/
site.com
site.com/index.php
hxxp: //site.com/hello/index.php
/hello/index.php
hxxp: //site2.com/index.php
site2.com/index.php
No tengo control sobre los enlaces (si son absolutos/relativos), pero tengo que seguirlos. Necesito convertir todos estos enlaces en URL absolutas. ¿Cómo hago esto en php?
¿Qué está utilizando para analizar html y encontrar los enlaces? Es posible que su biblioteca ya tenga una forma de resolver las URL relativas. –
Estoy usando mi propia función de extracción de enlaces html. No utilizo ninguna biblioteca, excepto las funciones curl y php. –