indicado una dirección URL absoluta de una página, y un vínculo relativo encontrado dentro de esa página, ¿habría una manera de a) reconstruir definitivamente o b) de mejor esfuerzo de reconstrucción la url absoluta del enlace relativo?la reconstrucción de las direcciones URL absolutas de URLs relativas en una página
En mi caso, estoy leyendo un archivo html de una url determinada utilizando sopa hermosa, eliminando todas las fuentes de etiqueta img y tratando de construir una lista de direcciones URL absolutas para las imágenes de la página.
función Mi Python se ve tan lejos como:
function get_image_url(page_url,image_src):
from urlparse import urlparse
# parsed = urlparse('http://user:[email protected]:80/path;parameters?query=argument#fragment')
parsed = urlparse(page_url)
url_base = parsed.netloc
url_path = parsed.path
if src.find('http') == 0:
# It's an absolute URL, do nothing.
pass
elif src.find('/') == 0:
# If it's a root URL, append it to the base URL:
src = 'http://' + url_base + src
else:
# If it's a relative URL, ?
NOTA: No necesite una respuesta Python, sólo la lógica requerida.
Hey coool !! (Supongo que sí necesitaba Python ...) – Yarin
El módulo urlparse se renombra a urllib.parse en Python 3. Por lo tanto, 'from urllib.parse import urljoin' – SparkAndShine