Me gustaría escribir una araña web simple o simplemente usar wget
para descargar los resultados de pdf de google scholar. Esa sería en realidad una manera bastante amplia de obtener documentos para investigación.Descargando todos los archivos pdf de los resultados de búsqueda de Google Scholar utilizando wget
He leído las páginas siguientes en stackoverflow:
Crawl website using wget and limit total number of crawled links
How do web spiders differ from Wget's spider?
Downloading all PDF files from a website
How to download all files (but not HTML) from a website using wget?
La última página es probablemente el más inspirador de todos. Intenté usar wget
como se sugiere en this.
Mi página de resultados de búsqueda de Google Scholar es thus, pero no se descargó nada.
Dado que mi nivel de comprensión de los webspiders es mínimo, ¿qué debo hacer para que esto sea posible? Me doy cuenta de que escribir una araña es quizás muy complicado y es un proyecto que quizás no desee emprender. Si es posible usando wget
, eso sería absolutamente increíble.
No, desafortunadamente, mi ventana de terminal falla y se apaga cuando ejecuto este comando. No estoy ejecutando Mozilla 5.0 ... es Firefox 15 ... entonces ¿debería hacer algunos cambios en consecuencia? Cambié 'firefox 3.0.3' a' firefox 15' pero fue en vano. – drN
Podría ser la línea continua (\). Editado para eliminarlos, intenta de nuevo. El agente de usuario puede ser lo que quiera ... – dongle
funciona como un encanto! ':)' – drN