2012-09-04 24 views
8

Me gustaría escribir una araña web simple o simplemente usar wget para descargar los resultados de pdf de google scholar. Esa sería en realidad una manera bastante amplia de obtener documentos para investigación.Descargando todos los archivos pdf de los resultados de búsqueda de Google Scholar utilizando wget

He leído las páginas siguientes en stackoverflow:

Crawl website using wget and limit total number of crawled links

How do web spiders differ from Wget's spider?

Downloading all PDF files from a website

How to download all files (but not HTML) from a website using wget?

La última página es probablemente el más inspirador de todos. Intenté usar wget como se sugiere en this.

Mi página de resultados de búsqueda de Google Scholar es thus, pero no se descargó nada.

Dado que mi nivel de comprensión de los webspiders es mínimo, ¿qué debo hacer para que esto sea posible? Me doy cuenta de que escribir una araña es quizás muy complicado y es un proyecto que quizás no desee emprender. Si es posible usando wget, eso sería absolutamente increíble.

Respuesta

11
wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23 

Algunas cosas para tomar nota:

  1. El uso de filetyle: pdf en la consulta de búsqueda
  2. Un nivel de recursividad
  3. -A pdf para archivos PDF que aceptan solamente
  4. -H para abarcar hosts
  5. -e robots = apagado y uso de --user-agent garantizará mejores resultados. Google Scholar rechaza un agente de usuario en blanco, y es probable que los repositorios de PDF no permitan los robots.

La limitación, por supuesto, es que esto solo afectará a la primera página de resultados. Podrías expandir la profundidad de la recursión, pero esto se ejecutará salvajemente y tomará para siempre. Yo recomendaría usar una combinación de algo como Beautiful Soup y wget subprocesos, para que pueda analizar y recorrer los resultados de búsqueda estratégicamente.

+0

No, desafortunadamente, mi ventana de terminal falla y se apaga cuando ejecuto este comando. No estoy ejecutando Mozilla 5.0 ... es Firefox 15 ... entonces ¿debería hacer algunos cambios en consecuencia? Cambié 'firefox 3.0.3' a' firefox 15' pero fue en vano. – drN

+0

Podría ser la línea continua (\). Editado para eliminarlos, intenta de nuevo. El agente de usuario puede ser lo que quiera ... – dongle

+0

funciona como un encanto! ':)' – drN

Cuestiones relacionadas