HTML Scraping en Php

He estado haciendo algunos scraping html en PHP utilizando expresiones regulares. Esto funciona, pero el resultado es quisquilloso y frágil. ¿Alguien ha usado algún paquete que brinde una solución más robusta? Una solución basada en configuración sería ideal, pero no soy exigente.HTML Scraping en Php

Fuente

2008-08-29 tsellon

Eche un vistazo a [this] (http://stackoverflow.com/questions/26947/how-to-implement-a-web-scraper-in-php#27109) thread - la pregunta va en una dirección similar – crono

Recomendaría PHP Simple HTML DOM Parser después de haber eliminado el código HTML de la página. Admite HTML no válido y proporciona una forma muy sencilla de manejar elementos HTML.

Fuente

2008-08-29 07:55:42 Espo

Alternativas de terceros sugeridas a [SimpleHtmlDom] (http://simplehtmldom.sourceforge.net/) que realmente usan [DOM] (http://php.net/manual/en/book.dom.php) en lugar de String Parsing : [phpQuery] (http://code.google.com/p/phpquery/), [Zend_Dom] (http://framework.zend.com/manual/en/zend.dom.html), [QueryPath] (http://querypath.org/) y [FluentDom] (http://www.fluentdom.org). – Gordon

¿me puede dar un ejemplo para hacer clic en cualquier enlace en una página determinada? –

Si la página que está raspando es válida X (HT) ML, entonces cualquiera de PHP's built-in XML parsers hará.

No he tenido mucho éxito con las bibliotecas PHP para raspar. Si eres aventurero, puedes intentar simplehtmldom. Recomendaría Hpricot para Ruby o Beautiful Soup para Python, que son ambos excelentes analizadores para HTML.

Fuente

2008-08-29 08:01:37

Si va a analizar HTML particularmente descuidado, asegúrese de no utilizar BeautifulSoup 3.1.x (use 3.0.x). 3.1.x usa htmllib como su analizador sintáctico, que es mucho menos tolerante que el uso de sgmllib por parte de 3.0.x. – Tom

He tenido muy buenos resultados con el Simple Html DOM Parser mencionado anteriormente también. Y luego está el tidy Extension for PHP que también funciona muy bien también.

Fuente

2008-08-29 08:08:50

Me divertí trabajando con htmlSQL, que no es tanto una solución de gama alta, sino realmente fácil de usar.

Fuente

2008-08-29 09:40:59 BlaM

último comentario, pero acabo de encontrar su respuesta a través de google ... me gusta! :) – Ben

¿Funciona para usted incluso ahora? No parece funcionar para mí ... – Dinesh

Usando PHP para raspar HTML, recomendaría cURL + regexp o cURL + algunos analizadores DOM aunque personalmente uso cURL + regexp. Si tienes un sabor profundo de la expresión regular, a veces es más preciso.

Fuente

2008-12-27 09:11:09

También recomendaría 'Simple HTML DOM Parser'. Es una buena opción, especialmente si está familiarizado con los selectores de jQuery o JavaScript, entonces se encontrará en casa.

I have even blogged about it in the past.

Fuente

2009-07-31 19:43:11

tuve que usar mi rizo en 1and1 anfitrión.

http://www.quickscrape.com/ es lo que se me ocurrió al usar la clase DOM simple!

Fuente

2010-12-02 06:51:57 Steve

Respuesta

Cuestiones relacionadas