¿Cuál es el mejor lenguaje para raspar pantallas?

Hola, quiero crear una aplicación de escritorio (C# prob) que raspe o manipule un formulario en una página web de un tercero. Básicamente, ingreso mis datos en el formulario en la aplicación de escritorio, se va al sitio web de terceros y, usando el script o lo que sea de fondo, ingresa mis datos allí (incluido mi nombre de usuario) y hace clic en el botón de enviar por mí.I solo quiero evitar cargar el navegador!¿Cuál es el mejor lenguaje para raspar pantallas?

No habiendo hecho mucho (¡nada!) Trabajo en esta área, me preguntaba si un lenguaje de scripting como perl, python, ruby etc. me permitiría hacerlo. ¿O simplemente haz todo el raspado usando C# y .net? ¿Cuál es el mejor IYO?

Estaba pensando en la secuencia de comandos que podría necesitar enganchar en el mismo script algo de las aplicaciones en diferentes plataformas (por ejemplo, el móvil Symbian donde no podría desarrollarlo en C# como lo haría con la versión de escritorio).

No es una aplicación web; de lo contrario, puedo utilizar el sitio original. Me doy cuenta de que todo parece inútil, pero la automatización para esta forma específica sería un verdadero ahorro de tiempo para mí.

Fuente

2009-04-17 Anonymous

Esta es una pregunta acerca de raspado web no pantalla-raspado. Vuelva a etiquetarlo, por favor. –

Etiqueta añadida web-scraping. No eliminó la etiqueta de raspado de pantalla. –

IMO Perl tiene una función de expresión regular y la capacidad de manipular texto lo convertiría en un buen contendiente para el raspado de la pantalla.

Fuente

2009-04-17 12:06:22 Galwegian

PHP es un buen candidato debido a su buena Perl-Compatible Regex support y cURL library.

Fuente

2009-04-17 12:09:17

C# es más que adecuado para su pantalla raspado necesidades. La funcionalidad Regex de .NET es realmente agradable. Sin embargo, con una tarea tan simple, será difícil encontrar un idioma que no haga lo que desea con relativa facilidad. Teniendo en cuenta que ya estás programando en C#, me gustaría quedarte con eso.

La función incorporada de raspado de pantalla también es de primera clase.

Fuente

2009-04-17 12:10:10

No se olvide de mirar BeautifulSoup, es muy recomendable.

Véase, por ejemplo, options-for-html-scraping. Si necesita seleccionar un lenguaje de programación para esta tarea, diría Python.

Una solución más directa a su pregunta, consulte twill, un lenguaje de scripting simple para la navegación web.

Fuente

2009-04-17 12:16:48 gimel

Uso C# para raspar. Consulte el útil paquete HtmlAgilityPack. Para analizar páginas, utilizo XPATH o expresiones regulares. .NET también puede manejar fácilmente las cookies si lo necesita.

He escrito una pequeña clase que contiene todos los detalles de crear una WebRequest, enviarla, esperar una respuesta, guardar las cookies, manejar errores de red y retransmitir, etc. - el resultado final es que para la mayoría de las situaciones Puedo llamar a "GetRequest \ PostRequest" y recuperar un HtmlDocument.

Fuente

2009-04-17 13:16:37 Hermit

Usted podría tratar de usar el código HTML de la agilidad Pack de .NET:

http://www.codeplex.com/htmlagilitypack

"Este es un analizador de HTML ágil que construye una lectura/escritura DOM y apoya XPATH liso o XSLT (que en realidad don NO DEBE entender XPATH ni XSLT para usarlo, no se preocupe ...). Es una biblioteca de códigos .NET que le permite analizar archivos HTML "fuera de la web". El analizador es muy tolerante con "real". world "HTML malformado. El modelo de objetos es muy similar a lo que propone System.Xml, pero para documentos HTML (o streams)."

Fuente

2009-04-17 13:30:15

o un palo con cliente Web en C# y algunas manipulaciones de cadenas.

Fuente

2009-04-17 13:34:39

Ruby es bastante grande! ... tratar su hpricot/mecanizar

Fuente

2009-04-17 13:38:27 Vic

Groovy es muy bueno.

Ejemplo : http://froth-and-java.blogspot.com/2007/06/html-screen-scraping-with-groovy.html

Groovy y HtmlUnit es también un muy buen partido: http://groovy.codehaus.org/Testing+Web+Applications Htmlunit simulará un navegador completo con soporte de Javascript.

Fuente

2009-04-18 17:13:04

HTML Agility Pack (c#)

XPath es borked, la forma en que el HTML se limpia para que sea compatible con XML caerá etiquetas y hay que ajustar la expresión de conseguir que funcione.
fácil de usar

Mozilla Parser (Java)

apoyo XPath sólido
tiene que establecer variables de entorno antes de que funcione, que es un dolor
fundición entre org.dom4j.Node y org.w3c.dom.Node para obtener diferentes propiedades es un verdadero dolor
muere en html no estándar (0,3 fixes thi s)
mejor solución para XPath
problemas de acceso a los datos de los nodos de un NodeList

uso un for (int i = 1; i < = list_size; i ++) para moverse por que

Beautiful Soup (Python)

no tengo mucha experiencia, pero esto es lo que he encontrado

ningún apoyo XPath
interfaz agradable al encauzamiento html

prefiero Mozilla HTML Analizador

Fuente

2009-04-24 16:36:21

Secundo la recomendación para Python (o sopa de Hermosa). Actualmente estoy en medio de un pequeño proyecto de captura de pantalla usando Python, y el manejo automático de cosas como la autenticación de cookies (a través de CookieJar y urllib) simplifica enormemente las cosas. Python es compatible con todas las características más avanzadas que pueda necesitar (como expresiones regulares), además de tener la ventaja de poder manejar proyectos como este rápidamente (no demasiada sobrecarga al tratar con cosas de bajo nivel). También es relativamente multiplataforma.

Fuente

2009-04-29 07:30:12 Zxaos

Utilizamos Groovy con NekoHTML. (También tenga en cuenta que ahora puede ejecutar Groovy en Google App Engine.)

Aquí es un poco de ejemplo, el código ejecutable en el blog Keplar:

Better competitive intelligence through scraping with Groovy

Fuente

2010-01-21 09:21:50

Tome un vistazo a Lenguaje Web de HP (antes WEBL).

http://en.wikipedia.org/wiki/Web_Language

Fuente

2010-12-03 18:23:01 Steve