¿Existe algún framework de crawler web de JavaScript?¿Existe algún framework de crawler web java script
Respuesta
Pruebe el PhantomJS. No es exactamente un rastreador, pero podría usarse fácilmente para ese propósito. Tiene el motor completamente funcional WebKit incorporado, con la capacidad de guardar capturas de pantalla, etc. Funciona como el simple intérprete JS de la línea de comandos.
¿Lado del servidor?
Try-nodo rastreador: https://github.com/joshfire/node-crawler
No consideraría esto como un rastreador, ya que no compila uri subsiguientes para rastrear. Básicamente, descargará la fuente de una URL determinada y activará una devolución de llamada cuando finalice. Depende del consumidor definir la lógica para rastrear los enlaces provistos en esa página, algo que no es muy sencillo. –
Hay un nuevo marco que se acaba de liberar de Node.js llamada spider. Utiliza jQuery bajo el capó para rastrear/indexar las páginas HTML de un sitio web. La API y la configuración son realmente agradables, especialmente si ya conoces jQuery.
Desde el banco de pruebas, he aquí un ejemplo de rastreo de la página web del New York Times:
var spider = require('../main');
spider()
.route('www.nytimes.com', '/pages/dining/index.html', function (window, $) {
$('a').spider();
})
.route('travel.nytimes.com', '*', function (window, $) {
$('a').spider();
if (this.fromCache) return;
var article = { title: $('nyt_headline').text(), articleBody: '', photos: [] }
article.body = ''
$('div.articleBody').each(function() {
article.body += this.outerHTML;
})
$('div#abColumn img').each(function() {
var p = $(this).attr('src');
if (p.indexOf('ADS') === -1) {
article.photos.push(p);
}
})
console.log(article);
})
.route('dinersjournal.blogs.nytimes.com', '*', function (window, $) {
var article = {title: $('h1.entry-title').text()}
console.log($('div.entry-content').html())
})
.get('http://www.nytimes.com/pages/dining/index.html')
.log('info')
;
Pasar una mañana para hacer que Spider funcione, no se puede ejecutar en 0.6.6 node.js. – Kuroro
Este es un buen comienzo, pero no parece manejar los meta-redireccionamientos o las anulaciones de base documental por lo que no podrá rastrear muchos sitios. Pero es la mejor implementación que he visto para el nodo. Y con soporte para cookies, es mejor que otros rastreadores de código abierto. –
- 1. Java Web Crawler Libraries
- 2. Java Script Collection Framework
- 3. ¿Qué es una buena herramienta Web Crawler?
- 4. Web Crawler: ¿Ignora el archivo Robots.txt?
- 5. ¿Existe algún rastreador web extensible y simplemente extensible?
- 6. Asp.net Request.Browser.Crawler - Dynamic Crawler List?
- 7. ¿Existe un framework web Java que pueda producir de manera confiable XHTML 1.0 Strict?
- 8. ¿Existe algún JLabel MultiLine?
- 9. Sugerencias sobre RESTful Java Web Services Framework ...
- 10. ¿El mejor framework de aplicaciones web para Java?
- 11. ¿Existe algún riesgo al usar @ Html.Raw?
- 12. ¿Existe algún comentario en IL?
- 13. framework Java HA
- 14. ¿Existe un framework como Factory Girl para Java?
- 15. Verifique si existe algún tipo de archivo en un directorio usando el script BATCH
- 16. ¿Existe algún andamio de framework PHP que pueda generar migración como Ruby on Rails?
- 17. Alternativas basadas en el framework web basado en Java
- 18. ¿Existe un .NET Framework de Datos Polimórficos
- 19. A bare bones web framework?
- 20. ¿Existe algún riesgo de rendimiento para Collections.unmodifiableList?
- 21. ¿Existe un framework de aplicaciones web preparado para producción en Python?
- 22. Servidor web simple y framework MVC para Java
- 23. Authentication and Authorization Framework para Java Web-Application
- 24. Java Web Framework similar al paradigma Ruby on Rails
- 25. ¿Qué framework Java funciona mejor con Google Web Toolkit?
- 26. 100% Javascript Web Framework
- 27. entidad framework web
- 28. Semantic Web Framework
- 29. Web Window Manager (UI Framework)
- 30. ¿Existe algún marco semántico web que no represente el triple como una estructura de tres nodos?
Podría ser más específico? ¿Estás buscando un rastreador web implementado en JavaScript? ¿Del lado del servidor (Node.js) o del lado del cliente (en un navegador)? –
¿Existe un marco webcrawler del lado del cliente? ¿Cómo funcionaría eso? – Shakakai
Escribí tres API usando javascript en el lado del servidor. Puedes ejecutar 'nodejs' desde tu línea de comando tan fácil como puedas 'python'. Esta es una pregunta perfectamente válida. – slezica