He usado 3 idiomas para Web Scraping - Ruby, PHP y Python y, sinceramente, ninguno de ellos parece perfecto para la tarea.¿Hay algún lenguaje que sea simplemente "perfecto" para raspar web?
Ruby tiene una excelente biblioteca de análisis de mecanizado y XML, pero el soporte de la hoja de cálculo es muy pobre.
PHP tiene una excelente hoja de cálculo y una biblioteca de análisis HTML, pero no tiene un equivalente de WWW: Mechanize.
Python tiene una biblioteca Mechanize muy pobre. Tuve muchos problemas y todavía no puedo resolverlos. Su biblioteca de hojas de cálculo también es más o menos decente ya que no puede crear archivos XLSX.
¿Hay algo que sea perfecto para webscraping.
PD: Estoy trabajando en la plataforma de Windows.
soporte de formatos de Excel es una especie de tela ortogonal a raspar ... –
creo 'perfecto' es bastante subjetiva, sin embargo, has .NET? Creo que su biblioteca de análisis XML es bastante sólida y se puede vincular fácilmente a MSOffice para el soporte de hojas de cálculo. – Tommy
@Tommy: ¿Tiene un equivalente de Mecanizar? Lo había usado con WebBrowserControl pero lo encontré ineficiente. – Shubham