Hace nueve años, cuando empecé a analizar HTML y texto libre con Perl, leí el clásico Data Munging with Perl. ¿Alguien sabe si David planea actualizar el libro o si hay libros similares o páginas web donde se explican los nuevos módulos de análisis como XML-Twig, Regexp-Grammars, etc.?¿Qué módulos de Perl son buenos para la protección de datos?
Supongo que en los últimos nueve años algunos módulos siguen siendo tan buenos como lo fueron, algunos están actualizados pero con nuevos métodos interesantes y algunos tienen mejores reemplazos. Por ejemplo, ¿sigue siendo Parse-RecDescent la única opción para el análisis de texto libre o será el Perl 6 influido Regexp-Grammars su reemplazo en muchos escenarios?
Llevo cuatro años sin HTML activo, XML o minería de datos de texto libre con Perl, por lo que probablemente mi toolkit en esta área esté un poco desactualizado. Por lo tanto, cualquier comentario sobre manipulación HTML y DOM, extracción/verificación de enlace, pruebas web como Mecanizar, manipulación XML y análisis de texto libre, de personas que estén actualizadas con los módulos actuales de CPAN en esta área serán más que bienvenidos.
Algunas nuevas adiciones a mi caja de herramientas:
todavía en mi caja de herramientas:
- HTML-TableExtract # no se actualiza desde 2006
- WWW-Mechanize
- Parse-RecDescent
- HTML-TokeParser
- URI-Escape
- [más ...]
Algunos de los detalles podrían haber cambiado, pero los conceptos son los mismos. :) –
Dave, sería un placer leer estos comentarios y recetas en tu blog algún día. –
Sí, estaría MUY interesado en leer esas publicaciones también. Si terminas publicando algunas actualizaciones adicionales en tu blog, será super. ¡Aclamaciones! – blunders