2011-08-17 6 views
7

Acabo de ingresar a un entorno en el que soy mucho más libre de elegir cualquier enfoque que desee para un proyecto (es decir, acceso completo al CPAN y no aprobación de módulos por comité)), pero estoy un poco fuera de contacto con los nuevos hotnesses, así que pensé que podría solicitar ideas aquí.Escribiendo un agregador modular y normalizador en Perl

Mi proyecto consiste en raspar varias fuentes con diferentes formatos (html, texto comprimido, csv, etc.) normalizándolas y luego procesándolas en algún tipo de almacén de datos. Los pulls deben ocurrir a intervalos programables y me gustaría hacer el back-end modular para que fuentes similares puedan usar la misma base de código. También debe poder responder a través de la web con un estado simple de procesos en ejecución (nada sofisticado). Estaba pensando que POE podría ser una buena idea con varios procesos de recopilación que informan a un maestro, pero ¿hay algún módulo específico en POE (o en otro lugar) que alguien crea que debería ver?

Respuesta

1

WWW :: Mechanize es un excelente módulo para obtener información de páginas web.
Le permite iniciar sesión en sitios web mediante el nombre de usuario y la contraseña, le permite enviar formularios, etc.

Puede encontrar más información en: http://metacpan.org/pod/WWW::Mechanize

+0

ya estoy familiarizado, en realidad. Tengo más curiosidad sobre el procesamiento de eventos y la arquitectura. Debería haber mencionado WWW :: Mechanize, sin embargo. Esa es una gran recomendación. – Alaska