Estoy planeando escribir un webcrawler para un proyecto NLP, que lea en la estructura de subprocesos de un foro cada vez en un intervalo específico y analiza cada subproceso con nuevo contenido. A través de expresiones regulares, se extrae el autor, la fecha y el contenido de las nuevas publicaciones. El resultado se almacena en una base de datos.¿Erlang es la elección correcta para un webcrawler?
El lenguaje y plattform utilizado para el rastreador tienen que coincidir con los siguientes criterios:
- fácilmente escalable en múltiples núcleos y CPUs
- adecuados para alta I cargas/O
- rápido de expresiones regulares
- fácil de mantener/pocos gastos operativos
Después de algunas investigaciones, creo que Erlan g podría ser un candidato apropiado, pero he leído que no es muy bueno en el procesamiento de cadenas (y por lo tanto, coincide con expresiones regulares). Tampoco tengo ninguna experiencia sobre el factor de mantenimiento.
¿Es Erlang una buena tecnología para el escenario descrito anteriormente? Y si no, ¿cuál sería una buena alternativa?
Probablemente se lo pregunte mejor en http: //programmers.stackexchange.com; cae bajo "no constructivo" aquí IMHO –
Sus criterios tienen al menos tanto que ver con el diseño general y la arquitectura como el idioma. Puede construir webcrawlers escalables en Erlang, Python, Java, lo que sea. También depende de su experiencia de lenguaje de programación actual y sus escalas de tiempo. – DNA
Realmente me gustaría usar Erlang para estos proyectos porque podría ser el mejor ajuste de lo que he leído hasta ahora. Mi pregunta es si la mala coincidencia de expresiones regulares lo convierte en un no-don para este proyecto y qué tan alto sería el gasto operativo (especialmente para el mantenimiento) para esto en la práctica. – Thomas