Hay muchos analizadores y lexers para scripts (es decir, lenguajes informáticos estructurados). Pero estoy buscando uno que pueda romper un documento de texto (casi) no estructurado en secciones más grandes, p. capítulos, párrafos, etc.lexers/analizadores para documentos de texto (no) estructurados
Es relativamente fácil para una persona identificarlos: dónde se inicia el índice, los agradecimientos o dónde comienza el cuerpo principal y es posible construir sistemas basados en reglas para identificar algunos de estos (tales como párrafos).
No espero que sea perfecto, pero ¿alguien sabe de un lexer/analizador tan amplio basado en bloques? ¿O podría dirigirme hacia la literatura que pueda ayudar?
Me había olvidado de POD! Lo que realmente necesito parece ser una combinación de POD, reducción y texto reestructurado. Definitivamente me dieron algunos consejos. Parece que voy a tener que construir el mío. – wilson32
¿Ya tiene texto o quiere empezar desde cero? ¿Quizás pueda convertir su documento existente (si tiene uno) en ReSt o algo así y usar el analizador de stock? –
El problema es que no tenemos idea de cómo será el nuevo documento entrante.Sabemos que el proceso que prevemos será solo semiautomático. Sospecho que será más fácil construir un documento analizable de una copia del original que luego podemos usar como fuente para cualquier formateador relevante – wilson32