Tengo una gran lista de archivos, algunos de los cuales tienen fechas incrustadas en el nombre del archivo. El formato de las fechas es inconsistente y a menudo incompleto, p. "Aug06", "Aug2006", "August 2006", "08-06", "01-08-06", "2006", "011004" etc. Además de eso, algunos nombres de archivos tienen números no relacionados que se parecen un poco a fechas, por ejemplo "20202010".Extraer de manera irregular la fecha de la cadena (fecha de análisis, NLP)
En resumen, las fechas son normalmente incompletas, a veces no están allí, están formateadas de manera irregular y están incrustadas en una cadena con otra información, p. "Informe Aug06.xls".
¿Hay algún módulo Perl disponible que haga un trabajo decente adivinando la fecha de una cadena? No tiene que ser 100% correcto, ya que será verificado por un humano manualmente, pero estoy tratando de hacer las cosas lo más fáciles posible para esa persona y hay miles de entradas para verificar :)
Esto es algo similar a cómo lo hice al final, pero el mío es mucho más largo, más feo y aterrador :) Dejaré la pregunta abierta por ahora, en caso de que alguien haya encontrado el problema antes, pero parece como un poco de rollo tu propia solución ... –
Tu respuesta es esencialmente correcta; no parece haber ninguna biblioteca para hacer esto, tienes que hacerlo tú mismo :) –