¿Hay alguna herramienta o utilidad o script perl/python que pueda encontrar las subcadenas más largas en un archivo de texto grande e imprimir esos patrones y el número de veces que ocurre cada patrón?Utilidad para encontrar cadenas repetidas lo más largas posible
5
A
Respuesta
2
http://en.wikipedia.org/wiki/Longest_repeated_substring_problem:
El problema subcadena más larga repetida es encontrar la subcadena más larga de una cadena que se produce al menos dos veces. Este problema puede ser resuelto en el tiempo lineal y el espacio mediante la construcción de un árbol de sufijos para la cadena, y encontrar el nodo interno más profundo en el árbol
árboles de sufijos en Python (un poco anticuado, aunque ..) : http://hkn.eecs.berkeley.edu/~dyoo/python/suffix_trees/
implementación de JavaScript con mayor explicación: http://www.allisons.org/ll/AlgDS/Tree/Suffix/
Cuestiones relacionadas
- 1. encontrar la mayoría de las cadenas repetidas sub en orden
- 2. búsqueda de subcadenas largas repetidas en una cadena masiva
- 3. ¿Encontrar las secuencias k-más largas en una matriz unidimensional?
- 4. ¿Debo rechazar URLs más largas de lo esperado?
- 5. Depurador XCode: mostrar cadenas largas
- 6. Cómo crear CreateFile lo más rápido posible
- 7. Almacenamiento de cadenas largas binarias (datos brutos)
- 8. ¿Son malas las largas cadenas de jQuery?
- 9. Romper cadenas largas con PHP para SMS salientes
- 10. Problema de cadenas largas persistentes con Hibernate
- 11. Cómo cifrar cadenas largas en PHP?
- 12. Similitud de cadenas en PHP: Función tipo levenshtein para cadenas largas
- 13. Encontrar palabras repetidas en una cadena y contar las repeticiones
- 14. Expresión regular para dividir cadenas largas en varias líneas
- 15. Citas de estilo Perl para cadenas largas en C++
- 16. Comparando cadenas largas por sus valores hash
- 17. Cambiar cómo el formateador de eclipse envuelve cadenas largas
- 18. Almacenar cadenas repetidas en una variable en PHP
- 19. Posible tener cadenas para enumeraciones?
- 20. Las líneas más largas en la leyenda()
- 21. Concordancia de palabras más inteligente en PHP para palabras largas?
- 22. ¿Cómo trabajar con cadenas muy largas en Python?
- 23. Encontrar el palíndromo más grande en la implementación de cadenas
- 24. Envío de un iMessage lo más simple posible iOS
- 25. MySQL: ¿tipo de datos más eficiente para almacenar notas largas?
- 26. Borrar un BufferedImage transparente lo más rápido posible
- 27. Cambiar un tipo de columna a cadenas más largas en rieles
- 28. ¿Debo convertir cadenas demasiado largas UTF-8 a su forma normal más corta?
- 29. Trabajar con cadenas largas (heredocs) en Java: ¿el enfoque legible?
- 30. Usando cadenas muy largas (más de 100 caracteres) como valor SqlParameter
información relevante: http://en.wikipedia.org/wiki/Longest_repeated_substring_problem – kennytm