En los últimos días he investigado esto extensamente, he leído tantas cosas que ahora estoy más confundido que nunca. ¿Cómo se puede encontrar la subcadena común más larga en un gran conjunto de datos? La idea es eliminar el contenido duplicado de este conjunto de datos (de diferentes longitudes, por lo que el algoritmo deberá ejecutarse continuamente). Por gran conjunto de datos me refiero a aproximadamente 100mb de texto.Encontrar la subcadena común más larga en un gran conjunto de datos
¿Árbol de sufijos? Sufijo matriz? Rabin-Karp? ¿Cuál es la mejor manera? ¿Y hay una biblioteca por ahí que pueda ayudarme?
Realmente esperando una buena respuesta, me duele mucho la cabeza. ¡Gracias! :-)
¿Por qué necesita funcionar continuamente? ¿Los datos están cambiando? – jonderry
¿Por qué no utilizar el software de compresión estándar? –
jonderry: Probablemente no estaba claro, quise decir que después de cada pase tendrá que encontrar la siguiente subcadena más larga, y así sucesivamente. – diffuse