Tengo un texto largo (aproximadamente 5 MB de tamaño de archivo) y otro texto llamado patrón (alrededor de 2000 caracteres).Algoritmo eficiente para buscar subcadenas coincidentes de más de 14 caracteres de un texto dentro de otro texto
La tarea es encontrar piezas coincidentes de un patrón genómico que tengan 15 caracteres o más en el texto largo.
ejemplo:
largo del texto: ACGTACGTGTCA AAAACCCCGGGGTTTTA GTACCCGTAGGCGTAT Y mucho más tiempo
patrón: ACGGTATTGAC AAAACCCCGGGGTTTTA TGTTCCCAG
Estoy mirada para un algoritmo eficiente (y fácil de entender e implementar).
Una bonificación sería una forma de implementar esto con solo arreglos de caracteres en C++ si eso es posible.
otros personajes permite intervenir? Esta es la diferencia entre las subsecuencias comunes ("ABC" y "ADC" comparten "AC") y las subpáginas comunes ("ABC" y "ADC" comparten solo las subpáginas de un carácter "A" y "B"). –
http://en.wikipedia.org/wiki/Longest_common_subsequence_problem –
@JasonZhu Este no es exactamente el caso, quiere todas las subsecuencias comunes más largas que 15 caracteres, no solo la más larga. – Imp