Tengo una serie de elementos de texto: HTML sin procesar de una base de datos MySQL. Quiero encontrar las frases más comunes en estas entradas (no la frase más común, y lo ideal es que no se haga coincidir palabra por palabra).Cómo extraer frases comunes/significativas de una serie de entradas de texto
Mi ejemplo es cualquier comentario para Yelp.com, que muestra 3 fragmentos de cientos de comentarios de un restaurante dado, en el formato:
"Prueba la hamburguesa" (en 44 comentarios)
por ejemplo, , la sección de "comentar los resultados" de esta página:
http://www.yelp.com/biz/sushi-gen-los-angeles/
tengo NLTK instalado y he jugado un rato con él un poco, pero estoy sinceramente abrumado por las opciones. Esto parece ser un problema bastante común y no he podido encontrar una solución directa buscando aquí.
con nltk, es bastante fácil obtener bigramas y trigramas, pero lo que estoy buscando son frases que tienen más probabilidades de 7 a 8 palabras de longitud.No he descubierto cómo hacer que nltk (u otro método) proporcione tales 'octogramas' y más. – arronsky