Normalmente, estas palabras aparecerán en los documentos con la frecuencia más alta. Asumiendo que tiene una lista global de las palabras:
{ Word Count }
Con la lista de palabras, si usted ordenó las palabras de los más altos niveles hasta los más bajos, que tendría un gráfico (recuento (eje y) y la palabra (eje x) que es la función de registro inverso. Todas las palabras de finalización estarían a la izquierda, y el punto de detención de las "palabras de finalización" estaría en donde existe la primera derivada más alta.
Esta solución es mejor que un diccionario intento:
- Esta solución es un enfoque universal que no está unida por idioma
- Este intento se entera de lo que las palabras son consideradas como "palabras vacías"
- Este intento producirá mejores resultados para las colecciones que son muy similares, y producirá listas de palabras exclusivas para los artículos en las colecciones
- Las palabras de finalización se pueden recalcular en un momento posterior (con esto puede haber almacenamiento en caché y una determinación estadística th al final las palabras pueden haber cambiado desde el momento en que se calcularon)
- Esto también puede eliminar palabras y nombres informales o basados en el tiempo (como la jerga o si tenía un montón de documentos que tenían el nombre de una empresa como encabezado)
El diccionario intento es mejor:
- El tiempo de búsqueda es mucho más rápido
- Los resultados se precached
- Su simple
- A alguien más se le ocurrieron las palabras para detenerse.
La edición del título era totalmente legítima, y lo más importante,/la convertí en una pregunta real /. ¿Por qué retirarías eso? Parece que alguien con 13.9k de reputación podría formular una pregunta como, ya sabes, una pregunta. – belgariontheking
¿Qué tal las palabras de finalización no inglesas? – adib
puede encontrar la lista de palabras de finalización en http://toolspot.org/list-english-stop-words.php – Sunny