2009-08-02 13 views
20

Estoy generando algunas estadísticas para algunos textos en inglés y me gustaría omitir palabras sin interés como "a" y "the".Lista de palabras "Detener palabras" para inglés?

  • ¿Dónde puedo encontrar algunas listas de estas palabras poco interesantes?
  • ¿Es la lista de estas palabras lo mismo que una lista de las palabras más usadas en inglés?

actualización: aparentemente se llaman "palabras para detener" y no "palabras para saltar".

+6

La edición del título era totalmente legítima, y ​​lo más importante,/la convertí en una pregunta real /. ¿Por qué retirarías eso? Parece que alguien con 13.9k de reputación podría formular una pregunta como, ya sabes, una pregunta. – belgariontheking

+0

¿Qué tal las palabras de finalización no inglesas? – adib

+0

puede encontrar la lista de palabras de finalización en http://toolspot.org/list-english-stop-words.php – Sunny

Respuesta

20

La palabra mágica para poner en Google es "dejar de palabras". Esto aparece a reasonable-looking list.

MySQL también tiene un built-in list of stop words, pero esto es demasiado amplio para mi gusto. Por ejemplo, en nuestra biblioteca de la universidad tuvimos problemas porque el "tercero" en el "tercer mundo" se consideraba una palabra final.

+2

El [nltk] (http://nltk.org) (Natural Language Toolkit, una biblioteca de Python) viene con un montón de recursos que incluyen un corpus stopword (Porter et al.), "2.400 palabras de paso para 11 idiomas". Puede usar la lista de palabras prohibidas independiente del juego de herramientas. – alexis

+0

¿Cómo accedo a este corpus de 2,400 stopwords en NLTK? –

+0

http://www.nltk.org/nltk_data/ – Thomas

5

éstos son llamados stop words, mira esto sample

+2

Su enlace está fuera, archivo: http://web.archive.org/web/20080501010608/http: //www.dcs.gla.ac.uk/idom/ir_resources/linguistic_utils/stop_words – bobobobo

4

Obtenga estadísticas sobre la frecuencia de las palabras en grandes corpus txt. Ignora todas las palabras con frecuencia> algún número.

+13

¡lol, este es solo el trabajo que intento evitar! –

+0

Puede haber palabras que quiera omitir (porque son azúcar sintáctico en inglés) que, sin embargo, no son tan comunes como las palabras que le gustaría conservar (porque son típicas del dominio). Sin embargo, no puedo pensar en ningún ejemplo brillante de primera mano. ¿Tal vez "tú" y "uno"? – jprete

2

Creo que utilicé la lista de palabras prohibidas para alemán desde here cuando construí una aplicación de búsqueda con lucene.net hace un tiempo. El sitio contiene una lista para el inglés también, y las listas en el sitio son aparentemente las mismas que el proyecto lucene usa también como predeterminadas.

5

Dependiendo del subdominio del inglés en el que esté trabajando, puede que desee/desee compilar su propia lista de palabras prohibidas. Algunas palabras de parada genéricas pueden ser significativas en un dominio. P.ej. La palabra "son" podría ser an abbreviation/acronym in some domain. Por el contrario, es posible que desee ignorar algunas palabras específicas del dominio según su aplicación que no desee ignorar en el dominio del inglés general. P.ej. Si está analizando un corpus de informes hospitalarios, puede ignorar palabras como "historial" y "síntomas", ya que se encontrarían en todos los informes y podrían no ser útiles (desde una perspectiva simple de índice invertido).

De lo contrario, las listas devueltas por Google deberían estar bien. El Porter Stemmer uses this y la implementación del motor de búsqueda de Lucene uses this.

2

Normalmente, estas palabras aparecerán en los documentos con la frecuencia más alta. Asumiendo que tiene una lista global de las palabras:

{ Word Count } 

Con la lista de palabras, si usted ordenó las palabras de los más altos niveles hasta los más bajos, que tendría un gráfico (recuento (eje y) y la palabra (eje x) que es la función de registro inverso. Todas las palabras de finalización estarían a la izquierda, y el punto de detención de las "palabras de finalización" estaría en donde existe la primera derivada más alta.

Esta solución es mejor que un diccionario intento:

  • Esta solución es un enfoque universal que no está unida por idioma
  • Este intento se entera de lo que las palabras son consideradas como "palabras vacías"
  • Este intento producirá mejores resultados para las colecciones que son muy similares, y producirá listas de palabras exclusivas para los artículos en las colecciones
  • Las palabras de finalización se pueden recalcular en un momento posterior (con esto puede haber almacenamiento en caché y una determinación estadística th al final las palabras pueden haber cambiado desde el momento en que se calcularon)
  • Esto también puede eliminar palabras y nombres informales o basados ​​en el tiempo (como la jerga o si tenía un montón de documentos que tenían el nombre de una empresa como encabezado)

El diccionario intento es mejor:

  • El tiempo de búsqueda es mucho más rápido
  • Los resultados se precached
  • Su simple
  • A alguien más se le ocurrieron las palabras para detenerse.
Cuestiones relacionadas