2010-01-27 18 views
5

Estoy tratando de filtrar nombres de blobs de texto. Actualmente solo estoy generando una lista de palabras y filtrándola a mano, pero tengo ~ 8k palabras para ir, así que estoy buscando una mejor manera. Podría tomar un diccionario y filtrarlos, pero eso eliminaría nombres como Smith y acantilado.Lista de nombres propios?

Lo que necesito es una de las siguientes:

  • una lista de nombres comunes (que iba a necesitar los> 5k nombres más comunes)
  • una lista de nombres que también resultan ser las palabras

Calculo entre ellos, puedo hacer una lista negra/lista blanca combinada para obtener lo que necesito.

+0

Nombres comunes en qué idioma? O en qué país, porque "Ali" es bastante popular en los Estados Unidos, a pesar de ser un nombre árabe. –

+0

@John, como suele pasar, en su mayoría, inglés, pero después de eso, casi cualquier cosa. En cuanto al bit "también palabras"; Inglés. – BCS

Respuesta

5

censo de los EEUU lista de nombres: http://www.census.gov/genealogy/www/

Eso debe conseguirle un ángulo en el problema, de todos modos.

editado cambio de URL, por comentario a continuación sobre el traslado de la página. ¿Ya nadie cree en el HTTP 302?

+0

Eso debería hacerlo. – BCS

+0

el censo podría estar un poco desactualizado y también contiene solo nombres frecuentes, por ejemplo, Barak no se puede encontrar en la lista masculina. Primero, y Obama no puede encontrarse en el archivo all.last, aunque el nombre Barak Obama es obviamente bastante común en textos escritos, por ejemplo fuentes de noticias, blogs, tweets, etc. – ScienceFriction

+1

Ese enlace a census.gov lleva a un 404 ahora. Parece que este es el nuevo hogar de alto nivel de datos de genealogía en el sitio del Censo: http://www.census.gov/genealogy/www/. – BrianC

2

de un poste que encontré en Quora: Proyecto NELL

de CMU ha recogido una enorme lista de los nombres propios de la web y categorizada por tipo. Puede navegar en línea en: NELL KnowledgeBase Browser y descargar los datos en: Resources & Data.

Web raspado de los resultados para, por ejemplo, personUS parece más eficiente que lo que hice, que es la extracción de una lista de nombres de frases en la categoría "persona" en su gran archivo CSV delimitado por tabuladores. De cualquier forma, usarás expresiones regulares.

Cuestiones relacionadas