2009-09-20 11 views
7

Necesito una lista de nombres comunes para personas, como "Bill", "Gordon", "Jane", etc. ¿Hay alguna lista libre de muchos nombres conocidos, en lugar de tener que escribirlos? ¿Algo que puedo analizar fácilmente con el programa para completar una matriz, por ejemplo?Lisas listas de los nombres comunes para computadora

no estoy preocupado por:

  • saber si es un nombre masculino o femenino (o ambos)
  • Si el conjunto de datos tiene un gran montón de falsos positivos
  • Si hay nombres que no están en él, obviamente ningún conjunto de datos como este estará completo.
  • Si hay 'duplicados', es decir, no me importa si el conjunto de datos incluye "Bill" y "William" y "Billy" como nombres diferentes. Yo prefiero tener más datos que menos
  • No me importa acerca de conocer la popularidad del nombre

Wikipedia tiene un list of most popular given names, pero eso es todo en una página HTML y manged con la sintaxis wiki horribles . ¿Hay una mejor manera de obtener algunos datos de muestra como este sin tener que revisar la wikipedia?

Respuesta

25

Eso debería ser suficiente para empezar, creo.

5

Puede consumir fácilmente la API de Wikipedia (http://en.wikipedia.org/w/api.php) para recuperar la lista de páginas en una categoría específica, se parece a Categoría: Nombres de pila es algo que desea comenzar.

http://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmnamespace=0&cmlimit=500&cmtitle=Category:Given_names 

La parte del resultado de esta URL tiene el siguiente aspecto:

<cm pageid="5797824" ns="0" title="Abdou" /> 
    <cm pageid="5797863" ns="0" title="Abdu" /> 
    <cm pageid="859035" ns="0" title="Abdul Aziz" /> 
    <cm pageid="6504818" ns="0" title="Abdul Qadir" /> 

mirar la API y seleccione los parámetros de formato y de consulta adecuados, y comprobar categorías.

P.S. BTW, el wiki-texto de la página que vinculó contiene nombres en una forma que es fácil de extraer usando regexp ... Además de los títulos de los enlaces en la página HTML representada tienen "(nombre)" adjunto al nombre mismo .

+0

La opción * cmlimit * en la consulta está al máximo (500) permitido a usuarios no autorizados, y puede elevarse a 5000 elementos. De todos modos, se usa la opción * cmcontinuar * para recuperar todos los resultados por partes ... –

6

Social Security Administration - Beyond the Top 1000 Names Data Files

Lo anterior es una lista completa de los nombres de pila en uso en los EE.UU.. Los archivos zip contienen datos nacionales y estatales por año de nacimiento en formato CSV. Incluye el número de ocurrencias (mínimo 5) y el género.Por ejemplo, el archivo nacional para 2010 incluye 33,838 nombres de bebés.

Cuestiones relacionadas