Estoy tratando de filtrar nombres de blobs de texto. Actualmente solo estoy generando una lista de palabras y filtrándola a mano, pero tengo ~ 8k palabras para ir, así que estoy buscando una mejor manera. Podría tomar un diccionario y filtrarlos, pero eso eliminaría nombres como Smith y acantilado.Lista de nombres propios?
Lo que necesito es una de las siguientes:
- una lista de nombres comunes (que iba a necesitar los> 5k nombres más comunes)
- una lista de nombres que también resultan ser las palabras
Calculo entre ellos, puedo hacer una lista negra/lista blanca combinada para obtener lo que necesito.
Nombres comunes en qué idioma? O en qué país, porque "Ali" es bastante popular en los Estados Unidos, a pesar de ser un nombre árabe. –
@John, como suele pasar, en su mayoría, inglés, pero después de eso, casi cualquier cosa. En cuanto al bit "también palabras"; Inglés. – BCS