Esta no es una pregunta relacionada directamente con la programación, sino que se trata de seleccionar el algoritmo de minería de datos correcto.¿Qué algoritmo de minería de datos sugeriría para este escenario en particular?
Quiero deducir la edad de las personas de sus nombres, de la región en que viven, y si tienen un producto de Internet o no. La idea detrás de esto es que:
- hay nombres que son pasados de moda o popular en una década en particular (celebridades, políticos, etc.) (esto no puede sostener en los EE.UU., pero en el país de interés que es cierto),
- los jóvenes tienden a vivir en regiones muy pobladas, mientras que las personas mayores prefieren el campo, y
- Internet es utilizado más por los jóvenes que por las personas mayores.
No estoy seguro de si esas suposiciones se cumplen, pero quiero probar eso. Entonces lo que tengo es 100K observaciones de nuestra base de datos de clientes con
- aprox. 500 nombres diferentes (variables de entrada nominal con demasiadas clases)
- 20 regiones diferentes (variables de entrada nominal)
- Internet Sí/No (variable de entrada binaria)
- 91 birthyears distintas (variable objetivo numérica con un rango de: 1910- 1992)
Como tengo tantas entradas nominales, no creo que la regresión sea un buen candidato. Como el objetivo es numérico, tampoco creo que el árbol de decisión sea una buena opción. ¿Alguien puede sugerirme un método que sea aplicable para tal escenario?
¿100k observaciones y solo 500 nombres diferentes? –
su tercera suposición es cuestionable; compruebe mejor la investigación –
@Samuel: sí, 500 * primeros * nombres. La gente no es muy creativa acerca de los nombres de bebés aquí. – ercan