Tengo un par de conjuntos de datos numéricos para los que necesito crear una jerarquía de conceptos. Por ahora, he estado haciendo esto manualmente al observar los datos (y un diagrama de líneas correspondiente). Basado en mi intuición, creé algunas jerarquías aceptables.Algoritmo para generar una jerarquía de conceptos numéricos
Esto parece una tarea que se puede automatizar. ¿Alguien sabe si existe un algoritmo para generar una jerarquía de conceptos para datos numéricos?
Para dar un ejemplo, tengo el siguiente conjunto de datos:
Bangladesh 521
Brazil 8295
Burma 446
China 3259
Congo 2952
Egypt 2162
Ethiopia 333
France 46037
Germany 44729
India 1017
Indonesia 2239
Iran 4600
Italy 38996
Japan 38457
Mexico 10200
Nigeria 1401
Pakistan 1022
Philippines 1845
Russia 11807
South Africa 5685
Thailand 4116
Turkey 10479
UK 43734
US 47440
Vietnam 1042
alt text http://i40.tinypic.com/fd7xxu.jpg
para que creé la siguiente jerarquía:
- más baja (< 1000)
- BAJA (1000-2500)
- MEDIA (2501 - 7500)
- ALTA (7501 - 30000)
- más alta (> 30000)
Gracias, eso parece ser lo que necesito. Estoy leyéndolo ahora. –
El problema con agrupar este conjunto de datos (bueno, cualquier conjunto de datos que no sea realmente puntos en algún espacio) va a ser elegir una medida de distancia adecuada para cualquier algoritmo con el que vaya. Supongo que una simple distancia euclidiana causará problemas dado que está buscando rangos pequeños (1000-2500) en algunas áreas donde están más espaciados y son mucho más grandes (7501-30000) donde no lo son. Tal vez algo como Euclides en el espacio de registro? Debería ser fácil intentarlo al menos. – Dusty