6

Hace poco vinieron a estudiar la agrupación en la minería de datos y he estudiado el agrupamiento secuencial y agrupamiento jerárquico y k-medias.preguntas sobre los métodos de agrupamiento

También leí sobre una afirmación que distingue k-means de las otras dos técnicas de agrupamiento, diciendo que k-means no es muy bueno para tratar con atributos nominales, pero el texto no explica este punto. Hasta ahora, el única diferencia que puedo ver es que para K-means, vamos a saber de antemano que necesitaremos exactamente K grupos, mientras que no sabemos cuántos grupos que necesitamos para otros dos métodos de agrupación.

Entonces, ¿alguien podría darme una idea aquí sobre por qué existe tal enunciado, es decir, k-means tiene este problema cuando se trata de ejemplos de atributos nominales y existe una forma de superar esto?

Gracias de antemano.

Respuesta

5

El algoritmo de k-medias calcula centroides de grupo mediante la adopción de los valores medios de todos los puntos en el cluster. Si un parámetro es nominal, entonces no puede tomar un valor medio.

valores nominales A veces se pueden poner en una especie de orden y luego se asignan a los valores reales. Por ejemplo, los días de la semana podrían mapearse en el rango [1.0 - 7.0], pero a veces eso no es posible, por ejemplo un atributo con valores [Windows, Linux, OSX].

+0

Tenga en cuenta que normalmente tomamos el valor mayoría de la variable discreta en el cálculo de los centroides de grupo. – Amro