2011-08-07 13 views
8

Quiero agrupar difusa un conjunto de puestos de trabajo. Empleo Atributos son:Función de distancia de variables mixtas (categóricas y numéricas)

  1. categóricas: posición, diploma, habilidades
  2. numéricos: nómina, años de experiencia

Mi pregunta es: ¿cómo calcular la distancia entre ¿trabajos diferentes?
por ejemplo job1 (programador, ciencia ancho ordenador, (Java, .NET, la responsabilidad), 1500, 3)
y job2 (Tester, BS informática, (negro y pruebas de caja blanca), 1200,1)

PD: Soy un principiante en la agrupación de data mining, le agradezco mucho su ayuda.

Respuesta

2

Aquí es un buen paseo a través de varios métodos de agrupación diferentes y cómo utilizarlos en R: http://biocluster.ucr.edu/~tgirke/HTML_Presentations/Manuals/Clustering/clustering.pdf

En general, la agrupación de datos discretos se relaciona con ya sea el uso de recuentos (por ejemplo, se solapa en vectores) o relacionado con alguna estadística derivada de conteos. Por mucho que me gustaría abordar el lado estadístico, supongo que está interesado en el algoritmo, así que lo dejo así.

Cuestiones relacionadas