2010-05-22 24 views
9

En el campo de la minería de datos, ¿hay una subdisciplina específica llamada 'Similitud'? Si es así, ¿de qué se trata? Cualquier ejemplo, enlaces, referencias serán útiles.'Similitud' en la extracción de datos

Además, siendo nuevo en el campo, me gustaría la opinión de la comunidad sobre cuán estrechamente relacionados son la Minería de Datos y la Inteligencia Artificial. ¿Son sinónimos, es uno el subconjunto del otro?

Gracias de antemano por compartir su conocimiento.

+0

relacionadas: http://stackoverflow.com/questions/3007790/ Encontrar el más cercano partido – Betamoo

Respuesta

9

En el campo de Minería de datos, ¿hay una sub-disciplina específica llamada 'Similitud'?

Sí. Hay un subcampo específico en la minería de datos y el aprendizaje automático denominado aprendizaje métrico, que tiene como objetivo aprender una mejor medida de distancia entre las instancias de datos.

¿Conoces alguno de los siguientes conceptos?

Euclidean distance

Mahalanobis distance

Pearson correlation

Cosine similarity y here

funciones del núcleo

Después de saber esto, usted sabrá lo que es 'similitud'.

Me gustaría conocer la opinión de la comunidad sobre cuán estrechamente relacionados están la Minería de Datos y la Inteligencia Artificial.

Es muy difícil distinguir qué es la minería de datos, qué es la IA. No hable de esta pregunta cuando sea nuevo en el campo. Cuando hayas aprendido 10 algoritmos de minería de datos y leas algunos libros de IA, sabrás la diferencia y la relación.

2

Las definiciones apropiadas de 'similitud' (qué características extrae, qué hace con ellas después) son casi la definición de agrupamiento, y la agrupación es un subcampo bastante amplio de minería de datos.

Si establece la definición cínica estándar de AI como el conjunto de problemas que no podemos resolver bien (de hecho, que no podemos especificar lo suficientemente bien como para comenzar a resolver), los tonos de minería de datos una vez el espacio en el que estás buscando correlaciones que comienzan a ser más grandes de lo que tus algoritmos pueden manejar.

2

Solo para enfatizar la importancia del concepto de "similitud".

La minería de datos (AI, aprendizaje automático, modelado, etc.) se trata de llevar alguna función a su valor máximo o mínimo. Tome el mejor algoritmo de optimización/aprendizaje/minería y una función incorrecta y obtendrá una basura completa. Tenga en cuenta que usamos "valor" y no "valores". Eso es porque no hay (para mi mejor conocimiento) algoritmo (computacional u otro) que sea capaz de optimizar más de un valor. Sin embargo, en nuestro Universo, las optimizaciones complejas son más frecuentes que las unidimensionales (queremos ser ricos, jóvenes y saludables). Es por eso que existe una plétora de similitudes y otras funciones de puntuación.Y esa es la razón por la cual ninguno de ellos es "el correcto"

1

La similitud es un concepto que se utiliza en varias tareas de minería de datos, como clustering, clasificación. Dependiendo de qué tipo de datos tenga, puede usar diferentes medidas de similitud como la similitud del coseno para documentos de texto, distancia euclidiana, etc.

0

Existen muchas medidas de similitud utilizadas en la minería de datos. para la minería de texto, para encontrar similitud en los textos, coseno similitud, similitud de Jaccard ampliamente utilizado

Como referencia, se puede ver el libro raghavan y la información de recuperación amnnings