¿Puede alguien decirme si hay una buena (fácil) forma de visualizar datos de gran dimensión? Mis datos actualmente son 21 dimensiones, pero me gustaría ver si es denso o escaso. ¿Hay técnicas para lograr esto?¿Existe una manera buena y fácil de visualizar datos de gran dimensión?
Respuesta
Principal component analysis podría ser útil si las dimensiones están correlacionadas.
Parallel coordinates son un método popular para visualizar datos de gran dimensión.
¿Qué tipo de visualización es mejor para sus datos, en particular, dependerá de sus características, qué tan correlacionadas están las diferentes dimensiones?
Star Schema.
http://en.wikipedia.org/wiki/Star_schema
funciona bien para datos de alta dimensión.
Si la cardinalidad de su tabla de hechos está cerca del producto de sus tamaños de dimensión, tiene datos densos.
Si la cardinalidad de su tabla de hechos es menor que el producto de los tamaños de sus dimensiones, tiene pocos datos.
En el medio tiene una llamada de juicio.
La palabra de moda que buscaría es multidimensional scaling. Es una técnica para desarrollar una proyección desde el espacio de alta dimensión a un espacio inferior (2 o 3 dimensiones) de tal manera que los puntos que están cerca en el espacio completo estarán cerca en la proyección.
A menudo se utiliza para visualizar el resultado de los algoritmos de agrupamiento (es decir, si sus clústeres son compactos en la proyección MDS, hay una buena probabilidad de que también estén en el espacio completo).
Editar: Esto no ayudaría necesariamente a determinar si los datos son densos o escasos, porque pierde la escala en la proyección, pero mostraría si es uniforme o grumosa (quizás eso es lo que quiere decir).
El software de exploración de datos curios.IT está diseñado para la visualización de datos de alta dimensión: los datos se muestran como una colección de objetos 3D (uno para cada grupo de datos) que pueden mostrar hasta 13 variables al mismo tiempo. Las relaciones entre las variables de datos y las características visuales son mucho más fáciles de recordar que con otras técnicas (como las coordenadas paralelas).
No estoy seguro de qué tipo de patrones te gustaría ver en los datos. t-SNE y su variante más rápida Barnes-Hut-SNE hace un muy buen trabajo al visualizar grupos de conceptos relacionados para datos de alta dimensión. Está disponible a través de R.
Hay un breve tutorial sobre su uso contra datos de gran dimensión con aproximadamente 300 dimensiones. http://www.codeproject.com/Tips/788739/Visualizing-High-Dimensional-Vector-using-T-SNE-wi
Tome un vistazo a http://www.ggobi.org (excursiones, coordenadas paralelas, diagramas de dispersión matriciales) se puede utilizar para las variables con valores reales. También http://cranvas.org para más reciente. El paquete de tourr en R.
Estaba buscando formas de visualizar datos de gran dimensión y encontré este t-SNE technique que se ha utilizado con eficacia. Podría ayudar a otros también.
Muy spam buscando – Cory
¿Qué es, @Cory? ? Encontré esta pregunta cuando trato de buscar buenas visualizaciones de datos de alta dimensión con los que estoy trabajando y la página de t-SNE que he vinculado es un buen software de fuente abierta que pensé que beneficiaría a otros buscando uno –
Lo siento, primera publicación, un enlace, eché un vistazo a la página y parecía aceptable, pero he visto innumerables publicaciones de spam con la misma acumulación. Perdón por la confusión de mi parte, ¿pueden editar su publicación para que pueda cambiar la votación? – Cory
Intente utilizar http://hypertools.readthedocs.io/en/latest/.
HyperTools es una biblioteca para la visualización y manipulación de datos de alta dimensión en Python.
- 1. ¿Cómo se pueden visualizar los marcos de datos de una buena manera?
- 2. ¿Existe alguna manera fácil de usar InternalsVisibleToAttribute?
- 3. ¿Existe una buena manera de convertir BitmapSource a Bitmap?
- 4. ¿Existe alguna manera fácil de aleatorizar una lista en VB.NET?
- 5. Manera fácil de llenar ResultSet con datos
- 6. ¿Cuál es una buena manera de agregar una gran cantidad de flotadores pequeños juntos?
- 7. Java: ¿Existe una manera fácil y rápida de armar conjuntos AND, OR o XOR?
- 8. ¿Existe una gran diferencia técnica entre los tipos de datos VARBINARY (MAX) y de IMAGE?
- 9. ¿Existe alguna manera fácil de integrar scaladoc en IntelliJ Idea?
- 10. Técnicas para visualizar datos
- 11. ¿Una buena manera de evitar "compartir"?
- 12. ¿Existe una manera fácil/integrada de obtener una copia exacta (clon) de un elemento XAML?
- 13. ¿Existe una buena implementación y administración para entornos Java?
- 14. ¿Existe alguna manera fácil de calcular y formatear los intervalos de hora/fecha en Java?
- 15. ¿Hay alguna manera fácil de adjuntar una fuente en Eclipse?
- 16. ¿Estructura de datos para almacenar una gran cantidad de datos?
- 17. ¿Una manera fácil de ejecutar pruebas en una gema?
- 18. Dimensión de fecha y hora en el almacén de datos
- 19. ¿Existe una manera fácil de localizar (preservar) todas las "variables mágicas" como $ 1, $ & etc.?
- 20. ¿Existe una manera fácil de agregar un borde a una vista en Xcode para iOS 5.1
- 21. Manera fácil de seguir contando infinitamente
- 22. ¿Existe una buena alternativa a FishEye de Atlassian?
- 23. existe una manera fácil de importar un esquema de color negro sobre blanco en Eclipse
- 24. Manera fácil de AJAX WebControls
- 25. Una buena manera de almacenar enteros únicos
- 26. Manera fácil de ver los datos en pgAdmin (PostgreSQL)
- 27. ¿Existe una manera eficiente de eliminar cada vista/función/tabla/sp de una base de datos?
- 28. ¿Existe una buena alternativa a la extensión SOAP de PHP?
- 29. Manera rápida y fácil de eliminar el código "muerto" (comentado)
- 30. ¿Existe una manera fácil de convertir un valor booleano a un número entero?
No conozco la respuesta, pero puedo decirte que la optimización de este es un tema de investigación muy candente. –
Sugiero usar una herramienta de visualización como Tableau o Spotfire. Aun así, 21 dimensiones es mucho, por lo que es probable que deba realizar algún tipo de técnica de reducción de dimensión para llevarlo a un nivel significativo http://www.tableausoftware.com/public –