Exploración de un nuevo conjunto de datos: ¿Cuál es la forma más fácil y rápida de visualizar muchas (todas) variables?¿Cómo puedo crear un histograma para todas las variables en un conjunto de datos con un esfuerzo mínimo en R?
Idealmente, la salida muestra los histogramas uno al lado del otro con un mínimo desorden y la máxima información. La clave de esta pregunta es la flexibilidad y la estabilidad para tratar conjuntos de datos grandes y diferentes. Estoy usando RStudio y generalmente trato con datos de encuestas grandes y desordenados.
Un ejemplo que viene fuera de la caja de Hmisc
y funciona bastante bien aquí es:
library(ggplot2)
str(mpg)
library(Hmisc)
hist.data.frame(mpg)
Por desgracia, en otro lugar que a tener problemas con los lables de datos (Error en plot.new(): márgenes figura demasiado grande). También se bloqueó para un conjunto de datos más grande que mpg
y no he descubierto cómo controlar el binning. Además, preferiría una solución flexible en ggplot2
. Tenga en cuenta que recién comencé a aprender R y estoy acostumbrado a las cómodas soluciones que ofrece el software comercial.
más preguntas sobre este tema:
R histogram - too many variables
...?
Hacer un gráfico para cada variable en un conjunto de datos está bien para un pequeño conjunto de datos, pero es simplemente una idea terrible si tiene 3000 variables. La respuesta correcta en ese caso es "No hagas eso". – joran
Por supuesto que no; ese fue solo un ejemplo de "desordenado". – Rico
Aprecio el esfuerzo que ha realizado aquí, pero su pregunta simplemente no describe un problema concreto y específico de programación. En cambio, se parece mucho a algo que dará lugar a respuestas divagantes con varias recomendaciones, en lugar de una respuesta clara. De hecho, cuando leo tu respuesta, estoy más confundido acerca de cuáles son tus criterios que antes. – joran