Supongamos que estoy intentando resumir una variable (llámala var_1
) en un conjunto de datos muy grande (casi un terabyte). El conjunto de datos es largo y ancho. Mi código se vería así:¿El uso de la opción KEEP en los conjuntos de datos SAS mejora el rendimiento de lectura?
PROC MEANS DATA=my_big_dataset SUM;
VAR var_1;
RUN;
¿Me conseguir cualquier mejora en el rendimiento en absoluto mediante la opción KEEP
en el conjunto de datos? Es decir:
PROC MEANS DATA=my_big_dataset (KEEP=var_1) SUM;
VAR var_1;
RUN;
En términos de disco I/O, que se imaginan que cada registro debe ser leído en su totalidad, no importa qué. Pero quizás se necesita asignar menos memoria para leer los registros. Cualquier consejo es apreciado.
Buena sugerencia: intentaré hacer algunas evaluaciones comparativas en el transcurso de las próximas lecturas de este conjunto. –