2011-06-01 12 views
5

Pude alcanzar mis objetivos "a lo grande" pero espero permanecer completamente dentro de R. Estoy buscando agregar datos demográficos del censo por código postal a los registros en mi base de datos. Sé que R tiene algunos paquetes basados ​​en el Censo, pero, a menos que me falta algo, estos datos no parecen existir a nivel de código postal, ni es intuitivo combinarlos en un marco de datos existente.Demographics de código postal en R

En resumen, ¿es posible hacer esto dentro de R, o es mi mejor enfoque para tomar los datos en otro lugar y leerlos en R?

¡Cualquier ayuda será muy apreciada!

Respuesta

6

En resumen, no. Las traducciones de censo a postal generalmente se crean a partir de fuentes propias.

Es poco probable que encuentre algo en el nivel de código postal desde la perspectiva del censo (privacidad). Sin embargo, eso no significa que te dejen en el frío. Puede usar los códigos postales que tiene y anexar datos del censo desde el nivel MSA, muSA o CSA. Ahora todo lo que necesita es una lista de códigos postales dentro de su MSA, muSA o CSA para que pueda fusionarse. Hay muchos en línea que son bastante baratos si todavía no tienes esa lista.

Por ejemplo, en Canadá, podemos obtener datos de ingresos de CRA en el nivel de FSA (los tres primeros dígitos de un código postal con el formato A1A 1A1). No estoy seguro de qué o si el IRS proporciona información similar, tampoco estoy demasiado familiarizado con los datos del Censo de EE. UU., Pero me imagino que proporcionan información al nivel de CSA como mínimo.

Si está desconcertado por todos estos acrónimos:

  1. MSA: http://en.wikipedia.org/wiki/Metropolitan_Statistical_Area
  2. CSA: http://en.wikipedia.org/wiki/Combined_statistical_area
  3. Musa: http://en.wikipedia.org/wiki/Micropolitan_Statistical_Area
+0

Aunque, si alguien sabe de una lista zip-MSA no propietaria que había estar más que feliz de verlo. –

+0

A la oficina del censo le gusta decir "no tocamos los códigos postales, no nos pregunte", pero consulte http://www.census.gov/population/www/metroareas/metroarea.html - en la parte inferior es un mapeo de códigos postales a CBSA (metro + micro áreas estadísticas), aunque hace algunos años. Sin embargo, sigue siendo un desastre, ya que no hay límites claros en los que las cremalleras se asignen directamente a los MSA, pero es un comienzo. Ahh, buenos recuerdos de cuando solía ensuciarme con esto para vivir ... – Noah

0

Su mejor apuesta es probablemente con la U.S. Census Bureau TIGER/Line shapefiles. Tienen archivos de forma de área de tabulación de código postal (ZCTA5) para 2010 a nivel estatal que pueden ser suficientes para sus propósitos.

Los datos del censo se pueden encontrar en American FactFinder. Por ejemplo, puede obtener estimaciones de población a nivel de subcondado (es decir, ciudad/pueblo), pero no estimaciones de población sencillas a nivel de código postal. No conozco los detalles de su conjunto de datos, pero una solución puede requerir el uso de tablas de relaciones que también están disponibles como parte de los datos de TIGER/Line, o alternativamente unir espacialmente los nombres de lugares que contienen los datos del censo (archivos shape de subcounty) con los códigos ZCTA5.

Nota de los metadatos: "Estos productos son de uso gratuito en un producto o publicación; sin embargo, se debe dar el reconocimiento a la Oficina del Censo de EE. UU. Como fuente".

HTH

0

acabo de escribieron un paquete denominado R totalcensus (https://github.com/GL-Li/totalcensus), con la que se puede extraer ningún dato en el censo decenal y la encuesta ACS fácilmente.

Para esta vieja pregunta, si aún te importa, puedes obtener la población total (por defecto) y la población de otras razas a partir de los datos nacionales del censo decenal 2010 o 2015 de la encuesta ACS de 5 años.

A partir de la encuesta de 5 años de ACS de 2015.Descargar los datos nacionales con download_census("acs5year", 2015, "US") y luego:

zip_acs5 <- read_acs5year(
    year = 2015, 
    states = "US", 
    geo_headers = "ZCTA5", 
    table_contents = c(
     "white = B02001_002", 
     "black = B02001_003", 
     "asian = B02001_005" 
    ), 
    summary_level = "860" 
) 

#    GEOID  lon  lat ZCTA5 state population white black asian GEOCOMP SUMLEV  NAME 
#  1: 86000US01001 -72.62827 42.06233 01001 NA  17438 16014 230 639  all 860 ZCTA5 01001 
#  2: 86000US01002 -72.45851 42.36398 01002 NA  29780 23333 1399 3853  all 860 ZCTA5 01002 
#  3: 86000US01003 -72.52411 42.38994 01003 NA  11241 8967 699 1266  all 860 ZCTA5 01003 
#  4: 86000US01005 -72.10660 42.41885 01005 NA  5201 5062 40 81  all 860 ZCTA5 01005 
#  5: 86000US01007 -72.40047 42.27901 01007 NA  14838 14086 104 330  all 860 ZCTA5 01007 
# ---                          
# 32985: 86000US99923 -130.04103 56.00232 99923 NA   13 13  0  0  all 860 ZCTA5 99923 
# 32986: 86000US99925 -132.94593 55.55020 99925 NA  826 368  7  0  all 860 ZCTA5 99925 
# 32987: 86000US99926 -131.47074 55.13807 99926 NA  1711 141  0  2  all 860 ZCTA5 99926 
# 32988: 86000US99927 -133.45792 56.23906 99927 NA  123 114  0  0  all 860 ZCTA5 99927 
# 32989: 86000US99929 -131.60683 56.41383 99929 NA  2365 1643  5 60  all 860 ZCTA5 99929 

partir del Censo de 2010. Descarga de datos nacionales con download_census("decennial", 2010, "US") y luego:

zip_2010 <- read_decennial(
    year = 2010, 
    states = "US", 
    table_contents = c(
     "white = P0030002", 
     "black = P0030003", 
     "asian = P0030005" 
    ), 
    geo_headers = "ZCTA5", 
    summary_level = "860" 
) 

#    lon  lat ZCTA5 state population white black asian GEOCOMP SUMLEV 
#  1: -66.74996 18.18056 00601 NA  18570 17285 572  5  all 860 
#  2: -67.17613 18.36227 00602 NA  41520 35980 2210 22  all 860 
#  3: -67.11989 18.45518 00603 NA  54689 45348 4141 85  all 860 
#  4: -66.93291 18.15835 00606 NA  6615 5883 314  3  all 860 
#  5: -67.12587 18.29096 00610 NA  29016 23796 2083 37  all 860 
# ---                    
# 33116: -130.04103 56.00232 99923 NA   87 79  0  0  all 860 
# 33117: -132.94593 55.55020 99925 NA  819 350  2  4  all 860 
# 33118: -131.47074 55.13807 99926 NA  1460 145  6  2  all 860 
# 33119: -133.45792 56.23906 99927 NA   94 74  0  0  all 860 
# 33120: -131.60683 56.41383 99929 NA  2338 1691  3 33  all 860 
Cuestiones relacionadas