Initial commit

4 years ago · c22b6c0c95
19 changed files with 488 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@ -0,0 +1,3 @@
 *.csv filter=lfs diff=lfs merge=lfs -text
 *.shp filter=lfs diff=lfs merge=lfs
 *.zip filter=lfs diff=lfs merge=lfs
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,6 @@
 *.shp
 *.zip
 .Rhistory
 .venv
--- a/dcarea_functions.R
+++ b/dcarea_functions.R
@ -0,0 +1,34 @@
 ## Functions to create data for DC Area
 ## (DC & surrounding jurisdictions, including independent cities)
 select.dcarea <- function(dta) {
 ## Arguments: `dta`: dataset from from which to select observations in
 ##                   the DC Area
 ## Returns: dataset containing only observations from the DC area
    ## Identify counties to keep in DC Area dataset using FIPS county codes
    counties <- c(
          '110001'  # D.C.
        , '240031'  # Montgomery County
        , '240033'  # Prince George's County
        , '510013'  # Arlington County
        , '510059'  # Fairfax County
        , '510510'  # Alexandria city
        , '510600'  # Fairfax city
        , '510610'  # Falls Church city
    )
    ## Select counties using regular expression based on FIPS codes above
    ## and common `GISJOIN` variable
    re <- paste0('^G', counties, collapse = '|')
    dcarea <- dta[grep(re, dta$GISJOIN, perl=TRUE),]
    ## Replace factor variables to contain only levels in the DC area
    if('COUNTY' %in% names(dcarea)) {
        dcarea$COUNTY <- factor(dcarea$COUNTY)
    }
    if('STATE' %in% names(dcarea)) {
        dcarea$STATE <- factor(dcarea$STATE)
    }
    return(dcarea)
 }
--- a/tracts/1980/tabular/race-ethnicity/construction/create-tracts-1980TIGER-race-ethnicity.R
+++ b/tracts/1980/tabular/race-ethnicity/construction/create-tracts-1980TIGER-race-ethnicity.R
@ -0,0 +1,24 @@
 ## File creates file containing race & ethnicity variables at the
 ## tract level for DC Area from 1980 Census STF-1 data
 ## Set up environment
 library(tidyverse)
 ## Identify race variable names
 races <- c('totpop', 'nhw', 'nhb', 'api', 'hsp', 'oth', 'two')
 praces <- paste0('p', races[-1])
 racevars <- c(races, praces)
 ## Identify variables to keep that are not race variables
 nonracevars <- c('GISJOIN', 'STATE', 'COUNTY')
 ## Set Functions
 source('dcarea_functions.R')
 load('../US/tracts/1980/tabular/race-ethnicity/dataset/tracts-1980TIGER-race-ethnicity.Rdata')
 ## Select DC-area tracts
 racedta <- select.dcarea(trt80_re)
 ## Write file containing wide dataset to CSV format
 write.csv(racedta, 'tracts/1980/tabular/race-ethnicity/dataset/tracts-1980TIGER-race-ethnicity.csv')
--- a/tracts/1980/tabular/race-ethnicity/dataset/tracts-1980TIGER-race-ethnicity.csv
+++ b/tracts/1980/tabular/race-ethnicity/dataset/tracts-1980TIGER-race-ethnicity.csv
 size 242504
--- a/tracts/2010/tabular/age-race-sex/construction/tracts-2010TIGER-age-race-sex.R
+++ b/tracts/2010/tabular/age-race-sex/construction/tracts-2010TIGER-age-race-sex.R
@ -0,0 +1,78 @@
 ## Creates single file containing median variables at the
 ## tract level for DC Area from the 2010 Census and 2010-2014 through
 ## 2013-2017 American Community Surveys for tracts in the DC Area
 ## Set up environment
 library(tidyverse)
 ## Identify variables to keep representing age-race-sex variables
 ### Abbreviations for racial groups
 races <- c(
    'blk'  ## Black alone
    , 'ami'  ## American Indian or Native Alaskan alone
    , 'asi'  ## Asian alone
    , 'pac'  ## Native Hawaiian or Other Pacific Islander alone
    , 'oth'  ## Other race alone
    , 'two'  ## Two or more races
    , 'hsp'  ## Hispanic or Latino (of any race)
    , 'nhw'  ## Non-Hispanic White
 )
 ### Age group categories
 agegrps <- c(
    '0004'
    , '0509'
    , '1014'
    , '1517'
    , '1819'
    , '2024'
    , '2529'
    , '3034'
    , '3544'
    , '4554'
    , '5564'
    , '6574'
    , '7584'
    , '85up'
 )
 ### Sex categories
 sexes <- c('m', 'f')
 arsvars <- as.vector(sapply(races, paste0, sapply(sexes, paste0, agegrps)))
 ## Identify variables to keep that are not race variables
 geovars <- c('GISJOIN', 'STATE', 'COUNTY')
 ## Set Functions
 source('dcarea_functions.R')
 ## Create dataset that contains only DC-area tracts and constructed
 ## age-race-sex variables
 select.arsvars <- function(dta) {
    dta <- select.dcarea(dta)
    dta$GISJOIN <- as.character(dta$GISJOIN)
    return(dta[, c(geovars, arsvars)])
 }
 ## Load datasets containing median age variables from 2010 TIGER/Line files
 load('../US/tracts/2010/tabular/age-race-sex/dataset/tracts-2010TIGER-age-race-sex.Rdata')
 ## Create list of data frames for each year and restrict to created
 ## age-race-sex variables
 dtas <- list(trt10_ars, trt14_ars, trt15_ars, trt16_ars, trt17_ars)
 arsdtas <- lapply(dtas, select.arsvars)
 ## Create single wide data frame with year appended to variable name
 suffixes <- c('10', 14:17)
 namelist <- lapply(suffixes, function(x) c(geovars, paste0(arsvars, x)))
 arsdta <- mapply(setNames, arsdtas, namelist, SIMPLIFY = FALSE) %>%
    reduce(left_join, by='GISJOIN')
 arsdta$STATE <- arsdta$STATE.x
 arsdta$COUNTY <- arsdta$COUNTY.x
 arsdta <- arsdta[, -(grep('^STATE.+|^COUNTY.+', names(arsdta), perl=TRUE))]
 ## Write file containing wide dataset to CSV format
 write.csv(arsdta, 'tracts/2010/tabular/age-race-sex/dataset/tracts-2010TIGER-age-race-sex.csv')
--- a/tracts/2010/tabular/age-race-sex/dataset/tracts-2010TIGER-age-race-sex.csv
+++ b/tracts/2010/tabular/age-race-sex/dataset/tracts-2010TIGER-age-race-sex.csv
 size 2653606
--- a/tracts/2010/tabular/children-present/construction/construct-tracts-2010TIGER-children-pres.R
+++ b/tracts/2010/tabular/children-present/construction/construct-tracts-2010TIGER-children-pres.R
@ -0,0 +1,50 @@
 ## Creates single file containing household presence of children variables
 ## for tracts based on 2010 Census and the 2010-2014 through 2013-2017
 ## American Community Surveys for tracts in the DC Area
 ##
 ## tothh = Total households
 ## chpr  = Households with children present
 ## ncpr  = Households with no children present
 ## Set up environment
 library(tidyverse)
 ## Identify variable abbreviations
 presence <- c('tothh', 'chpr', 'ncpr')
 ppresence <- paste0('p',presence[-1])
 presvars <- c(presence, ppresence)
 geovars <- c('GISJOIN', 'STATE', 'COUNTY')
 ## Set Functions
 source('dcarea_functions.R')
 ## Create dataset that contains only DC-area tracts and constructed
 ## foreign-born variables
 select.presvars <- function(dta) {
    dta <- select.dcarea(dta)
    dta$GISJOIN <- as.character(dta$GISJOIN)
    return(dta[, c(geovars, presvars)])
 }
 ## Load datasets containing children present variables from files based on
 ## 2010 tracts
 load('../US/tracts/2010/tabular/children-present/dataset/tracts-2010TIGER-children-present.Rdata')
 ## Create list of data frames for each year and restrict to created
 ## children present variables
 dtas <- list(trt10c_cp, trt14_cp, trt15_cp, trt16_cp, trt17_cp)
 presdtas <- lapply(dtas, select.presvars)
 ## Create single wide data frame with year appended to variable name
 namelist <- lapply(c('10c', 14:17),
                   function(x) c(geovars, paste0(presvars, x)))
 presdta <- mapply(setNames, presdtas, namelist, SIMPLIFY = FALSE) %>%
    reduce(left_join, by='GISJOIN')
 presdta$STATE <- presdta$STATE.x
 presdta$COUNTY <- presdta$COUNTY.x
 presdta <- presdta[, -(grep('^STATE.+|^COUNTY.+', names(presdta), perl=TRUE))]
 ## Write file containing wide dataset to CSV format
 write.csv(presdta, 'tracts/2010/tabular/children-present/dataset/tracts-2010TIGER-children-present.csv')
--- a/tracts/2010/tabular/children-present/dataset/tracts-2010TIGER-children-present.csv
+++ b/tracts/2010/tabular/children-present/dataset/tracts-2010TIGER-children-present.csv
 size 292289
--- a/tracts/2010/tabular/educ-attainment/construction/construct-tracts-2010TIGER-educ-attainment.R
+++ b/tracts/2010/tabular/educ-attainment/construction/construct-tracts-2010TIGER-educ-attainment.R
@ -0,0 +1,53 @@
 ## Creates single file containing educational attainment variables at the
 ## 2010-2014 through 2013-2017 American Community Surveys for tracts
 ## in the DC Area
 ## tot25o = Total population 25 and older
 ## lh     = Less than high school
 ## hs     = High school or GED
 ## sc     = Some college
 ## aa     = Associate's degree
 ## ba     = Bachelor's degree
 ## gr     = Graduate degree
 ## Set up environment
 library(tidyverse)
 ## Identify variable abbreviations
 attain <- c('tot25o', 'lh', 'hs', 'sc', 'aa', 'ba', 'gr')
 pattain <- paste0('p',attain[-1])
 attainvars <- c(attain, pattain)
 geovars <- c('GISJOIN', 'STATE', 'COUNTY')
 ## Set Functions
 source('dcarea_functions.R')
 ## Create dataset that contains only DC-area tracts and constructed
 ## educational attainment variables
 select.attainvars <- function(dta) {
    dta <- select.dcarea(dta)
    dta$GISJOIN <- as.character(dta$GISJOIN)
    return(dta[, c(geovars, attainvars)])
 }
 ## Load datasets containing educational attainment variables from files based on
 ## 2010 tracts
 load('../US/tracts/2010/tabular/educ-attainment/dataset/tracts-2010TIGER-educ-attainment.Rdata')
 ## Create list of data frames for each year and restrict to created
 ## educational attainmnet variables
 dtas <- list(trt14_ed, trt15_ed, trt16_ed, trt17_ed)
 attaindtas <- lapply(dtas, select.attainvars)
 ## Create single wide data frame with year appended to variable name
 namelist <- lapply(14:17,
                   function(x) c(geovars, paste0(attainvars, x)))
 attaindta <- mapply(setNames, attaindtas, namelist, SIMPLIFY = FALSE) %>%
    reduce(left_join, by='GISJOIN')
 attaindta$STATE <- attaindta$STATE.x
 attaindta$COUNTY <- attaindta$COUNTY.x
 attaindta <- attaindta[, -(grep('^STATE.+|^COUNTY.+', names(attaindta), perl=TRUE))]
 ## Write file containing wide dataset to CSV format
 write.csv(attaindta, 'tracts/2010/tabular/educ-attainment/dataset/tracts-2010TIGER-educ-attainment.csv')
--- a/tracts/2010/tabular/educ-attainment/dataset/tracts-2010TIGER-educ-attainment.csv
+++ b/tracts/2010/tabular/educ-attainment/dataset/tracts-2010TIGER-educ-attainment.csv
 size 591056
--- a/tracts/2010/tabular/foreign-born/construction/construct-tracts-2010TIGER-foreign-born.R
+++ b/tracts/2010/tabular/foreign-born/construction/construct-tracts-2010TIGER-foreign-born.R
@ -0,0 +1,59 @@
 ## Creates single file containing foreign-born variables at the
 ## 2010-2014 through 2013-2017 American Community Surveys for tracts
 ## in the DC Area
 ## fbpop = Foreign-born population
 ## eur   = European foreign-born
 ## asi   = Asian foreign-born
 ## afr   = African foreign-born
 ## oce   = Oceania foreign-born
 ## lat   = Latin American foreign-born
 ## Note `p` variables represent *proportion of foreign-born residents*
 ##
 ## Note: Remainder of foreign born are from North America, i.e.:
 ##       fbpop - sum(eur + asi + afr + oce + lat) = N. American foreign-born
 ## Set up environment
 library(tidyverse)
 ## Identify variable abbreviations
 regions <- c('fbpop', 'eur','asi','afr','oce','lat')
 pregions <- paste0('p',regions[-1])
 regionvars <- c(regions, pregions)
 geovars <- c('GISJOIN', 'STATE', 'COUNTY')
 ## Set Functions
 source('dcarea_functions.R')
 ## Create dataset that contains only DC-area tracts and constructed
 ## foreign-born variables
 select.regionvars <- function(dta) {
    dta <- select.dcarea(dta)
    dta$GISJOIN <- as.character(dta$GISJOIN)
    return(dta[, c(geovars, regionvars)])
 }
 ## Load datasets containing foreign-born variables from files based on
 ## 2010 tracts
 load('../US/tracts/2010/tabular/foreign-born/dataset/tracts-2010TIGER-foreign-born.Rdata')
 ## Create list of data frames for each year and restrict to created
 ## foreign-born variables
 dtas <- list(trt14_fb, trt15_fb, trt16_fb, trt17_fb)
 regiondtas <- lapply(dtas, select.regionvars)
 ## Create single wide data frame with year appended to variable name
 namelist <- lapply(14:17,
                   function(x) c(geovars, paste0(regionvars, x)))
 regiondta <- mapply(setNames, regiondtas, namelist, SIMPLIFY = FALSE) %>%
    reduce(left_join, by='GISJOIN')
 regiondta$STATE <- regiondta$STATE.x
 regiondta$COUNTY <- regiondta$COUNTY.x
 regiondta <- regiondta[, -(grep('^STATE.+|^COUNTY.+', names(regiondta), perl=TRUE))]
 ## Write file containing wide dataset to CSV format
 write.csv(regiondta, 'tracts/2010/tabular/foreign-born/dataset/tracts-2010TIGER-foreign-born.csv')
--- a/tracts/2010/tabular/foreign-born/dataset/tracts-2010TIGER-foreign-born.csv
+++ b/tracts/2010/tabular/foreign-born/dataset/tracts-2010TIGER-foreign-born.csv
 size 418196
--- a/tracts/2010/tabular/marital-status/construction/construct-tracts-2010TIGER-marital-status.R
+++ b/tracts/2010/tabular/marital-status/construction/construct-tracts-2010TIGER-marital-status.R
@ -0,0 +1,52 @@
 ## Creates single file containing median variables at the
 ## 2010-2014 through 2013-2017 American Community Surveys for tracts
 ## in the DC Area
 ## Set up environment
 library(tidyverse)
 ## Identify marital status variable names
 statuses <- c('mar', 'nvm', 'wid', 'div')
 pstatuses <- paste0('p', statuses)
 statusvars <- c(statuses, pstatuses)
 ## Identify geographic identifiers to keep
 geovars <- c('GISJOIN', 'STATE', 'COUNTY')
 ## Set Functions
 source('dcarea_functions.R')
 ## Define function to create dataset that contains only DC-area tracts and
 ## constructed marital status variables
 select.statusvars <- function(dta) {
    dta <- select.dcarea(dta)
    dta$GISJOIN <- as.character(dta$GISJOIN)
    return(dta[, c(geovars, statusvars)])
 }
 ## Load datasets containing marital status variables using data from
 ## files based on 2010 tracts
 load('../US/tracts/2010/tabular/marital-status/dataset/tracts-2010TIGER-marital-status.Rdata')
 ## Create list of data frames for each year and restrict to created
 ## marital status variables
 dtas <- list(trt14_ms, trt15_ms, trt16_ms, trt17_ms)
 statusdtas <- lapply(dtas, select.statusvars)
 ## Create single wide data frame with year appended to variable name
 namelist <- lapply(14:17, function(x) c(geovars, paste0(statusvars, x)))
 statusdta <- mapply(setNames, statusdtas, namelist, SIMPLIFY = FALSE) %>%
    reduce(left_join, by='GISJOIN')
 statusdta$STATE <- statusdta$STATE.x
 statusdta$COUNTY <- statusdta$COUNTY.x
 statusdta <- statusdta[, -(grep('^STATE.+|^COUNTY.+', names(statusdta), perl=TRUE))]
 ## Write file containing wide dataset to CSV format
 write.csv(statusdta,
          'tracts/2010/tabular/marital-status/dataset/tracts-2010TIGER-marital-status.csv')
--- a/tracts/2010/tabular/marital-status/dataset/tracts-2010TIGER-marital-status.csv
+++ b/tracts/2010/tabular/marital-status/dataset/tracts-2010TIGER-marital-status.csv
 size 403477
--- a/tracts/2010/tabular/median-age/construction/construct-tracts-2010TIGER-median-age.R
+++ b/tracts/2010/tabular/median-age/construction/construct-tracts-2010TIGER-median-age.R
@ -0,0 +1,42 @@
 ## Creates single file containing median variables at the
 ## tract level for DC Area from the 2010 Census and 2010-2014 through
 ## 2013-2017 American Community Surveys for tracts in the DC Area
 ## Set up environment
 library(tidyverse)
 agevar <- 'mdage'
 ## Identify variables to keep that are not race variables
 geovars <- c('GISJOIN', 'STATE', 'COUNTY')
 ## Set Functions
 source('dcarea_functions.R')
 ## Create dataset that contains only DC-area tracts and constructed
 ## race variables
 select.agevars <- function(dta) {
    dta <- select.dcarea(dta)
    dta$GISJOIN <- as.character(dta$GISJOIN)
    return(dta[, c(geovars, agevar)])
 }
 ## Load datasets containing median age variables from 2010 TIGER/Line files
 load('../US/tracts/2010/tabular/median-age/dataset/tracts-2010TIGER-median-age.Rdata')
 ## Create list of data frames for each year and restrict to created race
 ## variables
 dtas <- list(trt10c_ag, trt14_ag, trt15_ag, trt16_ag, trt17_ag)
 agedtas <- lapply(dtas, select.agevars)
 ## Create single wide data frame with year appended to variable name
 suffixes <- c('10c', 14:17)
 namelist <- lapply(suffixes, function(x) c(geovars, paste0(agevar, x)))
 agedta <- mapply(setNames, agedtas, namelist, SIMPLIFY = FALSE) %>%
    reduce(left_join, by='GISJOIN')
 agedta$STATE <- agedta$STATE.x
 agedta$COUNTY <- agedta$COUNTY.x
 agedta <- agedta[, -(grep('^STATE.+|^COUNTY.+', names(agedta), perl=TRUE))]
 ## Write file containing wide dataset to CSV format
 write.csv(agedta, 'tracts/2010/tabular/median-age/dataset/tracts-2010TIGER-median-age.csv')
--- a/tracts/2010/tabular/median-age/dataset/tracts-2010TIGER-median-age.csv
+++ b/tracts/2010/tabular/median-age/dataset/tracts-2010TIGER-median-age.csv
 size 78786
--- a/tracts/2010/tabular/race-ethnicity/construction/construct-create-tracts-2010TIGER-race-ethnicity.R
+++ b/tracts/2010/tabular/race-ethnicity/construction/construct-create-tracts-2010TIGER-race-ethnicity.R
@ -0,0 +1,63 @@
 ## File creates single file containing race & ethnicity variables at the
 ## tract level for DC Area from the 2010 Census and 2007-2011 through
 ## 2011-2015 American Community Surveys.
 ##
 ## Also includes variables indicating whether a neighborhood qualifies as a
 ## "quadrivial" neighborhood (Asians, blacks, Latinxs, and whites each make
 ## up at least 10% of the tract and no group is a majority) in each year.
 ## Set up environment
 library(tidyverse)
 ## Identify race variable names
 races <- c('totpop', 'nhw', 'nhb', 'api', 'hsp', 'oth', 'two')
 praces <- paste0('p', races[-1])
 racevars <- c(races, praces)
 ## Identify variables to keep that are not race variables
 nonracevars <- c('GISJOIN', 'STATE', 'COUNTY')
 ## Set Functions
 source('dcarea_functions.R')
 ## Create dataset that contains only DC-area tracts and constructed
 ## race variables
 select.racevars <- function(dta) {
    dta <- select.dcarea(dta)
    dta$GISJOIN <- as.character(dta$GISJOIN)
    return(dta[, c(nonracevars, racevars)])
 }
 ## Identify quadrivial neighborhoods
 id.quads <- function(dta) {
    eligible <- sapply(dta[, praces[1:4]], function(x) x >= .10 & x < .5)
    dta['quad'] <- apply(eligible, 1, all)
    return(dta)
 }
 # ## Sets variable names for a specific dataset in the `racedtas` list
 # set.varnames <- function(x,y) setNames(racedtas[[x]], y)
 ## Load datasets containing race-ethnicity variables from 2010 TIGER/Line files
 ## for US tracts 2010
 load('../US/tracts/2010/tabular/race-ethnicity/dataset/tracts-2010TIGER-race-ethnicity.Rdata')
 ## Create list of data frames for each year and restrict to created race
 ## variables
 dtas <- list(trt10_re, trt11_re, trt12_re, trt13_re, trt14_re, trt15_re,
             trt16_re, trt17_re)
 racedtas <- lapply(dtas, select.racevars) %>%
    lapply(id.quads)
 ## Create single wide data frame with year appended to variable name
 namelist <- lapply(10:17,
                   function(x) c(nonracevars, paste0(c(racevars, 'quad'), x)))
 racedta <- mapply(setNames, racedtas, namelist, SIMPLIFY = FALSE) %>%
    reduce(left_join, by='GISJOIN')
 racedta$STATE <- racedta$STATE.x
 racedta$COUNTY <- racedta$COUNTY.x
 racedta <- racedta[, -(grep('^STATE.+|^COUNTY.+', names(racedta), perl=TRUE))]
 ## Write file containing wide dataset to CSV format
 write.csv(racedta, 'tracts/2010/tabular/race-ethnicity/dataset/tracts-2010TIGER-race-ethnicity.csv')
--- a/tracts/2010/tabular/race-ethnicity/dataset/tracts-2010TIGER-race-ethnicity.csv
+++ b/tracts/2010/tabular/race-ethnicity/dataset/tracts-2010TIGER-race-ethnicity.csv
 size 1114494