data-nhgis-dcarea/tracts/2010/tabular/age-race-sex/construction/tracts-2010TIGER-age-race-s...


								## Creates single file containing median variables at the

								## tract level for DC Area from the 2010 Census and 2010-2014 through

								## 2013-2017 American Community Surveys for tracts in the DC Area


								## Set up environment

								library(tidyverse)


								## Identify variables to keep representing age-race-sex variables

								### Abbreviations for racial groups

								races <- c(

								    'blk'  ## Black alone

								    , 'ami'  ## American Indian or Native Alaskan alone

								    , 'asi'  ## Asian alone

								    , 'pac'  ## Native Hawaiian or Other Pacific Islander alone

								    , 'oth'  ## Other race alone

								    , 'two'  ## Two or more races

								    , 'hsp'  ## Hispanic or Latino (of any race)

								    , 'nhw'  ## Non-Hispanic White

								)


								### Age group categories

								agegrps <- c(

								    '0004'

								    , '0509'

								    , '1014'

								    , '1517'

								    , '1819'

								    , '2024'

								    , '2529'

								    , '3034'

								    , '3544'

								    , '4554'

								    , '5564'

								    , '6574'

								    , '7584'

								    , '85up'

								)


								### Sex categories

								sexes <- c('m', 'f')


								arsvars <- as.vector(sapply(races, paste0, sapply(sexes, paste0, agegrps)))


								## Identify variables to keep that are not race variables

								geovars <- c('GISJOIN', 'STATE', 'COUNTY')


								## Set Functions

								source('dcarea_functions.R')


								## Create dataset that contains only DC-area tracts and constructed

								## age-race-sex variables

								select.arsvars <- function(dta) {

								    dta <- select.dcarea(dta)

								    dta$GISJOIN <- as.character(dta$GISJOIN)

								    return(dta[, c(geovars, arsvars)])

								}


								## Load datasets containing median age variables from 2010 TIGER/Line files

								load('../US/tracts/2010/tabular/age-race-sex/dataset/tracts-2010TIGER-age-race-sex.Rdata')


								## Create list of data frames for each year and restrict to created

								## age-race-sex variables

								dtas <- list(trt10_ars, trt14_ars, trt15_ars, trt16_ars, trt17_ars)

								arsdtas <- lapply(dtas, select.arsvars)


								## Create single wide data frame with year appended to variable name

								suffixes <- c('10', 14:17)

								namelist <- lapply(suffixes, function(x) c(geovars, paste0(arsvars, x)))

								arsdta <- mapply(setNames, arsdtas, namelist, SIMPLIFY = FALSE) %>%

								    reduce(left_join, by='GISJOIN')

								arsdta$STATE <- arsdta$STATE.x

								arsdta$COUNTY <- arsdta$COUNTY.x

								arsdta <- arsdta[, -(grep('^STATE.+|^COUNTY.+', names(arsdta), perl=TRUE))]


								## Write file containing wide dataset to CSV format

								write.csv(arsdta, 'tracts/2010/tabular/age-race-sex/dataset/tracts-2010TIGER-age-race-sex.csv')