diff --git a/suite_td2_deces.rproj b/suite_td2_deces.rproj new file mode 100644 index 0000000000000000000000000000000000000000..f957e8e7ccbb63bcfbb767d4ebb6baa96317c98c --- /dev/null +++ b/suite_td2_deces.rproj @@ -0,0 +1,88 @@ +#####import data +pop_insee = read.csv2("data/BTT_TD_POP1B_2017.csv", sep = ";") +deces_insee = read.csv2("data/deces-2017.csv", sep = ";") +immig_insee = readxl::read_xlsx("data/BTX_TD_IMG1A_2017.xlsx") +profes_insee = readxl::read_xlsx("data/TCRD_005.xlsx", sheet = 'DEP', skip = 3) + +################################################################################ +### Changements dans DF 1 : renommer colonnes, +# suppr les arrondissements, +# extraire le département, +# nouvelles variables : nombre d'habitants/vivants par unité stat, nb vivants par sexe, age moyen +# calcul indicateurs : taux hommes vivants, age moyen des vivants + +########################### colonnes +colnames(pop_insee) = tolower(colnames(pop_insee)) +str(pop_insee) +pop_insee$nb = as.numeric(as.character(pop_insee$nb)) +str(pop_insee) + +library(readxl) +library(dplyr) +library(lubridate) + +########################## arrondissement +pop_comm_insee = pop_insee %>% + filter(nivgeo == "COM") # ou filter(!nivgeo == "ARM") +print(unique(pop_comm_insee$nivgeo)) + + +########################## departement +pop_depart_insee = pop_comm_insee %>% + mutate(departement_code = substr(codgeo, 1, 2)) +str(pop_depart_insee) + +# autre code +# pop_comm_insee$departement_code = substr(pop_comm_insee$codgeo, 1, 2) + +########################## nouvelles variables +pop_gp_deprt_insee = pop_depart_insee %>% + group_by(departement_code) %>% + summarise(nb_habitants = round(sum(nb,na.rm=TRUE)), + nb_hommes = round(sum(nb[sexe == 1], na.rm = TRUE)), # nombre d'hommes + nb_femmes = round(sum(nb[sexe == 2], na.rm = TRUE)),# nombre de femmes + sum_age = round(sum(nb * aged100, na.rm = TRUE))) # total de tous les ages + +View(pop_gp_deprt_insee) + +########################## indicateurs +pop_indic_deprt_insee = pop_gp_deprt_insee %>% + mutate(taux_hommes_vivants = round((nb_hommes/(nb_hommes + nb_femmes)) * 100, 2), # taux hommes vivants # taux en pourcentage + age_moyen_vivants = round((sum_age / nb_habitants), 2)) # age moyen vivants + +View(pop_indic_deprt_insee) + +################################################################################ +### Changements dans DF DECES : renommer colonnes, +# extraire le département, +# nouvelles variables : age deces par unité stat +# calcul indicateurs : âge moyen des personnes décédés, taux de décès + +#renommer colonnes : + +colnames(deces_insee) = tolower(colnames(deces_insee)) +str(deces_insee) + +#extraire le département +deces_departement_insee = deces_insee %>% + mutate(deces_insee, departement_code = substr(lieudeces, 1, 2)) +str(deces_departement_insee) + +##Str les dates +as.Date(deces_departement_insee$datenaiss, "%y, %m, %d") +deces_departement_insee$datenaiss = ymd(deces_departement_insee$datenaiss) +deces_departement_insee$datedeces = ymd(deces_departement_insee$datedeces) + +##Age deces +age_deces_departement_insee = deces_departement_insee %>% + mutate( age_deces = time_length(difftime(datedeces, datenaiss), "years")) +###nb_deces +nb_deces <- nrow(age_deces_departement_insee) +##Indicateurs +group_by(age_deces_departement_insee) %>% + mutate(age_moyen_deces = mean(age_deces, na.rm = TRUE), + taux_deces = round(sum(nb_deces/nb_habitants)*100, 2)) +##Merge +tableau_final <- merge(deces_departement_insee, pop_depart_insee, by = 'departement_code') + +