Início » Data Science – Tutorial Extração, Limpeza e Unificação dos Dados Abertos do Prouni com R

Data Science – Tutorial Extração, Limpeza e Unificação dos Dados Abertos do Prouni com R

Objetivos

Entender o que é o Programa Universidade para Todos (Prouni)
Saber onde acessar e extrair os dados abertos do Prouni
Aprender a realizar manipulação e limpeza de dados
Passo a passo para extrair, manipular, limpar e unificar o dataset do Prouni disponibilizado pelo Ministério da Educação (MEC)

O que é o Prouni?

É um programa social criado pelo governo federal, através do Ministério da Educação (MEC). Criado efetivamente em 2004 e já com bolsas disponíveis para o ano seguinte.
O Prouni visa conceder bolsas de estudos complementares (25%), parciais (50%) e integrais (100%) em instituições de ensino superior particulares.

As bolsas complementares (25%) foram uma iniciativa presente em 2008, onde estudantes poderiam solicitar o FIES e complementar 25% do valor com o Prouni.

Existem diversos critérios para que o aluno possa solicitar o Prouni, estes que podem ser verificados diretamente no site oficial do programa.

Dataset (dados) disponíveis do Prouni

Os dados disponíveis do Prouni são os presentes no site de dados abertos do governo federal:

https://dadosabertos.mec.gov.br/prouni

No momento da escrita deste tutorial, somente os dados referentes aos anos de 2005 até 2020 estavam disponíveis.
Para fins de replicabilidade, segue os arquivos que encontramos no site dos dados abertos e o hash. Desta forma, é possível comparar se estamos utilizando versões diferentes do dataset, caso o leitor deste artigo tenha resultados diferentes do esperado.

arquivo	md5	sha1
pda-prouni-2005.csv	8ca2170765eca8944366c3b58c81eeaf	cb579982eba8ce9c303af4db4349c165df4e7284
pda-prouni-2006.csv	e2c7255913e4d06a3f2e3eea7689af6b	b39ae6d21ec796fe3db0f80581e0f77f8f4e0fe8
pda-prouni-2007.csv	8a9e9491228a9c3663d154e975b471df	343d94483bd49fc586506b8a5e4affabe54ebde8
pda-prouni-2008.csv	57d72a8be0fd81a947d73dcdac0c3778	9ef571d484aa6455e1588bbb5643cc964779fa2f
pda-prouni-2009.csv	b48443ae129fb1128f39db925822b02a	70a3dcd403bd1bbb0a52202b23baee7cce169967
pda-prouni-2010.csv	439c1e8437282599878b861b7d11ac43	0380949a5e408ac7e5ba8d073b49cbe9e746df81
pda-prouni-2011.csv	8ecaf8c2a602471122d2d60fb426cfbd	de26faf06149245412e1455c7492e6df7416d238
pda-prouni-2012.csv	093c02c6b44fb4f5d8750e9bccde54ae	cda0697d521777f63bc5d6b5260652609311f571
pda-prouni-2013.csv	2560c46e70ff393123a7bed6ab1a27c8	9b605bbf583f04ffe68fc7fde7e3ed09dc48c301
pda-prouni-2014.csv	bf7faaae1e11b7966dd8d18f5534c199	843bb60219a1b0a60d0e95b24b527d5019009f9f
pda-prouni-2015.csv	8fb5b3ab276c0a0f8533308a839dbb02	002c0bff3c831d29c7ccc69ffe4b65574a546244
pda-prouni-2016.csv	6ba774bb2e703e8417f2a13dfa4ce39d	b40b80e347753c1b649c4feaa5ce27e58adacc7a
pda-prouni-2017.csv	c9a1062ac6b1f6571f4d24750c1a5772	849beb6715a696fb7288b5e13f60d911a81600c7
pda-prouni-2018.csv	c4f385b284056af95f16073cc216d74b	c2d7c795a212142c7648e7781648c23a2f06cc88
pda-prouni-2019.csv	a4bee519238a59fc0eb513016d11ffef	bcefd063f2d76667ebf32986310bfe16b78f7286
pda-prouni-2020.csv	f81f0ec21dcc6d09dd37abdb13732e9a	50f1df4292820e760c1cb17f13211420bcd6b40a

Na lista acima, alteramos o nome dos arquivos para que ficassem no mesmo formato, facilitando a leitura dos arquivos no R. Também tive o cuidado de salvar estes datasets no google drive e disponibilizar para download neste link: Dataset Original dados abertos Prouni anos 2005 até 2020 separados por ano em formato csv

Pré-processamento dos dados

O código completo que vamos utilizar está organizado no fim desta publicação. Mas vamos caminhando e explicando cada etapa. Se só tiver interesse no código pronto, basta ir para o fim do artigo.

Vamos utilizar 2 bibliotecas para leitura e manipulação dos dados:

library(data.table) #para utilizar o fwrite e estrutura data.table
library(cli) #para utilizar hash

Neste passo a passo, vamos levar em conta que já realizou o download dos arquivos do site dos dados abertos. Ao criar um projeto ou script no R, é interessante que defina o seu “working directory” para o projeto, desta forma evita necessidade de referenciar o caminho completo para acessar os dados.

setwd("c:/prouni/")

Vamos criar agora um vetor com todos os anos do Prouni que queremos manipular (isso facilita caso queira acessar só alguns anos):

anos  = c(2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020)

Agora vamos criar uma variável para armazenar o nome dos arquivos que temos disponíveis e verificar o hash MD5 e SHA1:

md5 = sha1 = arquivo = NULL
for (x in anos[1]:anos[length(anos)]) {
  arquivo = append(arquivo, paste("pda-prouni-",x,".csv",sep=""))
  md5     = append(md5,     hash_md5(paste("pda-prouni-",x,".csv",sep="")))
  sha1    = append(sha1,    hash_sha1(paste("pda-prouni-",x,".csv",sep="")))
}
hash = data.frame(arquivo, md5, sha1)

Se digitarmos o nome da variável no console, vamos ter:

               arquivo                              md5                                     sha1
1  pda-prouni-2005.csv 8ca2170765eca8944366c3b58c81eeaf cb579982eba8ce9c303af4db4349c165df4e7284
2  pda-prouni-2006.csv e2c7255913e4d06a3f2e3eea7689af6b b39ae6d21ec796fe3db0f80581e0f77f8f4e0fe8
3  pda-prouni-2007.csv 8a9e9491228a9c3663d154e975b471df 343d94483bd49fc586506b8a5e4affabe54ebde8
4  pda-prouni-2008.csv 57d72a8be0fd81a947d73dcdac0c3778 9ef571d484aa6455e1588bbb5643cc964779fa2f
5  pda-prouni-2009.csv b48443ae129fb1128f39db925822b02a 70a3dcd403bd1bbb0a52202b23baee7cce169967
6  pda-prouni-2010.csv 439c1e8437282599878b861b7d11ac43 0380949a5e408ac7e5ba8d073b49cbe9e746df81
7  pda-prouni-2011.csv 8ecaf8c2a602471122d2d60fb426cfbd de26faf06149245412e1455c7492e6df7416d238
8  pda-prouni-2012.csv 093c02c6b44fb4f5d8750e9bccde54ae cda0697d521777f63bc5d6b5260652609311f571
9  pda-prouni-2013.csv 2560c46e70ff393123a7bed6ab1a27c8 9b605bbf583f04ffe68fc7fde7e3ed09dc48c301
10 pda-prouni-2014.csv bf7faaae1e11b7966dd8d18f5534c199 843bb60219a1b0a60d0e95b24b527d5019009f9f
11 pda-prouni-2015.csv 8fb5b3ab276c0a0f8533308a839dbb02 002c0bff3c831d29c7ccc69ffe4b65574a546244
12 pda-prouni-2016.csv 6ba774bb2e703e8417f2a13dfa4ce39d b40b80e347753c1b649c4feaa5ce27e58adacc7a
13 pda-prouni-2017.csv c9a1062ac6b1f6571f4d24750c1a5772 849beb6715a696fb7288b5e13f60d911a81600c7
14 pda-prouni-2018.csv c4f385b284056af95f16073cc216d74b c2d7c795a212142c7648e7781648c23a2f06cc88
15 pda-prouni-2019.csv a4bee519238a59fc0eb513016d11ffef bcefd063f2d76667ebf32986310bfe16b78f7286
16 pda-prouni-2020.csv f81f0ec21dcc6d09dd37abdb13732e9a 50f1df4292820e760c1cb17f13211420bcd6b40a

Desta forma você poderá confirmar se está utilizando um dataset na mesma versão deste tutorial ou uma versão atualizada pelo governo federal.

Precisamos também definir a normalização dos nomes de cada coluna do Dataset. Já adianto que os anos de 2005 até 2019 possuem 15 variáveis e no ano de 2020 foram adicionadas mais 2.
Vamos primeiramente definir como base os 15 nomes das colunas, criando o seguinte vetor:

nome_colunas = c("ANO_CONCESSAO_BOLSA","CODIGO_EMEC_IES_BOLSA","NOME_IES_BOLSA","TIPO_BOLSA","MODALIDADE_ENSINO_BOLSA","NOME_CURSO_BOLSA","NOME_TURNO_CURSO_BOLSA","CPF_BENEFICIARIO_BOLSA","SEXO_BENEFICIARIO_BOLSA","RACA_BENEFICIARIO_BOLSA","DATA_NASCIMENTO","BENEFICIARIO_DEFICIENTE_FISICO","REGIAO_BENEFICIARIO_BOLSA","SIGLA_UF_BENEFICIARIO_BOLSA","MUNICIPIO_BENEFICIARIO_BOLSA")

Leitura e processamento de arquivos do dataset do Prouni

Para a leitura do dataset, vamos utilizar a função read_delim. Existem diversas outras funções para esta tarefa, a mais rápida testada foi a fread() do pacote data.tables. Porém tive dificuldade para carregar o correto encoding dos arquivos, desta forma tinha problemas com acentuação.

Pelos testes que realizei os datasets do Prouni de 2005-2016 e o 2020 possuem codificação ISO-8859-1. Os datasets de 2017-2019 são UTF-8. A primeira vez que tive contato com estes datasets o ano de 2020 não era compatível com nenhuma codificação que tinha testado. Entrei em contato com o Fala.br e solicitei informação sobre qual codificação utilizar, posteriormente, com o arquivo atualizado, consegui acessar os arquivos com a codificação ISO-8859-1.

Fui informado pelo MEC que os datasets podem ser gerados por equipes distintas, à medida que há mudanças no governo. Isso explicaria a falta de padrão nos arquivos.

Para acessar os arquivos, utilizei então as 2 formas:

#(x < 2017 || x >= 2020)
temp = read_delim(paste("pda-prouni-",x,".csv",sep=""), delim = ";", na = c("", "NA"), escape_double = FALSE, trim_ws = TRUE, col_types = cols(), locale = locale(encoding = "ISO-8859-1"))

#(x > 2017 ||  x < 2020)
temp = read_delim(paste("pda-prouni-",x,".csv",sep=""), delim = ";", na = c("", "NA"), escape_double = FALSE, trim_ws = TRUE, col_types = cols(), locale = locale(encoding = "UTF-8"))

Tendo disponível a data de nascimento do aluno, seria interessante utilizar esse dado para criar posteriormente a faixa-etária dos alunos bolsistas. Pensando nessa possibilidade, já criei uma coluna “ANOS_VIDA”. Porém, tive que ajustar os datasets anteriores a 2017, pois o padrão da data vinha no formato dd-mm-AAAA e o restante do dataset no padrão dd/mm/AAAA.

  if ( x < 2017){
    temp$DATA_NASCIMENTO = as.Date(temp$DATA_NASCIMENTO,"%d-%m-%Y")
    temp$DATA_NASCIMENTO = format(temp$DATA_NASCIMENTO ,"%d/%m/%Y")
  }

Como mencionei o dataset de 2020 veio em outro padrão. Possui 2 colunas a mais “MUNICIPIO” e “CAMPUS”. Como já queria criar uma coluna de ANOS_VIDA, já aproveitei para realizar tudo de uma vez:

  if (x == 2020){
    temp[,"ANOS_VIDA"] = NA #adicionando coluna ANOS_VIDA
    temp = select(temp, 1:3,6:18,4,5) #ordenando colunas
    nome_colunas_2020 = append(nome_colunas, c("ANOS_VIDA","MUNICIPIO","CAMPUS"))
    colnames(temp) = nome_colunas_2020
    #Vamos criar a coluna MUNICIPIO e CAMPUS na variável dados, para poder executar o rbind na mesma proporção de número de colunas
    dados[,"MUNICIPIO"] = NA
    dados[,"CAMPUS"] = NA
  }
  else{
    #Normalizando o nome das colunas dos outros anos
    colnames(temp) = nome_colunas
  }

Com a coluna ANOS_VIDA criada e a variável de nascimento no mesmo padrão, podemos popular a coluna de ANOS_VIDA. Criamos também uma variável data_relativa_idade, pois precisamos calcular a idade do aluno no ano do Prouni. Assim vamos saber a idade do aluno contando com o aniversário que ele fará naquele ano, e não a idade no dia de inscrição do Prouni. Mas caso deseje alterar a data relativa, basta alterar esta variável. Repare que também altero idades inválidas para NA.

data_relativa_idade = as.Date(paste(x,"12","31", sep="/"))
temp$ANOS_VIDA = as.integer(as.numeric(difftime(data_relativa_idade, as.Date(temp$DATA_NASCIMENTO,"%d/%m/%Y"), units = "days"))/365)
temp$ANOS_VIDA[temp$ANOS_VIDA<0] <- NA

Com as mudanças acima, podemos concatenar com uma estrutura de repetição do tipo FOR, todos os datasets de todos os anos em um único data.table (ou data.frame) utilizando o rbind.
Então o código destacado acima ficaria dentro de uma estrutura:

for (x in anos[1]:anos[length(anos)]) {
…

dados = rbind(dados,temp)
}

Limpeza e organização do dataset do Prouni

O dataset não possui muitos dados faltantes, as maiores incoerências encontradas são na data de nascimento dos alunos. Desconfio que talvez na hora que o MEC exportou a data possa ter acontecido algum problema. Ou o aluno tenha inserido sua data de nascimento incorreta, sendo um problema no processo de coleta de dados.

Para eliminar as linhas faltantes, podemos utilizar o comando:

dados = dados[rowSums(is.na(dados)) != ncol(dados), ]

O comando acima só irá remover as linhas em que todos os campos forem ausentes. Verifiquei que algumas linhas em branco foram adicionadas durante o processo de junção dos datasets em um único arquivo. Mas o comando acima corrige este problema.

Outro processo importante é a organização dos dados, a fim de normalizar nomes distintos que correspondem à mesma informação. É interessante que as colunas abaixo sejam definidas com o tipo factor (fator) e níveis definidos:

TIPO_BOLSA
MODALIDADE_ENSINO_BOLSA
NOME_TURNO_CURSO_BOLSA
SEXO_BENEFICIARIO_BOLSA
BENEFICIARIO_DEFICIENTE_FISICO
REGIAO_BENEFICIARIO_BOLSA

Caso não tenha realizado essa mudança no momento que carregou o dataset, não tem problema, vamos realizar o processo abaixo. Repare que também já vamos modificar nomes distintos que definem a mesma informação:

#Normalizar variável TIPO_BOLSA
dados$TIPO_BOLSA = as.factor(dados$TIPO_BOLSA)
levels(dados$TIPO_BOLSA)[levels(dados$TIPO_BOLSA)=="BOLSA INTEGRAL"] <- "INTEGRAL"
levels(dados$TIPO_BOLSA)[levels(dados$TIPO_BOLSA)=="BOLSA PARCIAL 50%"] <- "PARCIAL"
levels(dados$TIPO_BOLSA)[levels(dados$TIPO_BOLSA)=="BOLSA COMPLEMENTAR 25%"] <- "COMPLEMENTAR" #ano de 2008

#Normalizar variável MODALIDADE_ENSINO_BOLSA
dados$MODALIDADE_ENSINO_BOLSA = as.factor(dados$MODALIDADE_ENSINO_BOLSA)
levels(dados$MODALIDADE_ENSINO_BOLSA)[levels(dados$MODALIDADE_ENSINO_BOLSA)=="EDUCAÇÃO A DIST NCIA"] <- "EAD"
levels(dados$MODALIDADE_ENSINO_BOLSA)[levels(dados$MODALIDADE_ENSINO_BOLSA)=="Presencial"] <- "PRESENCIAL"

#Normalizar variável NOME_TURNO_CURSO_BOLSA
dados$NOME_TURNO_CURSO_BOLSA = as.factor(dados$NOME_TURNO_CURSO_BOLSA)
levels(dados$NOME_TURNO_CURSO_BOLSA)[levels(dados$NOME_TURNO_CURSO_BOLSA)=="CURSO A DIST NCIA"] <- "EAD"
levels(dados$NOME_TURNO_CURSO_BOLSA)[levels(dados$NOME_TURNO_CURSO_BOLSA)=="Curso a distância"] <- "EAD"
levels(dados$NOME_TURNO_CURSO_BOLSA)[levels(dados$NOME_TURNO_CURSO_BOLSA)=="Integral"] <- "INTEGRAL"
levels(dados$NOME_TURNO_CURSO_BOLSA)[levels(dados$NOME_TURNO_CURSO_BOLSA)=="Matutino"] <- "MATUTINO"
levels(dados$NOME_TURNO_CURSO_BOLSA)[levels(dados$NOME_TURNO_CURSO_BOLSA)=="Noturno"] <- "NOTURNO"
levels(dados$NOME_TURNO_CURSO_BOLSA)[levels(dados$NOME_TURNO_CURSO_BOLSA)=="Vespertino"] <- "VESPERTINO"

#Normalizar variável SEXO_BENEFICIARIO_BOLSA
dados$SEXO_BENEFICIARIO_BOLSA = as.factor(dados$SEXO_BENEFICIARIO_BOLSA)
levels(dados$SEXO_BENEFICIARIO_BOLSA)[levels(dados$SEXO_BENEFICIARIO_BOLSA)=="Feminino"] <- "F"
levels(dados$SEXO_BENEFICIARIO_BOLSA)[levels(dados$SEXO_BENEFICIARIO_BOLSA)=="Masculino"] <- "M"

#Normalizar variável BENEFICIARIO_DEFICIENTE_FISICO
dados$BENEFICIARIO_DEFICIENTE_FISICO = as.factor(dados$BENEFICIARIO_DEFICIENTE_FISICO)
levels(dados$BENEFICIARIO_DEFICIENTE_FISICO)[levels(dados$BENEFICIARIO_DEFICIENTE_FISICO)=="SIM"] <- "S"
levels(dados$BENEFICIARIO_DEFICIENTE_FISICO)[levels(dados$BENEFICIARIO_DEFICIENTE_FISICO)=="NÃO"] <- "N"

#Normalizar variável REGIAO_BENEFICIARIO_BOLSA
dados$REGIAO_BENEFICIARIO_BOLSA = as.factor(dados$REGIAO_BENEFICIARIO_BOLSA)
levels(dados$REGIAO_BENEFICIARIO_BOLSA)[levels(dados$REGIAO_BENEFICIARIO_BOLSA)=="Centro-Oeste"] <- "CENTRO-OESTE"
levels(dados$REGIAO_BENEFICIARIO_BOLSA)[levels(dados$REGIAO_BENEFICIARIO_BOLSA)=="Nordeste"] <- "NORDESTE"
levels(dados$REGIAO_BENEFICIARIO_BOLSA)[levels(dados$REGIAO_BENEFICIARIO_BOLSA)=="Norte"] <- "NORTE"
levels(dados$REGIAO_BENEFICIARIO_BOLSA)[levels(dados$REGIAO_BENEFICIARIO_BOLSA)=="Sudeste"] <- "SUDESTE"
levels(dados$REGIAO_BENEFICIARIO_BOLSA)[levels(dados$REGIAO_BENEFICIARIO_BOLSA)=="Sul"] <- "SUL"

Com os comandos acima a base de dados já estará unificada e organizada. É interessante então gerar um novo arquivo unificado, vamos chamar de pda-prouni-2005-2020.csv. Vamos criar um hash deste novo arquivo e juntar com o hash dos arquivos de dataset de origem e também salvar em disco com o nome hash-datasets.txt. Este passo é importante para fins de reprodutibilidade posteriormente.

#Salvar o arquivo gerado em disco
dataset_saida = "pda-prouni-2005-2020.csv"
fwrite(dados, dataset_saida)

#Criar o hash para o arquivo de dataset unificado que acabamos de criar
hash = rbind(hash, data.frame(arquivo=dataset_saida, md5=hash_md5(dataset_saida), sha1=hash_sha1(dataset_saida)))
fwrite(hash, "hash-datasets.txt", sep = " \t ")

Com o passo acima temos uma base uniforme do Prouni referente aos anos de 2005-2020, facilitando o processo de análise e ciência de dados. O código também está disponível abaixo, de forma organizada:

Ao executar o código acima, gerei um dataset unificado. Deixo ele disponível para download neste link: Dataset completo Prouni 2005 até 2020 – Portal dados Abertos

Gostou do conteúdo? Tem alguma sugestão para melhorar o código acima? Quer mais funcionalidades presentes? Deixa sua mensagem aí nos comentários, que farei o possível para responder!