Este projeto contém scripts em R para extrair, processar e analisar os microdados da Pesquisa Nacional por Amostra de Domicílios Contínua (PNAD Contínua), disponibilizada pelo IBGE. O foco principal é trabalhar com dados de amostras complexas para obter estimativas populacionais consistentes.
Atualmente, o projeto está estruturado em torno da extração histórica de dados para investigar o dimensionamento e o perfil dos Domicílios Unipessoais no Brasil ao longo de mais de uma década (2012 a 2024), cruzando esses dados com informações demográficas e socioeconômicas.
O projeto é composto por dois scripts principais:
É o script de execução principal de extração e consolidação de dados.
- Objetivo: Extrair os dados do 4º trimestre de cada ano, de 2012 até 2024.
- Processamento:
- Transforma os dados brutos num desenho de amostragem complexa (usando as bibliotecas
surveyesrvyr). - Filtra apenas os domicílios com um único morador (
V2001 == 1/ "Domicílios Unipessoais"). - Cria segmentações categorizadas:
- Faixa Etária: "18-30", "31-60" e "+60"
- Faixa de Renda: "< 1 Sal. Mín", "1 a 3 Sal. Mín" e "> 3 Sal. Mín" (utilizando o valor de R$ 1.412,00 como referência).
- Agrupa os resultados estimando o total da população para cada cruzamento (UF, Sexo, Faixa Etária e Faixa de Renda).
- Transforma os dados brutos num desenho de amostragem complexa (usando as bibliotecas
- Saída: Todos os anos são combinados e o resultado consolidado é exportado para um arquivo CSV salvo na pasta de Downloads do usuário (
resultado_pnad_unipessoal.csv).
Trata-se de um script de documentação em código e testes de uso do pacote PNADcIBGE.
- Traz anotações sobre o que cada variável representa (ex:
V2009para Idade,V2007para Sexo,VD4020para Rendimento mensal, etc). - Demonstra como realizar o carregamento do banco, alterar as opções do R para não exibir notação científica (
options(scipen = 999)) e como instanciar a classetbl_svypara as funções da famíliatidyverseatravés dosrvyr. - Exemplifica a extração da média populacional e proporções segmentadas através da função
svymean.
A análise foi inteiramente construída na linguagem de programação R. Antes de executar os scripts, certifique-se de ter os seguintes pacotes instalados e carregados:
install.packages(c("PNADcIBGE", "survey", "srvyr", "tidyverse"))PNADcIBGE: Conecta diretamente ao diretório FTP do IBGE e faz o download, leitura e rotulagem correta dos microdados da pesquisa anual ou trimestral.survey: Biblioteca padrão do R para o cálculo de estimativas envolvendo desenhos de amostragem em múltiplas etapas ou com probabilidades desiguais (como é o caso da amostra do IBGE).srvyr: Um "wrapper" que integra o pacotesurveycom o encadeamento de funções baseadas na padronização gráfica/lógica dodplyre do meta-pacotetidyverse.tidyverse: Coleção de pacotes focados em ciência de dados (manipulação e limpeza comdplyr,mutate,filter,summarise).
- Abra o arquivo
consulta.rpelo RStudio. - O script já está configurado para realizar um loop (através do
lapply) executando a função para todos os anos do arrayanos <- 2012:2024. - Verifique a variável
caminho_downloadspara garantir que ela aponta para um diretório no qual você possui configuração de leitura/escrita antes de rodar. - Rode as linhas do arquivo e aguarde a conclusão da etapa de processamento. O download de bases completas do IBGE por vários anos seguidos pode ser um processo sensível e demorado dependendo de sua conexão de internet e da capacidade de processamento (RAM) da sua máquina.