Skip to content

RicardoMarinho-code/PNADcIBGE-R-Analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Análise de Dados da PNAD Contínua (IBGE) com R

Este projeto contém scripts em R para extrair, processar e analisar os microdados da Pesquisa Nacional por Amostra de Domicílios Contínua (PNAD Contínua), disponibilizada pelo IBGE. O foco principal é trabalhar com dados de amostras complexas para obter estimativas populacionais consistentes.

📋 Descrição do Projeto

Atualmente, o projeto está estruturado em torno da extração histórica de dados para investigar o dimensionamento e o perfil dos Domicílios Unipessoais no Brasil ao longo de mais de uma década (2012 a 2024), cruzando esses dados com informações demográficas e socioeconômicas.

📁 Estrutura dos Arquivos

O projeto é composto por dois scripts principais:

1. consulta.r

É o script de execução principal de extração e consolidação de dados.

  • Objetivo: Extrair os dados do 4º trimestre de cada ano, de 2012 até 2024.
  • Processamento:
    • Transforma os dados brutos num desenho de amostragem complexa (usando as bibliotecas survey e srvyr).
    • Filtra apenas os domicílios com um único morador (V2001 == 1 / "Domicílios Unipessoais").
    • Cria segmentações categorizadas:
      • Faixa Etária: "18-30", "31-60" e "+60"
      • Faixa de Renda: "< 1 Sal. Mín", "1 a 3 Sal. Mín" e "> 3 Sal. Mín" (utilizando o valor de R$ 1.412,00 como referência).
    • Agrupa os resultados estimando o total da população para cada cruzamento (UF, Sexo, Faixa Etária e Faixa de Renda).
  • Saída: Todos os anos são combinados e o resultado consolidado é exportado para um arquivo CSV salvo na pasta de Downloads do usuário (resultado_pnad_unipessoal.csv).

2. cod_referencia.r

Trata-se de um script de documentação em código e testes de uso do pacote PNADcIBGE.

  • Traz anotações sobre o que cada variável representa (ex: V2009 para Idade, V2007 para Sexo, VD4020 para Rendimento mensal, etc).
  • Demonstra como realizar o carregamento do banco, alterar as opções do R para não exibir notação científica (options(scipen = 999)) e como instanciar a classe tbl_svy para as funções da família tidyverse através do srvyr.
  • Exemplifica a extração da média populacional e proporções segmentadas através da função svymean.

🛠️ Tecnologias e Pacotes

A análise foi inteiramente construída na linguagem de programação R. Antes de executar os scripts, certifique-se de ter os seguintes pacotes instalados e carregados:

install.packages(c("PNADcIBGE", "survey", "srvyr", "tidyverse"))
  • PNADcIBGE: Conecta diretamente ao diretório FTP do IBGE e faz o download, leitura e rotulagem correta dos microdados da pesquisa anual ou trimestral.
  • survey: Biblioteca padrão do R para o cálculo de estimativas envolvendo desenhos de amostragem em múltiplas etapas ou com probabilidades desiguais (como é o caso da amostra do IBGE).
  • srvyr: Um "wrapper" que integra o pacote survey com o encadeamento de funções baseadas na padronização gráfica/lógica do dplyr e do meta-pacote tidyverse.
  • tidyverse: Coleção de pacotes focados em ciência de dados (manipulação e limpeza com dplyr, mutate, filter, summarise).

🚀 Como Executar

  1. Abra o arquivo consulta.r pelo RStudio.
  2. O script já está configurado para realizar um loop (através do lapply) executando a função para todos os anos do array anos <- 2012:2024.
  3. Verifique a variável caminho_downloads para garantir que ela aponta para um diretório no qual você possui configuração de leitura/escrita antes de rodar.
  4. Rode as linhas do arquivo e aguarde a conclusão da etapa de processamento. O download de bases completas do IBGE por vários anos seguidos pode ser um processo sensível e demorado dependendo de sua conexão de internet e da capacidade de processamento (RAM) da sua máquina.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages