Capítulo 7 Estimação para Domínios de Estudo

7.1 Domínios de estudo

Grande parte das pesquisas amostrais produz e divulga estimativas para certos subgrupos ou classes nos quais a população pode ser dividida. Tais classes, aqui denominados domínios de estudo, subpopulações ou pequenas áreas, são quaisquer subconjuntos da população \(U\) para os quais desejamos obter ou produzir estimativas separadas a partir da amostra selecionada e observada dessa população.

Por exemplo, pesquisas domiciliares costumam apresentar estimativas para grupos tais como: homens de 40 anos ou mais, mulheres em idade reprodutiva (15 a 49 anos), crianças e adolescentes etc. Pesquisas de empresas costumam apresentar estimativas por faixas de tamanho das empresas (por exemplo, definido como o número de pessoas ocupadas nas empresas) ou classes de atividade econômica exercida. Em pesquisas agropecuárias, costuma-se apresentar estimativas por faixas de área total dos estabelecimentos (em hectares), ou segundo ocorrência de produção de certos produtos (por exemplo, para estabelecimentos com produção de café). Em todas estas, também é comum a apresentação de estimativas por regiões, unidades da federação ou outras partições geográficas de interesse. Cada um dos subgrupos assim definidos configura um domínio de interesse.

Neste capítulo, apresentamos as ideias centrais de como fazer estimação para domínios. Apresentamos com detalhes o caso da estimação sob Amostragem Aleatória Simples, mas as ideias sobre como proceder com outros planos amostrais são as mesmas. A principal estratégia para estimar parâmetros em domínios de interesse é definir duas variáveis derivadas que podem ser calculadas para as unidades da amostra selecionada.

A primeira destas é simplesmente uma variável indicadora de pertinência ao domínio de interesse: seja \(c_i\) a variável indicadora do domínio \(c\), isto é:

\[ c_i = I(i \in U_c) = \left\{\begin{array}{ll} 1, & \textrm{se} \,\,i \textrm{ pertence ao domínio ou classe}\,\, c\\ 0, & \textrm{caso contrário}\end{array}\right.\,\,\, \] onde \(U_c \subset U\) denota a parte da população \(U\) que forma o domínio \(c\).

Denotamos por \(N_c = \sum_{i\in U} c_i\) o tamanho do domínio \(c\).

A segunda variável derivada é formada simplesmente pelo produto de duas outras variáveis de pesquisa: \(y_i\) e \(c_i\), a saber:

\[ y_{ic} = y_i c_i = \left \{\begin{array}{ll} y_i, & \textrm{se}\,\, i\in U_c\\ 0 ,& \textrm{caso contrário}\end{array}\right.\,\,\, \]

onde \(y\) é a variável de estudo cujos parâmetros se quer estimar para o domínio de interesse.

7.2 Parâmetros de interesse para domínios

Os parâmetros populacionais que usualmente se deseja estimar para um domínio genérico \(c\) são descritos a seguir.

A proporção de unidades populacionais no domínio \(c\) dada por:

\[ p_c =\frac 1 N \sum_{i\in U} c_i = N_c / N = \overline {C} \tag{7.1} \] onde \(\overline C\) é a média populacional da variável derivada \(c_i\).

O total da variável \(y\) no domínio \(c\) dado por:

\[ Y_c = \sum_{i\in U} y_{ic} = \sum_{i\in U} y_i c_i = \sum_{i\in U_c} y_i \tag{7.2} \]

A média da variável \(y\) no domínio \(c\) dada por:

\[ \overline{Y_c} = Y_c / N_c = \sum_{i\in U} y_{ic} / \sum_{i \in U} c_i \tag{7.3} \]

Note que \(\overline{Y_c}\) é um caso especial de Razão de Médias das variáveis \(y_{ic}\) e \(c_i\).

A variância da variável \(y\) no domínio \(c\) dada por:

\[ S_c^2 = \sum_{i \in U} c_i (y_i - \overline{Y_c})^2 / (N_c - 1) \tag{7.4} \]

Muitos outros parâmetros podem ser definidos para domínios, mas não é comum que os livros de Amostragem dediquem espaço ao tratamento de outros casos que não os considerados aqui. Isto se dá porque os casos de parâmetros que podem ser escritos como funções de totais populacionais são facilmente resolvidos empregando-se as ideias de estimação discutidas na Seção 6.5.

7.3 Estimação de parâmetros para domínios sob AAS

Esta seção mostra como fazer para estimar os parâmetros populacionais para o domínio \(c\) considerados na Seção 7.2, com base numa amostra aleatória simples sem reposição de tamanho \(n\) extraída da população \(U\). Embora a discussão seja restrita aqui ao caso de amostras aleatórias simples, o processo de adaptação de estimadores para parâmetros de domínios aqui mostrado pode ser facilmente seguido para o caso de outros planos amostrais. Tudo se baseia na ideia de criação das variáveis derivadas apresentada na Seção 7.1.

Passo 1: Selecionar uma AAS de tamanho \(n\) da população \(U\) de tamanho \(N\) e observar \(y_i\), para todo \(i \in s\).

Passo 2: Construir as variáveis derivadas \(c_i = I(i \in U_c)\) e \(y_{ic} = y_i c_i\).

Passo 3: Estimar os parâmetros de interesse, adaptando os estimadores apresentados nos Capítulos 4, 5 e 6 para considerar as variáveis derivadas definidas.

Começamos tratando da estimação da proporção \(p_c\) de unidades no domínio, por ser o caso mais simples. Considerando os resultados da Tabela 5.2, que reúne os resultados principais da estimação de contagens e proporções sob AAS, o estimador dessa proporção sob AAS é dado por:

\[ \widehat{p}_c = n_c / n = \overline {c} \tag{7.5} \] onde \(n_c = \sum_{i \in s} c_i\) denota o número de unidades ou tamanho da amostra no domínio \(c\) e \(\overline {c}\) é a média amostral da variável derivada \(c_i\).

A estimação da proporção no domínio só é necessária quando o tamanho do domínio na população \((N_c)\) é desconhecido. Quando este tamanho for conhecido, não é necessário estimar a proporção \(p_c\), e essa informação será útil também para melhorar estimativas de outros parâmetros do domínio, como apresentado adiante.

A variância do estimador da proporção é dada por:

\[ V_{AAS}(\widehat p_c) = \left(\frac 1 n - \frac 1 N \right) \frac N {N-1} p_c (1 - p_c) \tag{7.6} \] e pode ser estimada sem vício usando:

\[ \widehat V_{AAS} (\widehat p_c) = \left(\frac 1 n - \frac 1 N \right) \frac n {n-1} \widehat p_c (1 - \widehat p_c) \tag{7.7} \]

Ainda considerando o caso em que o tamanho do domínio na população é desconhecido, o próximo parâmetro do domínio que podemos estimar é o total \(Y_c\). O estimador não viciado deste total é obtido simplesmente aplicando o estimador de Horvitz-Thompson à variável derivada \(y_{ic}\), resultando em:

\[ \widehat{Y}_c = \frac N n \sum_{i \in s} y_{ic} = N \frac {t_c} {n} \tag{7.8} \] onde \(t_c\) é a soma amostral da variável \(y\) para unidades pertencentes ao domínio \(c\), dada por \(t_c = \displaystyle \sum_{i \in s} y_{ic}\).

A variância deste estimador é obtida diretamente dos resultados usuais da estimação de totais sob AAS para a variável derivada \(y_{ic}\), levando a:

\[ V_{AAS} (\widehat{Y}_c) = N^2 \left(\frac{1}{n} - \frac 1 N \right) \frac{1}{N-1} \displaystyle \sum_{i \in U} \left( y_{ic} - \frac{Y_c}{N} \right)^2 \tag{7.9} \] e pode ser estimada de forma não viciada usando:

\[ \widehat V_{AAS} (\widehat{Y}_c) = N^2 \left(\frac{1}{n} - \frac 1 N \right) \frac{1}{n-1} \displaystyle \sum_{i \in s} \left( y_{ic} - \frac{t_c}{n} \right)^2 \tag{7.10} \]

A média no domínio \(\overline{Y_c}\) pode ser estimada usando:

\[ \overline{y}_c = \frac {\widehat Y_c} {\widehat N_c} = \frac {(N/n)\sum_{i\in s} y_{ic}} {(N/n)\sum_{i\in s}c_i} = \sum_{i\in s}y_{ic}/n_c \tag{7.11} \]

Note que o estimador da média no domínio \(c\) é uma razão de totais estimados e que \(n_c\) é uma variável aleatória, aparecendo no denominador da expressão do estimador da média no domínio.

Para obter sua variância, podemos recorrer aos resultados para estimação de razões disponíveis no Capítulo 6, resultando em:

\[ \begin{align} V_{AAS}(\overline{y}_c) &\doteq \frac{1} {p_c^2} \left( \frac 1 n - \frac{1}{N} \right) \frac{1}{N-1} \displaystyle \sum_{i \in U} \left( y_{ic} -\overline{Y_c}\, c_i \right)^2 \\& = \frac{1}{p_c^2} \left( \frac 1 n - \frac{1}{N} \right) \frac{1}{N-1} \displaystyle \sum_{i \in U} c_i \left( y_i - \overline{Y_c} \right)^2\end{align} \tag{7.12} \]

O estimador de variância correspondente é dado por:

\[ \widehat V_{AAS} (\overline{y}_c) = \frac{1}{\widehat p_c^2} \left( \frac 1 n - \frac{1}{N} \right) \frac{1}{n-1} \displaystyle \sum_{i \in s} c_i \left(y_i - \overline{y}_c \right)^2 \tag{7.13} \]

7.4 Intervalos de confiança para os parâmetros para o domínio

A obtenção de intervalos de confiança na estimação de parâmetros populacionais para o domínio requer amostra grande no domínio, isto é, requer que \(n_c\) seja suficientemente grande para justificar o uso da aproximação pela distribuição Normal para os vários estimadores considerados. Quando este for o caso, valem as seguintes aproximações:

\[ \left( \widehat{p}_c - p_c \right) / \sqrt{\widehat V_{AAS} \left(\widehat{p}_c \right)} \approx N(0;1) \,\,\textrm{para}\,\, n_c \,\,\textrm{grande.} \]

\[ \left( \widehat{Y}_c - Y_c \right) / \sqrt{\widehat V_{AAS} \left( \widehat{Y}_c \right)} \approx N(0;1) \,\,\textrm{para}\,\, n_c\,\,\textrm{grande.} \]

\[ \left( \overline{y}_c - \overline{Y_c} \right) / \sqrt{\widehat V_{AAS}(\overline{y}_c)} \approx N(0;1) \,\,\textrm{para} \,\,n_c\,\,\textrm{grande.} \] Desse modo, as respectivas expressões dos intervalos de confiança de nível (1-\(\alpha\))% para a estimação de total e média no domínio \(c\) sob AAS passam a ser:

\[ IC_{AAS} (p_c ; 1-\alpha) = \left[ \widehat{p}_c \mp z_{\alpha / 2} \widehat {V}_{AAS} ( \widehat{p}_c ) \right] \tag{7.14} \]

\[ \displaystyle IC_{AAS}(Y_c ; 1- \alpha) = \left[ \widehat{Y}_c \mp z_{\alpha/ 2} \sqrt{\widehat V_{AAS} \left( \widehat{Y}_c \right)} \right] \tag{7.15} \]

\[ \displaystyle IC_{AAS}(\overline Y_c ; 1-\alpha) = \left[ \overline y_c \mp z_{\alpha/ 2} \sqrt{ \widehat V_{AAS} \left(\overline y_c \right)} \right] \tag{7.16} \]

7.5 Propriedades condicionais (fixando \(n_c\))

Cochran (1977), na Seção 2.12, sugere analisar a distribuição da média considerando o tamanho da amostra no domínio \(n_c\) como fixado em seu valor observado. Nesse caso, mostra que as \(n_c\) observações na amostra \(s\) formam uma AAS da população \(U_c\). Segue-se então que:

\[ V_{AAS} (\overline{y}_c | \, n_c>0) = \left( \frac 1 {n_c} - \frac{1}{N_c} \right) S_c^2 = \displaystyle \left(1-\frac{n_c}{N_c}\right)\frac{S_c^2}{n_c} \tag{7.17} \]

A variância pode então ser estimada usando:

\[ \widehat V_{AAS} (\overline{y}_c | \, n_c>0) = \left(\frac 1 {n_c} - \frac{1}{N_c} \right) \widehat S_c^2=\displaystyle \left(1-\frac{n_c}{N_c}\right)\frac{\widehat S_c^2}{n_c} \tag{7.18} \]

onde \(\widehat S_c^2 = \sum_{i \in s} c_i (y_i - \overline{y}_c)^2 / (n_c-1)\) é um estimador não viciado para \(S_c^2\) (quando \(n_c\) é fixado).

Quando \(N_c\) é desconhecido, \(\widehat V_{AAS}(\overline{y}_c |\,n_c>0)\) não é calculável.

Cochran (1977), página 35, sugere substituir a fração amostral no domínio, \(n_c/N_c\), pela fração amostral esperada no domínio, dada por \(n/N\), o que implica em:

\[ \widehat V_{AAS}^* (\overline{y}_c | \, n_c>0) = \left(1-\frac{n}{N} \right) \frac {\widehat S_c^2} {n_c} \tag{7.19} \]

7.6 Estimação do total no domínio quando tamanho do domínio é conhecido

Em algumas situações de pesquisa, é possível supor conhecido o tamanho do domínio \(N_c\), a partir de dados de uma fonte secundária confiável. Nesses casos, temos as seguintes consequências:

  1. Não é necessário estimar a proporção de unidades no domínio \(p_c\).
  2. Fica disponível um estimador alternativo para o total populacional \(Y_c\) que pode ser mais preciso que o estimador tipo Horvitz-Thompson descrito na Expressão (7.8).

Para obter o estimador alternativo, note que:

\[ Y_c = N_c \overline {Y_c} \tag{7.20} \]

Logo, é possível usar o estimador tipo razão para o total dado por:

\[ \widehat{Y}_c^R = N_c \overline {y}_c = \frac{N_c}{n_c} \sum_{i\in s} y_{ic} \,\, \tag{7.21} \]

A variância condicional deste estimador, considerando fixado o tamanho da amostra no domínio \(c\), é dada por:

\[ V_{AAS} \left(\widehat {Y}_c^R | \, n_c>0 \right) = \displaystyle N_c^2\left(1-\frac{n_c}{N_c}\right)\frac{S_c^2}{n_c} \,\, \tag{7.22} \]

Essa variância pode ser estimada usando:

\[ \widehat V_{AAS} \left( \widehat{Y}_c^R | \, n_c>0 \right) =\displaystyle N_c^2\left(1-\frac{n_c}{N_c}\right)\frac{\widehat S_c^2}{n_c} \,\, \tag{7.23} \]

A Tabela 7.1 apresenta um resumo de estimadores do total, proporção, média e respectivas variâncias no domínio \(c\) sob AAS.

Tabela 7.1: Estimadores do total, proporção, média e respectivas variâncias no domínio \(c\) sob AAS
Estimador
\(\displaystyle\widehat{Y}_c=\frac N n\displaystyle\sum_{i\in s} y_{ic},\,\, N_c\,\,\text{desconhecido}\)
\(\widehat{Y}_c^R=N_c\overline{y}_c,\,\, N_c\,\,\text{conhecido}\)
\(\displaystyle\widehat{p}_c=\frac{n_c} n, \,\, N_c \,\,\text{desconhecido}\)
\(\displaystyle\overline{y}_c=\frac{\widehat{Y}_c}{\widehat{N}_c}=\displaystyle\frac 1{n_c}\sum_{i\in s}y_{ic},\,\, N_c \,\,\text{desconhecido}\)
\(\widehat{V}_{AAS}(\widehat{Y}_c)=N^2\displaystyle\left(\frac{1}{n}-\frac{1}{N}\right)\frac{1}{N-1}\sum_{i\in s} \left(y_{id}-\frac{t_c}{n}\right)^2,\,\, N_c\,\,\text{desconhecido}\)
\(\widehat V_{AAS}\left(\widehat{Y}_c^R\mid n_c\ge 1\right)= \displaystyle N_c^2\left(1-\frac{n_c}{N_c}\right)\frac{\widehat S_c^2}{n_c},\,\, N_c\,\,\text{conhecido}\)
\(\widehat V_{AAS}(\widehat p_c)=\displaystyle\left(\frac 1 n-\frac 1 N\right)\frac n {n-1}\widehat p_c(1-\widehat p_c),\,\, N_c\,\,\text{desconhecido}\)
\(\widehat V_{AAS}(\overline{y}_c) = \displaystyle\frac{1}{\widehat p_c^2}\left(\frac1 n-\frac{1}{N}\right)\frac{1}{n-1}\displaystyle\sum_{i\in s} c_i\left(y_i-\overline{y}_c\right)^2,\,N_c\,\text{desconhecido}\)
\(\widehat V_{AAS}(\overline{y}_c\mid n_c\ge 1)=\displaystyle \left(1-\frac{n_c}{N_c}\right)\frac{\widehat S_c^2}{n_c} ,\,\, N_c\,\,\text{conhecido}\)
\(\widehat V_{AAS}^*(\overline{y}_c\mid n_c\ge 1)=\displaystyle\left(1-\frac{n}{N}\right)\frac{\widehat S_c^2}{n_c},\,N_c\,\text{desconhecido}\)

Exemplo 7.1 Estimação de totais e médias nos domínios

Considere os dados da população de municípios brasileiros fornecidos no arquivo 'MunicBR_dat.rds'.

  1. Selecione uma AAS de \(n=250\) municípios e use esta amostra para estimar os seguintes parâmetros populacionais:
    1. População total por região do Brasil e correspondentes margens de erro relativo ao nível de confiança de 95%; suponha conhecidos os tamanhos dos domínios.
    2. População total por região do Brasil e correspondentes margens de erro relativo ao nível de confiança de 95%; suponha desconhecidos os tamanhos dos domínios.
    3. Média da densidade habitacional por km2 por município para municípios com população igual ou superior a 100 mil habitantes e correspondente margem de erro ao nível de confiança de 95%. Nesse caso, considere que o tamanho do domínio é desconhecido.
  2. Usando os dados populacionais, calcule os valores dos parâmetros estimados nos itens a e c e compare com suas estimativas amostrais. Comente.

Solução do Exemplo 7.1 , usando R:

options(warn=-1)
# Limpa área de trabalho
rm(list = ls())

# Carrega biblioteca(s) requerida(s)
library(sampling)
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.2     v purrr   0.3.4
## v tibble  3.0.4     v dplyr   1.0.2
## v tidyr   1.1.2     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.0
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
# Leitura dos dados
MunicBR_dat <- readRDS(file="Dados/MunicBR_dat.rds")
str(MunicBR_dat)
## tibble [5,570 x 6] (S3: tbl_df/tbl/data.frame)
##  $ CodMunic : chr [1:5570] "1100015" "1100023" "1100031" "1100049" ...
##  $ SiglaUF  : chr [1:5570] "RO" "RO" "RO" "RO" ...
##  $ CodUF    : chr [1:5570] "11" "11" "11" "11" ...
##  $ Pop      : num [1:5570] 25728 101269 6495 85863 18041 ...
##  $ Area     : num [1:5570] 7067 4427 1314 3793 2783 ...
##  $ Densidade: num [1:5570] 3.64 22.88 4.94 22.64 6.48 ...
# Cria código de região nos dados da população
reglabels = c("Norte", "Nordeste", "Sudeste", "Sul", "Centro-Oeste")
MunicBR_dat <- mutate(MunicBR_dat,
                      Regiao = substr(CodUF,1,1))  %>%
               mutate(Regiao = factor(Regiao, labels=reglabels))
table(MunicBR_dat$Regiao)  
## 
##        Norte     Nordeste      Sudeste          Sul Centro-Oeste 
##          450         1794         1668         1191          467
# Define senha para geração de números aleatórios para permitir repetição
set.seed(123)

# Item 1
# Tamanho da amostra
(n <- 250)
## [1] 250
# Tamanho da população
(N <- nrow(MunicBR_dat))
## [1] 5570
# Seleciona amostra AAS dos municípios
munic_amo <- getdata(MunicBR_dat, srswor(n,N))
str(munic_amo)
## 'data.frame':    250 obs. of  8 variables:
##  $ ID_unit  : int  41 151 166 185 195 217 277 279 294 316 ...
##  $ CodMunic : chr  "1101435" "1400704" "1501105" "1502202" ...
##  $ SiglaUF  : chr  "RO" "RR" "PA" "PA" ...
##  $ CodUF    : chr  "11" "14" "15" "15" ...
##  $ Pop      : num  7883 9127 26666 65498 13097 ...
##  $ Area     : num  807 8066 4397 615 1431 ...
##  $ Densidade: num  9.77 1.13 6.06 106.55 9.15 ...
##  $ Regiao   : Factor w/ 5 levels "Norte","Nordeste",..: 1 1 1 1 1 1 1 1 1 1 ...
table(munic_amo$Regiao)
## 
##        Norte     Nordeste      Sudeste          Sul Centro-Oeste 
##           16           91           73           51           19
# Soluções para item 1
# Estima população total por região
# Calcula as contagens populacionais por domínio
(N_d <- MunicBR_dat %>%
        group_by(Regiao) %>%
        summarise(N_d = n()) %>%
        select(Regiao, N_d) )
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 5 x 2
##   Regiao         N_d
##   <fct>        <int>
## 1 Norte          450
## 2 Nordeste      1794
## 3 Sudeste       1668
## 4 Sul           1191
## 5 Centro-Oeste   467
# Calcula médias amostrais por domínio
(ybar_d <- munic_amo %>%
    group_by(Regiao) %>%
    summarise(ybar_d = mean(Pop),
              t_d = sum(Pop)) %>%
    select(Regiao, ybar_d, t_d) )
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 5 x 3
##   Regiao       ybar_d     t_d
##   <fct>         <dbl>   <dbl>
## 1 Norte        30394.  486298
## 2 Nordeste     20726. 1886067
## 3 Sudeste      30399. 2219148
## 4 Sul          18384.  937564
## 5 Centro-Oeste 21624.  410847
# Junta informações das duas tabelas por Região
resumo_regiao <- left_join(N_d, ybar_d, by=c("Regiao"))
# a. Calcula estimativas dos totais, supondo contagens populacionais conhecidas
(Total_reg_est1 <- resumo_regiao %>%
   mutate(Total_reg_est1 = N_d * ybar_d) %>%
   select(Regiao, Total_reg_est1))
## # A tibble: 5 x 2
##   Regiao       Total_reg_est1
##   <fct>                 <dbl>
## 1 Norte             13677131.
## 2 Nordeste          37182464.
## 3 Sudeste           50706012.
## 4 Sul               21894877.
## 5 Centro-Oeste      10098187.
# b. Calcula estimativas dos totais, supondo contagens populacionais desconhecidas
(Total_reg_est2 <- resumo_regiao %>%
    mutate(Total_reg_est2 = N * t_d / n) %>%
    select(Regiao, Total_reg_est2))    
## # A tibble: 5 x 2
##   Regiao       Total_reg_est2
##   <fct>                 <dbl>
## 1 Norte             10834719.
## 2 Nordeste          42021573.
## 3 Sudeste           49442617.
## 4 Sul               20888926.
## 5 Centro-Oeste       9153671.
# Calcula totais populacionais para comparação
(Total_reg_pop <- MunicBR_dat %>%
    group_by(Regiao) %>%    
    summarise(Total_reg_pop = sum(Pop)) %>%
    select(Regiao, Total_reg_pop))
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 5 x 2
##   Regiao       Total_reg_pop
##   <fct>                <dbl>
## 1 Norte             17013559
## 2 Nordeste          55794707
## 3 Sudeste           84465570
## 4 Sul               28795762
## 5 Centro-Oeste      14993191
# Estima densidade habitacional média por km2 no Brasil
(r_chapeu <- munic_amo %>%
             summarise(Popm = mean(Pop),
                       Aream = mean(Area)) %>%
             mutate(Densm = Popm / Aream) %>%
             select(Densm))
##      Densm
## 1 24.19436
# c. Estima média da densidade habitacional por km2 por município
(media.densidade <- munic_amo %>%
                    summarise(Densm = mean(Densidade)))
##      Densm
## 1 128.4233
# Adiciona valor de r_chapeu aos dados da amostra
munic_amo <- cbind(munic_amo, r_chapeu)

# Calcula precisão 
(precisao.r_chapeu <- munic_amo %>% 
                     mutate(Z = Pop - Densm * Area) %>%
                     summarise(varZ = var(Z),
                               Aream = mean(Area),
                               Densm = mean(Densm)) %>%
                     mutate(dp.r_chapeu = sqrt((1/n - 1/N)*varZ)/Aream, 
                            cv.r_chapeu = 100 * dp.r_chapeu / Densm)  %>%
                     select(dp.r_chapeu, cv.r_chapeu))
##   dp.r_chapeu cv.r_chapeu
## 1    3.150193    13.02036
# Calcula precisão do item c)
(precisao.media.densidade <- munic_amo %>%
         summarise(Densv = var(Densidade),
                   Densm = mean(Densidade)) %>%
         mutate(dp.media.dens = sqrt((1/n - 1/N)*Densv),
                cv.media.dens = 100 * dp.media.dens / Densm) %>%
         select(dp.media.dens, cv.media.dens))
##   dp.media.dens cv.media.dens
## 1      52.42499      40.82201
# Calcula densidade habitacional média por km2 no Brasil
(R <- MunicBR_dat %>%
      summarise(Popm = mean(Pop),
                Aream = mean(Area)) %>%
      mutate(Densidade_pop = Popm / Aream) %>%
      select(Densidade_pop))   
## # A tibble: 1 x 1
##   Densidade_pop
##           <dbl>
## 1          23.6
# Estima média da densidade habitacional por km2 por município
(densidade_media_pop <- MunicBR_dat %>%
    summarise(densidade_media_pop = mean(Densidade)))
## # A tibble: 1 x 1
##   densidade_media_pop
##                 <dbl>
## 1                114.
options(warn=0)

7.7 Comparação da eficiência dos estimadores de total no domínio

Foram propostos dois estimadores para o total populacional \(Y_c\), sendo um deles viável apenas quando o tamanho do domínio é conhecido. Nesse caso, é importante saber se o estimador tipo razão é preferível ao estimador tipo Horvitz-Thompson em termos de eficiência. Comparando as respectivas variâncias, de acordo com Cochran (1977), página 38, tem-se que a eficiência relativa do estimador tipo razão é dada por:

\[ \frac {V_{AAS} \left(\widehat{Y}_c^R \, | \, n_c>0 \right) } {V_{AAS} \left( \widehat{Y}_c \, | \, n_c>0 \right)} \doteq \frac {S_c^2} {S_c^2 + (1-p_c) \overline{Y_c}^2} = \frac{\gamma_c^2} {C_c^2 + (1-p_c)} \,\, \tag{7.24} \]

onde \(\gamma_c^2 = S_c^2 / \overline{Y_c}^2\) é a variância relativa da característica \(y\) no domínio \(c\).

Isto mostra que conhecer o valor de \(N_c\) sempre melhora a eficiência do estimador de total no domínio \(c\) e que a melhoria é maior quando \(p_c\) é pequena. Essa expressão também torna evidente que, para domínios raros na população, isto é, aqueles com valores bem pequenos de \(p_c\), o estimador do total no domínio \(c\) para \(N_c\) desconhecido é bem pouco preciso, devendo talvez indicar a necessidade de uso de plano amostral que favoreça a estimação de \(Y_c\) com melhor precisão que uma AAS.

7.8 Estimação de proporções dentro do domínio

Em algumas situações práticas, o parâmetro de interesse é a proporção de unidades no domínio \(c\) que possuem um atributo ou característica \(A\). Por exemplo, quando se deseja estimar a proporção de mulheres de 10 anos ou mais que já tiveram pelo menos um filho, ou quando se procura estimar a proporção de homens de 18 anos ou mais que prestaram o serviço militar. Em casos como os acima citados, o problema é estimar proporções nos domínios da população: mulheres de 10 anos ou mais e homens de 18 anos ou mais.

Nesses casos, a variável de pesquisa \(y\) seria dada por:

\[ y_i = I(i \in A) = \left\{\begin{array}{ll} 1, & \textrm{se} \,\,i \textrm{ possui o atributo A}\,\,\\ 0, & \textrm{caso contrário}\end{array}\right.\,\,\, \]

Na população como um todo, a proporção de unidades com atributo \(A\) é definida como \(p = N_A / N\) e a estimação desta proporção foi tratada no Capítulo 5. Considere a notação a seguir.

O número de unidades no domínio \(c\) que também possuem o atributo \(A\) é definido como:

\[ N_{cA} = \sum_{i \in U} y_{ic} = \sum_{i \in U} y_i c_i = \sum_{i \in U_d} y_i \] E a proporção de unidades no domínio \(c\) que também possuem o atributo \(A\) é definida como:

\[ p_{cA} = N_{cA} / N_c \,\, \tag{7.25} \]

Sob AAS, o estimador simples para \(p_{cA}\) pode ser obtido a partir do estimador (7.11), lembrando que agora a variável \(y\) é também do tipo indicadora, resultando em:

\[ \widehat {p}_{cA} = \sum_{i\in s}y_{id}/n_c = \frac {n_{cA}} {n_c} \,\, \tag{7.26} \] onde \(n_{cA}\) denota o número de unidades na amostra no domínio \(c\) que também possuem o atributo \(A\).

Considerando fixado o tamanho da amostra no domínio \(c\), a variância condicional do estimador \(\widehat {p}_{cA}\) é dada por:

\[ V_{AAS}(\widehat p_{cA}\;|\;n_c \text{ fixo)} = \left( \frac 1 {n_c} - \frac{1}{N_c} \right) \frac {N_c} {N_c -1} p_{cA} (1- p_{cA}) \tag{7.27} \]

Um estimador da variância de \(\widehat p_{cA}\) sob AAS resulta em:

\[ \widehat V_{AAS} (\widehat p_{cA}\;|\;n_c \text{ fixo)}) = \left( \frac 1 {n_c} - \frac{1}{N_c} \right) {\widehat p_{cA} (1 - \widehat p_{cA}) } \,\, \tag{7.28} \] Nas Expressões (7.27) e (7.28), \(n_c\), \(N_c\) e \(p_{cA}\) são, respectivamente, o número de unidades da amostra que pertencem ao domínio, o número total de unidades no domínio e a proporção de unidades no domìnio que possuem o atributo \(A\).

Caso \(N_c\) não seja conhecido, a fração amostral no domínio, \(n_c / N_c\), pode ser aproximada por \(n / N\) na expressão anterior, levando ao estimador:

\[ \widehat V_{AAS} (\widehat p_{cA}\;|\;n_c \text{ fixo)}) = \left( 1 - \frac{n}{N} \right) \frac {\widehat p_{cA} (1 - \widehat p_{cA}) } {n_c} \,\, \tag{7.29} \]

Para completar a inferência sobre uma proporção de unidades portadoras do atributo \(A\) no domínio \(c\), admite-se a validade da aproximação normal para a distribuição de \(\widehat p_{cA}\), tal como no Capítulo 5, e agrega-se uma correção de continuidade. Assim a expressão do intervalo de confiança para a proporção populacional \(p_{cA}\) é dada por:

\[ IC_{AAS} (p_{cA} \, ; \, 1 - \alpha) = \left[ \widehat p_{cA} \mp \left( z_{\alpha / 2} \sqrt{ \widehat V_{AAS} (\widehat p_{cA}) } + \frac{1}{2n_c} \right) \right] \tag{7.30} \] Onde \(\frac 1 {2n_c}\) é a correção de continuidade. Essa correção é, praticamente, nula quando \(n_c\) cresce, como já foi comentado em relação à Expressão (5.34).

7.9 Exercícios

Exercício 7.1 A população total de uma cidade é de \(N = 50.000\) pessoas. Uma amostra de fração amostral igual a 20% é selecionada aleatoriamente sem reposição. Na amostra 4.000 pessoas estão na força de trabalho, das quais 200 estão sem emprego.

  1. Que proporção da força de trabalho está desempregada?
  2. Qual o intervalo com 90% de confiança para essa proporção populacional?

Exercício 7.2 Um economista deseja estimar o gasto médio com alimentação das famílias com crianças em uma determinada localidade conhecida como uma área onde residem famílias pobres. Está disponível uma listagem com os endereços da 250 famílias que habitam a localidade, porém é impossível identificar nesse cadastro as famílias com crianças. Foi selecionada e pesquisada uma AAS de 50 famílias. Destas, 42 famílias têm pelo menos uma criança. Foi apurado que o total do gasto semanal com alimentos dessas 42 famílias foi de 1.720 dólares e que a soma dos quadrados dos gastos dessas mesmas famílias foi de 72.000.

  1. Estime a média semanal dos gastos com alimentação das famílias com criança da localidade.
  2. Construa um intervalo de 95% de confiança para a média estimada.
  3. Estime o total semanal dos gastos com alimentação das famílias com criança da localidade.
  4. Construa um intervalo de 95% de confiança para o total estimado.

Exercício 7.3 Considere a população de \(N = 338\) fazendas produtoras de cana-de-açúcar fornecida no arquivo 'fazendas_dat.rds'. Considere um plano AAS e tamanhos amostrais \(n\) variando no conjunto {5, 10, 20, 50, 100}. Imagine que há interesse em estimar dois parâmetros:

  1. A média da variável Produtividade = Quant / Area.
  2. A produtividade média por unidade de área na população.

Para cada um dos tamanhos de amostra considerados, realize as tarefas abaixo indicadas.

  1. Obtenha 500 amostras por AAS da população de fazendas.
  2. Use cada uma destas amostras para calcular estimativas dos dois parâmetros de interesse e dos respectivos erros padrão.
  3. Use as 500 estimativas pontuais obtidas para cada parâmetro para avaliar:
    • O comportamento do viés dos estimadores.
    • O comportamento do viés dos estimadores dos erros padrão.
    • A adequação da aproximação normal para a distribuição dos estimadores usados.

Exercício 7.4 Considere a população de \(N = 338\) fazendas produtoras de cana-de-açúcar fornecida no arquivo 'fazendas_dat.rds'. Considere agora um plano AAS e dois tamanhos amostrais \(n_1 = 20\) e \(n_2 = 100\). Agora o interesse é estimar a despesa com a produção total de cana para um domínio de interesse, definido como o conjunto de fazendas pertencentes às classes de tamanho 4, 5 e 6.

Para cada um dos tamanhos de amostra considerados, realize as tarefas abaixo indicadas.

  1. Obtenha 500 amostras por AAS da população de fazendas.
  2. Use cada uma destas amostras para calcular estimativas do parâmetro de interesse e dos correspondentes erros padrões supondo que o tamanho do domínio é desconhecido.
  3. Use cada uma destas amostras para calcular estimativas do parâmetro de interesse e dos correspondentes erros padrões supondo que o tamanho do domínio é conhecido.
  4. Use as 500 estimativas pontuais obtidas nos itens b e c para avaliar a adequação da aproximação normal para a distribuição dos estimadores usados e também para avaliar qual dos dois estimadores fornece resultados mais precisos.

Exercício 7.5 Foi realizado um estudo sobre a distância percorrida pelos responsáveis pelos domicílios de uma localidade de suas residências até seus locais de trabalho. Uma AAS de 30 responsáveis foi selecionada entre os 393 responsáveis por domicílios da área em questão. Durante as entrevistas foi verificado que alguns dos selecionados não precisavam se deslocar para o trabalho por estarem aposentados, entre outras razões. Da amostra selecionada, apenas 24 dos responsáveis se adequavam ao estudo. A Tabela 7.2 apresenta a distância percorrida por cada entrevistado para chegar ao trabalho.

Tabela 7.2: Distância, em quilômetros, percorrida para chegar ao trabalho pelos 24 entrevistados
8,5 10,2 25,1 5,0 6,3 7,9 15,8 2,1
9,2 4,2 8,3 4,2 6,7 10,1 15,6 22,1
10,0 6,1 7,9 1,5 8,0 11,0 20,2 9,3
  1. Estime a média da distância entre as residências e os locais de trabalho dos responsáveis pelos domicílios da localidade.
  2. Construa um intervalo de 95% de confiança para a média estimada.
  3. Estime a distância total percorrida pelos responsáveis para chegar aos seus locais de trabalho.
  4. Construa um intervalo de 95% de confiança para o total estimado.

Exercício 7.6 Uma cidade tem 468 escolas das quais uma amostra aleatória simples de 100 escolas foi selecionada. Verificou-se, após a seleção, que 54 eram escolas públicas e as demais, privadas. Foram pesquisados, em cada escola, o número de professores e o número de estudantes. Um resumo das informações é apresentado na Tabela 7.3, onde a variável \(y\) refere-se a alunos e a variável \(x\), a professores.

Tabela 7.3: Resumo das informações amostrais para as 100 escolas da amostra
Tipo \(n\) \(\sum y_i\) \(\sum x_i\) \(\sum y_i^2\) \(\sum x_i^2\) \(\sum y_ix_i\)
Pública 54 31.281 2.024 29.881.219 1.110.901 1.729.349
Privada 46 13.707 1.075 6.366.785 33.119 431.041
  1. Estime o total de alunos para as escolas públicas da cidade e construa um intervalo de 95% de confiança para a estimativa.
  2. Estime o total de alunos para as escolas particulares da cidade e construa um intervalo de 95% de confiança para a estimativa.
  3. Refaça o item a sabendo que existem 251 escolas públicas na cidade. Compare e comente os dois resultados.
  4. Estime a razão (número de professores)/(número de estudantes) para cada tipo de escola e calcule o respectivo erro padrão das estimativas.

Exercício 7.7 Um dentista, o Dr. A, selecionou uma amostra do tipo AAS de tamanho 20 entre 200 crianças de uma comunidade. Ele contou o número de dentes com cárie de cada uma das crianças e o resultado é mostrado na Tabela de frequências 7.4.

Tabela 7.4: Distribuição de frequências do número de dentes cariados por criança
Número de dentes cariados 0 1 2 3 4 5 6 7 8 9 10
Número de crianças 8 4 2 2 1 1 0 0 0 1 1

Outro dentista, o Dr. B, examinou todas as 200 crianças e apenas verificou que 60 delas tinham, pelo menos, um dente com cárie.

  1. Estime a média de dentes cariados na população de crianças utilizando apenas as informações obtidas pelo Dr. A, obtendo, também, um intervalo de 95% de confiança para o parâmetro estimado.
  2. Repita o item a utilizando as informações obtidas pelos dois dentistas.
  3. Estime a média de dentes com cárie somente para as crianças da população que têm dentes cariados, usando somente as informações do Dr. A. Dê um intervalo de 95% de confiança para a média.
  4. Repita o item c utilizando as informações obtidas pelos dois dentistas.

Exercício 7.8 Utilizando o arquivo dos municípios brasileiros, 'MunicBR_dat.rds', selecione uma AAS de 300 municípios. Utilizando as informações contidas nessa amostra:

  1. Estime a área total de cada uma das 5 regiões brasileiras (N, NE, SE, S e CO) e calcule a estimativa do CV para cada caso.
  2. Estime a proporção de municípios brasileiros com população menor que 10.000 habitantes e respectivo erro padrão.
  3. Estime a população total, para o Brasil, dos municípios com menos de 10.000 habitantes e dê um intervalo de 95% de confiança.

Exercício 7.9 Selecione uma amostra de 30 fazendas do arquivo 'fazendas_dat.rds' e estime os seguintes parâmetros populacionais e respectivos erros padrão:

  1. Razão entre Despesa e Receita para os estabelecimentos com área menor que 100.
  2. Razão entre Despesa e Receita para os estabelecimentos com área igual ou maior que 100.
  3. As razões podem ser consideradas iguais ao nível de significância \(\alpha=5\%\)?

Exercício 7.10 Uma granja tem um plantel de 10.000 aves de 5 espécies diferentes. Foi selecionada uma AAS de 100 aves. A Tabela 7.5 apresenta as contagens dos animais da amostra.

Tabela 7.5: Quantidade de aves na amostra por espécie
Espécie Quantidade
Pato 20
Galinha 21
Peru 22
Ganso 18
Marreco 19
Total 100
  1. Estime o total de cada espécie de ave do plantel.
  2. Construa um intervalo de 95% de confiança para cada espécie.