4 nov 2020

Una demostración del teorema del límite central en R

"El Teorema Central del Límite indica que, en condiciones muy generales, la distribución de la suma de variables aleatorias tiende a una distribución normal cuando la cantidad de variables es muy grande. Es decir, garantiza una distribución normal cuando n es suficientemente grande" (Gómez y Benlloch, nd).

En el siguiente ejemplo se muestra como la distribución de medias muéstrales tiende hacia una distribución normal, aunque las muestras no procedan de una distribución normal. Esta aproximación será más cercana en la medida en que aumente la cantidad de muestras usadas. 

Usando la data Wage1 del texto de Econometría Wooldridge, se toma una muestra de tamaño 70 sobre la variable wage, para obtener el estadístico de la media a partir de esa muestra.

library(tidyverse)

library(wooldridge)

 attach(wage1)


# semilla

set.seed(1)


# toma una muestra n=70, con reemplazo.

sample(wage, size = 70, replace = TRUE) %>%

  mean()

[1] 5.252571

Obtenemos la distribución en el muestreo del estadístico al repetir el proceso 10 veces usando la función replicate, es decir, repetimos el procedimiento anterior 10 veces, obteniendo 10 medias (una para cada muestra), que al asignarle probabilidades se obtiene una distribución en el muestreo del estadístico, sobre las que dibujamos un histograma.

 dist_mues_media1 <- replicate(10, sample(wage, size = 70, replace = TRUE) %>% mean())

 dist_mues_media1 %>%  data.frame() %>%

 ggplot(aes(.)) +

  geom_histogram(bins=10)

Ahora repetimos el ejercicio anterior, pero obteniendo 100 muestras de igual tamaño, para verificar como la distribución en el muestreo converge a una distribución normal.

 dist_mues_media2 <- replicate(100, sample(wage, size = 70, replace = TRUE) %>% mean())

 dist_mues_media2 %>%  data.frame() %>%

  ggplot(aes(.)) +

  geom_histogram(bins=10)

Finalmente, se verifica como el promedio (centro de la distribución anterior) se va acercando al promedio de la población global (o "parámetro poblacional") en la medida en que crece la cantidad de muestras usadas para crear la distribución en el muestreo.

> mean(wage)

[1] 5.896103


> mean(dist_mues_media1)

[1] 6.015486

> mean(dist_mues_media2)

[1] 5.853953

Referencias

- Benlloch, M.; Gómez, M. (nd). Utilización Práctica del Teorema Central del Límite. Universidad Politécnica de Valencia.

- Data Camp (2020). Introduction to statistics in R. 

Creando variables por grupos en dplyr (group_by + mutate)

  Simulemos una base de hogares, donde se identifica el hogar, el sexo (1 mujer) y provincia y edad para cada miembro.   # Definir la lista ...