9 ago 2012

Estructura de datos, una consideración importante para el análisis econométrico (I)


Las diversas estructuras de datos ameritan diferencias importantes en su tratamiento previo al análisis econométrico, a partir de las características particulares y ante la posibilidad de obtener conclusiones falsas (espurias). Gujarati (2008), presenta tres[1] formas básicas de estructura de datos: (1) Cortes transversales, (2) series de tiempo y (3) datos de panel; Woolldridge (2009) incorpora la posibilidad de contar con datos de cortes transversales combinados, estos se diferencian de los datos de panel porque permite analizar unidades diferentes a través del tiempo, mientras que las series de tiempo considera las mismas unidades.


Las bases de datos de corte transversales consisten en una muestra de individuos, familias, ciudades, empresas, países, entre otros. Tomada en un punto especifico del tiempo. Así el análisis de una encuesta determinada para un periodo de tiempo fijo, significa un análisis de corte transversal. Por lo general, estos datos pertenecen a una misma unidad de tiempo o las diferencias de la distribución en el tiempo por lo general son ignorados. por ejemplo se pueden levantar los datos de la encuesta en un mes determinado, sin embargo esas diferencias en el tiempo no son tomadas en consideración.

(Ejemplo 1: Si tomamos la encuesta ENIGH 2007, publicada por la ONE, y estimamos el gasto de los hogares en función del ingreso declarado para el año de la encuesta, estamos realizando un análisis con datos de corte transversal.)

Cuadro 1 – Ejemplo hipotético de datos de corte transversal para individuos
Obs.
Educación
Salario
Experiencia
Sexo
Est. Civil
1
15
152
6
1
0
2
12
100
4
0
0
3
6
92
5
1
1
.
.
.
.
.
.
n
17
200
9
1
0

Cuadro 2 – Ejemplo hipotético de datos de corte transversal para países
Obs.
País
Desempleo
PIBpc
Infla.
1
Rep. Dom.
14.9
152
6
2
España
12.3
100
4
3
Haití
6.5
92
5
.
.
.
.
.
n
Grecia
20.4
200
9

Los datos de series de tiempo corresponden, según diversos autores, a un conjunto de datos ordenados en el tiempo. La primera característica de este grupo de datos es que difícilmente los datos sean independientes en el tiempo, así la mayoría de las series económicas están bastante relacionada con sus valores pasados.


(Ejemplo 2: si tomamos el consumo nacional y el ingreso nacional para un conjunto de años específicos (1991-2012), publicados por el Banco Central, y estimamos el consumo nacional en función del ingreso nacional para el periodo dado, estaremos realizando estimaciones con series de tiempo.)

Cuadro 3- Ejemplos hipotético de datos de series de tiempo
Años
Desempleo
PIBpc
Infla.
1991
14.9
152
6
1992
12.3
100
4
1993
6.5
92
5
.
.
.
.
…..
…..
…..
…..
2011
20.4
200
9

La persistencia de la series de tiempo respecto a sus valores pasados, es decir “que el pasado influye en el futuro”, impide que el tratamiento de series de tiempo sea simétrico respecto al tratamiento de series de datos de corte transversal. Estas series, por lo general, necesitan someterse a una serie de pruebas econométricas como test de cointegracion o raíz unitaria antes de ser sometida a los procesos estadísticos tradicionales como los de mínimos cuadrados.

Los datos de panel o longitudinales, consiste en una serie de tiempo por cada unidad de una base de datos de corte trasversal. Este grupo de datos se distingues de la combinación de cortes transversales, es que durante los distintos periodos de tiempo se analizan las mismas unidades.

(Ejemplo 3: Imagine que se dispone de distintas encuestas ENIGH, para los años comprendidos entre 2000 y 2010, y que la encuesta se haya levantado sobre los mismos individuos en todos los años. Si tomamos las características de ingresos y gastos de los individuos para cada año de la encuesta y lo ordenamos en el tiempo para obtener una observación por año (es decir 10) para cada individuo, y estimamos un modelo igual al presentado en el ejemplo No. 1, estaremos trabajando datos de panel.)

Cuadro 3- Ejemplo hipotético de datos de panel o longitudinales
País
Años
Educación
Salario
Experiencia
Sexo
Est. Civil
1
1991
15
152
6
1
0
1
1991
12
100
4
0
0
1
1991
6
92
5
1
1
.
.
.
.
.
.
.
2
1992
15
152
6
1
0
2
1992
12
100
4
0
0
2
1992
6
92
5
1
1
.
.
.
.
.
.
.
n
2011
17
200
9
1
0

El último grupo de datos, combinación de cortes transversales combinan características tanto de corte transversal como de series de tiempo. Un ejemplo claro de esta es la combinación de diversas encuestas como la ENIGH o ENHOGAR publicada por la Oficina Nacional de Estadísticas en distintos puntos del tiempo. Este suele ser una manera importante de analizar el impacto de políticas.

(Ejemplo 3: Imagine que se dispone de distintas encuestas ENIGH, para los años comprendidos entre 2000 y 2010, PERO EN ESTE CASO DE LEVANTARON LOS DATOS SOBRE MUESTRAS O INDIVIDUOS DIFERENTE EN CADA AÑO. Si tomamos las características de ingresos y gastos de los individuos para cada año de la encuesta y lo ordenamos en el tiempo para obtener una observación por año (es decir 10) para cada individuo, y estimamos un modelo igual al presentado en el ejemplo No. 1, estaremos trabajando una combinación de corte transversales.)

Cuadro 5 – Ejemplo hipotético de combinación de datos de cortes transversales
Obs.
Años
Educación
Salario
Experiencia
Sexo
Est. Civil
1
1991
15
152
6
1
0
2
1991
12
100
4
0
0
3
1991
6
92
5
1
1
.
.
.
.
.
.
.
…..
…..
…..
…..
…..
…..
…..
4
1992
15
152
6
1
0
5
1992
12
100
4
0
0
6
1992
6
92
5
1
1
.
.
.
.
.
.
.
…..
…..
…..
…..
…..
…..
…..
n
2011
17
200
9
1
0

Finalmente es importante recordar que cualquier tipo de análisis en econometría requiere un tratamiento consciente sobre los datos perdidos, valores influyentes, datos atípicos e información sobre el tipo de distiribución de las variables, cuestiones relativas a las estadisticas descriptiva que se pueden abordar en los libros de texto. Mientras que enfrentamos además problemas de endogenidad y autocorrelación son tópicos que se abordan en la medida en que se avanza en el estudio de la econometría, estos se abordan en la segunda parte del presente artículo. 


Referencias

Gujarati, Danomar; “Econometría”, 5ta. Ed.

Wooldridge, M. Jeffrey; “Introducción a la econometría: un enfoque moderno”, 4ta. Ed.


[1] Señala brevemente, en la introducción al libro, que las combinaciones de datos pueden ser de series de tiempo como de cortes transversales, pero solo detalla el caso de combinar series de tiempo.

Recodificación de variables usando dplyr en R

Una base de datos suele tener diversos tipos de variables del tipo cualitativo y cuantitativo. En función del tipo de variables aplicamos di...