Las diversas estructuras de datos ameritan
diferencias importantes en su tratamiento previo al análisis econométrico, a
partir de las características particulares y ante la posibilidad de obtener
conclusiones falsas (espurias). Gujarati (2008), presenta tres[1]
formas básicas de estructura de datos: (1) Cortes transversales, (2) series de
tiempo y (3) datos de panel; Woolldridge
(2009) incorpora la posibilidad de contar con datos de cortes transversales
combinados, estos se diferencian de los datos de panel porque permite analizar
unidades diferentes a través del tiempo, mientras que las series de tiempo
considera las mismas unidades.
Las bases de datos de corte
transversales
consisten en una muestra de individuos, familias, ciudades, empresas, países,
entre otros. Tomada en un punto especifico
del tiempo. Así el análisis de una encuesta determinada para un periodo
de tiempo fijo, significa un análisis de corte transversal. Por lo general,
estos datos pertenecen a una misma unidad de tiempo o las diferencias de la
distribución en el tiempo por lo general son ignorados. por ejemplo se pueden levantar los datos de la encuesta en un mes determinado, sin embargo esas diferencias en el tiempo no son tomadas en consideración.
(Ejemplo 1: Si tomamos la encuesta ENIGH 2007,
publicada por la ONE, y estimamos el gasto de los hogares en función del
ingreso declarado para el año de la encuesta, estamos realizando un análisis
con datos de corte transversal.)
Cuadro 1 – Ejemplo hipotético de datos de corte transversal para individuos
Obs.
|
Educación
|
Salario
|
Experiencia
|
Sexo
|
Est.
Civil
|
1
|
15
|
152
|
6
|
1
|
0
|
2
|
12
|
100
|
4
|
0
|
0
|
3
|
6
|
92
|
5
|
1
|
1
|
.
|
.
|
.
|
.
|
.
|
.
|
…
|
…
|
…
|
…
|
…
|
…
|
n
|
17
|
200
|
9
|
1
|
0
|
Cuadro 2 – Ejemplo hipotético de datos de corte transversal para países
Obs.
|
País
|
Desempleo
|
PIBpc
|
Infla.
|
1
|
Rep. Dom.
|
14.9
|
152
|
6
|
2
|
España
|
12.3
|
100
|
4
|
3
|
Haití
|
6.5
|
92
|
5
|
.
|
.
|
.
|
.
|
.
|
…
|
…
|
…
|
…
|
…
|
n
|
Grecia
|
20.4
|
200
|
9
|
Los datos
de series de tiempo corresponden, según diversos autores, a un conjunto de
datos ordenados en el tiempo. La primera característica de este grupo de datos
es que difícilmente los datos sean independientes en el tiempo, así la mayoría
de las series económicas están bastante relacionada con sus valores pasados.
(Ejemplo 2: si tomamos el consumo nacional y el
ingreso nacional para un conjunto de años específicos (1991-2012), publicados
por el Banco Central, y estimamos el consumo nacional en función del ingreso
nacional para el periodo dado, estaremos realizando estimaciones con series de
tiempo.)
Cuadro 3- Ejemplos hipotético de datos de series de tiempo
Años
|
Desempleo
|
PIBpc
|
Infla.
|
1991
|
14.9
|
152
|
6
|
1992
|
12.3
|
100
|
4
|
1993
|
6.5
|
92
|
5
|
.
|
.
|
.
|
.
|
…
|
…
|
…
|
…
|
…..
|
…..
|
…..
|
…..
|
2011
|
20.4
|
200
|
9
|
La persistencia de la
series de tiempo respecto a sus valores pasados, es decir “que el pasado
influye en el futuro”, impide que el tratamiento de series de tiempo sea
simétrico respecto al tratamiento de series de datos de corte transversal. Estas series, por lo general,
necesitan someterse a una serie de pruebas econométricas como test de
cointegracion o raíz unitaria antes de ser sometida a los procesos estadísticos
tradicionales como los de mínimos cuadrados.
Los datos de panel o
longitudinales,
consiste en una serie de tiempo por cada unidad de una base de datos de corte
trasversal. Este grupo de datos se distingues de la combinación de cortes
transversales, es que durante los distintos periodos de tiempo se analizan las
mismas unidades.
(Ejemplo 3: Imagine que se dispone de distintas
encuestas ENIGH, para los años comprendidos entre 2000 y 2010, y que la
encuesta se haya levantado sobre los mismos individuos en todos los años. Si
tomamos las características de ingresos y gastos de los individuos para cada
año de la encuesta y lo ordenamos en el tiempo para obtener una observación por
año (es decir 10) para cada individuo, y estimamos un modelo igual al
presentado en el ejemplo No. 1, estaremos trabajando datos de panel.)
Cuadro 3- Ejemplo hipotético de datos de panel o longitudinales
País
|
Años
|
Educación
|
Salario
|
Experiencia
|
Sexo
|
Est.
Civil
|
1
|
1991
|
15
|
152
|
6
|
1
|
0
|
1
|
1991
|
12
|
100
|
4
|
0
|
0
|
1
|
1991
|
6
|
92
|
5
|
1
|
1
|
.
|
.
|
.
|
.
|
.
|
.
|
.
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
2
|
1992
|
15
|
152
|
6
|
1
|
0
|
2
|
1992
|
12
|
100
|
4
|
0
|
0
|
2
|
1992
|
6
|
92
|
5
|
1
|
1
|
.
|
.
|
.
|
.
|
.
|
.
|
.
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
n
|
2011
|
17
|
200
|
9
|
1
|
0
|
El último grupo de datos, combinación de cortes transversales combinan características tanto
de corte transversal como de series de tiempo. Un ejemplo claro de esta es la
combinación de diversas encuestas como la ENIGH o ENHOGAR publicada por la
Oficina Nacional de Estadísticas en distintos puntos del tiempo. Este suele ser
una manera importante de analizar el impacto de políticas.
(Ejemplo 3: Imagine que se dispone de distintas
encuestas ENIGH, para los años comprendidos entre 2000 y 2010, PERO EN ESTE
CASO DE LEVANTARON LOS DATOS SOBRE MUESTRAS O INDIVIDUOS DIFERENTE EN CADA AÑO.
Si tomamos las características de ingresos y gastos de los individuos para cada
año de la encuesta y lo ordenamos en el tiempo para obtener una observación por
año (es decir 10) para cada individuo, y estimamos un modelo igual al
presentado en el ejemplo No. 1, estaremos trabajando una combinación de corte
transversales.)
Cuadro 5 – Ejemplo hipotético de combinación de datos de cortes transversales
Obs.
|
Años
|
Educación
|
Salario
|
Experiencia
|
Sexo
|
Est.
Civil
|
1
|
1991
|
15
|
152
|
6
|
1
|
0
|
2
|
1991
|
12
|
100
|
4
|
0
|
0
|
3
|
1991
|
6
|
92
|
5
|
1
|
1
|
.
|
.
|
.
|
.
|
.
|
.
|
.
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
…..
|
…..
|
…..
|
…..
|
…..
|
…..
|
…..
|
4
|
1992
|
15
|
152
|
6
|
1
|
0
|
5
|
1992
|
12
|
100
|
4
|
0
|
0
|
6
|
1992
|
6
|
92
|
5
|
1
|
1
|
.
|
.
|
.
|
.
|
.
|
.
|
.
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
…..
|
…..
|
…..
|
…..
|
…..
|
…..
|
…..
|
n
|
2011
|
17
|
200
|
9
|
1
|
0
|
Finalmente es importante recordar que cualquier tipo de análisis en econometría requiere un tratamiento consciente sobre los datos perdidos, valores influyentes, datos atípicos e información sobre el tipo de distiribución de las variables, cuestiones relativas a las estadisticas descriptiva que se pueden abordar en los libros de texto. Mientras que enfrentamos además problemas de endogenidad y autocorrelación son tópicos que se abordan en la medida en que se avanza en el estudio de la econometría, estos se abordan en la segunda parte del presente artículo.
SEGUNDA PARTE: Estructura de datos, una segunda consideración importante para el análisis econométrico
Referencias
Gujarati,
Danomar; “Econometría”, 5ta. Ed.
Wooldridge, M. Jeffrey; “Introducción a la econometría:
un enfoque moderno”, 4ta. Ed.
[1]
Señala brevemente, en la introducción al libro, que las combinaciones de datos
pueden ser de series de tiempo como de cortes transversales, pero solo detalla
el caso de combinar series de tiempo.