En la primera consideración sobre la estructura de datos (ver),
se indicaba que existen en economía tres tipos de datos, a saber: i) datos de cortes
transversales, referidos a información en un único punto temporal; ii)
datos de series temporales, que registran información en distintos
puntos temporales, ordenada en secuencia temporal usualmente regular; y,
iii) datos de panel, que pueden ser combinación de cortes
transversales o datos panel, dependiendo de si las unidades observadas en cada
periodo del tiempo son distintas o se mantenían sin cambios, respectivamente.
Sobre estas bases, los economistas realizan el análisis estadístico
estándar para inferir asociación entre variables o estimar probabilidades de
eventos, conscientes de que el tipo de variable disponible en nuestra
base de datos, condiciona el tipo de análisis a realizar. Por ejemplo, en
los estudios de independencia entre fenómenos, se verifica que en el caso de variables
cuantitativas se utiliza el análisis de correlación; para variables
cualitativas se utiliza el test chi-cuadrado de independencia; sin
embargo, cuando intervienen ambos tipos de variables (cualitativas o
cuantitativas) se proponen los test ANOVA o t-student, dependiendo de la
cantidad de categorías incluidas en la variable cualitativa. Abundando los
ejemplos en la economía empírica, de cómo el tipo de variables condiciona el análisis
a realizar.
Ahora bien, más allá del tipo de variable y la estructura de las
bases de datos, en el análisis económico intervienen otros aspectos relevantes
para la consecución de un efecto causal, como es el requerimiento del
cumplimiento de ciertas equivalencias entre los grupos comparados, que
justifiquen esta comparación entre el grupo tratado y el grupo
control. Por tanto, en esta segunda entrada se pretenden enunciar (sin ánimo
de entrar en detalles) algunas consideraciones adicionales sobre los datos
utilizados por los economistas, y explicar brevemente como estas
consideraciones intervienen en el marco de los análisis económicos y la
posterior determinación de un efecto causal, que se define como la
diferencia entre el valor observado en la variable dependiente en el caso en
que estuviese sometida a la variable causa y el efecto que se observaría si
esto no fuera así (Holland, 1986), lo que se conoce también como la comparación
de los hechos observados frente a los hechos hipotéticos considerados
(contrafactual).
Datos no experimentales y efecto causal
Puntualmente, la determinación de efectos causales constituye un
objetivo fundamental en la economía, donde se crean hipótesis para vincular
causalmente diversos fenómenos y testear esta relación a partir de la evidencia
empírica. En todo este proceso, los datos intervienen directamente, por lo que,
constituyen una pieza fundamental en el proceso de investigación de los
economistas, con la salvedad de que estos datos por lo general no han
sido recolectados en un contexto experimental (donde la función de
densidad es independiente al tratamiento), ni representan una asignación
aleatoria del tratamiento entre los individuos. Por tanto, dado que la
evidencia empírica se testea a partir de datos que han sido recogidos mediante
procedimientos no experimentales, como resultado de la observación del mundo
real (por lo que usualmente son llamados datos observacionales o no
experimentales), los economistas enfrentan ciertas dificultades para poder
determinar causalidad a partir de la naturaleza de los datos utilizados.
En este sentido, la posibilidad de alcanzar un efecto causal, está
limitado por el diseño de las investigaciones sobre datos observacionales,
debiendo este diseño garantizar un control de la varianza de los factores de
interés, los factores de control y los factores externo, con el objetivo de “identificar
y balancear” las características de los individuos, observables a partir de
variables, para poder realizar comparaciones entre grupos e inferir causalidad
(Maldonado, et al., 2008), dado que por lo general, la comparación directa del
resultado por estado ofrece resultados sesgados. Teniendo estas
consideraciones una importancia transversal en áreas como el análisis de
políticas públicas (Albarrán, 2011) o la estimación del daño en los estudios de
competencia.
Selección de muestra y autoselección
En el caso de cortes transversales, se suele realizar el supuesto
de que las observaciones se han obtenido de muestreo aleatorio, por lo que, las
observaciones son independientes. Sin embargo, cuando los datos no
pertenecen a una muestra aleatoria, ni han sido elegidos mediante un proceso
experimental, se suele presentar el problema de selección de muestra.
En términos llanos, este problema indica que segmentos específicos de la
muestra, muestran características endógenas que interferirán
en la consecución de un efecto causal. En palabras, las diferencias observadas
entre grupos, al comparar promedios de alguna variable de interés, puede estar
asociada a diferencias propias de cada grupo, distintas al tratamiento
estudiado, o puntualmente, los grupos muestran características distintivas que
dificultan su comparación.
Adicionalmente, para identificar los factores de interés, es
importante considerar que “los individuos responden a incentivos”, aunque
sujetos a restricciones, por lo que, el proceso en que un individuo se acoge a
las condiciones de un tratamiento (como la decisión de participar en el mercado
laboral, participar en un programa de capacitación en informática o vivir en la
zona rural), está por lo general asociado a ciertas características particulares
de estos. Estas circunstancias hacen que la segmentación de los grupos
comparados en los datos observacionales, la ubicación de cada individuo (proceso
de selección) en el grupo control o tratamiento, este sujeta a la decisión
del individuo (autoselección).
Autocorrelación y series temporales
En el caso de las series temporales univariadas, es imprescindible
tener en cuenta el concepto de estacionariedad y orden de integración de las
series, dado que la frecuente ausencia de estacionariedad en los datos, impide
que los momentos de estas series estén definidos. Por lo que, cuestiones tan
simples como estimar el promedio, es incorrecto cuando las series son
estacionarias (Novales, 2014). Adicionalmente, en el caso multivariado, el
estudio de las relaciones entre las series está condicionado a un conjunto de
supuestos, entre estos que las series no presenten tendencia, dado que implica
la posibilidad de obtener relaciones espurias o falsas, al capturar la relación
entre las tendencias.
En resumen
Finalmente, dadas las peculiaridades de los datos utilizados por
los economistas, es necesario el diseño de técnicas para garantizar la
independencia de los datos y balancear las condiciones entre grupos, es decir,
donde cada grupo sea comparable a partir de las variables observadas. Por
tanto, se debe decidir cómo utilizar las variables disponibles para la
conformación de los grupos, de forma tal que garanticen la independencia
condicional a las variables observables. En el caso de series temporales,
debemos realizar estudios de estacionariedad, integración y cointegración,
antes de estimar modelos de regresión.
Referencias
Albarrán, P. (2011). Análisis de causalidad y evaluación de políticas
públicas. Universidad de Alicante.
Cortés, F. (2018). Observación, causalidad y explicación
causal. Perfiles Latinoamericanos.
Friedman, Milton (1953). Metodología de la Economía Positiva.
Universidad de Chicago.
Maldonado, L.; Rioseco, E. y Grocco, G. (2008). Estrategia para la
inferencia causal y planificación de estudios en las ciencias sociales. Chile.
Novales, Alfonso (2014). Curso de econometría financiera II.
Universidad Complutense de Madrid.