11 dic 2018

Estructura de datos, una segunda consideración importante para el análisis econométrico (II)

En la primera consideración sobre la estructura de datos (ver), se indicaba que existen en economía tres tipos de datos, a saber: i) datos de cortes transversales, referidos a información en un único punto temporal; ii) datos de series temporales, que registran información en distintos puntos temporales, ordenada en secuencia temporal usualmente regular; y, iii) datos de panel, que pueden ser combinación de cortes transversales o datos panel, dependiendo de si las unidades observadas en cada periodo del tiempo son distintas o se mantenían sin cambios, respectivamente. 

Sobre estas bases, los economistas realizan el análisis estadístico estándar para inferir asociación entre variables o estimar probabilidades de eventos, conscientes de que el tipo de variable disponible en nuestra base de datos, condiciona el tipo de análisis a realizar. Por ejemplo, en los estudios de independencia entre fenómenos, se verifica que en el caso de variables cuantitativas se utiliza el análisis de correlación; para variables cualitativas se utiliza el test chi-cuadrado de independencia; sin embargo, cuando intervienen ambos tipos de variables (cualitativas o cuantitativas) se proponen los test ANOVA o t-student, dependiendo de la cantidad de categorías incluidas en la variable cualitativa. Abundando los ejemplos en la economía empírica, de cómo el tipo de variables condiciona el análisis a realizar. 

Ahora bien, más allá del tipo de variable y la estructura de las bases de datos, en el análisis económico intervienen otros aspectos relevantes para la consecución de un efecto causal, como es el requerimiento del cumplimiento de ciertas equivalencias entre los grupos comparados, que justifiquen esta comparación entre el grupo tratado y el grupo control. Por tanto, en esta segunda entrada se pretenden enunciar (sin ánimo de entrar en detalles) algunas consideraciones adicionales sobre los datos utilizados por los economistas, y explicar brevemente como estas consideraciones intervienen en el marco de los análisis económicos y la posterior determinación de un efecto causal, que se define como la diferencia entre el valor observado en la variable dependiente en el caso en que estuviese sometida a la variable causa y el efecto que se observaría si esto no fuera así (Holland, 1986), lo que se conoce también como la comparación de los hechos observados frente a los hechos hipotéticos considerados (contrafactual).  

Datos no experimentales y efecto causal

Puntualmente, la determinación de efectos causales constituye un objetivo fundamental en la economía, donde se crean hipótesis para vincular causalmente diversos fenómenos y testear esta relación a partir de la evidencia empírica. En todo este proceso, los datos intervienen directamente, por lo que, constituyen una pieza fundamental en el proceso de investigación de los economistas, con la salvedad de que estos datos por lo general no han sido recolectados en un contexto experimental (donde la función de densidad es independiente al tratamiento), ni representan una asignación aleatoria del tratamiento entre los individuos. Por tanto, dado que la evidencia empírica se testea a partir de datos que han sido recogidos mediante procedimientos no experimentales, como resultado de la observación del mundo real (por lo que usualmente son llamados datos observacionales no experimentales), los economistas enfrentan ciertas dificultades para poder determinar causalidad a partir de la naturaleza de los datos utilizados.

En este sentido, la posibilidad de alcanzar un efecto causal, está limitado por el diseño de las investigaciones sobre datos observacionales, debiendo este diseño garantizar un control de la varianza de los factores de interés, los factores de control y los factores externo, con el objetivo de “identificar y balancear” las características de los individuos, observables a partir de variables, para poder realizar comparaciones entre grupos e inferir causalidad (Maldonado, et al., 2008), dado que por lo general, la comparación directa del resultado por estado ofrece resultados sesgados. Teniendo estas consideraciones una importancia transversal en áreas como el análisis de políticas públicas (Albarrán, 2011) o la estimación del daño en los estudios de competencia.

Selección de muestra y autoselección

En el caso de cortes transversales, se suele realizar el supuesto de que las observaciones se han obtenido de muestreo aleatorio, por lo que, las observaciones son independientes. Sin embargo, cuando los datos no pertenecen a una muestra aleatoria, ni han sido elegidos mediante un proceso experimental, se suele presentar el problema de selección de muestra. En términos llanos, este problema indica que segmentos específicos de la muestra, muestran características endógenas que interferirán en la consecución de un efecto causal. En palabras, las diferencias observadas entre grupos, al comparar promedios de alguna variable de interés, puede estar asociada a diferencias propias de cada grupo, distintas al tratamiento estudiado, o puntualmente, los grupos muestran características distintivas que dificultan su comparación.

Adicionalmente, para identificar los factores de interés, es importante considerar que “los individuos responden a incentivos”, aunque sujetos a restricciones, por lo que, el proceso en que un individuo se acoge a las condiciones de un tratamiento (como la decisión de participar en el mercado laboral, participar en un programa de capacitación en informática o vivir en la zona rural), está por lo general asociado a ciertas características particulares de estos. Estas circunstancias hacen que la segmentación de los grupos comparados en los datos observacionales, la ubicación de cada individuo (proceso de selección) en el grupo control o tratamiento, este sujeta a la decisión del individuo (autoselección). 

Autocorrelación y series temporales

En el caso de las series temporales univariadas, es imprescindible tener en cuenta el concepto de estacionariedad y orden de integración de las series, dado que la frecuente ausencia de estacionariedad en los datos, impide que los momentos de estas series estén definidos. Por lo que, cuestiones tan simples como estimar el promedio, es incorrecto cuando las series son estacionarias (Novales, 2014). Adicionalmente, en el caso multivariado, el estudio de las relaciones entre las series está condicionado a un conjunto de supuestos, entre estos que las series no presenten tendencia, dado que implica la posibilidad de obtener relaciones espurias o falsas, al capturar la relación entre las tendencias.

En resumen

Finalmente, dadas las peculiaridades de los datos utilizados por los economistas, es necesario el diseño de técnicas para garantizar la independencia de los datos y balancear las condiciones entre grupos, es decir, donde cada grupo sea comparable a partir de las variables observadas. Por tanto, se debe decidir cómo utilizar las variables disponibles para la conformación de los grupos, de forma tal que garanticen la independencia condicional a las variables observables. En el caso de series temporales, debemos realizar estudios de estacionariedad, integración y cointegración, antes de estimar modelos de regresión.

 Referencias

Albarrán, P. (2011). Análisis de causalidad y evaluación de políticas públicas. Universidad de Alicante.

Cortés, F. (2018). Observación, causalidad y explicación causal. Perfiles Latinoamericanos.

Friedman, Milton (1953). Metodología de la Economía Positiva. Universidad de Chicago.

Maldonado, L.; Rioseco, E. y Grocco, G. (2008). Estrategia para la inferencia causal y planificación de estudios en las ciencias sociales. Chile.


Novales, Alfonso (2014). Curso de econometría financiera II. Universidad Complutense de Madrid. 



Recodificación de variables usando dplyr en R

Una base de datos suele tener diversos tipos de variables del tipo cualitativo y cuantitativo. En función del tipo de variables aplicamos di...