La recodificación de variables es una tarea esencial en el análisis de datos que nos permite transformar datos continuos en categorías más interpretables, facilitando tanto el análisis como la visualización. En este artículo, exploraremos diferentes técnicas para recodificar variables utilizando el poderoso ecosistema tidyverse en R.
1. Preparación del entorno
Primero, cargamos las librerías necesarias y el conjunto de datos con el que trabajaremos:
library(tidyselect) # Para selección avanzada de variables
library(wooldridge) # Paquete con datos de ejemplos econométricos
# Cargamos el dataset wage1 (datos sobre salarios)
data("wage1")
# Visualizamos los datos
wage1 |> View()
El conjunto de datos wage1 contiene información sobre
salarios, educación, experiencia laboral y otras variables socioeconómicas.
Antes de cualquier recodificación, resulta útil explorar la relación entre las
variables existentes.
2. Exploración
visual previa
Primero, examinemos la relación entre los años de educación (educ), el logaritmo del salario (lwage) y el género (female) (es siempre muy importante estudiar las relaciones y las características de las variables):
wage1 |>
# dplyr::filter(educ<=5) |>
ggplot(aes(x=educ, y=lwage, color=factor(female))) +
geom_point() +
geom_jitter(width = 0.4, height = 0, alpha = 0.6) +
geom_smooth(method = "lm")
Este gráfico nos muestra cómo el logaritmo del salario tiende a aumentar con los años de educación, y cómo esta relación varía según el género. La función geom_jitter() añade una pequeña dispersión horizontal para evitar la superposición de puntos, mejorando la visualización.
3. Recodificación Categórica con case_when()
La primera estrategia que exploraremos utiliza la función case_when() para crear categorías educativas basadas en rangos de años de estudio:
wage1 <- wage1 |>
mutate(rango_Educ = case_when(
educ == 0 ~ "0 esco", # Sin escolaridad
educ >= 1 & educ <= 6 ~ "Primaria", # Educación primaria (1-6 años)
educ >= 7 & educ <= 12 ~ "aSecundaria", # Educación secundaria (7-12 a)
educ >= 13 ~ "Terciaria" # Educación superior (13+ años)
),
# Convertimos a factor con orden específico
rango_Educ = factor(rango_Educ, levels = c("0 esco", "Primaria", "aSecundaria", "Terciaria"))
)
Esta recodificación utiliza case_when() para crear categorías educativas significativas. La función evalúa cada condición secuencialmente y asigna la categoría correspondiente. Luego, convertimos la nueva variable en un factor ordenado para mantener la jerarquía natural de los niveles educativos.
Visualicemos cómo se relacionan estos rangos educativos con el salario:
wage1 |>
ggplot(aes(x=rango_Educ, y=wage)) +
geom_boxplot()
Los diagramas de caja nos permiten comparar la
distribución salarial entre los diferentes niveles educativos, mostrando la
mediana, los cuartiles y los valores atípicos para cada grupo.
4. Recodificación por Cuantiles con ntile()
Una alternativa a la categorización arbitraria es dividir los datos en cuantiles utilizando la función ntile():
wage1 <- wage1 |>
mutate(rango_Educ2 = ntile(educ, 5))
Esta técnica divide la variable educ en cinco grupos con
aproximadamente el mismo número de observaciones en cada uno. Es especialmente
útil cuando buscamos crear grupos balanceados sin imponer puntos de corte
arbitrarios.
Visualicemos esta nueva categorización:
wage1 |>
ggplot(aes(x=factor(rango_Educ2), y=wage)) +
geom_boxplot()
Finalmente, calculemos algunas estadísticas por grupo para evaluar las diferencias entre los quintiles educativos:
wage1 |>
group_by(rango_Educ2) |>
summarise(obs = n(), # Número de observaciones
meand_educ = mean(wage, na.rm=T), # Salario medio
vol_educ = meand_educ/sd(wage, na.rm=T))
Este análisis nos proporciona el número de observaciones, el salario medio y una medida de volatilidad relativa para cada quintil educativo.
5. Recodificación con intervalos específicos usando cut()
La función cut() nos permite dividir una variable numérica en intervalos específicos, ofreciendo mayor control sobre los puntos de corte:
wage1 <- wage1 |>
mutate(rango_Educ3 = cut(educ,
breaks = c(0, 6, 12, 16, Inf), # Puntos de corte específicos
labels = c("Básica", "Media", "Universitaria", "Posgrado"),
include.lowest = TRUE, # Incluye el valor mínimo
right = FALSE)) # Intervalos cerrados a la izquierda
# Visualizamos la nueva categorización
wage1 |>
ggplot(aes(x=rango_Educ3, y=wage)) +
geom_boxplot() +
labs(title = "Distribución de salarios por nivel educativo",
x = "Nivel educativo",
y = "Salario por hora ($)")
Esta técnica nos permite definir manualmente los límites de cada categoría, lo que es ideal cuando tenemos umbrales específicos basados en conocimiento del dominio (como los niveles educativos estándar). El parámetro include.lowest = TRUE asegura que el valor mínimo (0 en este caso) se incluya en el primer intervalo, mientras que right = FALSE define intervalos cerrados a la izquierda.
6. Creación de variables dummy con if_else()
Para análisis estadísticos como regresiones, a menudo necesitamos variables binarias (0/1):
wage1 <- wage1 |>
mutate(
# Educación superior (binaria)
educ_superior = if_else(educ >= 13, 1, 0),
# Alta experiencia (binaria)
exper_alta = if_else(exper > median(exper), 1, 0),
# Interacción entre educación superior y género
educ_sup_mujer = educ_superior * female
)
# Visualizamos el efecto de la educación superior en el salario por género
wage1 |>
ggplot(aes(x = factor(educ_superior), y = wage, fill = factor(female))) +
geom_boxplot() +
labs(title = "Efecto de educación superior en salarios por género",
x = "Educación superior",
y = "Salario por hora ($)",
fill = "Mujer")
La función if_else() es perfecta para crear variables binarias, ya que evalúa una condición y asigna un valor para los casos verdaderos y otro para los falsos. En este ejemplo, creamos indicadores para educación superior, alta experiencia, y una interacción entre educación superior y género.
7. Normalización para análisis de desviaciones estándar
La normalización nos permite expresar los valores en términos de cuántas desviaciones estándar se alejan de la media:
wage1 <- wage1 |>
mutate(
# Z-score de educación (normalización)
educ_z = (educ - mean(educ)) / sd(educ),
# Z-score de experiencia
exper_z = (exper - mean(exper)) / sd(exper),
# Z-score de salario
wage_z = (wage - mean(wage)) / sd(wage)
)
# Visualizamos distribución de valores normalizados
wage1 |>
select(educ_z, exper_z, wage_z) |>
pivot_longer(cols = everything(), names_to = "variable", values_to = "valor_z") |>
ggplot(aes(x = valor_z, fill = variable)) +
geom_density(alpha = 0.5) +
geom_vline(xintercept = 0, linetype = "dashed") +
x = "Desviaciones estándar desde la media",
y = "Densidad")
La normalización (cálculo de z-scores) convierte los valores a una escala común donde 0 representa la media y cada unidad representa una desviación estándar. Esto facilita la comparación de variables con diferentes unidades o escalas, y es especialmente útil para identificar valores atípicos y para ciertos modelos estadísticos.