Regresión
Hasta ahora se ha visto como describir el comportamiento de una variable, pero en los fenómenos naturales normalmente aparecen más de una variable que suelen estar relacionadas. Por ejemplo, en un estudio sobre el peso de las personas, deberíamos incluir todas las variables con las que podría tener relación: altura, edad, sexo, dieta, tabaco, ejercicio físico, etc.
Para comprender el fenómeno no basta con estudiar cada variable por separado y es preciso un estudio conjunto de todas las variables para ver cómo interactúan y qué relaciones se dan entre ellas. El objetivo de la estadística en este caso es dar medidas del grado y del tipo de relación entre dichas variables.
Generalmente, en un estudio de dependencia se considera una variable dependiente
El caso más simple es el de una sola variable independiente, y en tal caso se habla de estudio de dependencia simple. Para más de una variable independiente se habla de estudio de dependencia múltiple.
En este capítulo se verán los estudios de dependencia simple que son más sencillos.
Distribución de frecuencias conjunta
Frecuencias conjuntas
Al estudiar la dependencia simple entre dos variables
Definición - Frecuencias muestrales conjuntas. Dada una muestra de tamaño
- Frecuencia absoluta
: Es el número de veces que el par aparece en la muestra. - Frecuencia relativa
: Es la proporción de veces que el par aparece en la muestra.
Distribución de frecuencias bidimensional
Al conjunto de valores de la variable bidimensional y sus respectivas frecuencias muestrales se le denomina distribución de frecuencias bidimensional, y se representa mediante una tabla de frecuencias bidimensional.
Ejemplo (datos agrupados). La estatura (en cm) y el peso (en Kg) de una muestra de 30 estudiantes es:
(172,62), (166,60), (194,90), (185,75), (162,55), (187,78),
(198,109), (177,61), (178,70), (165,58), (154,50), (183,93),
(166,51), (171,65), (175,70), (182,60), (167,59), (169,62),
(172,70), (186,71), (172,54), (176,68),(168,67), (187,80).
La tabla de frecuencias bidimensional es
Diagrama de dispersión
La distribución de frecuencias conjunta de una variable bidimensional puede representarse gráficamente mediante un diagrama de dispersión, donde los datos se representan como una colección de puntos en un plano cartesiano.
Habitualmente la variable independiente se representa en el eje
El resultado es un conjunto de puntos que se conoce como nube de puntos.
Ejemplo. El siguiente diagrama de dispersión representa la distribución conjunta de estaturas y pesos de la muestra anterior.
Distribuciones marginales
A cada una de las distribuciones de las variables que conforman la variable bidimensional se les llama .
Las distribuciones marginales se pueden obtener a partir de la tabla de frecuencias bidimensional, sumando las frecuencias por filas y columnas.
Ejemplo. En el ejemplo anterior de las estaturas y los pesos, las distribuciones marginales son
y los estadísticos correspondientes son
Covarianza
Para analizar la relación entre dos variables cuantitativas es importante hacer un estudio conjunto de las desviaciones respecto de la media de cada variable.
Si dividimos la nube de puntos del diagrama de dispersión en 4 cuadrantes centrados en el punto de medias
Cuadrante | |||
---|---|---|---|
1 | |||
2 | |||
3 | |||
4 |
Si la relación entre las variables es lineal y creciente, entonces la mayor parte de los puntos estarán en los cuadrantes 1 y 3 y la suma de los productos de desviaciones será positiva.
Si la relación entre las variables es lineal y decreciente, entonces la mayor parte de los puntos estarán en los cuadrantes 2 y 4 y la suma de los productos de desviaciones será negativa.
Usando el producto de las desviaciones respecto de las medias surge el siguiente estadístico.
Definición - Covarianza muestral. La covarianza muestral de una variable aleatoria bidimensional
También puede calcularse de manera más sencilla mediante la fórmula
La covarianza sirve para estudiar la relación lineal entre dos variables:
- Si
existe una relación lineal creciente. - Si
existe una relación lineal decreciente. - Si
no existe relación lineal.
Ejemplo. Utilizando la tabla de frecuencias bidimensional de la muestra de estaturas y pesos
la covarianza vale
Esto indica que existe una relación lineal creciente entre la estatura y el peso.
Regresión
En muchos casos el objetivo de un estudio no es solo detectar una relación entre dos variables, sino explicarla mediante alguna función matemática
La regresión es la parte de la Estadística encargada de construir esta función, que se conoce como función de regresión o modelo de regresión.
Modelos de regresión simple
Dependiendo de la forma de función de regresión, existen muchos tipos de regresión simple. Los más habituales son los que aparecen en la siguiente tabla:
Modelo | Ecuación |
---|---|
Lineal | |
Cuadrático | |
Cúbico | |
Potencial | |
Exponencial | |
Logarítmico | |
Inverso | |
Sigmoidal |
La elección de un tipo u otro depende de la forma que tenga la nube de puntos del diagrama de dispersión.
Residuos o errores predictivos
Una vez elegida la familia de curvas que mejor se adapta a la nube de puntos, se determina, dentro de dicha familia, la curva que mejor se ajusta a la distribución, es decir, la función que mejor predice la variable dependiente.
El objetivo es encontrar la función de regresión que haga mínimas las distancias entre los valores de la variable dependiente observados en la muestra, y los predichos por la función de regresión. Estas distancias se conocen como residuos o errores predictivos.
Definición - Residuos o errores predictivos. Dado el modelo de regresión
Ajuste de mínimos cuadrados
Una forma posible de obtener la función de regresión es mediante el método de mínimos cuadrados que consiste en calcular la función que haga mínima la suma de los cuadrados de los residuos
En el caso de un modelo de regresión lineal
Así pues, todo se reduce a buscar los valores
Considerando la suma de los cuadrados de los residuos como una función de dos variables
Tras resolver el sistema se obtienen los valores
Estos valores hacen mínimos los residuos en
Recta de regresión
Definición - Recta de regresión. Dada una variable bidimensional
Ejemplo. Utilizando la muestra anterior de estaturas (
la recta de regresión del peso sobre la estatura es
De igual modo, si tomamos la estatura como variable dependiente, la recta de regresión de la estatura sobre el peso es
Posición relativa de las rectas de regresión
Habitualmente, las rectas de regresión
Si entre las variables la relación lineal es perfecta, entonces ambas rectas coinciden ya que esa recta hace tanto los residuos en
Si no hay relación lineal, entonces las ecuaciones de las rectas son constantes e iguales a las respectivas medias,
y se cortan perpendicularmente.
Coeficiente de regresión
El parámetro más importante de una recta de regresión es su pendiente.
Definición - Coeficiente de regresión
Ejemplo. En el ejemplo de las estaturas y los pesos, la recta de regresión del peso sobre la estatura era
de manera que el coeficiente de regresión del peso sobre la estatura es
Esto significa que, según la recta de regresión del peso sobre la estatura, por cada cm más de estatura, la persona pesará
Predicciones con las rectas de regresión
Las rectas de regresión, y en general cualquier modelo de regresión, suele utilizarse con fines predictivos.
Ejemplo. En la muestra de las estaturas y los pesos, si se quiere predecir el peso de una persona que mide 180 cm, se debe utilizar la recta de regresión del peso sobre la estatura,
Y si se quiere predecir la estatura de una persona que pesa 79 Kg, se debe utilizar la recta de regresión de la estatura sobre el peso,
Ahora bien, ¿qué fiabilidad tienen estas predicciones?
Correlación
Una vez construido un modelo de regresión, para saber si se trata de un buen modelo predictivo, se tiene que analizar el grado de dependencia entre las variables según el tipo de dependencia planteada en el modelo. De ello se encarga la parte de la estadística conocida como correlación.
La correlación se basa en el estudio de los residuos: cuanto menores sean éstos, más se ajustará la curva de regresión a los puntos, y más intensa será la correlación.
Varianza residual muestral
Una medida de la bondad del ajuste del modelo de regresión es la varianza residual.
Definición - Varianza residual muestral
Cuanto más alejados estén los puntos de la curva de regresión, mayor será la varianza residual y menor la dependencia.
Cuando la relación lineal es perfecta los residuos se anulan y la varianza residual vale cero. Por contra, cuando no existe relación, los residuos coinciden con las desviaciones de la media, y la varianza residual es igual a la varianza de la variable dependiente.
Descomposición de la variabilidad total: Variabilidad explicada y no explicada

Coeficiente de determinación
A partir de la varianza residual se puede definir otro estadístico más sencillo de interpretar.
Definición - Coeficiente de determinación muestral
Como la varianza residual puede tomar valores entre 0 y
Cuanto mayor sea
- Si
entonces no existe relación del tipo planteado por el modelo. - Si
entonces la relación que plantea el modelo es perfecta.
En el caso de las rectas de regresión, el coeficiente de determinación puede calcularse con esta fórmula
Cuando el modelo ajustado es la recta de regresión la varianza residual vale
y, por tanto, el coeficiente de determinación lineal vale
Ejemplo. En el ejemplo de las estaturas y pesos se tenía
De modo que el coeficiente de determinación lineal vale
Esto indica que la recta de regresión del peso sobre la estatura explica el 65% de la variabilidad del peso, y de igual modo, la recta de regresión de la estatura sobre el peso explica el 65% de la variabilidad de la estatura.
Coeficiente de correlación lineal
Definición - Coeficiente de correlación lineal muestral. Dada una variable bidimensional
Como
El coeficiente de correlación lineal no sólo mide mide el grado de dependencia lineal sino también su dirección (creciente o decreciente):
- Si
entonces no existe relación lineal. - Si
entonces existe una relación lineal creciente perfecta. - Si
entonces existe una relación lineal decreciente perfecta.
Ejemplo. En el ejemplo de las estaturas y los pesos se tenía
De manera que el coeficiente de correlación lineal es
Esto indica que la relación lineal entre el peso y la estatura es fuerte, y además creciente.
Distintos grados de correlación
Los siguientes diagramas de dispersión muestran modelos de regresión lineales con diferentes grados de correlación.
Fiabilidad de las predicciones de un modelo de regresión
Aunque el coeficiente de determinación o el de correlación determinan la bondad de ajuste de un modelo de regresión, existen otros factores que influyen en la fiabilidad de las predicciones de un modelo de regresión:
- El coeficiente de determinación: Cuanto mayor sea, menores serán los errores predictivos y mayor la fiabilidad de las predicciones.
- La variabilidad de la población: Cuanto más variable es una población, más difícil es predecir y por tanto menos fiables serán las predicciones.
- El tamaño muestral: Cuanto mayor sea, más información tendremos y, en consecuencia, más fiables serán las predicciones.
Regresión no lineal
El ajuste de un modelo de regresión no lineal es similar al del modelo lineal y también puede realizarse mediante la técnica de mínimos cuadrados.
No obstante, en determinados casos un ajuste no lineal puede convertirse en un ajuste lineal mediante una sencilla transformación de alguna de las variables del modelo.
Transformación de modelos de regresión no lineales
-
Logarítmico: Un modelo logarítmico
se convierte en un modelo lineal haciendo el cambio : -
Exponencial: Un modelo exponencial
se convierte en un modelo lineal haciendo el cambio : -
Potencial: Un modelo potencial
se convierte en un modelo lineal haciendo los cambios y : -
Inverso: Un modelo inverso
se convierte en un modelo lineal haciendo el cambio : -
Sigmoidal: Un modelo curva S
se convierte en un modelo lineal haciendo los cambios y :
Relación exponencial
Ejemplo El número de bacterias de un cultivo evoluciona con el tiempo según la siguiente tabla:
El diagrama de dispersión asociado es
Si realizamos un ajuste lineal, obtenemos la siguiente recta de regresión
¿Es un buen modelo?
Aunque el modelo lineal no es malo, de acuerdo al diagrama de dispersión es más lógico construir un modelo exponencial o cuadrático.
Para construir el modelo exponencial
Ahora sólo queda calcular la recta de regresión del logaritmo de Bacterias sobre Horas
Y, deshaciendo el cambio de variable, se obtiene el modelo exponencial
Como se puede apreciar, el modelo exponencial se ajusta mucho mejor que el modelo lineal.
Riesgos de la regresión
La falta de ajuste no significa independencia
Es importante señalar que cada modelo de regresión tiene su propio coeficiente de determinación.
Datos atípicos en regresión
Los datos atípicos en un estudio de regresión son los puntos que claramente no siguen la tendencia del resto de los puntos en el diagrama de dispersión, incluso si los valores del par no se pueden considerar atípicos para cada variable por separado.
La paradoja de Simpson
A veces, una tendencia desaparece o incluso se revierte cuando se divide la muestra en grupos de acuerdo a una variable cualitativa que está relacionada con la variable dependiente. Esto se conoce como la paradoja de Simpson.
Ejemplo. El siguiente diagrama de dispersión muestra una relación inversa entre entre las horas de estudio preparando un examen y la nota del examen.
Pero si se divide la muestra en dos grupos (buenos y malos estudiantes) se obtienen diferentes tendencias y ahora la relación es directa, lo que tiene más lógica.