3 Regresión
Hasta ahora se ha visto como describir el comportamiento de una variable, pero en los fenómenos naturales normalmente aparecen más de una variable que suelen estar relacionadas. Por ejemplo, en un estudio sobre el peso de las personas, deberíamos incluir todas las variables con las que podría tener relación: altura, edad, sexo, dieta, tabaco, ejercicio físico, etc.
Para comprender el fenómeno no basta con estudiar cada variable por separado y es preciso un estudio conjunto de todas las variables para ver cómo interactúan y qué relaciones se dan entre ellas. El objetivo de la estadística en este caso es dar medidas del grado y del tipo de relación entre dichas variables.
Generalmente, en un estudio de dependencia se considera una variable dependiente
El caso más simple es el de una sola variable independiente, y en tal caso se habla de estudio de dependencia simple. Para más de una variable independiente se habla de estudio de dependencia múltiple.
En este capítulo se verán los estudios de dependencia simple que son más sencillos.
3.1 Distribución de frecuencias conjunta
3.1.1 Frecuencias conjuntas
Al estudiar la dependencia simple entre dos variables
Definición 3.1 (Frecuencias muestrales conjuntas) Dada una muestra de tamaño
- Frecuencia absoluta
: Es el número de veces que el par aparece en la muestra. - Frecuencia relativa
: Es la proporción de veces que el par aparece en la muestra.
Para las variables bidimensionales no tienen sentido las frecuencias acumuladas.
3.1.2 Distribución de frecuencias bidimensional
Al conjunto de valores de la variable bidimensional y sus respectivas frecuencias muestrales se le denomina distribución de frecuencias bidimensional, y se representa mediante una tabla de frecuencias bidimensional.
Ejemplo 3.1 La estatura (en cm) y el peso (en Kg) de una muestra de 30 estudiantes es:
(179,85), (173,65), (181,71), (170,65), (158,51), (174,66),
(172,62), (166,60), (194,90), (185,75), (162,55), (187,78),
(198,109), (177,61), (178,70), (165,58), (154,50), (183,93),
(166,51), (171,65), (175,70), (182,60), (167,59), (169,62),
(172,70), (186,71), (172,54), (176,68),(168,67), (187,80).
La tabla de frecuencias bidimensional es
3.1.3 Diagrama de dispersión
La distribución de frecuencias conjunta de una variable bidimensional puede representarse gráficamente mediante un diagrama de dispersión, donde los datos se representan como una colección de puntos en un plano cartesiano.
Habitualmente la variable independiente se representa en el eje
El resultado es un conjunto de puntos que se conoce como nube de puntos.
Ejemplo 3.2 El siguiente diagrama de dispersión representa la distribución conjunta de estaturas y pesos de la muestra anterior.
El diagrama de dispersión da información visual sobre el tipo de relación entre las variables.
3.1.4 Distribuciones marginales
A cada una de las distribuciones de las variables que conforman la variable bidimensional se les llama .
Las distribuciones marginales se pueden obtener a partir de la tabla de frecuencias bidimensional, sumando las frecuencias por filas y columnas.
Ejemplo 3.3 En el ejemplo anterior de las estaturas y los pesos, las distribuciones marginales son
y los estadísticos correspondientes son
3.2 Covarianza
Para analizar la relación entre dos variables cuantitativas es importante hacer un estudio conjunto de las desviaciones respecto de la media de cada variable.
Si dividimos la nube de puntos del diagrama de dispersión en 4 cuadrantes centrados en el punto de medias
Cuadrante | |||
---|---|---|---|
1 | |||
2 | |||
3 | |||
4 |
Si la relación entre las variables es lineal y creciente, entonces la mayor parte de los puntos estarán en los cuadrantes 1 y 3 y la suma de los productos de desviaciones será positiva.
Si la relación entre las variables es lineal y decreciente, entonces la mayor parte de los puntos estarán en los cuadrantes 2 y 4 y la suma de los productos de desviaciones será negativa.
Usando el producto de las desviaciones respecto de las medias surge el siguiente estadístico.
Definición 3.2 (Covarianza muestral) La covarianza muestral de una variable aleatoria bidimensional
También puede calcularse de manera más sencilla mediante la fórmula
La covarianza sirve para estudiar la relación lineal entre dos variables:
- Si
existe una relación lineal creciente. - Si
existe una relación lineal decreciente. - Si
no existe relación lineal.
Ejemplo 3.4 Utilizando la tabla de frecuencias bidimensional de la muestra de estaturas y pesos
la covarianza vale
Esto indica que existe una relación lineal creciente entre la estatura y el peso.
3.3 Regresión
En muchos casos el objetivo de un estudio no es solo detectar una relación entre dos variables, sino explicarla mediante alguna función matemática
La regresión es la parte de la Estadística encargada de construir esta función, que se conoce como función de regresión o modelo de regresión.
3.3.1 Modelos de regresión simple
Dependiendo de la forma de función de regresión, existen muchos tipos de regresión simple. Los más habituales son los que aparecen en la siguiente tabla:
Modelo | Ecuación |
---|---|
Lineal | |
Cuadrático | |
Cúbico | |
Potencial | |
Exponencial | |
Logarítmico | |
Inverso | |
Sigmoidal |
La elección de un tipo u otro depende de la forma que tenga la nube de puntos del diagrama de dispersión.
3.3.2 Residuos o errores predictivos
Una vez elegida la familia de curvas que mejor se adapta a la nube de puntos, se determina, dentro de dicha familia, la curva que mejor se ajusta a la distribución, es decir, la función que mejor predice la variable dependiente.
El objetivo es encontrar la función de regresión que haga mínimas las distancias entre los valores de la variable dependiente observados en la muestra, y los predichos por la función de regresión. Estas distancias se conocen como residuos o errores predictivos.
Definición 3.3 (Residuos o errores predictivos) Dado el modelo de regresión
3.3.3 Ajuste de mínimos cuadrados
Una forma posible de obtener la función de regresión es mediante el método de mínimos cuadrados que consiste en calcular la función que haga mínima la suma de los cuadrados de los residuos
En el caso de un modelo de regresión lineal
Así pues, todo se reduce a buscar los valores
Considerando la suma de los cuadrados de los residuos como una función de dos variables
Tras resolver el sistema se obtienen los valores
Estos valores hacen mínimos los residuos en
3.3.4 Coeficiente de determinación
A partir de la varianza residual se puede definir otro estadístico más sencillo de interpretar.
Definición 3.4 (Coeficiente de determinación muestral
Como la varianza residual puede tomar valores entre 0 y
Cuanto mayor sea
- Si
entonces no existe relación del tipo planteado por el modelo. - Si
entonces la relación que plantea el modelo es perfecta.
En el caso de las rectas de regresión, el coeficiente de determinación puede calcularse con esta fórmula
Prueba. Cuando el modelo ajustado es la recta de regresión la varianza residual vale
y, por tanto, el coeficiente de determinación lineal vale
Ejemplo 3.5 En el ejemplo de las estaturas y pesos se tenía
De modo que el coeficiente de determinación lineal vale
Esto indica que la recta de regresión del peso sobre la estatura explica el 65% de la variabilidad del peso, y de igual modo, la recta de regresión de la estatura sobre el peso explica el 65% de la variabilidad de la estatura.
3.3.5 Coeficiente de correlación lineal
Definición 3.5 (Coeficiente de correlación lineal muestral) Dada una variable bidimensional
Como
El coeficiente de correlación lineal no sólo mide mide el grado de dependencia lineal sino también su dirección (creciente o decreciente):
- Si
entonces no existe relación lineal. - Si
entonces existe una relación lineal creciente perfecta. - Si
entonces existe una relación lineal decreciente perfecta.
:::{#exm-coeficiente-correlacion} En el ejemplo de las estaturas y los pesos se tenía
De manera que el coeficiente de correlación lineal es
Esto indica que la relación lineal entre el peso y la estatura es fuerte, y además creciente.
3.3.6 Distintos grados de correlación
Los siguientes diagramas de dispersión muestran modelos de regresión lineales con diferentes grados de correlación.
3.3.7 Fiabilidad de las predicciones de un modelo de regresión
Aunque el coeficiente de determinación o el de correlación determinan la bondad de ajuste de un modelo de regresión, existen otros factores que influyen en la fiabilidad de las predicciones de un modelo de regresión:
- El coeficiente de determinación: Cuanto mayor sea, menores serán los errores predictivos y mayor la fiabilidad de las predicciones.
- La variabilidad de la población: Cuanto más variable es una población, más difícil es predecir y por tanto menos fiables serán las predicciones.
- El tamaño muestral: Cuanto mayor sea, más información tendremos y, en consecuencia, más fiables serán las predicciones.
Además, hay que tener en cuenta que un modelo de regresión es válido únicamente para el rango de valores observados en la muestra. Fuera de ese rango no hay información del tipo de relación entre las variables, por lo que no deben hacerse predicciones para valores lejos de los observados en la muestra.
3.4 Regresión no lineal
El ajuste de un modelo de regresión no lineal es similar al del modelo lineal y también puede realizarse mediante la técnica de mínimos cuadrados.
No obstante, en determinados casos un ajuste no lineal puede convertirse en un ajuste lineal mediante una sencilla transformación de alguna de las variables del modelo.
3.4.1 Transformación de modelos de regresión no lineales
Logarítmico: Un modelo logarítmico
se convierte en un modelo lineal haciendo el cambio :Exponencial: Un modelo exponencial
se convierte en un modelo lineal haciendo el cambio :Potencial: Un modelo potencial
se convierte en un modelo lineal haciendo los cambios y :Inverso: Un modelo inverso
se convierte en un modelo lineal haciendo el cambio :Sigmoidal: Un modelo curva S
se convierte en un modelo lineal haciendo los cambios y :
3.4.2 Relación exponencial
:::{#exm-regresion-exponencial} El número de bacterias de un cultivo evoluciona con el tiempo según la siguiente tabla:
El diagrama de dispersión asociado es
Si realizamos un ajuste lineal, obtenemos la siguiente recta de regresión
¿Es un buen modelo?
Aunque el modelo lineal no es malo, de acuerdo al diagrama de dispersión es más lógico construir un modelo exponencial o cuadrático.
Para construir el modelo exponencial
Ahora sólo queda calcular la recta de regresión del logaritmo de Bacterias sobre Horas
Y, deshaciendo el cambio de variable, se obtiene el modelo exponencial
Como se puede apreciar, el modelo exponencial se ajusta mucho mejor que el modelo lineal.
3.5 Riesgos de la regresión
3.5.1 La falta de ajuste no significa independencia
Es importante señalar que cada modelo de regresión tiene su propio coeficiente de determinación.
Así, un coeficiente de determinación cercano a cero significa que no existe relación entre las variables del tipo planteado por el modelo, pero eso no quiere decir que las variables sean independientes, ya que puede existir relación de otro tipo.
3.5.2 Datos atípicos en regresión
Los datos atípicos en un estudio de regresión son los puntos que claramente no siguen la tendencia del resto de los puntos en el diagrama de dispersión, incluso si los valores del par no se pueden considerar atípicos para cada variable por separado.
Los datos atípicos en regresión suelen provocar cambios drásticos en el ajuste de los modelos de regresión, y por tanto, habrá que tener mucho cuidado con ellos.
3.5.3 La paradoja de Simpson
A veces, una tendencia desaparece o incluso se revierte cuando se divide la muestra en grupos de acuerdo a una variable cualitativa que está relacionada con la variable dependiente. Esto se conoce como la paradoja de Simpson.
:::{#exm-paradoja-simpson} El siguiente diagrama de dispersión muestra una relación inversa entre entre las horas de estudio preparando un examen y la nota del examen.
Pero si se divide la muestra en dos grupos (buenos y malos estudiantes) se obtienen diferentes tendencias y ahora la relación es directa, lo que tiene más lógica.