Los modelos de regresión vistos sólo pueden aplicarse cuando las variables estudiadas son cuantitativas.

Cuando se desea estudiar la relación entre atributos, tanto ordinales como nominales, es necesario recurrir a otro tipo de medidas de relación o de asociación. En este capítulo veremos tres de ellas:

  • Coeficiente de correlación de Spearman.

  • Coeficiente chi-cuadrado.

  • Coeficiente de contingencia.

Relación entre atributos ordinales

Coeficiente de correlación de Spearman

Cuando se tengan atributos ordinales es posible ordenar sus categorías y asignarles valores ordinales, de manera que se puede calcular el coeficiente de correlación lineal entre estos valores ordinales.

Esta medida de relación entre el orden que ocupan las categorías de dos atributos ordinales se conoce como coeficiente de correlación de Spearman.

Definición - Coeficiente de correlación de Spearman. Dada una muestra de $n$ individuos en los que se han medido dos atributos ordinales $X$ e $Y$, el coeficiente de correlación de Spearman se define como

donde $d_i$ es la diferencia entre el valor ordinal de $X$ y el valor ordinal de $Y$ del individuo $i$.

Interpretación del coeficiente de correlación de Spearman

Como el coeficiente de correlación de Spearman es en el fondo el coeficiente de correlación lineal aplicado a los órdenes, se tiene que

de manera que:

  • Si $r_s=0$ entonces no existe relación entre los atributos ordinales.

  • Si $r_s=1$ entonces los órdenes de los atributos coinciden y existe una relación directa perfecta.

  • Si $r_s=-1$ entonces los órdenes de los atributos están invertidos y existe una relación inversa perfecta.

En general, cuanto más cerca de $1$ o $-1$ esté $r_s$, mayor será la relación entre los atributos, y cuanto más cerca de $0$, menor será la relación.

Ejemplo. Una muestra de 5 alumnos realizaron dos tareas diferentes $X$ e $Y$, y se ordenaron de acuerdo a la destreza que manifestaron en cada tarea:

El coeficiente de correlación de Spearman para esta muestra es

Esto indica que existe bastante relación directa entre las destrezas manifestadas en ambas tareas.

Ejemplo con empates.

Cuando hay empates en el orden de las categorías se atribuye a cada valor empatado la media aritmética de los valores ordinales que hubieran ocupado esos individuos en caso de no haber estado empatados.

Si en el ejemplo anterior los alumnos 4 y 5 se hubiesen comportado igual en la primera tarea y los alumnos 3 y 4 se hubiesen comportado igual en la segunda tarea, entonces se tendría

El coeficiente de correlación de Spearman para esta muestra es

Relación entre atributos nominales

Cuando se quiere estudiar la relación entre atributos nominales no tiene sentido calcular el coeficiente de correlación de Spearman ya que las categorías no pueden ordenarse.

Para estudiar la relación entre atributos nominales se utilizan medidas basadas en las frecuencias de la tabla de frecuencias bidimensional, que para atributos se suele llamar tabla de contingencia.

Ejemplo. En un estudio para ver si existe relación entre el sexo y el hábito de fumar se ha tomado una muestra de 100 personas. La tabla de contingencia resultante es

Si el hábito de fumar fuese independiente del sexo, la proporción de fumadores en mujeres y hombres sería la misma.

Frecuencias teóricas o esperadas

En general, dada una tabla de contingencia para dos atributos $X$ e $Y$,

si $X$ e $Y$ fuesen independientes, para cualquier valor $y_j$ se tendría

de donde se deduce que

A esta última expresión se le llama frecuencia teórica o frecuencia esperada del par $(x_i,y_j)$.

Coeficiente chi-cuadrado $\chi^2$

Es posible estudiar la relación entre dos atributos $X$ e $Y$ comparando las frecuencias reales con las esperadas:

Definición - Coeficiente Chi-cuadrado $\chi^2$. Dada una muestra de tamaño $n$ en la que se han medido dos atributos $X$ e $Y$, se define el coeficiente $\chi^2$ como

donde $p$ es el número de categorías de $X$ y $q$ el número de categorías de $Y$.

Por ser suma de cuadrados, se cumple que

de manera que $\chi^2=0$ cuando los atributos son independientes, y crece a medida que aumenta la dependencia entre las variables.

Ejemplo. Siguiendo con el ejemplo anterior, a partir de la tabla de contingencia

se obtienen las siguientes frecuencias esperadas

y el coeficiente $\chi^2$ vale

Esto indica que no existe gran relación entre el sexo y el hábito de fumar.

Coeficiente de contingencia

El coeficiente $\chi^2$ depende del tamaño muestral, ya que al multiplicar por una constante las frecuencias de todas las casillas, su valor queda multiplicado por dicha constante, lo que podría llevarnos al equívoco de pensar que ha aumentado la relación, incluso cuando las proporciones se mantienen. En consecuencia el valor de $\chi^2$ no está acotado superiormente y resulta difícil de interpretar.

Para evitar estos problemas se suele utilizar el siguiente estadístico.

Definición - Coeficiente de contingencia. Dada una muestra de tamaño $n$ en la que se han medido dos atributos $X$ e $Y$, se define el coeficiente de contingencia como

Interpretación del coeficiente de contingencia

De la definición anterior se deduce que

de manera que cuando $C=0$ las variables son independientes, y crece a medida que aumenta la relación.

Aunque $C$ nunca puede llegar a valer 1, se puede demostrar que para tablas de contingencia con $k$ filas y $k$ columnas, el valor máximo que puede alcanzar $C$ es $\sqrt{(k-1)/k}$.

Ejemplo. En el ejemplo anterior el coeficiente de contingencia vale

Como se trata de una tabla de contingencia de $2\times 2$, el valor máximo que podría tomar el coeficiente de contingencia es $\sqrt{(2-1)/2}=\sqrt{1/2}=0.707$, y como $0.13$ está bastante lejos de este valor, se puede concluir que no existe demasiada relación entre el hábito de fumar y el sexo.