Relaciones entre variables cualitativas
Los modelos de regresión vistos sólo pueden aplicarse cuando las variables estudiadas son cuantitativas.
Cuando se desea estudiar la relación entre atributos, tanto ordinales como nominales, es necesario recurrir a otro tipo de medidas de relación o de asociación. En este capítulo veremos tres de ellas:
- Coeficiente de correlación de Spearman.
- Coeficiente chi-cuadrado.
- Coeficiente de contingencia.
Relación entre atributos ordinales
Coeficiente de correlación de Spearman
Cuando se tengan atributos ordinales es posible ordenar sus categorías y asignarles valores ordinales, de manera que se puede calcular el coeficiente de correlación lineal entre estos valores ordinales.
Esta medida de relación entre el orden que ocupan las categorías de dos atributos ordinales se conoce como coeficiente de correlación de Spearman.
Definición - Coeficiente de correlación de Spearman. Dada una muestra de
donde
Como el coeficiente de correlación de Spearman es en el fondo el coeficiente de correlación lineal aplicado a los órdenes, se tiene que
- Si
entonces no existe relación entre los atributos ordinales. - Si
entonces los órdenes de los atributos coinciden y existe una relación directa perfecta. - Si
entonces los órdenes de los atributos están invertidos y existe una relación inversa perfecta.
En general, cuanto más cerca de
Ejemplo. Una muestra de 5 alumnos realizaron dos tareas diferentes
El coeficiente de correlación de Spearman para esta muestra es
Esto indica que existe bastante relación directa entre las destrezas manifestadas en ambas tareas.
Ejemplo con empates.
Cuando hay empates en el orden de las categorías se atribuye a cada valor empatado la media aritmética de los valores ordinales que hubieran ocupado esos individuos en caso de no haber estado empatados.
Si en el ejemplo anterior los alumnos 4 y 5 se hubiesen comportado igual en la primera tarea y los alumnos 3 y 4 se hubiesen comportado igual en la segunda tarea, entonces se tendría
El coeficiente de correlación de Spearman para esta muestra es
Relación entre atributos nominales
Cuando se quiere estudiar la relación entre atributos nominales no tiene sentido calcular el coeficiente de correlación de Spearman ya que las categorías no pueden ordenarse.
Para estudiar la relación entre atributos nominales se utilizan medidas basadas en las frecuencias de la tabla de frecuencias bidimensional, que para atributos se suele llamar tabla de contingencia.
Ejemplo. En un estudio para ver si existe relación entre el sexo y el hábito de fumar se ha tomado una muestra de 100 personas. La tabla de contingencia resultante es
Si el hábito de fumar fuese independiente del sexo, la proporción de fumadores en mujeres y hombres sería la misma.
Frecuencias teóricas o esperadas
En general, dada una tabla de contingencia para dos atributos
si
A esta última expresión se le llama frecuencia teórica o frecuencia esperada del par
Coeficiente chi-cuadrado
Es posible estudiar la relación entre dos atributos
Definición - Coeficiente Chi-cuadrado
donde
Por ser suma de cuadrados, se cumple que
Ejemplo. Siguiendo con el ejemplo anterior, a partir de la tabla de contingencia
se obtienen las siguientes frecuencias esperadas
y el coeficiente
Esto indica que no existe gran relación entre el sexo y el hábito de fumar.
Coeficiente de contingencia
El coeficiente
Para evitar estos problemas se suele utilizar el siguiente estadístico.
Definición - Coeficiente de contingencia. Dada una muestra de tamaño
De la definición anterior se deduce que
Ejemplo. En el ejemplo anterior el coeficiente de contingencia vale
Como se trata de una tabla de contingencia de