Relaciones entre variables cualitativas

Los modelos de regresión vistos sólo pueden aplicarse cuando las variables estudiadas son cuantitativas.

Cuando se desea estudiar la relación entre atributos, tanto ordinales como nominales, es necesario recurrir a otro tipo de medidas de relación o de asociación. En este capítulo veremos tres de ellas:

  • Coeficiente de correlación de Spearman.
  • Coeficiente chi-cuadrado.
  • Coeficiente de contingencia.

Relación entre atributos ordinales

Coeficiente de correlación de Spearman

Cuando se tengan atributos ordinales es posible ordenar sus categorías y asignarles valores ordinales, de manera que se puede calcular el coeficiente de correlación lineal entre estos valores ordinales.

Esta medida de relación entre el orden que ocupan las categorías de dos atributos ordinales se conoce como coeficiente de correlación de Spearman.

Definición - Coeficiente de correlación de Spearman. Dada una muestra de n individuos en los que se han medido dos atributos ordinales X e Y, el coeficiente de correlación de Spearman se define como

rs=16di2n(n21)

donde di es la diferencia entre el valor ordinal de X y el valor ordinal de Y del individuo i.

Como el coeficiente de correlación de Spearman es en el fondo el coeficiente de correlación lineal aplicado a los órdenes, se tiene que

1rs1,

  • Si rs=0 entonces no existe relación entre los atributos ordinales.
  • Si rs=1 entonces los órdenes de los atributos coinciden y existe una relación directa perfecta.
  • Si rs=1 entonces los órdenes de los atributos están invertidos y existe una relación inversa perfecta.

En general, cuanto más cerca de 1 o 1 esté rs, mayor será la relación entre los atributos, y cuanto más cerca de 0, menor será la relación.

Ejemplo. Una muestra de 5 alumnos realizaron dos tareas diferentes X e Y, y se ordenaron de acuerdo a la destreza que manifestaron en cada tarea:

AlumnosXYdidi2Alumno 12311Alumno 25411Alumno 31211Alumno 43124Alumno 5451108

El coeficiente de correlación de Spearman para esta muestra es

rs=16di2n(n21)=1685(521)=0.6.

Esto indica que existe bastante relación directa entre las destrezas manifestadas en ambas tareas.

Ejemplo con empates.

Cuando hay empates en el orden de las categorías se atribuye a cada valor empatado la media aritmética de los valores ordinales que hubieran ocupado esos individuos en caso de no haber estado empatados.

Si en el ejemplo anterior los alumnos 4 y 5 se hubiesen comportado igual en la primera tarea y los alumnos 3 y 4 se hubiesen comportado igual en la segunda tarea, entonces se tendría

AlumnosXYdidi2Alumno 12311Alumno 25411Alumno 311.50.50.25Alumno 43.51.524Alumno 53.551.52.2508.5

El coeficiente de correlación de Spearman para esta muestra es

rs=16di2n(n21)=168.55(521)=0.58.

Relación entre atributos nominales

Cuando se quiere estudiar la relación entre atributos nominales no tiene sentido calcular el coeficiente de correlación de Spearman ya que las categorías no pueden ordenarse.

Para estudiar la relación entre atributos nominales se utilizan medidas basadas en las frecuencias de la tabla de frecuencias bidimensional, que para atributos se suele llamar tabla de contingencia.

Ejemplo. En un estudio para ver si existe relación entre el sexo y el hábito de fumar se ha tomado una muestra de 100 personas. La tabla de contingencia resultante es

SexoFumaSiNoniMujer122840Hombre263460nj3862100

Si el hábito de fumar fuese independiente del sexo, la proporción de fumadores en mujeres y hombres sería la misma.

Frecuencias teóricas o esperadas

En general, dada una tabla de contingencia para dos atributos X e Y,

XYy1yjyqnxx1n11n1jn1qnx1xini1nijniqnxixpnp1npjnpqnxpnyny1nyjnyqn

si X e Y fuesen independientes, para cualquier valor yj se tendría

n1jnx1=n2jnx2==npjnxp=n1j++npjnx1++nxp=nyjn, de donde se deduce que nij=nxinyjn.

A esta última expresión se le llama frecuencia teórica o frecuencia esperada del par (xi,yj).

Coeficiente chi-cuadrado χ2

Es posible estudiar la relación entre dos atributos X e Y comparando las frecuencias reales con las esperadas:

Definición - Coeficiente Chi-cuadrado χ2. Dada una muestra de tamaño n en la que se han medido dos atributos X e Y, se define el coeficiente χ2 como

χ2=i=1pj=1q(nijnxinyjn)2nxinyjn,

donde p es el número de categorías de X y q el número de categorías de Y.

Por ser suma de cuadrados, se cumple que

χ20.

χ2=0 cuando los atributos son independientes, y crece a medida que aumenta la dependencia entre las variables.

Ejemplo. Siguiendo con el ejemplo anterior, a partir de la tabla de contingencia

SexoFumaSiNoniMujer122840Hombre263460nj3862100

se obtienen las siguientes frecuencias esperadas

Sexo\backslash FumaSiNoniMujer4038100=15.24062100=24.840Hombre6038100=22.86062100=37.260nj3862100

y el coeficiente χ2 vale

χ2=(1215.2)215.2+(2824.8)224.8+(2622.8)222.8+(3437.2)237.2=1.81.

Esto indica que no existe gran relación entre el sexo y el hábito de fumar.

Coeficiente de contingencia

El coeficiente χ2 depende del tamaño muestral, ya que al multiplicar por una constante las frecuencias de todas las casillas, su valor queda multiplicado por dicha constante, lo que podría llevarnos al equívoco de pensar que ha aumentado la relación, incluso cuando las proporciones se mantienen. En consecuencia el valor de χ2 no está acotado superiormente y resulta difícil de interpretar.

Para evitar estos problemas se suele utilizar el siguiente estadístico.

Definición - Coeficiente de contingencia. Dada una muestra de tamaño n en la que se han medido dos atributos X e Y, se define el coeficiente de contingencia como

C=χ2χ2+n

De la definición anterior se deduce que

0C1,

C=0 cuando las variables son independientes, y crece a medida que aumenta la relación.
Aunque C nunca puede llegar a valer 1, se puede demostrar que para tablas de contingencia con k filas y k columnas, el valor máximo que puede alcanzar C es (k1)/k.

Ejemplo. En el ejemplo anterior el coeficiente de contingencia vale

C=1.811.81+100=0.13.

Como se trata de una tabla de contingencia de 2×2, el valor máximo que podría tomar el coeficiente de contingencia es (21)/2=1/2=0.707, y como 0.13 está bastante lejos de este valor, se puede concluir que no existe demasiada relación entre el hábito de fumar y el sexo.

Anterior
Siguiente