Contrastes de Hipótesis
Hipótesis estadísticas y tipos de contrastes de hipótesis
Hipótesis estadística
En muchos estudios estadísticos, el objetivo, más que estimar el valor de un parámetro desconocido en la población, es comprobar la veracidad de una hipótesis formulada sobre la población objeto de estudio.
El investigador, de acuerdo a su experiencia o a estudios previos, suele tener conjeturas sobre la población estudiada que expresa en forma de hipótesis.
Ejemplo. Para contrastar el rendimiento académico de un grupo de alumnos en una determinada asignatura, podríamos platear la hipótesis de si el porcentaje de aprobados es mayor del 50%.
Contraste de hipótesis
En general nunca se sabrá con absoluta certeza si una hipótesis estadística es cierta o falsa, ya que para ello habría que estudiar a todos los individuos de la población.
Para comprobar la veracidad o falsedad de estas hipótesis hay que contrastarlas con los resultados empíricos obtenidos de las muestras. Si los resultados observados en las muestras coinciden, dentro del margen de error admisible debido al azar, con lo que cabría esperar en caso de que la hipótesis fuese cierta, la hipótesis se aceptará como verdadera, mientras que en caso contrario se rechazará como falsa y se buscarán nuevas hipótesis capaces de explicar los datos observados.
Como las muestras se obtienen aleatoriamente, la decisión de aceptar o rechazar una hipótesis estadística se tomará sobre una base de probabilidad.
La metodología que se encarga de contrastar la veracidad de las hipótesis estadísticas se conoce como contraste de hipótesis.
Tipos de contrastes de hipótesis
- Contrastes de bondad de ajuste: El objetivo es comprobar una hipótesis sobre la forma de la distribución de la población.
Ejemplo. Contrastar si las notas de un grupo de alumnos siguen una distribución normal.
-
Contrastes de conformidad: El objetivo es comprobar una hipótesis sobre alguno de los parámetros de la población.
Ejemplo. Contrastar si las nota media en un grupo de alumnos es igual a 5.
-
Contrastes de homogeneidad : El objetivo es comparar dos poblaciones con respecto a alguno de sus parámetros.
Ejemplo. Contrastar si el rendimiento de dos grupos de alumnos es el mismo comparando sus notas medias.
-
Contrastes de independencia: El objetivo es comprobar si existe relación entre dos variables de la población.
Ejemplo. Contrastar si existe relación entre la notas de dos asignaturas diferentes.
Cuando las hipótesis se plantean sobre parámetros de la población, también se habla de contrastes paramétricos.
Planteamiento de un contraste de hipótesis
Hipótesis nula e hipótesis alternativa
En la mayoría de los casos un contraste supone tomar una decisión entre dos hipótesis antagonistas:
-
Hipótesis nula: Es la hipótesis conservadora, ya que se mantendrá mientras que los datos de las muestras no reflejen claramente su falsedad. Se representa como
. -
Hipótesis alternativa: Es la negación de la hipótesis nula y generalmente representa la afirmación que se pretende probar. Se representa como
.
Ambas hipótesis se eligen de acuerdo con el principio de simplicidad científica:
“Solamente se debe abandonar un modelo simple por otro más complejo cuando la evidencia a favor del último sea fuerte.” (Navaja de Occam)
Elección de las hipótesis nula y alternativa
Analogía con un juicio
En el caso de un juicio, en el que el juez debe decidir si el acusado es culpable o inocente, la elección de hipótesis debería ser
ya que la inocencia se asume, mientras que la culpabilidad hay que demostrarla.
Según esto, el juez sólo aceptaría la hipótesis alternativa cuando hubiese pruebas significativas de la culpabilidad del acusado.
El investigador jugaría el papel del fiscal, ya que su objetivo consistiría en intentar rechazar la hipótesis nula, es decir, demostrar culpabilidad del acusado.
Contrastes de hipótesis paramétricos
En muchos contrastes, sobre todo en las pruebas de conformidad y de homogeneidad, las hipótesis se formulan sobre parámetros desconocidos de la población como puede ser una media, una varianza o una proporción.
En tal caso, la hipótesis nula siempre asigna al parámetro un valor concreto, mientras que la alternativa suele ser una hipótesis abierta que, aunque opuesta a la hipótesis nula, no fija el valor del parámetro.
Esto da lugar a tres tipos de contrastes:
Bilateral | Unilateral menor | Unilateral mayor |
---|---|---|
Elección del tipo de contraste
Ejemplo. Supóngase que existen sospechas de que en una población hay menos hombres que mujeres.
¿Qué tipo de contraste debería plantearse para validar o refutar esta sospecha?
-
Las sospechas se refieren al porcentaje o la proporción
de hombres en la población, por lo que se trata de un contraste paramétrico. -
El objetivo es averiguar el valor de
, por lo que se trata de una prueba de conformidad. En la hipótesis nula el valor de se fijará a ya que, de acuerdo a las leyes de la genética, en la población debería haber la misma proporción de hombres que de mujeres. -
Finalmente, existen sospechas de que el porcentaje de hombres es menor que el de mujeres, por lo que la hipótesis alternativa será de menor
.
Así pues, el contraste que debería plantearse es el siguiente:
Estadístico del contraste
La aceptación o rechazo de la hipótesis nula depende, en última instancia, de lo que se observe en la muestra.
La decisión se tomará según el valor que presente algún estadístico de la muestra relacionado con el parámetro o característica que se esté contrastando, y cuya distribución de probabilidad debe ser conocida suponiendo cierta la hipótesis nula y una vez fijado el tamaño de la muestra. Este estadístico recibe el nombre de estadístico del contraste.
Para cada muestra, el estadístico dará una estimación a partir de la cual se tomará la decisión: si la estimación difiere demasiado del valor esperado bajo la hipótesis
La lógica que guía la decisión es la de mantener la hipótesis nula a no ser que en la muestra haya pruebas contundentes de su falsedad. Siguiendo con el símil del juicio, se trataría de mantener la inocencia mientras no haya pruebas claras de culpabilidad.
Ejemplo. Volviendo al ejemplo del contraste sobre la proporción de hombres de una población
Si para resolver el contraste se toma una muestra aleatoria de 10 personas, podría tomarse como estadístico del contraste
Suponiendo cierta la hipótesis nula, el estadístico del contraste seguiría una distribución binomial
Así pues, es lógico aceptar la hipótesis nula si en la muestra se obtiene un número de hombres próximo a 5 y rechazarla cuando el número de hombres sea muy inferior a 5. Pero, ¿dónde poner el límite entre los valores
Regiones de aceptación y de rechazo
Una vez elegido el estadístico del contraste, lo siguiente es decidir para qué valores de este estadístico se decidirá aceptar la hipótesis nula y para que valores se rechazará. Esto divide del conjunto de valores posibles del estadístico en dos regiones:
-
Región de aceptación: Es el conjunto de valores del estadístico del contraste a partir de los cuales se decidirá aceptar la hipótesis nula.
-
Región de rechazo: Es el conjunto de valores del estadístico del contraste a partir de los cuales se decidirá rechazar la hipótesis nula, y por tanto, aceptar la hipótesis alternativa.
Dependiendo de la dirección del contraste, la región de rechazo quedará a un lado u otro del valor esperado del estadístico del contraste según la hipótesis nula:
-
Contraste bilateral
. -
Contraste unilateral de menor
&H_1:\ \theta<\theta_0$. -
Contraste unilateral de mayor
.
Ejemplo. Siguiendo con el ejemplo del contraste sobre la proporción de hombres de una población
Como el estadístico del contraste tenía una distribución binomial
Errores en un contraste de hipótesis
Hemos visto que un contraste de hipótesis se realiza mediante una regla de decisión que permite aceptar o rechazar la hipótesis nula dependiendo del valor que tome el estadístico del contraste.
Al final el contraste se resuelve tomando una decisión de acuerdo a esta regla. El problema es que nunca se conocerá con absoluta certeza la veracidad o falsedad de una hipótesis, de modo que al aceptarla o rechazarla es posible que se esté tomando una decisión equivocada.
Los errores que se pueden cometer en un contraste de hipótesis son de dos tipos:
-
Error de tipo I: Se comete cuando se rechaza la hipótesis nula siendo esta verdadera.
-
Error de tipo II: Se comete cuando se acepta la hipótesis nula siendo esta falsa.
Riesgos de los errores de un contraste de hipótesis
Los riesgos de cometer cada tipo de error se cuantifican mediante probabilidades:
Definición - Riesgos
y se define el riesgo
Interpretación del riesgo
Debe tenerse cuidado al interpretar el riesgo
Tampoco tiene sentido hablar de la probabilidad de haberse equivocado una vez tomada una decisión a partir de una muestra concreta, pues en tal caso, si se ha tomado la decisión acertada, la probabilidad de error es 0 y si se ha tomado la decisión equivocada, la probabilidad de error es 1.
Determinación de las regiones de aceptación y de rechazo en función del riesgo
Una vez fijado el riesgo
Ejemplo. Siguiendo con el contraste sobre la proporción de hombres de una población, como el estadístico del contraste sigue una distribución binomial
Si riesgo máximo de error de tipo I que se está dispuesto a tolerar es
Riesgo y tamaño del efecto
Aunque el error de tipo II pueda parecer menos grave, también interesa que el riesgo
El problema, en el caso de contrastes paramétricos, es que la hipótesis alternativa es una hipótesis abierta en la que no se fija el valor del parámetro a contrastar, de modo que, para poder calcular el riesgo
Lo normal es fijar el valor del parámetro del contraste a la mínima cantidad para admitir diferencias significativas desde un punto de vista práctico o clínico. Esa mínima diferencia que se considera clínicamente significativa se conoce como tamaño del efecto y se representa por
Potencia de un contraste
Puesto que el objetivo del investigador suele ser rechazar la hipótesis nula, a menudo, lo más interesante de un contraste es su capacidad para detectar la falsedad de la hipótesis nula cuando realmente hay diferencias mayores que
Definición - Potencia de un contraste. La potencia de un contraste de hipótesis se define como
Así pues, al reducir el riesgo
Un contraste poco potente no suele ser interesante ya que no permitirá rechazar la hipótesis nula aunque haya evidencias en su contra.
Cálculo del riesgo y de la potencia
Ejemplo Supóngase que en el contraste sobre la proporción de hombres no se considera importante una diferencia de menos de un 10% con respecto al valor que establece la hipótesis nula, es decir,
Esto permite fijar la hipótesis alternativa
Suponiendo cierta esta hipótesis el estadístico del contraste seguiría una distribución binomial
En tal caso, el riesgo
Como puede apreciarse, se trata de un riesgo
lo que indica que no se trataría de un buen contraste para detectar diferencias de un 10% en el valor del parámetro.
Relación del riesgo y el tamaño del efecto
El riesgo
Ejemplo. Si en el contraste sobre la proporción de hombres se desease detectar una diferencia de al menos un 20% con respecto al valor que establece la hipótesis nula, es decir,
y bajo esta hipótesis el estadístico del contraste seguiría una distribución binomial
En tal caso, el riesgo
por lo que el riesgo riesgo
aunque seguiría siendo un contraste poco potente.
Relación entre los riesgos y
Los riesgos
Ejemplo. Si en el contraste sobre la proporción de hombres toma como riesgo
Entonces, para una diferencia mínima
y ahora la potencia ha subido hasta
Relación de los riesgos de error y el tamaño muestral
Los riesgos de error también dependen el tamaño de la muestra, ya que al aumentar el tamaño de la muestra, la dispersión del estadístico del contraste disminuye y con ello también lo hacen los riesgos de error.
Ejemplo. Si para realizar el contraste sobre la proporción de hombres se hubiese
tomado una muestra de tamaño 100, en lugar de 10, entonces, bajo la suposición de certeza de la hipótesis nula, el estadístico del contraste seguiría una distribución binomial
Entonces, para
y ahora la potencia habría aumentado considerablemente
Este contraste sería mucho más útil para detectar una diferencia de al menos un 10% con respecto al valor del parámetro que establece la hipótesis nula.
Curva de potencia
La potencia de un contraste depende del valor del parámetro que establezca la hipótesis alternativa y, por tanto, es una función de este
Esta función da la probabilidad de rechazar la hipótesis nula para cada valor del parámetro y se conoce como curva de potencia.
Cuando no se puede fijar el valor concreto del parámetro en la hipótesis alternativa, resulta útil representar esta curva para ver la bondad del contraste cuando no se rechaza la hipótesis nula. También es útil cuando sólo de dispone de un número determinado de individuos en la muestra, para ver si merece la pena hacer el estudio.
Ejemplo. La curva de potencia correspondiente al contraste sobre la proporción de hombres en la población es la siguiente
-valor de un contraste de hipótesis
En general, siempre que la estimación del estadístico caiga dentro de la región de rechazo, rechazaremos la hipótesis nula, pero evidentemente, si dicha estimación se aleja bastante de la región de aceptación tendremos más confianza en el rechazo que si la estimación está cerca del límite entre las regiones de aceptación y rechazo.
Por este motivo, al realizar un contraste, también se calcula la probabilidad de obtener una discrepancia mayor o igual a la observada entre la estimación del estadístico del contraste y su valor esperado según la hipótesis nula.
Definición-
Una vez fijado el riesgo
Regla de decisión de un contraste
De este modo, el
Ejemplo. Si el contraste sobre la proporción de hombres se toma una muestra de tamaño 10 y se observa 1 hombre, entonces el
mientras que si en la muestra se observan 0 hombres, entonces el
En el primer caso se rechazaría la hipótesis nula para un riesgo
Pasos para la realización de un contraste de hipótesis
- Formular la hipótesis nula
y la alternativa . - Fijar los riesgos
y deseados. - Seleccionar el estadístico del contraste.
- Fijar la mínima diferencia clínicamente significativa (tamaño del efecto)
. - Calcular el tamaño muestral necesario
. - Delimitar las regiones de aceptación y rechazo.
- Tomar una muestra de tamaño
. - Calcular el estadístico del contraste en la muestra.
- Rechazar la hipótesis nula si la estimación cae en la región de rechazo o bien si el
-valor es menor que el riesgo y aceptarla en caso contrario.
Contrastes paramétricos más importantes
Pruebas de conformidad:
- Contraste para la media de una población normal con varianza conocida.
- Contraste para la media de una población normal con varianza desconocida.
- Contraste para la media de una población con varianza desconocida a partir de muestras grandes.
- Contraste para la varianza de una población normal.
- Contraste para un proporción de una población.
Pruebas de homogeneidad:
- Contraste de comparación de medias de dos poblaciones normales con varianzas conocidas.
- Contraste de comparación de medias de dos poblaciones normales con varianzas desconocidas pero iguales.
- Contraste de comparación de medias de dos poblaciones normales con varianzas desconocidas y diferentes.
- Contraste de comparación de varianzas de dos poblaciones normales.
- Contraste de comparación de proporciones de dos poblaciones.
Pruebas de conformidad
Contraste para la media de una población normal con varianza conocida
Sea
- Su distribución es normal
. - La media
es desconocida, pero su varianza es conocida.
Contraste:
Estadístico del contraste:
Región de aceptación:
Región de rechazo:
Contraste para la media de una población normal con varianza desconocida
Sea
- Su distribución es normal
. - Tanto su media
como su varianza son desconocidas.
Contraste:
Estadístico del contraste: Utilizando la cuasivarianza como estimador de la varianza poblacional se tiene
Región de aceptación:
Región de rechazo:
Ejemplo. En un grupo de alumnos se quiere contrastar si la nota media de estadística es mayor que 5 puntos. Para ello se toma la siguiente muestra:
El contraste que se plantea es
Para realizar el contraste se tiene:
puntos. puntos , y puntos.
Y el estadístico del contraste vale
El
La región de rechazo es
de modo que se rechazará la hipótesis nula siempre que la media de la muestra sea mayor que
Suponiendo que en la práctica la mínima diferencia importante en la nota media fuese de un punto
de manera que la potencia del contraste para detectar una diferencia de
Determinación del tamaño muestral en un contraste para la media
Se ha visto que para un riesgo
$$ T=\frac{\bar x-\mu_0}{\hat s/\sqrt{n}} \geq t^{n-1}{1-\alpha} \approx z{1-\alpha}\quad \mbox{para } n\geq 30. $$
o lo que es equivalente
Si el tamaño del efecto es
de modo que
Ejemplo. Se ha visto en el ejemplo anterior que la potencia del contraste para detectar una diferencia en la nota media de 1 punto era del
Como se desea una potencia
Aplicando la fórmula anterior para determinar el tamaño muestral necesario, se tiene
de manera que habría que haber tomado al menos 16 alumnos.
Contraste para la media de una población con varianza desconocida y muestras grandes
Sea
- Su distribución puede ser de cualquier tipo.
- Tanto su media
como su varianza son desconocidas.
Contraste:
Estadístico del contraste: Utilizando la cuasivarianza como estimador de la varianza poblacional y gracias al teorema central del límite por tratarse de muestras grandes (
Región de aceptación:
Región de rechazo:
Contraste para la varianza de una población normal
Sea
- Su distribución es normal
. - Tanto su media
como su varianza son desconocidas.
Contraste:
Estadístico del contraste: Partiendo de la cuasivarianza muestral como estimador de la varianza poblacional, se tiene
que sigue una distribución chi-cuadrado de
Región de aceptación:
Región de rechazo:
Ejemplo. En un grupo de alumnos se quiere contrastar si la desviación típica de la nota es mayor de 1 punto. Para ello se toma la siguiente muestra:
El contraste que se plantea es
Para realizar el contraste se tiene:
puntos. puntos .
El estadístico del contraste vale
y el
Contraste para proporción de una población
Sea
Contraste:
Estadístico del contraste: La variable que mide el número de individuos con la característica en una muestra aleatoria de tamaño
Región de aceptación:
Región de rechazo:
Ejemplo. En un grupo de alumnos se desea estimar si el porcentaje de aprobados es mayor del
El contraste que se plantea es
Para realizar el contraste se tiene que
y el
Pruebas de homogeneidad
Contraste de comparación de medias de dos poblaciones normales con varianzas conocidas
Sean
- Su distribución es normal
. - Sus medias
y son desconocidas, pero sus varianzas y son conocidas.
Contraste:
Estadístico del contraste:
Región de aceptación:
Región de rechazo:
Contraste de comparación de medias de dos poblaciones normales con varianzas desconocidas e iguales
Sean
- Su distribución es normal
y . - Sus medias
y son desconocidas y sus varianzas también, pero son iguales .
Contraste:
Estadístico del contraste:
Región de aceptación:
Región de rechazo:
Ejemplo. Se quiere comparar el rendimiento académico de dos grupos de alumnos, uno con 10 alumnos y otro con 12, que han seguido metodologías diferentes. Para ello se les realiza un examen y se obtienen las siguientes puntuaciones:
El contraste que se plantea es
Para realizar el contraste, se tiene
puntos y puntos. puntos y puntos . puntos , y .
Si se suponen varianzas iguales, el estadístico del contraste vale
y el
Contraste de comparación de medias de dos poblaciones normales con varianzas desconocidas
Sean
- Su distribución es normal
y . - Sus medias
, y varianzas , , son desconocidas, pero .
Contraste:
Estadístico del contraste:
con
Región de aceptación:
Región de rechazo:
Contraste de comparación de varianzas de dos poblaciones normales
Sean
- Su distribución es normal
y . - Sus medias
, y varianzas , son desconocidas.
Contraste:
Estadístico del contraste:
Región de aceptación:
Región de rechazo:
Ejemplo. Siguiendo con el ejemplo de las puntuaciones en dos grupos:
Si se desea comparar las varianzas, el contraste que se plantea es
Para realizar el contraste, se tiene
puntos y puntos. y puntos .
El estadístico del contraste vale
y el
Contraste de comparación de proporciones de dos poblaciones
Sean
Contraste:
Estadístico del contraste: Las variables que miden el número de individuos con la característica en dos muestras aleatorias de tamaños
Región de aceptación:
Región de rechazo:
Ejemplo. Se quiere comparar los porcentajes de aprobados en dos grupos que han seguido metodologías distintas. En el primer grupo han aprobado 24 alumnos de un total de 40, mientras que en el segundo han aprobado 48 de 60.
El contraste que se plantea es
Para realizar el contraste, se tiene
y el
Realización de contrastes mediante intervalos de confianza
Una interesante alternativa a la realización de un contraste
con un riesgo
Cuando el contraste sea unilateral de menor, el contraste se realizaría comparando
Contraste | Intervalo de confianza | Decisión |
---|---|---|
Bilateral | Rechazar |
|
Unilateral menor | Rechazar |
|
Unilateral mayor | Rechazar |
Ejemplo. Volviendo al contraste para comparar el rendimiento académico de dos grupos de alumnos que han obtenido las siguientes puntuaciones:
El contraste que se planteaba era
Como se trata de un contraste bilateral, el intervalo de confianza para la diferencia de medias
La ventaja del intervalo es que, además de permitirnos realizar el contraste, nos da una idea de la magnitud de la diferencia entre las medias de los grupos.