6  Estimación de parámetros poblacionales

Los modelos de distribución de probabilidad vistos en el tema anterior explican el comportamiento de las variables aleatorias, pero para ello debemos saber qué modelo de distribución sigue una determinada variable. Este es el primer paso de la etapa de Inferencia Estadística.

Para determinar con exactitud el modelo de distribución de una variable hay que conocer la característica estudiada en todos los individuos de la población, lo cual no es posible en la mayoría de los casos (inviabilidad económica, física, temporal, etc.).

Para evitar estos inconvenientes se recurre al estudio de una muestra, a partir de la cual se trata de averiguar, de manera aproximada, el modelo de distribución de la variable en la población.

Estudiar un número reducido de individuos de una muestra en lugar de toda la población tiene indudables ventajas:

Pero también presenta algunos inconvenientes:

Afortunadamente, estos errores pueden ser superados: La representatividad de la muestra se consigue eligiendo la modalidad de muestreo más apropiada para el tipo de estudio; en el caso de los errores, aunque no se pueden evitar, se tratará de reducirlos al máximo y acotarlos.

6.1 Distribuciones muestrales

Los valores de una variable X en una muestra de tamaño n de una población pueden verse como el valor de una variable aleatoria n-dimensional.

Definición 6.1 (Variable aleatoria muestral) Una variable aleatoria muestral de una variable X estudiada en una población es una colección de n variables aleatorias X1,,Xn tales que:

  • Cada una de las variables Xi sigue la misma distribución de probabilidad que la variable X en la población.
  • Todas las variables Xi son mutuamente independientes.

Los valores que puede tomar esta variable n dimensional, serán todas las posibles muestras de tamaño n que pueden extraerse de la población.

Proceso de obtención de la muestra.

Proceso de obtención de la muestra.

Las tres características fundamentales de la variable aleatoria muestral son:

  • Homogeneidad: Las n variables que componen la variable aleatoria muestral siguen la misma distribución.

  • Independencia: Las variables son independientes entre sí.

  • Modelo de distribución: El modelo de distribución que siguen las n variables.

Las dos primeras cuestiones pueden resolverse si se utiliza muestreo aleatorio simple para obtener la muestra. En cuanto a la última, hay que responder, a su vez, a dos cuestiones:

  1. ¿Qué modelo de distribución se ajusta mejor a nuestro conjunto de datos? Esto se resolverá, en parte, mediante la utilización de técnicas no paramétricas.
  2. Una vez seleccionado el modelo de distribución más apropiado, ¿qué estadístico del modelo nos interesa y cómo determinar su valor? De esto último se encarga la parte de la inferencia estadística conocida como Estimación de Parámetros.

En este tema se abordará la segunda cuestión, es decir, suponiendo que se conoce el modelo de distribución de una población, se intentará estimar los principales parámetros que la definen. Por ejemplo, los principales parámetros que definen las distribuciones vistas en el tema anterior son:

Distribución Parámetro
Binomial n,p
Poisson λ
Uniforme a,b
Normal μ,σ
Chi-cuadrado n
T-Student n
F-Fisher m,n

La distribución de probabilidad de los valores de la variable muestral depende claramente de la distribución de probabilidad de los valores de la población.

Ejemplo 6.1 Sea una población en la que la cuarta parte de las familias no tienen hijos, la mitad de las familias tiene 1 hijo, y el resto tiene 2 hijos.

Distribución de la variable muestral.

Por ser función de una variable aleatoria, un estadístico en el muestreo es también una variable aleatoria. Por tanto, su distribución de probabilidad también depende de la distribución de la población y de los parámetros que la determinan (μ, σ, p, …).

Ejemplo 6.2 Si se toma la media muestral X¯ de las muestras de tamaño 2 del ejemplo anterior, su distribución de probabilidad es

Distribución de la media de una muestra de tamaño 2.

Distribución de la media de una muestra de tamaño 2.

Distribución de la media de una muestra de tamaño 2.

¿Cuál es la probabilidad de obtener una media muestral que aproxime la media poblacional con un error máximo de 0.5?

Como hemos visto, para conocer la distribución de un estadístico muestral, es necesario conocer la distribución de la población, lo cual no siempre es posible. Afortunadamente, para muestras grandes es posible aproximar la distribución de algunos estadísticos como la media, gracias al siguiente teorema:

Teorema 6.1 (Teorema central del límite) Si X1,,Xn son variables aleatorias independientes (n30) con medias y varianzas μi=E(Xi), σi2=Var(Xi), i=1,,n respectivamente, entonces la variable aleatoria X=X1++Xn sigue una distribución aproximadamente normal de media la suma de las medias y varianza la suma de las varianzas

X=X1++Xnn30N(i=1nμi,i=1nσi2)

Este teorema además es la explicación de que la mayoría de las variables biológicas presenten una distribución normal, ya que suelen ser causa de múltiples factores que suman sus efectos de manera independiente.

6.1.1 Distribución de la media muestral para muestras grandes (n30)

La media muestral de una muestra aleatoria de tamaño n es la suma de n variables aleatorias independientes, idénticamente distribuidas:

X¯=X1++Xnn=X1n++Xnn

De acuerdo a las propiedades de las transformaciones lineales, la media y la varianza de cada una de estas variables son

E(Xin)=μnyVar(Xin)=σ2n2

con μ y σ2 la media y la varianza de la población de partida.

Entonces, si el tamaño de la muestra es grande (n30), de acuerdo al teorema central del límite, la distribución de la media muestral será normal:

X¯N(i=1nμn,i=1nσ2n2)=N(μ,σn).

Ejemplo 6.3 (Ejemplo para muestras grandes (n30)) Supóngase que se desea estimar el número medio de hijos de una población con media μ=2 hijos y desviación típica σ=1 hijo.

¿Qué probabilidad hay de estimar μ a partir de x¯ con un error menor de 0.2?

De acuerdo al teorema central del límite se tiene:

  1. Para n=30, x¯N(2,1/30) y

P(1.8<x¯<2.2)=0.7267.

  1. Para n=100, x¯N(2,1/100) y

P(1.8<x¯<2.2)=0.9545.

Distribución de la media del número de hijos de dos muestras de tamaños 30 y 100.

6.1.2 Distribución de una proporción muestral para muestras grandes (n30)

Una proporción p poblacional puede calcularse como la media de una variable dicotómica (0,1). Esta variable se conoce como variable de Bernouilli B(p), que es un caso particular de la binomial para n=1. Por tanto, para una muestra aleatoria de tamaño n, una proporción muestral p^ también puede expresarse como la suma de n variables aleatorias independientes, idénticamente distribuidas:

p^=X¯=X1++Xnn=X1n++Xnn, con XiB(p)

y con media y varianza

E(Xin)=pnyVar(Xin)=p(1p)n2

Entonces, si el tamaño de la muestra es grande (n30), de acuerdo al teorema central del límite, la distribución de la proporción muestral también será normal:

p^N(i=1npn,i=1np(1p)n2)=N(p,p(1p)n).

6.2 Estimadores

Los estadísticos muestrales pueden utilizarse para aproximar los parámetros de la población, y cuando un estadístico se utiliza con este fin se le llama estimador del parámetro.

Definición 6.2 (Estimador y estimación) Un estimador es una función de la variable aleatoria muestral

θ^=F(X1,,Xn).

Dada una muestra concreta (x1,,xn), el valor del estimador aplicado a ella se conoce como estimación

θ^0=F(x1,,xn).

Por ser una función de la variable aleatoria muestral, un estimador es, a su vez, una variable aleatoria cuya distribución depende de la población de partida.

Mientras que el estimador es una función que es única, la estimación no es única, sino que depende de la muestra tomada.

Diferencia entre estimador y estimación de un parámetro poblacional.

Ejemplo 6.4 Supóngase que se quiere saber la proporción p de fumadores en una ciudad. En ese caso, la variable dicotómica que mide si una persona fuma (1) o no (0), sigue una distribución de Bernouilli B(p).

Si se toma una muestra aleatoria de tamaño 5, (X1,X2,X3,X4,X5), de esta población, se puede utilizar la proporción de fumadores en la muestra como estimador para la proporción de fumadores en la población:

p^=i=15Xi5

Este estimador es una variable que se distribuye p^1nB(p,p(1p)n).

Si se toman distintas muestras, se obtienen diferentes estimaciones:

MuestraEstimación(1,0,0,1,1)3/5(1,0,0,0,0)1/5(0,1,0,0,1)2/5

La estimación de parámetros puede realizar de de dos formas:

  • Estimación puntual: Se utiliza un único estimador que proporciona un valor o estimación aproximada del parámetro. El principal inconveniente de este tipo de estimación es que no se especifica la bondad de la estimación.
  • Estimación por intervalos: Se utilizan dos estimadores que proporcionan los extremos de un intervalo dentro del cual se cree que está el verdadero valor del parámetro con un cierto grado de seguridad. Esta forma de estimar sí permite controlar el error cometido en la estimación.

Estimación puntual y por intervalos de un parámetro poblacional.

6.3 Estimación puntual

La estimación puntual utiliza un único estimador para estimar el valor del parámetro desconocido de la población.

En teoría pueden utilizarse distintos estimadores para estimar un mismo parámetro. Por ejemplo, en el caso de estimar la proporción de fumadores en una ciudad, podrían haberse utilizado otros posibles estimadores además de la proporción muestral, como pueden ser: θ^1=X1X2X3X4X55θ^2=X1+X52θ^3=X1

¿Cuál es el mejor estimador?

La respuesta a esta cuestión depende de las propiedades de cada estimador.

Aunque la estimación puntual no proporciona ninguna medida del grado de bondad de la estimación, existen varias propiedades que garantizan dicha bondad.

Las propiedades más deseables en un estimador son:

  • Insesgadez
  • Eficiencia
  • Consistencia
  • Normalidad asintótica
  • Suficiencia

Definición 6.3 (Estimador insesgado) Un estimador θ^ es insesgado para un parámetro θ si su esperanza es precisamente θ, es decir,

E(θ^)=θ.

Distribución de estimadores sesgados e insesgados.

Distribución de estimadores sesgados e insesgados.

Cuando un estimador no es insesgado, a la diferencia entre su esperanza y el valor del parámetro θ se le llama sesgo:

Sesgo(θ^)=E(θ^)θ.

Cuanto menor sea el sesgo de un estimador, mejor se aproximarán sus estimaciones al verdadero valor del parámetro.

Definición 6.4 (Estimador consistente) Un estimador θ^n para muestras de tamaño n es consistente para un parámetro θ si para cualquier valor ϵ>0 se cumple

limnP(|θ^nθ|<ϵ)=1.

Distribución de estimadores consistentes.

Distribución de estimadores consistentes.

Distribución de estimadores consistentes segados.

Distribución de estimadores consistentes segados.

Las condiciones suficientes para que un estimador sea consistente son:

  1. Sesgo(θ^n)=0 o limnSesgo(θ^n)=0.
  2. limnVar(θ^n)=0.

Así pues, si la varianza y el sesgo disminuyen a medida que aumenta el tamaño de la muestra, el estimador será consistente.

Definición 6.5 (Estimador eficiente) Un estimador θ^ de un parámetro θ es eficiente si tiene el menor error cuadrático medio

ECM(θ^)=Sesgo(θ^)2+Var(θ).

Distribución de estimadores insesgados y eficientes sesgados.

Distribución de estimadores insesgados y eficientes sesgados.

Definición 6.6 (Estimador asintóticamente normal) Un estimador θ^ es asintóticamente normal si, independientemente de la distribución de la variable aleatoria muestral, su distribución es normal si el tamaño de la muestra es suficientemente grande.:::

Como veremos más adelante esta propiedad es muy interesante para hacer estimaciones de parámetros mediante intervalos.

Distribución de estimadores asintóticamente normales.

Distribución de estimadores asintóticamente normales.

Definición 6.7 (Estimador suficiente) Un estimador θ^ es suficiente para un parámetro θ, si la distribución condicionada de la variable aleatoria muestral, una vez dada la estimación θ^=θ^0, no depende de θ.

Esto significa que cuando se obtiene una estimación, cualquier otra información es irrelevante para θ.

El estimador que se suele utilizar para estimar la media poblacional es la media muestral.

Para muestras de tamaño n resulta la siguiente variable aleatoria:

X¯=X1++Xnn

Si la población de partida tiene media μ y varianza σ2 se cumple

E(X¯)=μyVar(X¯)=σ2n

Así pues, la media muestral es un estimador insesgado, y como su varianza disminuye a medida que aumenta el tamaño muestral, también es consistente y eficiente.

Sin embargo, la varianza muestral

S2=i=1n(XiX¯)2n

es un estimador sesgado para la varianza poblacional, ya que

E(S2)=n1nσ2.

No obstante, resulta sencillo corregir este sesgo para llegar a un estimador insesgado:

Definición 6.8 (Cuasivarianza muestral) Dada una muestra de tamaño n de una variable aleatoria X, se define la cuasivarianza muestral como

S^2=i=1n(XiX¯)2n1=nn1S2.

6.4 Estimación por intervalos

El principal problema de la estimación puntual es que, una vez seleccionada la muestra y hecha la estimación, resulta imposible saber el error cometido.

Error cometido en la estimación puntual.

Para controlar el error de la estimación es mejor utilizar la estimación por intervalos

Error en la estimación por intervalos.

La estimación por intervalos trata de construir a partir de la muestra un intervalo dentro del cual se supone que se encuentra el parámetro a estimar con un cierto grado de confianza. Para ello se utilizan dos estimadores, uno para el límite inferior del intervalo y otro para el superior.

Definición 6.9 (Intervalo de confianza) Dados dos estimadores l^i(X1,,Xn) y l^s(X1,,Xn), y sus respectivas estimaciones l1 y l2 para una muestra concreta, se dice que el intervalo I=[l1,l2] es un intervalo de confianza para un parámetro poblacional θ, con un nivel de confianza 1α (o nivel de significación α), si se cumple

P(l^i(X1,,Xn)θl^s(X1,,Xn))=1α.

Un intervalo de confianza nunca garantiza con absoluta certeza que el parámetro se encuentra dentro él.

Tampoco se puede decir que la probabilidad de que el parámetro esté dentro del intervalo es 1α, ya que una vez calculado el intervalo, las variables aleatorias que determinan sus extremos han tomado un valor concreto y ya no tiene sentido hablar de probabilidad, es decir, o el parámetro está dentro, o está fuera, pero con absoluta certeza.

Lo que si se deduce de la definición es que el (1α)% de los intervalos correspondientes a las todas las posibles muestras aleatorias, contendrán al parámetro. Es por eso que se habla de confianza y no de probabilidad.

Para que un intervalo sea útil su nivel de confianza debe ser alto:

1α=0.90 o α=0.101α=0.95 o α=0.051α=0.99 o α=0.01

siendo 0.95 el nivel de confianza más habitual y 0.99 en casos críticos.

Teóricamente, de cada 100 intervalos para estimar un parámetro θ con nivel de confianza 1α=0.95, 95 contendrían a θ y sólo 5 lo dejarían fuera.

6.4.1 Error de estimación

Otro de los aspectos más importantes de un intervalo de confianza es su error.

Definición 6.10 (Error o imprecisión de un intervalo) El error o la imprecisión de un intervalo de confianza [li,ls] es su amplitud

A=lsli.

Error en la estimación de un  intervalo de confianza.

Para que un intervalo sea útil no debe ser demasiado impreciso.

En general, la precisión de un intervalo depende de tres factores:

  • La dispersión de la población. Cuanto más dispersa sea, menos preciso será el intervalo.

  • El nivel de confianza. Cuanto mayor sea el nivel de confianza, menos preciso será el intervalo.

  • El tamaño muestral. Cuanto mayor sea el tamaño muestral, más preciso será el intervalo.

Si la confianza y la precisión están reñidas, ¿cómo se puede ganar precisión sin perder confianza?

Habitualmente, para calcular un intervalo de confianza se suele partir de un estimador puntual del que se conoce su distribución muestral.

A partir de este estimador se calculan los extremos del intervalo sobre su distribución, buscando los valores que dejan encerrada una probabilidad 1α. Estos valores suelen tomarse de manera simétrica, de manera que el extremo inferior deje una probabilidad acumulada inferior α/2 y el extremo superior deje una probabilidad acumulada superior también de α/2.

Cálculo de los límites del intervalo.

6.5 Intervalos de confianza para una población

A continuación se presentan los intervalos de confianza para estimar un parámetro de una poblacion:

  • Intervalo para la media de una población normal con varianza conocida.
  • Intervalo para la media de una población normal con varianza desconocida.
  • Intervalo para la media de una población con varianza desconocida a partir de muestras grandes.
  • Intervalo para la varianza de una población normal.
  • Intervalo para un proporción de una población.

6.5.1 Intervalo de confianza para la media de una población normal con varianza conocida

Sea X una variable aleatoria que cumple las siguientes hipótesis:

  • Su distribución es normal XN(μ,σ).
  • La media μ es desconocida, pero su varianza σ2 es conocida.

Bajo estas hipótesis, la media muestral, para muestras de tamaño n, sigue también una distribución normal

X¯N(μ,σn)

Tipificando la variable se tiene

Z=X¯μσ/nN(0,1)

Sobre esta distribución resulta sencillo calcular los valores zi y zs de manera que

P(ziZzs)=1α.

Como la distribución normal estándar es simétrica respecto al 0, lo mejor es tomar valores opuestos zα/2 y zα/2 que dejen sendas colas de probabilidad acumulada α/2.

Cálculo de los límites del intervalo de confianza para le media.

A partir de aquí, deshaciendo la tipificación, resulta sencillo llegar a los estimadores que darán los extremos del intervalo de confianza:

1α=P(zα/2Zzα/2)=P(zα/2X¯μσ/nzα/2)==P(zα/2σnX¯μzα/2σn)==P(X¯zα/2σnμX¯+zα/2σn)==P(X¯zα/2σnμX¯+zα/2σn).

Así pues, el intervalo de confianza para la media de una población normal con varianza conocida es:

Teorema 6.2 (Intervalo de confianza para la media de una población normal con varianza conocida) Si XN(μ,σ) con σ conocida, el intervalo de confianza para la media μ con nivel de confianza 1α es

[X¯zα/2σn,X¯+zα/2σn] o bien X¯±zα/2σn

De la fórmula del intervalo de confianza

X¯±zα/2σn

se deducen varias características:

  1. El intervalo está centrado en la media muestral X¯ que era el mejor estimador de la media poblacional.

  2. La amplitud o imprecisión del intervalo es

A=2zα/2σn

de manera que depende de:

  • σ: cuanto mayor sea la varianza poblacional, mayor será la imprecisión.
  • zα/2: que a su vez depende del nivel de confianza, y cuanto mayor sea 1α, mayor será la imprecisión.
  • n: cuanto mayor sea el tamaño de la muestra, menor será la imprecisión.

Por tanto, la única forma de reducir la imprecisión del intervalo, manteniendo la confianza, es aumentando el tamaño muestral.

6.5.1.1 Cálculo del tamaño muestra para estimar la media de una población normal con varianza conocida

Teniendo en cuenta que la amplitud o imprecisión del intervalo para la media de una población normal con varianza conocida es

A=2zα/2σn

se puede calcular fácilmente el tamaño muestral necesario para conseguir un intervalo de amplitud A con confianza 1α:

A=2zα/2σnn=2zα/2σA,

de donde se deduce

n=4zα/22σ2A2

Ejemplo 6.5 Sea una población de estudiantes en la que la puntuación obtenida en un examen sigue una distribución normal XN(μ,σ=1.5).

Para estimar la nota media μ, se toma una muestra de 10 estudiantes:

4687765253

A partir de esta muestra, podemos calcular el intervalo de confianza para μ con un nivel de confianza 1α=0.95 (nivel de significación α=0.05):

  • X¯=4++310=5310=5.3 puntos.
  • zα/2=z0.025 es el valor de la normal estándar que deja una probabilidad acumulada superior de 0.025, que vale aproximadamente 1.96.

Sustituyendo estos valores en la fórmula del intervalo, se tiene

X¯±zα/2σn=5.3±1.961.510=5.3±0.93=[4.37,6.23].

Es decir, μ estaría entre 4.37 y 6.23 puntos con un 95% de confianza.

Ejemplo 6.6 La imprecisión del intervalo anterior es de ±0.93 puntos.

Si se desea reducir esta imprecisión a ±0.5 puntos, ¿qué tamaño muestral sería necesario?

n=4zα/22σ2A2=41.9621.52(20.5)2=34.57.

Por tanto, se necesitaría una muestra de al menos 35 estudiantes para conseguir un intervalo del 95% de confianza y una precisión de ±0.5 puntos.

6.5.2 Intervalo de confianza para la media de una población normal con varianza desconocida

Sea X una variable aleatoria que cumple las siguientes hipótesis:

  • Su distribución es normal XN(μ,σ).
  • Tanto su media μ como su varianza σ2 son desconocidas.

Cuando se desconoce la varianza poblacional se suele estimar mediante la cuasivarianza S^2. Como consecuencia, el estimador de referencia ya no sigue una distribución normal como en el caso de conocer la varianza, sino un T de Student de n1 grados de libertad:

X¯N(μ,σn)(n1)S^2σ2χ2(n1)}X¯μS^/nT(n1),

Como la distribución T de Student, al igual que la normal, también es simétrica respecto al 0, se pueden tomar dos valores opuestos tα/2n1 y tα/2n1 de manera que

1α=P(tα/2n1X¯μS^/ntα/2n1)=P(tα/2n1S^nX¯μtα/2n1S^n)=P(X¯tα/2n1S^nμX¯tα/2n1S^n)

Teorema 6.3 (Intervalo de confianza para la media de una población normal con varianza desconocida) Si XN(μ,σ) con σ desconocida, el intervalo de confianza para la media μ con nivel de confianza 1α es

[X¯tα/2n1S^n,X¯+tα/2n1S^n]

o bien

X¯±tα/2n1S^n

6.5.2.1 Calculo del tamaño muestral para estimar la media de una población normal con varianza desconocida

Al igual que antes, teniendo en cuenta que la amplitud o imprecisión del intervalo para la media de una población con varianza desconocida es

A=2tα/2n1S^n

se puede calcular fácilmente el tamaño muestral necesario para conseguir un intervalo de amplitud A con confianza 1α:

A=2tα/2n1S^nn=2tα/2n1S^A,

de donde se deduce

n=4(tα/2n1)2S^2A2

El único problema, a diferencia del caso anterior en que σ era conocida, es que se necesita S^, por lo que se suele tomar una muestra pequeña previa para calcularla. Por otro lado, el valor de la T de student suele aproximarse asintóticamente por el de la normal estándar tα/2n1zα/2.

Ejemplo 6.7 Supóngase que en el ejemplo anterior no se conoce la varianza poblacional de las puntuaciones.

Trabajando con la misma muestra de las puntuaciones de 10 estudiantes

4687765253

se puede calcular el intervalo de confianza para μ con un nivel de confianza 1α=0.95 (nivel de significación α=0.05):

  • X¯=4++310=5310=5.3 puntos.
  • S^2=(45.3)2++(35.3)29=3.5667 y S^=3.5667=1.8886 puntos.
  • tα/2n1=t0.0259 es el valor de la T de Student de 9 grados de libertad, que deja una probabilidad acumulada superior de 0.025, que vale 2.2622.

Sustituyendo estos valores en la fórmula del intervalo, se tiene

X¯±tα/2n1S^n=5.3±2.26221.888610=5.3±1.351=[3.949,6.651].

Ejemplo 6.8 Como se puede apreciar, la imprecisión del intervalo anterior es de ±1.8886 puntos, que es significativamente mayor que en el caso de conocer la varianza de la población. Esto es lógico pues al tener que estimar la varianza de la población, el error de la estimación se agrega al error del intervalo.

Ahora, el tamaño muestral necesario para reducir la imprecisión a ±0.5 puntos es

n=4(zα/2)2S^2A2=41.9623.5667(20.5)2=54.81.

Por tanto, si se desconoce la varianza de la población se necesita una muestra de al menos 55 estudiantes para conseguir un intervalo del 95% de confianza y una precisión de ±0.5 puntos.

6.5.3 Intervalo de confianza para la media de una población no normal

Sea X una variable aleatoria que cumple las siguientes hipótesis:

  • Su distribución no es normal.
  • Tanto su media μ como su varianza σ2 son desconocidas.

Si la población no es normal las distribuciones de los estimadores de referencia cambian, de manera que los intervalos anteriores no son válidos.

No obstante, si la muestras es grande (n30), de acuerdo al teorema central del límite, la distribución de la media muestral se aproximará a una normal, de modo que sigue siendo cierto

X¯N(μ,σn)

En consecuencia, sigue siendo válido el intervalo anterior.

Teorema 6.4 (Intervalo de confianza para la media de una población no normal con muestras grandes) Si X es una variable con distribución no normal y n30, el intervalo de confianza para la media μ con nivel de confianza 1α es

X¯±tα/2n1S^n

6.5.4 Intervalo de confianza para la varianza de una población normal

Sea X una variable aleatoria que cumple las siguientes hipótesis:

  1. Su distribución es normal XN(μ,σ).
  2. Tanto su media μ como su varianza σ2 son desconocidas.

Para estimar la varianza de una población normal, se parte del estimador de referencia

nS2σ2=(n1)S^2σ2χ2(n1),

que sigue una distribución chi-cuadrado de n1 grados de libertad.

Sobre esta distribución hay que calcular los valores χi y χs tales que

P(χiχ2(n1)χs)=1α.

Como la distribución chi-cuadrado no es simétrica respecto al 0, se toman dos valores χα/2n1 y χ1α/2n1 que dejen sendas colas de probabilidad acumulada inferior de α/2 y 1α/2 respectivamente.

Extremos del intervalo de confianza para la varianza de una población normal.

Así pues, se tiene

1α=P(χα/2n1nS2σ2χ1α/2n1)=P(1χα/2n1σ2nS21χ1α/2n1)==P(1χ1α/2n1σ2nS21χα/2n1)=P(nS2χ1α/2n1σ2nS2χα/2n1).

Por tanto, el intervalo de confianza para la varianza de una población normal es:

Teorema 6.5 (Intervalo de confianza para la varianza de una población normal) Si XN(μ,σ) con σ conocida, el intervalo de confianza para la varianza σ2 con nivel de confianza 1α es

[nS2χ1α/2n1,nS2χα/2n1]

Ejemplo 6.9 Siguiendo con el ejemplo de las puntuaciones en un examen, si se quiere estimar la varianza a partir de la muestra:

4687765253

para el intervalo de confianza para σ2 con un nivel de confianza 1α=0.95 (nivel de significación α=0.05) se tiene:

  • S2=(45.3)2++(35.3)210=3.21 puntos2.
  • χα/2n1=χ0.0259 es el valor de la chi-cuadrado de 9 grados de libertad, que deja una probabilidad acumulada inferior de 0.025, y vale 2.7.
  • χ1α/2n1=χ0.9759 es el valor de la chi-cuadrado de 9 grados de libertad, que deja una probabilidad acumulada inferior de 0.975, y vale 19.

Sustituyendo estos valores en la fórmula del intervalo, se llega a

[nS2χ1α/2n1,nS2χα/2n1]=[103.2119,103.212.7]=[1.69,11.89] puntos2.

6.5.5 Intervalo de confianza para una proporción

Para estimar la proporción p de individuos de una población que presentan una determinada característica, se parte de la variable que mide el número de individuos que la presentan en una muestra de tamaño n. Dicha variable sigue una distribución binomial

XB(n,p)

Como ya se vio, si el tamaño muestral es suficientemente grande (en realidad basta que se cumpla np5 y n(1p)5), el teorema central de límite asegura que X tendrá una distribución aproximadamente normal

XN(np,np(1p)).

En consecuencia, la proporción muestral p^ también será normal

p^=XnN(p,p(1p)n),

que es el estimador de referencia.

Trabajando con la distribución del estimador de referencia

p^N(p,p(1p)n)

tras tipificar, se pueden encontrar fácilmente, al igual que hicimos antes, valores zα/2 y zα/2 que cumplan

P(zα/2p^pp(1p)/nzα/2)=1α.

Así pues, deshaciendo la tipificación y razonando como antes, se tiene

1α=P(zα/2p^pp(1p)/nzα/2)=P(zα/2p(1p)np^pzα/2p(1p)n)=P(p^zα/2p(1p)npp^+zα/2p(1p)n)

Por tanto, el intervalo de confianza para una proporción es

Teorema 6.6 (Intervalo de confianza para una proporción) Si XB(n,p), y se cumple que np5 y n(1p)5, entonces el intervalo de confianza para la proporción p con nivel de confianza 1α es

[p^zα/2p^(1p^)n,p^+zα/2p^(1p^)n]

o bien

p^±zα/2p^(1p^)n

6.5.5.1 Cálculo del tamaño muestra para estimar una proporción

La amplitud o imprecisión del intervalo para la proporción de una población es

A=2zα/2p^(1p^)n

así que se puede calcular fácilmente el tamaño muestral necesario para conseguir un intervalo de amplitud A con confianza 1α:

A=2zα/2p^(1p^)nA2=4zα/22p^(1p^)n,

de donde se deduce

n=4zα/22p^(1p^)A2

Para poder hacer el cálculo se necesita una estimación de la proporción p^, por lo que suele tomarse una muestra previa pequeña para calcularla. En el peor de los casos, si no se dispone de una muestra previa, puede tomarse p^=0.5.

Ejemplo 6.10 Supóngase que se quiere estimar la proporción de fumadores que hay en una determinada población. Para ello se toma una muestra de 20 personas y se observa si fuman (1) o no (0):

01100010010001101100

Entonces:

  • p^=820=0.4, por tanto, se cumple np=200.4=85 y n(1p)=200.6=125.
  • zα/2=z0.025 es el valor de la normal estándar que deja una probabilidad acumulada superior de 0.025, que vale aproximadamente 1.96.

Sustituyendo estos valores en la fórmula del intervalo, se tiene

p^±zα/2p^(1p^)n=0.4±1.960.40.610=0.4±0.3=[0.1,0.7].

Es decir, p estaría entre 0.1 y 0.7 con un 95% de confianza.

Ejemplo 6.11 Como se puede apreciar la imprecisión del intervalo anterior es ±0.3, que es enorme teniendo en cuenta que se trata de un intervalo para una proporción.

Para conseguir intervalos precisos para estimar proporciones se necesitan tamaños muestrales bastante grandes. Si por ejemplo se quiere una precisión de ±0.05, el tamaño muestral necesario sería:

n=4zα/22p^(1p^)A2=41.9620.40.6(20.05)2=368.79.

Es decir, se necesitarían al menos 369 individuos para conseguir un intervalo para la proporción con una confianza del 95%.

6.6 Intervalos de confianza para la comparación dos poblaciones

En muchos estudios el objetivo en sí no es averiguar el valor de un parámetro, sino compararlo con el de otra población. Por ejemplo, comparar si un determinado parámetro vale lo mismo en la población de hombres y en la de mujeres.

En estos casos no interesa realmente estimar los dos parámetros por separado, sino hacer una estimación que permita su comparación.

Se verán tres casos:

  • Comparación de medias: Se estima la diferencia de medias μ1μ2.
  • Comparación de varianzas: Se estima la razón de varianzas σ12σ22.
  • Comparación de proporciones: Se estima la diferencia de proporciones p^1p^2.

A continuación se presentan los siguientes intervalos de confianza para la comparación de dos poblaciones:

  • Intervalo para la diferencia de medias de dos poblaciones normales con varianzas conocidas.
  • Intervalo para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales.
  • Intervalo para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y diferentes.
  • Intervalo para el cociente de varianzas de dos poblaciones normales.
  • Intervalo para la diferencia de proporciones de dos poblaciones.

6.6.1 Intervalo de confianza para la diferencia de medias de poblaciones normales con varianzas conocidas

Sean X1 y X2 dos variables aleatorias que cumplen las siguientes hipótesis:

  1. Su distribución es normal X1N(μ1,σ1) y X2N(μ2,σ2).
  2. Sus medias μ1 y μ2 son desconocidas, pero sus varianzas σ12 y σ22 son conocidas.

Bajo estas hipótesis, si se toman dos muestras independientes, una de cada población, de tamaños n1 y n2 respectivamente, la diferencia de las medias muestrales sigue una distribución normal

X¯1N(μ1,σ1n1)X¯2N(μ2,σ2n2)}X¯1X¯2N(μ1μ2,σ12n1+σ22n2).

A partir de aquí, tipificando, se pueden buscar los valores de la normal estándar zα/2 y zα/2 que cumplen:

P(zα/2(X¯1X¯2)(μ1μ2)σ12n1+σ22n2zα/2)=1α.

Y deshaciendo la tipificación, se tiene

1α=P(zα/2(X¯1X¯2)(μ1μ2)σ12n1+σ22n2zα/2)=P(zα/2σ12n1+σ22n2(X¯1X¯2)(μ1μ2)zα/2σ12n1+σ22n2)=P(X¯1X¯2zα/2σ12n1+σ22n2μ1μ2X¯1X¯2+zα/2σ12n1+σ22n2)

Así pues, el intervalo de confianza para la diferencia de medias es

Teorema 6.7 (Intervalo de confianza para la diferencia de medias de poblaciones normales con varianzas conocidas) Si X1N(μ1,σ1) y X2N(μ2,σ2), con σ1 y σ2 conocidas, el intervalo de confianza para la diferencia de medias μ1μ2 con nivel de confianza 1α es

[X¯1X¯2zα/2σ12n1+σ22n2,X¯1X¯2+zα/2σ12n1+σ22n2]

o bien

X¯1X¯2±zα/2σ12n1+σ22n2

6.6.2 Intervalo de confianza para la diferencia de medias de dos poblaciones normales con varianzas desconocidas e iguales

Sean X1 y X2 dos variables aleatorias que cumplen las siguientes hipótesis:

  • Su distribución es normal X1N(μ1,σ1) y X2N(μ2,σ2).
  • Sus medias μ1 y μ2 son desconocidas y sus varianzas también, pero son iguales σ12=σ22=σ2.

Cuando se desconoce la varianza poblacional se puede estimar a partir de las muestras de tamaños n1 y n2 de ambas poblaciones mediante la cuasivarianza ponderada:

S^p2=n1S12+n2S22n1+n22.

El estimador de referencia en este caso sigue una distribución T de Student:

X¯1X¯2N(μ1μ2,σn1+n2n1n2)n1S12+n2S22σ2χ2(n1+n22)}(X¯1X¯2)(μ1μ2)S^pn1+n2n1n2T(n1+n22).

A partir de aquí, se pueden buscar los valores de la T de Student tα/2n1+n22 y tα/2n1+n22 que cumplen

P(tα/2n1+n22(X¯1X¯2)(μ1μ2)S^pn1+n2n1n2tα/2n1+n22)=1α.

Y deshaciendo la transformación se tiene

1α=P(tα/2n1+n22(X¯1X¯2)(μ1μ2)S^pn1+n2n1n2tα/2n1+n22)=P(tα/2n1+n22S^pn1+n2n1n2(X¯1X¯2)(μ1μ2)tα/2n1+n22S^pn1+n2n1n2)=P(X¯1X¯2tα/2n1+n22S^pn1+n2n1n2μ1μ2X¯1X¯2+tα/2n1+n22S^pn1+n2n1n2).

Así pues, el intervalo de confianza para la diferencia de medias es

Teorema 6.8 (Intervalo de confianza para la diferencia de medias de poblaciones normales con varianzas desconocidas iguales) Si X1N(μ1,σ1) y X2N(μ2,σ2), con σ1=σ2 desconocidas, el intervalo de confianza para la diferencia de medias μ1μ2 con nivel de confianza 1α es

[X¯1X¯2tα/2n1+n22S^pn1+n2n1n2,X¯1X¯2+tα/2n1+n22S^pn1+n2n1n2]

o bien

X¯1X¯2±tα/2n1+n22S^pn1+n2n1n2

Si [li,ls] es un intervalo de confianza de nivel 1α para la diferencia de medias μ1μ2, entonces

μ1μ2[li,ls]

con una confianza del 1α%.

Por consiguiente, según los valores del intervalo de confianza se tiene:

  • Si todos los valores del intervalo son negativos (ls<0), entonces se puede concluir que μ1μ2<0 y por tanto μ1<μ2.
  • Si todos los valores del intervalo son positivos (li>0), entonces se puede concluir que μ1μ2>0 y por tanto μ1>μ2.
  • Si el intervalo tiene tanto valores positivos como negativos, y por tanto contiene al 0 (0[li,ls]), entonces no se puede afirmar que una media sea mayor que la otra. En este caso se suele asumir la hipótesis de que las medias son iguales μ1=μ2.

Tanto en el primer como en el segundo caso se dice que entre las medias hay diferencias estadísticamente significativas.

Ejemplo 6.12 Supóngase que se quiere comparar el rendimiento académico de dos grupos de alumnos, uno con 10 alumnos y otro con 12, que han seguido metodologías diferentes. Para ello se les realiza un examen y se obtienen las siguientes puntuaciones:

X1:4687765253X2:895387868757

Si se supone que ambas variables tienen la misma varianza, se tiene

  • X¯1=4++310=5.3 y X¯2=8++712=6.75 puntos.
  • S12=42++32105.32=3.21 y S22=82++32126.752=2.6875 puntos2.
  • S^p2=103.21+122.687510+122=3.2175 puntos2, y S^p=1.7937.
  • tα/2n1+n22=t0.02520 es el valor de la T de Student de 20 grados de libertad que deja una probabilidad acumulada superior de 0.025, y que vale aproximadamente 2.09.

Y sustituyendo en la fórmula del intervalo llegamos a

5.36.75±2.0861.793710+121012=1.45±1.6021=[3.0521,0.1521] puntos.

Es decir, la diferencia de puntuaciones medias μ1μ2 está entre 3.0521 y 0.1521 puntos con una confianza del 95%.

A la vista del intervalo se puede concluir que, puesto que el intervalo contiene tanto valores positivos como negativos, y por tanto contiene al 0, no puede afirmarse que una de las medias se mayor que la otra, de modo que se supone que son iguales y no se puede decir que haya diferencias significativas entre los grupos.

6.6.3 Intervalo de confianza para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y distintas

Sean X1 y X2 dos variables aleatorias que cumplen las siguientes hipótesis:

  • Su distribución es normal X1N(μ1,σ1) y X2N(μ2,σ2).
  • Sus medias μ1, μ2 y varianzas σ12, σ22, son desconocidas, pero σ12σ22.

En este caso el estimador de referencia sigue una distribución T de Student

(X¯1X¯2)(μ1μ2)S^12n1+S^22n2T(g),

donde el número de grados de libertad es g=n1+n22Δ, siendo

Δ=(n21n1S^12n11n2S^22)2n21n12S^14+n11n22S^24.

A partir de aquí, una vez más, se pueden buscar los valores de la T de Student tα/2g y tα/2g que cumplen

P(tα/2g(X¯1X¯2)(μ1μ2)S^12n1+S^22n2tα/2g)=1α.

Y deshaciendo la transformación se llega a

1α=P(tα/2g(X¯1X¯2)(μ1μ2)S^12n1+S^22n2tα/2g)=P(tα/2gS^12n1+S^22n2(X¯1X¯2)(μ1μ2)tα/2gS^12n1+S^22n2)=P(X¯1X¯2tα/2gS^12n1+S^22n2μ1μ2X¯1X¯2+tα/2gS^12n1+S^22n2)

Así pues, el intervalo de confianza para la diferencia de medias es

Teorema 6.9 (Intervalo de confianza para la diferencia de medias de poblaciones normales con varianzas desconocidas distintas) Si X1N(μ1,σ1) y X2N(μ2,σ2), con σ1σ2 desconocidas, el intervalo de confianza para la diferencia de medias μ1μ2 con nivel de confianza 1α es [X¯1X¯2tα/2gS^12n1+S^22n2,X¯1X¯2tα/2gS^12n1+S^22n2]

o bien

X¯1X¯2±tα/2gS^12n1+S^22n2

Como se acaba de ver, existen dos intervalos posibles para estimar la diferencia de medias: uno para cuando las varianzas poblacionales son iguales y otro para cuando no lo son.

Ahora bien, si las varianzas poblacionales son desconocidas,

¿cómo saber qué intervalo utilizar?

La respuesta está en el próximo intervalo que se verá, que permite estimar la razón de varianzas σ22σ12 y por tanto, su comparación.

Así pues, antes de calcular el intervalo de confianza para la comparación de medias, cuando las varianzas poblacionales sean desconocidas, es necesario calcular el intervalo de confianza para la razón de varianzas y elegir el intervalo para la comparación de medias en función del valor de dicho intervalo.

6.6.4 Intervalo de confianza para el cociente de varianzas

Sean X1 y X2 dos variables aleatorias que cumplen las siguientes hipótesis:

  • Su distribución es normal X1N(μ1,σ1) y X2N(μ2,σ2).
  • Sus medias μ1, μ2 y varianzas σ12, σ22 son desconocidas.

En este caso, para muestras de ambas poblaciones de tamaños n1 y n2 respectivamente, el estimador de referencia sigue una distribución F de Fisher-Snedecor:

(n11)S^12σ12χ2(n11)(n21)S^22σ22χ2(n21)}(n21)S^22σ22n21(n11)S^12σ12n11=σ12σ22S^22S^12F(n21,n11).

Como la distribución F de Fisher-Snedecor no es simétrica respecto al 0, se toman dos valores fα/2n21,n11 y f1α/2n21,n11 que dejen sendas colas de probabilidad acumulada inferior de α/2 y 1α/2 respectivamente.

Extremos del intervalo de confianza para comparación de varianzas de una población normal.

Así pues, se tiene

1α=P(fα/2n21,n11σ12σ22S^22S^12f1α/2n21,n11)==P(fα/2n21,n11S^12S^22σ12σ22f1α/2n21,n11S^12S^22)

Por tanto, el intervalo de confianza para la comparación de varianzas de dos poblaciones normales es

Teorema 6.10 (Intervalo de confianza para el cociente de varianzas de poblaciones normales) Si X1N(μ1,σ1) y X2N(μ2,σ2), el intervalo de confianza para el cociente de varianzas σ1/σ2 con nivel de confianza 1α es

[fα/2n21,n11S^12S^22,f1α/2n21,n11S^12S^22]

Si [li,ls] es un intervalo de confianza de nivel 1α para la razón de varianzas σ12σ22, entonces

σ12σ22[li,ls]

con una confianza del 1α%.

Por consiguiente, según los valores del intervalo de confianza se tiene:

  • Si todos los valores del intervalo son menores que 1 (ls<1), entonces se puede concluir que σ12σ22<1 y por tanto σ12<σ22.
  • Si todos los valores del intervalo son mayores que 1 (li>1), entonces se puede concluir que σ12σ22>1 y por tanto σ12>σ22.
  • Si el intervalo tiene tanto valores mayores como menores que 1, y por tanto contiene al 1 (1[li,ls]), entonces no se puede afirmar que una varianza sea mayor que la otra. En este caso se suele asumir la hipótesis de que las varianzas son iguales σ12=σ22.

Ejemplo 6.13 Siguiendo con el ejemplo de las puntuaciones en dos grupos:

X1:4687765253X2:895387868757

Para calcular el intervalo de confianza para la razón de varianzas con una confianza del 95%, se tiene:

  • X¯1=4++310=5.3 puntos y X¯2=8++712=6.75 puntos.
  • S^12=(45.3)2++(35.3)29=3.5667 puntos2 y S^22=(86.75)2++(36.75)211=2.9318 puntos2.
  • fα/2n21,n11=f0.02511,9 es el valor de la F de Fisher de 11 y 9 grados de libertad que deja una probabilidad acumulada inferior de 0.025, y que vale aproximadamente 0.2787.
  • f1α/2n21,n11=f0.97511,9 es el valor de la F de Fisher de 11 y 9 grados de libertad que deja una probabilidad acumulada inferior de 0.975, y que vale aproximadamente 3.9121.

Sustituyendo en la fórmula del intervalo se llega a

[0.27873.56672.9318,3.91213.56672.9318]=[0.3391,4.7591] puntos2.

Es decir, la razón de varianzas σ12σ22 está entre 0.3391 y 4.7591 con una confianza del 95%.

Como el intervalo tiene tanto valores menores como mayores que 1, no se puede concluir que una varianza sea mayor que la otra, y por tanto se mantiene la hipótesis de que ambas varianzas son iguales.

Si ahora se quisiesen comparar las medias de ambas poblaciones, el intervalo de confianza para la diferencia de medias que habría que tomar es el que parte de la hipótesis de igualdad de varianzas, que precisamente es el que se ha utilizado antes.

6.6.5 Intervalo de confianza para la diferencia de proporciones

Para comparar las proporciones p1 y p2 de individuos que presentan una determinada característica en dos poblaciones independientes, se estima su diferencia p1p2.

Si se toma una muestra de cada población, de tamaños n1 y n2 respectivamente, las variables que miden el número de individuos que presentan la característica en cada una de ellas siguen distribuciones

X1B(n1,p1)yX2B(n2,p2)

Cuando los tamaños muestrales son grandes (en realidad basta que se cumpla n1p15, n1(1p1)5, n2p25 y n2(1p2)5), el teorema central de límite asegura que X1 y X2 tendrán distribuciones normales

X1N(n1p1,n1p1(1p1))yX2N(n2p2,n2p2(1p2)),

y las proporciones muestrales

p^1=X1n1N(p1,p1(1p1)n1)yp^2=X2n2N(p2,p2(1p2)n2)

A partir de las proporciones muestrales se construye el estimador de referencia

p^1p^2N(p1p2,p1(1p1)n1+p2(1p2)n2).

Tipificando, se buscan valores zα/2 y zα/2 que cumplan

P(zα/2(p^1p2^)(p1p2)p1(1p1)n1+p2(1p2)n2zα/2)=1α.

Y deshaciendo la tipificación, se llega a

1α=P(zα/2(p^1p2^)(p1p2)p1(1p1)n1+p2(1p2)n2zα/2)=P(zα/2p1(1p1)n1+p2(1p2)n2(p^1p2^)(p1p2)zα/2p1(1p1)n1+p2(1p2)n2)=P(p^1p2^zα/2p1(1p1)n1+p2(1p2)n2p^1p2^+p1p2zα/2p1(1p1)n1+p2(1p2)n2)

Así pues, el intervalo de confianza para la diferencia de proporciones es

Teorema 6.11 (Intervalo de confianza para la diferencia de proporciones) Si X1B(n1,p1) y X2B(n2,p2), con n1p15, n1(1p1)5, n2p25 y n2(1p2)5, el intervalo de confianza para la diferencia de proporciones p1p2 con nivel de confianza 1α es

p^1p^2±zα/2p^1(1p^1)n1+p^2(1p^2)n2

Ejemplo 6.14 Supóngase que se quieren comparar las proporciones o porcentajes de aprobados en dos grupos que han seguido metodologías distintas. En el primer grupo han aprobado 24 alumnos de un total de 40, mientras que en el segundo han aprobado 48 de 60.

Para calcular el intervalo de confianza para la diferencia de proporciones con un nivel de confianza del 95%, se tiene:

  • p^1=24/40=0.6 y p^2=48/60=0.8, de manera que se cumplen las hipótesis n1p^1=400.6=245, n1(1p^1)=40(10.6)=265, n2p^2=600.8=485 y n2(1p^2)=60(10.8)=125.
  • zα/2=z0.025=1.96.

Sustituyendo en la fórmula del intervalo se tiene

0.60.8±1.960.6(10.6)40+0.8(10.8)60=0.2±0.17=[0.37,0.03].

Como el intervalo es negativo se tiene p1p2<0p1<p2, y se puede concluir que hay diferencias significativas en el porcentaje de aprobados.