Examen de Farmacia 2021-01-18

Grados: Farmacia y Biotecnología
Fecha: 18 de enero de 2021

Ejercicio 1

La siguiente tabla muestra las diferencias de notas entre las notas de bachillerato y las del examen de selectividad en los centros públicos ($X$) y privados ($Y$) de una región:

$$ \begin{array}{lrrrrrrrrr} \hline \mbox{Centros públicos} & -1.2 & -0.7 & -0.4 & -0.9 & -1.6 & 0.5 & 0.2 & -1.8 & 0.8\newline
\mbox{Centros privados} & -2.1 & -0.5 & -0.7 & -1.9 & 0.2 & -2.8 & -1\newline
\hline \end{array} $$

  1. ¿Cuál de los siguientes diagramas de cajas corresponde a cada variable? Comparar la dispersión central de las dos variables según los diagramas de caja. ¿En qué variable es menor la mediana de las diferencias de notas?

image

  1. ¿En qué centros es más representativa la media de la diferencia de notas, en los públicos o en los privados?

  2. ¿En qué centros la distribución de la diferencia de notas es más simétrica?

  3. ¿En qué centros la distribución de la diferencia de notas es más apuntada?

  4. ¿Qué diferencia es relativamente menor, $-0.5$ puntos en un centro público o $-1$ en un centro privado?

Usar las siguientes sumas para los cálculos:
Public: $\sum x_i=-5.1$, $\sum x_i^2=9.63$, $\sum (x_i-\bar x)^3=0.95$ y $\sum (x_i-\bar x)^4=8.76$. Private: $\sum y_i=-8.8$, $\sum y_i^2=17.64$, $\sum (y_i-\bar y)^3=-0.82$ y $\sum (y_i-\bar y)^4=11.28$.

  1. El diagrama de cajas 1 corresponde a los centros privados y el 2 a los centros públicos. La dispersión central (anchura de las cajas) es similar en ambas variables. La mediana es menor en los centros privados.

  2. Centros públicos: $\bar x=-0.5667$ , $s^2=0.7489$ , $s=0.8654$ y $cv=1.5271$. Centros privados: $\bar y=-1.2571$ , $s^2=0.9396$ , $s=0.9693$ y $cv=0.7711$. Por tanto, la media de las diferencias de notas es más representativa en los centros privados.

  3. $g_{1x}=0.1626$ y $g_{1y}=-0.1285$. Por tanto, la distribución de las diferencias de notas en los centros privados es más simétrica ya que su coeficiente de asimetría está más cerca de 0.

  4. $g_{2x}=-1.2651$ y $g_{2y}=-1.1748$. Así pues, la distribución de las diferencias de notas en los centros privados es más apuntada ya que su coeficiente de apuntamiento es mayor.

  5. Centro público: $z(-0.5)=0.077$. Centro privado: $z(-1)=0.2653$. Por tanto, una diferencia de notas de -0.5 puntos en centros públicos es relativamente menor que una diferencia de -1 puntos en centros privados.

Ejercicio 2

Un auditor ha estudiado la relación entre el salario y el número de ausencias de los celadores de un hospital. La tabla siguiente muestra los salarios en miles de euros ($X$) y el número medio de ausencias anuales con esos salarios ($Y$).

$$ \begin{array}{lrrrrrrrrr} \hline \mbox{Salario} & 20.0 & 22.5 & 25 & 27.5 & 30.0 & 32.5 & 35.0 & 37.5 & 40.0 \newline \mbox{Ausencias} & 2.3 & 2.0 & 2 & 1.8 & 2.2 & 1.5 & 1.2 & 1.3 & 0.6 \newline \hline \end{array} $$

  1. Calcular la recta de regresión que explique las ausencias en función del salario.

  2. ¿Cuál es el número de ausencias esperado de un celador con un salario de 29000€? ¿Es esta predicción fiable?

  3. ¿Cuánto aumentará o disminuirá el número de ausencias por cada incremento de 1000€ en el salario?

Usar las siguientes sumas para los cálculos:
$\sum x_i=270$ $10^3$€, $\sum y_i=14.9$ ausencias,
$\sum x_i^2=8475$ ($10^3$€)$^2$, $\sum y_i^2=27.11$ ausencias$^2$,
$\sum x_iy_j=420$ $10^3$€ ausencias.

  1. $\bar x=30$ $10^3$€, $s_x^2=41.6667$ ($10^3$€)$^2$,
    $\bar y=1.6556$ ausencias, $s_y^2=0.2714$ ausencias$^2$,
    $s_{xy}=-3$ $10^3$€ ausencias
    Recta de regresión de las ausencias sobre el salario: $y=3.8156-0.072x$.

  2. $y(29) = 1.7276$ ausencias
    $r^2 = 0.796$, de modo que el modelo lineal se ajusta bien ya que el coeficiente de determinación no está lejos de 1, pero el tamaño muestral es demasiado pequeño para que las predicciones sean fiables.

  3. El número de ausencias disminuirá 0.072 por cada incremento de 1000€ en el salario.

Ejercicio 3

En un estudio de regresión se sabe que la recta de regresión de $Y$ sobre $X$ es $y+2x-10=0$ y la recta de regresión de $X$ sobre $Y$ es $y+3x-14=0$.

  1. Calcular las medias de $X$ e $Y$.

  2. Calcular el coeficiente de correlación lineal e interpretarlo.

  1. $\bar x=4$ y $\bar y=2$.

  2. $r=-0.8165$. El coeficiente de correlación lineal está cerca de -1 lo que significa que existe una relación lineal fuerte e inversa entre $X$ e $Y$.

Ejercicio 4

Un test para diagnosticar el cáncer de próstata produce un 1% de falsos positivos y un 0.2% de falsos negativos. Se sabe también que una población 1 cada 400 hombres sufre este tipo de cáncer.

  1. Calcular la sensibilidad y la especificidad del test.

  2. Si un hombre tiene un resultado positivo en el test, ¿cuál es la probabilidad de que tenga cáncer de próstata?

  3. Calcular e interpretar el valor negativo predictivo del test.

  4. ¿Es este teste mejor para detectar o para descartar el cáncer de próstata?

  5. Para ver si existe asociación entre el cáncer de próstata y la práctica del deporte, se tomó una muestra de 1000 hombres, de los cuales 700 practicaban deporte, y se observó que había 2 hombres con cáncer de próstata en el grupo de los que practicaban deporte y 3 hombres con cáncer de próstata en el grupo de los que no practicaban deporte. Calcular el riesgo relativo y el odds ratio de sufrir cáncer de próstata cuando se practica deporte.

Sea $C$ el suceso correspondiente a sufrir cáncer de próstata y $+$ y $-$ los sucesos consistentes en tener un resultado positivo y negativo en el test respectivamente.

  1. La sensibilidad es $P(+|D) = 0.2$ y la especificidad $P(-|\overline D) = 0.99$.

  2. El valor predictivo positivo es $P(D|+) = 0.0476$.

  3. El valor predictivo negativo es $P(\overline D|-) = 0.998$.

  4. Como el valor predictivo negativo es mayor que el valor predictivo positivo, el test es mejor para descartar la enfermedad que para confirmarla. De hecho el test no permite detectar la enfermedad ya que el valor predictivo positivo es menor que 0.5.

  5. $RR(D)=0.2857$ y $OR(D)=0.2837$. Por tanto, existe una asociación entre la práctica del deporte y el cáncer de próstata, de manera que la probabilidad de sufrir cáncer de próstata cuando un hombre practica deporte es casi un cuarto de la probabilidad de sufrirlo cuando no se practica deporte, y con el odds ocurre algo similar.

Ejercicio 5

La probabilidad de que un hijo de una madre con el gen del daltonismo y un padre sin el gen del daltonismo sea un varón daltónico es $0.25$.

  1. Si esta pareja tiene 5 hijos, ¿cuál es la probabilidad de que a lo sumo 2 sean varones daltónicos?

  2. Si esta pareja tiene 5 hijos, y el sexo de los hijos es equiprobable, ¿cuál es la probabilidad de que 3 o más sean mujeres?

  3. Si se toma una muestra aleatoria de 10000 hombres de una población en la que hay un varón daltónico por cada 5000 hombres, ¿cuál es la probabilidad de que haya más de 3 varones daltónicos?

  1. Sea $X$ el número de hijos varones daltónicos en una muestra de 5 hijos de la pareja. Entonces $X\sim B(5, 0.25)$ y $P(X\leq 2)=0.8965$.

  2. Sea $Y$ el número de mujeres en una muestra de 5 hijos de la pareja. Entonces $Y\sim B(5, 0.5)$ y $P(Y\geq 3)=0.5$.

  3. Sea $Z$ el número de varones daltónicos en una muestra de 1000 hombres de la población. Entonces $Z\sim B(10000, 2e-04)\approx P(2)$ y $P(Z>3)=0.1429$.

Ejercicio 6

La capacidad craneal de los primates sigue una distribución normal de media 1200 cm$^3$ y desviación típica 140 cm$^3$.

  1. Calcular la probabilidad de que la capacidad craneal de un primate sea mayor de 1400 cm$^3$.

  2. Calcular la probabilidad de que la capacidad craneal de un primate sea exáctamente 1400 cm$^3$.

  3. Calcular la capacidad craneal por encima de la cual estarán el 20% of primates.

  4. Calcular el rango intercuartílico de la capacidad craneal de los primates e interpretarlo.

Sea $X$ la capacidad craneal de los primates. Entonces $X\sim N(1200,140)$.

  1. $P(X>1400) = 0.0766$.

  2. $P(X=1400) = 0$.

  3. $P_{80} = 1317.827$ cm$^3$.

  4. $Q_1 = 1105.5714$ cm$^3$, $Q_3 = 1294.4286$ cm$^3$ y $IQR = 188.8571$ cm$^3$. Por tanto, el 50% central de los datos está concentrado en un intervalo de amplitud $188.8571$ cm$^3$, que es poca dispersión.

Siguiente