Archivo de la categoría: Estadística

Variables aleatorias


  • Concepto de variable aleatoria
  • Variable aleatoria discreta: funciones de probabilidad y distribución
  • Variable aleatoria continua: funciones de densidad y distribución
  • Esperanza matemática
  • Varianza
  • Desigualdad de Txebixef
  • Variable aleatoria bidimensional

separador2

Concepto de variable aleatoria

Es la generalización de las variables estadísticas que se han visto en el tema Estadística descriptiva, análisis de datos ; la definición era:

Variable estadística: una característica numérica de la población que nos interesa estudiar

Pues bien, una variable aleatoria (v.a.) es:

  1. O bien una variable estadística
  2. O bien una función de una variable estadística

Ejemplo 1 :
1. El resultado de lanzar un dado es una v.a.: X = {1, 2, 3, 4, 5, 6}
2. La (función) suma de puntos de dos dados: S = X1 + X2 = {2, 3, 4, ..., 12}
3. La temperatura del aula en días sucesivos: T = {17, 17.3, ...}
4. El consumo de energía E en calefacción en el aula en función de la temperatura T,  E(T) = Ke^{T-C}, donde C es una constante. Siendo la temperatura T una variable aleatoria, la función E(T) también lo será.

Variables aleatorias discretas y continuas
Si la variable estadística es discreta (toma valores enteros) entonces la variable aleatoria también lo será (como en los ejemplos 1 y 2). Si la variable estadística es continua (toma valores reales) entonces la variable aleatoria también lo será (como en los ejemplos 3 y 4).

Notación para las variables aleatorias
Usaremos letras mayúsculas para las variables aleatorias, tales como X, Y, T, ..., y letras minúsculas para valores concretos de la variable: x = 17.3.

separador2

Variable aleatoria discreta: funciones de probabilidad y distribución

Cada valor que toma la variable aleatoria es: o bien un punto muestral (ver: introducción a las probabilidades) o bien una función de un punto muestral. Como cada punto muestral tiene asociada una probabilidad, también la tendrá la variable aleatoria. Cuando la v.a. es discreta (todos sus valores son enteros), llamamos función de probabilidad a la asignación de probabilidades para cada valor posible:

Valores de la v.a. X

Probabilidad

X = x1

p1 = P(X = x1)

...

...

X = xn

pn = P(X = xn)

En general tendremos P (X = x_i) = p_i. Por las propiedades de la probabilidad es inmediato que P (X = x_i) > 0 para todos los puntos x_i. La suma de valores de la función de probabilidad valdrá 1: \sum_iP(X=x_i)=1.

La función de probabilidad podemos verla como la generalización de la frecuencia relativa (ver Estadística descriptiva, análisis de datos). Definimos la función de distribución para v.a. discreta, F(x), como la probabilidad de que la v.a. X tome valores más pequeños o iguales al valor x_k:

F (x_k) = P (X <= x_k)

La relación con la función de probabilidad es inmediata:

F\left(x_k\right)=\sum_{1\leq i\leq k}P\left(X\leq x_i\right)=P\left(X\leq x_k\right)

La función de probabilidad viene a ser la generalización de la frecuencia relativa acumulada (ver Estadística descriptiva, análisis de datos).

Ejemplo 2: Lanzamos un dado dos veces y definimos la variable aleatoria X restando a los puntos obtenidos en el primer lanzamiento los obtenidos en el segundo lanzamiento. Los valores posibles que puede tomar X son {0, 1, 2, 3, 4, 5, -1, -2, -3, -4, -5}. Para calcular la probabilidad de obtener cada uno de esos valores enumeramos los casos posibles para cada uno de ellos; la probabilidad, por la regla de Laplace, será P(caso) = casos posibles / casos totales, teniendo en cuenta que el número de casos totales es 6·6 = 36 combinaciones de puntuaciones, y que los sucesos son excluyentes (si sucede un caso no puede suceder ningún otro). Por ejemplo, para X = 4 tenemos dos casos: (6, 2) y (5, 1), cada uno de ellos tiene probabilidad 1/36, la probabilidad de que suceda uno o el otro, siendo excluyentes, es la suma 1/36 + 1/36. Procediendo de esta forma obtenemos la función de probabilidad de la v.a. X:

x puntuaciones cuenta probabilidad: f(x)
0 1-1, 2-2, 3-3, 4-4, 5-5, 6-6 6 6/36
1 6-5, 5-4, 4-3, 3-2, 2-1 5 5/36
2 6-4, 5-3, 4-2, 3-1 4 4/36
3 6-3, 5-2, 4-1 3 3/36
4 6-2, 5-1 2 2/36
5 6-1 1 1/36

Para los valores que faltan en la tabla, {-1, -2, -3, -4, -5}, las probabilidades son las mismas que para {1, 2, 3, 4, 5}. Así pues la función de probabilidad viene dada por la tabla:

x 0 1 2 3 4 5 -1 -2 -3 -4 -5
f(x) 6/36 5/36 4/36 3/36 2/36 1/36 5/36 4/36 3/36 2/36 1/36

Como comprobación, siempre tenemos que obtener la suma de todos los valores f(x), que ha de valer 1 (una de las propiedades de las probabilidades: si el espacio muestral Ω se puede considerar dividido en n subconjuntos disjuntos entre sí, Ω = A1 ∪ A2 ∪ … ∪ An, entonces P(A1) + P(A2) + … + P(An) = 1 (ver Introducción a las probabilidades, tercera definición de probabilidad). En efecto: 6/36 + 5/36 + 4/36 + 3/36 + 3/36 + 1/36 + 5/36 + 4/36 + 3/36 + 3/36 + 1/36 = 36/36 = 1.

Para obtener la función de distribución de X basta con calcular la tabla de probabilidades acumuladas:

x

0

1

2

3

4

5

-1

-2

-3

-4

-5

f(x)

6/36

5/36

4/36

3/36

2/36

1/36

5/36

4/36

3/36

2/36

1/36

F(x)

6/36

11/36

15/36

18/36

20/36

21/36

26/36

30/36

33/36

35/36

36/36

La gráfica de la función de probabilidad es:

Función de probabilidad, variable discreta
Función de probabilidad, variable discreta

La función de distribución suele representarse como una función escalonada:

Función de distribución, variable discreta
Función de distribución, variable discreta

Propiedades inmediatas de las funciones de distribución discretas F (x)

  1. El valor de F(x) está en el intervalo [0, 1]
  2. F(x) es no decreciente
  3. La probabilidad P(X > x_k) és igual a 1 - F(x_k)

separador2

Variable aleatoria continua: funciones de densidad y distribución


Cuando la variable es continua sabemos que se trabaja con intervalos de la variable (ver Estadística Descriptiva => Agrupación de datos en intervalos). La asignación de probabilidades se hará por tanto para cada intervalo que definamos.


En el tema Estadística Descriptiva la anchura de cada intervalo la definíamos arbitrariamente según el número de intervalos y el recorrido de la variable. Ahora hay que generalizar para intervalos de cualquier anchura: supongamos que el recorrido de la variable aleatoria es [max, min]; entonces definimos una función de densidad de probabilidad f(x) de la v.a. continua X como cualquiera que verifica las tres condiciones siguientes:

  1. No negatividad: f(x) >= 0
  2. Probabilidad de un intervalo: P\left(X\in\left[a,b\right]\right)=\int_a^bf\left(x\right)\operatorname dx
  3. Normalización: P\left(X\in\left[max,\;min\right]\right)=\int_{min}^{max}f\left(x\right)\operatorname dx=1

Se deducen las siguientes propiedades:

  1. La probabilidad en las variables continuas se calcula con una integral sobre un intervalo (2ª propiedad de las funciones de densidad)
  2. La probabilidad de un punto siempre es cero: P (X = x) = P (x <= X <= x) = 0 pues coinciden los límites de la integral (es un intervalo de longitud nula)
  3. En cambio f (x) no tiene porque ser cero en ningún punto
  4. La gráfica de la función de densidad es la generalización del histograma de frecuencias relativas (Estadística Descriptiva).

Definimos la función de distribución para v.a. continuas, F (x), como la probabilidad de que X tome valores más pequeños que a x: F (x) = P (X < x_k).  La relación con la función de densidad es inmediata: si el valor mínimo de la v.a. X es min, entonces tendremos que:

F\left(x_0\right)=P\left(X\in\left[min,\;x_0\right]\right)=\int_{min}^{x_0}f\left(x\right)\operatorname dx

Si la expresión anterior la expresamos para un valor x genérico y la derivamos respecto ese valor x, aplicando el primer teorema fundamental del cálculo obtenemos otra relación importante entre las funciones de densidad y de distribución continuas:

F'\left(x\right)=\frac{\operatorname d{}}{\operatorname dx}\int_{min}^xf\left(t\right)\operatorname dt=f\left(x\right)

Que se expresa como "La derivada de la función de distribución es la función de densidad"

La función de distribución continua tiene ciertas propiedades:

  1. Asíntotas horizontales izquierda y derecha: F (-) = 0, F (+) = 1
  2. F (x) es continua y no decreciente
  3. La probabilidad de un
    intervalo [a, b] es igual a F (b) - F (a)
Ejemplo 3: Sea la función de densidad de probabilidad

f\left(x\right)=\left\{\begin{array}{l}0\;\;\;\;\;\;\;\;\;\;\;\;\;\text{si }x\not\in\left[0,\;1\right]\\\frac23\left(x+1\right)\;\text{si }x\in\left[0,\;1\right]\end{array}\right.

Calcular P(0\leq X\leq0.5), P(-3\leq X\leq0.5), P(0\leq X\leq1)

Según la propiedad 2 de las funciones de densidad: P(0\leq X\leq0.5)=\int_0^{0.5}f\left(x\right)\operatorname dx=\int_0^{0.5}\frac23\left(x+1\right)\operatorname dx=\frac23\left[\frac{x^2}2+x\right]_0^{0.5}=\frac23\left(\frac{0.5^2}2+0.5-0\right)=\frac5{12}.

Para el segundo intervalo hemos de tener en cuenta los intervalos de definición de la función f(x):

P(-3\leq X\leq0.5)=\int_{-3}^{0.5}f\left(x\right)\operatorname dx=\int_{-3}^00\operatorname dx+\int_0^{0.5}\frac23\left(x+1\right)\operatorname dx=0+\frac5{12}=\frac5{12}

Para el tercer intervalo tenemos:

P(-3\leq X\leq0.5)=\int_0^1f\left(x\right)\operatorname dx=\int_0^1\frac23\left(x+1\right)\operatorname dx=\frac23\left[\frac{x^2}2+x\right]_0^1=\frac23\left(\frac12+1-0\right)=1

un resultado esperado, pues es la condición de normalización de las funciones de densidad.

Estadística -> Estadística Aplicada -> Series Temporales

Series temporales, tendencia, estacionalidad

Las series temporales (de datos estadísticos) relacionan eventos parecidos acaecidos en diferentes épocas, buscando detectar algún patrón de comportamiento, alguna tendencia, que permita hacer predicciones futuras.

Ejemplo 1: Comparar las importaciones y exportaciones anuales de una empresa en los últimos 15 años, comparándolas, analizando su evolución temporal.

Puede ser un problema complicado, ya que frecuentemente sucede que las sucesivas observaciones no son independientes entre sí, como por ejemplo las ventas de un comercio en un mes pueden no ser independientes de las ventas del mes anterior.

Las variables utilizadas en las series temporales

Hay variables estadísticas, que miden cantidades, de la que puede determinarse su valor, al menos en teoría, en cualquier momento del tiempo; por ejemplo, el número de parejas de hecho que residen en una cierta localidad. Es un número variable, pero puede hacerse un censo y determinar su número en un cierto día escogido obviando dificultades técnicas, quizá la población es demasiado numerosa para completar el censo en un sólo día, pero no es una limitación de base, sino una de recursos disponibles, de hecho, el número de parejas de hecho está claramente definido en cualquier hora de cualquier día.

Por otro lado, hay variables estadísticas que miden flujos o variaciones de otras cantidades, en las que siempre debemos determinar su valor en un intervalo de tiempo más o menos amplio; por ejemplo, el número de uniones de parejas en el juzgado en un día determinado puede ser cero, mientras que el día siguiente será mayor que cero. En éste último caso cogeremos un intervalo de tiempo suficientemente amplio y trataremos con "uniones civiles en el juzgado por día" por ejemplo, dividiendo por el número de días del período.

Ejemplo 2: Gráfico de ventas de unos grandes almacenes.

Fig.1: gráficos de ventas, izquierda, anuales, derecha, trimestrales
Fig.1: gráficos de ventas, izquierda, anuales, derecha, trimestrales
Tendencia general

A menudo los datos cuando se representan en intervalos largos de tiempo presentan una curva de evolución  suave, como en la figura 1 a la izquierda, que muestra las ventas totales de unos almacenes por años mostrando una tendencia general de crecimiento constante; en cambio los mismos datos tomados a intervalos de tiempo más cortos presentan fuertes oscilaciones, como vemos en la figura a la derecha, que muestra las ventas trimestrales en dos años consecutivos, no se ve una tendencia clara.

Estacionalidad

Al reducir el intervalo temporal, puede suceder que salgan a la luz influencias periódicas particulares que varían los datos en tiempos fijados, como por ejemplo campañas de Navidad, rebajas de agosto, influencia del turismo en ciertas épocas de cada año, etc; en este caso diremos que la serie temporal presenta estacionalidad. Hemos visto dos características importantes de las series temporales (de datos estadísticos): la tendencia general y las influencias periódicas.

Ciclos

Si representamos de nuevo el gráfico de ventas por meses, las oscilaciones aumentan, pero aún podemos observar la tendencia general ascendente, la estacionalidad (en el mes 6, junio, y en el 6+12 = 18, junio del año siguiente, las ventas presentan máximos) y la aparición de ciclos (cambios recurrentes a medio plazo), que son períodos en los que los datos presentan un aspecto parecido: en la figura 2 la estructura entre los meses 1 y 12 es algo semejante, pero incrementada, a la de los meses 13 a 24 del año siguiente.

Fig. 2: tendencia general, estacionalidad y ciclos
Fig. 2: tendencia general, estacionalidad y ciclos
Variaciones erráticas o aleatorias

Además de las causas anteriores de variabilidad, encontraremos en la práctica variaciones que no son debidas a ninguna de esas causas, y por ello las atribuiremos al azar.

Así pues, el modelo clásico de tratamiento de series temporales supone que las variaciones entre datos pueden explicarse por una, varias o todas estas fuentes de variación:

  1. una tendencia general
  2. una estacionalidad
  3. aparición de ciclos de variaciones
  4. variaciones aleatorias

Análisis de series temporales

Las cuatro causas anteriores de variabilidad se combinan entre sí matemáticamente, formando un modelo teórico con el cual se pueden explicar los comportamientos del los datos y hacer predicciones. Los datos se procesan con un programa de Estadística, en el cual, en las opciones, deberemos indicar de que forma combinaremos las causas; los modelos caen en dos categorías:

  • Modelos estáticos
    • Modelo multiplicativo: considera que la variabilidad total observada es el producto de las producidas por cada factor, o sea por la tendencia general, estacionalidad, etc
    • Modelo aditivo: considera que la variabilidad total observada es la suma de las producidas por cada factor, o sea por la tendencia general, estacionalidad, etc
  • Modelos dinámicos: las variaciones en el tiempo t se calculan tomando las variaciones de los factores en tiempos anteriores de la serie, t-1, t-2, etc.

Los modelos dinámicos contemplan una complicación típica de las series temporales que es la presencia de correlación serial o relaciones entre datos contiguos (la no independencia de datos que comentábamos); toda la Estadística en general se simplifica cuando los datos son independientes entre sí, y se complica cuando no lo son. Un ejemplo en el que podemos esperar encontrar correlación serial sería el caso de las ventas de los almacenes: después de un mes de ventas elevadas es posible inferir que las ventas pueden bajar debido a que los clientes habituales ya han hecho sus compras importantes el mes anterior y posiblemente no gasten mucho dinero en dos meses consecutivos. En cambio en una serie temporal mensual del número de turistas que visitan una ciudad, los turistas son independientes entre sí, no repiten la visita cada mes, así que no podemos inferir nada de la cantidad de turistas de un mes para el siguiente.

Otra complicación que puede aparecer es la presencia de valores inusuales, atípicos, denominados valores influyentes; cuando un evento extraordinario modifica la tendencia natural se producen estos valores singulares que nos pueden llevar a un análisis erróneo si no los detectamos y aislamos.

Por suerte, los programas estadísticos proporcionan "filtros" para detectar, dados los datos de una serie temporal, su tendencia general, estacionalidad, periodicidad, sus ciclos, sus correlaciones seriales y sus valores influyentes.

Determinación de la tendencia por regresión, suavización de la serie, detección de ciclos: ejemplo práctico

Consideremos los datos de tasa de paro en España entre los años 1978 y 2013, que reproducimos parcialmente:

Año Tasa
1978 7
1979 9
1980 12
1981 14
1982 16
1983 18
1984 21
1985 22

(...)

2008 13,9
2009 18,1
2010 20
2011 21,7
2012 25,1
2013 26,3

Observamos la gráfica de puntos de la serie:

Fig.3: gráfica de serie temporal
Fig.3: gráfica de serie temporal

La línea roja marca la media de todos los datos; vemos que los valores parecen oscilar en torno a la media, aunque la oscilación se hace mayor en los últimos años; cuando se observa esta oscilación en torno a la media, decimos que la serie presenta estacionariedad en media. Además, la serie parece presentar cierta pauta de variación, hay unos mínimos muy parecidos en los años 70 y en el 2005, y unos máximos en los años 80 y 90, así que podemos pensar que la serie presenta cambios cíclicos (no estacionalidad, pues no se aprecia repetición de pauta en años concretos, más bien son cambios a medio-largo plazo).

Observamos ahora el gráfico de las desviaciones respecto a la media, obtenidas haciendo las diferencias X_t-\overline{X_t} para cada dato de la serie:

Fig. 4: Gráfica de desviaciones respecto de la media total
Fig. 4: Gráfica de desviaciones respecto de la media total

De nuevo vemos que hay una oscilación de las desviaciones en torno del valor cero, oscilación que se amplifica en los últimos años (quizá debido a la crisis financiera del 2008 y siguientes): hay una estacionariedad en la desviación respecto de la media.

Para concretar si las variaciones observadas son cíclicas y/o estacionarias, interesa quitar de la serie las oscilaciones aleatorias y eliminar, si la hay, la tendencia general (si hay por ejemplo una tendencia general al aumento de la tasa de desempleo, se hace más difícil ver las oscilaciones de cada período). A este proceso le denominamos suavizar la serie. 

El primer paso será determinar la tendencia de la serie, hay dos métodos para hacerlo, en el primero se usa regresión para ajustar una curva a la gráfica de la serie temporal:  en la hoja de cálculo hacemos clic-derecho sobre la gráfica de la serie y escogemos agregar línea de tendencia, que puede seguir diversos modelos matemáticos: lineal, logarítmico, polinómico, etc. Hay que ensayar algunos, observando para cada prueba el coeficiente de determinación, por ejemplo:

Fig 5: tendencia lineal y polinómica de grado 3 para la serie temporal
Fig 5: tendencia lineal y polinómica de grado 3 para la serie temporal

En la figura 5 se ha ensayado ajuste lineal, con un coeficiente R² muy bajo, del 0.009, y polinómica de grado 3, con un coeficiente R² bastante bueno, 0,69; se presenta también la ecuación del ajuste polinómico. No es necesario un ajuste muy bueno, sólo queremos captar la tendencia general, así que daríamos por aceptable el ajuste polinómico. Un economista podría sugerirnos que esa tendencia está siguiendo alguno de los ciclos económicos, vemos que hay un máximo de paro laboral en 1988 y otro en 2014, y hay mínimos en 1978 y en 2004, con un intervalo entre máximos y mínimos de unos 25 años; los máximos de paro podrían achacarse a la reconversión industrial del los años 80, y a a incorporación a la Comunidad Económica Europea (1986) que obligó a un proceso culminante de desmantelamiento industrial a partir de 1986, y a la crisis financiera del 2008 y siguientes.

serie_temporal6
Fig. 6: la línia en rojo representa la serie de datos a la que se ha restado la curva de tendencia

 En la figura 6 hemos restado de la serie de datos original la tendencia, el resultado es la serie representada por puntos rojos; las oscilaciones ahora están en torno al valor cero, y son de más corto plazo que las anteriores: cada cinco años, aproximadamente, que coinciden con otro ciclo económico: el ciclo de Kitchin, debido a oscilaciones en la producción de las empresas y sus ajustes a la demanda real. Al restar la tendencia hemos supuesto que la serie se ajusta bien al modelo sumativo, que supone que la variabilidad total observada es la suma de las producidas por cada factor, o sea por la tendencia general, estacionalidad, etc.

Correlación serial, determinación de la tendencia por el método de las medias móviles: ejemplo

Siguiendo con los datos del paro en España,  como sospechamos que puede haber una correlación serial (la tasa de paro de cada año condiciona la del año siguiente, pues es un índice que no se cambia fácilmente de un año para otro) calculamos el coeficiente de correlación serial definido como

r=\frac{\text{cov}\left(X_t,X_{t-1}\right)}{S_{X_t}\cdot S_{X_{t-1}}} [1]

donde X_t son los datos en el período t, y  X_{t-1} son los datos en el año anterior:

Año Xt Xt-1
1978 7 -
1979 9 7
1980 12 9
1981 14 12

(...)

2010 20 18,1
2011 21,7 20
2012 25,1 21,7
2013 26,3 25,1
2014 - 26,3

La \text{cov}\left(X_t,X_{t-1}\right) es la covarianza de las dos variables, y las S son sus desviaciones típicas, resulta: S_t=4,94S_{t-1}=5,11, Cov = 23,39, autocorrelación = 0,93. La autocorrelación, que se interpreta igual que la correlación de Pearson, es muy alta, del 93%, confirmando nuestra suposición de que la tasa de un año influye en la siguiente. Las causas principales de autocorrelación son las tendencias o ciclos, así que en este segundo análisi de los datos también llegamos al mismo punto: parece que las variaciones en la tasa de desempleo son cíclicas en el tiempo.

Para determinar los ciclos procedemos como antes: hay que determinar la tendencia de la serie y proceder a suavizarla.  Para determinar la tendencia ya hemos visto que podemos hacerlo por regresión, pero ahora lo haremos con un método alternativo: el de las medias móviles. Consiste en sustituir los datos originales por las medias de 2 datos correlativos (medias móviles de orden 1), de 3 datos (medias móviles de orden 2), etc. Reproducimos algunas de esas medias en la siguiente tabla, donde "media movil-2" significa media de dos datos (media de orden 1), "media movil-3" significa media de tres datos (media de orden 2), etc.:

Año Tasa media móvil-2 media móvil-3 media móvil-4
2013 26,3
2012 25,1 25,7
2011 21,7 23,4 22,9
2010 20 20,9 20,2 23,3
2009 18,1 19,1 17,9 21,2
2008 13,9 16,0 16,1 18,4
2007 8,3 11,1 14,7 15,1
2006 8,1 8,2 13,6 12,1
2005 9,2 8,7 12,8 9,9
2004 10,4 9,8 12,3 9,0

Lógicamente, a medida que vamos aumentando el orden de la media móvil, tenemos menos datos, pasando de los N originales a N-1 medias de orden 1, N-2 de orden 2, ... N-m de orden m.

En la figura 7 vemos estas series de medias moviles. Si nos fijamos en las medias de orden 3, la línia roja, y la comparamos la tendencia polinómica de grado 3 de la figura 5 veremos que coinciden mucho: las medias de orden 3 son una buena aproximación a la tendencia de esta serie.

Fig. 7: representación de las series de medias móviles
Fig. 7: representación de las series de medias móviles

A partir de aquí procederíamos como en la sección anterior: restando la tendencia (las medias móviles de orden 3) de los datos de la serie original para obtener la serie suavizada.

Conclusión

Este artículo es sólo una breve introducción práctica al estudio de las series temporales, presentando los aspectos básicos. En el estudio de las series de datos en el tiempo interesa analizar sus variaciones para detectar sus posibles causas, normalmente interesa reducir esas variaciones (tasa de empleo constante, por ejemplo) o bien mantenerlas siempre positivas (aumento continuo de las ventas), e incluso, más difícil, hacer predicciones de futuro.

Problemas de probabilidades

1. En una red local hay las conexiones mostradas en la figura, donde los números indican las probabilidades de que cada rama esté abierta en un cierto intervalo de tiempo dado. Suponiendo que las probabilidades son independientes entre sí, calcular la probabilidad de que haya transmisión de datos entre A y D por cualquier camino. Suponiendo que hay transmisión de datos entre A y D, calcular la probabilidad de que se esté transmitiendo por la ruta ACD.

graf_probabilitats

 Para transmitir entre A y D hay tres caminos: ABD, AD, ACD; si cualquiera de ellos está abierto, hay comunicación entre A y D. ¿cuáles son las posibilidades?

  • ABD abierto, AD y ACD cerrados
  • AD abierto, ABD y ACD cerrados
  • ACD abierto, ABD y AD cerrados
  • ABD y AD abiertos, ACB cerrado
  • ...
  • ABD, AD y ACB abiertos

Vemos que hay bastantes posibilidades a considerar; en estos casos es conveniente pensar en el suceso contrario: ¿cuándo no habrá transmisión entre A y D? Sólo cuando ABD, AD y ACB estén todos cerrados. El camino ABD estará cerrado si AB lo está, o bien BD lo está; teniendo en cuenta que los sucesos son independientes, la probabilidad de "ABD cerrado" es:

\begin{array}{l}\text{P}\left(\text{ABD cerrado}\right)\;=\text{P}\left(\text{AC cerrado}\cup\text{CD cerrado}\right)\;=\text{P}\left(\text{AC cerrado}\right)+\text{P}\left(\text{CD cerrado}\right)\text{-P}\left(\text{AC cerrado}\cap\text{CD cerrado}\right)=\\0.1+0.2-0.1\cdot0.2=0.28\end{array}

ya que P(A cerrado) = 1 - P(A abierto) = 1 - 0.9, e idénticamente para B. La probabilidad de "ACD cerrado" es numéricamente la misma:

P(ACD \; cerrado) = P(AC \; cerrado \cup CD \; cerrado) = P(AC \; cerrado) + P(CD \; cerrado) - P(AC \; cerrado \cap  CD \; cerrado) = 0.2 + 0.1 - 0.2 = 0.28.

Entonces P(no se transmite entre A y D)=P(ABD, AD y ACB todos cerrados)  = P(ABD cerrado \cap AD cerrado \cap ACB cerrado) = P(ABD cerrado})·P(AD cerrado)·P(ACB cerrado) = 0.28·0.3·0.28 = 0.02352.

Por tanto P(se transmite entre A y D) = 1 - P(no se transmite entre A y D) = 1 - 0.02352 = 0.97648.

NOTA: puede ser didáctico realizar simulaciones de probabilidades con hoja de cálculo para verificar experimentalmente los cálculos. En este ejercicio es simple de hacer: usando la función aleatorio() que llevan todas las hojas de cálculo, y con la función lógica =SI(condición; valor_si_cierto;valor_si falso), se puede crear una hoja que presente el valor 1 siempre que el valor aleatorio esté en el intervalo [0,p] siendo p las probabilidades dadas de la red:

AB BD AD AC CD
1 1 1 0 1
1 1 1 1 1
0 0 0 0 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
0 1 0 1 1

Así, por ejemplo, la columna AB presenta un 1 siempre que en esa casilla se haya generado un valor aleatorio en el intervalo [0, 0.9]; cuando hay un 1 significa que la ruta AB está abierta, con un 0 está cerrada. Observad que los valores de esta tabla son binarios, con 1=cierto (hay transmisión), 0=falso (no hay transmisión).

Ampliamos ahora con más columnas:

AB y BD AC y CD (AB·BD)+AD+(AC·CD)
1 0 2
1 1 3
0 0 0
1 1 3
1 1 3
1 1 3
1 1 3
1 1 3
0 1 1

En "AB y AD" multiplicamos las columnas AB por AD, en "AC y AD" lo mismo, pero en la columna (AB·BD)+AD+(AC·CD) al sumar no obtenemos un número binario: si éste valor es cero significa que no hay transmisión entre A y D (todo cerrado) y con un valor superior a cero hay transmisión entre A y D (alguna ruta abierta). Contando el número de celdas superiores a cero de ésta última columna y dividiendo por el número de filas obtenemos una estimación de la probabilidad pedida, tanto mejor como más filas haya. Con 1000 filas se obtienen valores del orden de 0.98.

separador2

 2.  Se elige al azar un número de 3 bits x_1x_2x_3 donde x_i=0x_i=1. Definimos las variables aleatorias X: el número de ceros que tienen conjuntamente los dos primeros bits, Y: número total de unos entre los tres bits. Calcular la tabla de distribución conjunta de probabilidad de X,Y. ¿Cuál es la covarianza de X,Y?

 Para calcular las probabilidades conjuntas tenemos que saber primero las posibles combinaciones de valores, son: X puede valer {0, 1, 2}, Y puede valer {0, 1, 2, 3}. Por tanto tendremos 3·4 = 12 combinaciones de valores (X,Y), que son {(0,0), (0,1), (0,2), (0,3), ..., (2,2), (2,3)}.

Vamos por las probabilidades conjuntas: dado un suceso A de la variable X y un suceso B de la variable Y, la probabilidad conjunta de A y B es P\left(A\cap B\right)=P(A\vert B)\cdot P(B), que será igual a P(A)·P(B) sólo si A, B son sucesos independientes; en este caso, no podemos presuponer independencia entre X, Y, luego aplicamos la primera igualdad.

Veamos un ejemplo de cálculo: sea A el suceso X=1, B el suceso Y=2; la probabilidad condicionada P(X = 1 | Y = 2) se obtiene considerando todos los casos Y=2 y viendo en que proporción de ellos se cumple X=1.

Si Y=2 los bits x_1x_2x_3={(1,1,0), (1,0,1), (0,1,1)}, observando los dos primeros bits, vemos que en dos casos, {(1,0,1), (0,1,1)}, tenemos un cero en uno de los bits; luego la proporción de casos X=1 dentro de Y=2 es de 2/3.

Calculamos ahora la P(Y = 2) como la proporción de casos en que tenemos
2 unos respecto al total de combinaciones de los tres bits, que son 2³=8; la proporción es pues 3/8. Por tanto, P\left(A\cap B\right)=\frac23\cdot\frac38=\frac28=\frac14. Por otro lado, la P(X = 1) se obtiene con la proporción de casos en que tenemos 1 cero en los dos primeros bits respecto al total de casos en esos dos primeros bits: {(1,0),(0,1),(1,1),(0,0)}, por tanto es P(X = 1) = 3/4. La probabilidad P(X = 1)·P(Y = 2) = 3/4 · 3/8 = 9/32 que es distinta de la obtenida para P\left(A\cap B\right), luego los sucesos no son independientes.

Obviamente no vamos a hacer un cálculo tan largo para las otras 11 combinaciones (X,Y), lo abreviamos haciendo una discusión de casos simples:

  • Si el número de unos es de 3 (Y=3), entonces no hay ningún cero, luego X debe valer cero con seguridad (X=1 con probabilidad 100%).
  • Si el número de unos es de 0 (Y=0), entonces todos los bits son cero, luego X debe valer 2 con seguridad (X=2 con probabilidad 100%).
  • El caso X=0, Y=0 es imposible (sucesos incompatibles), ya que X=0 implica que hay dos unos en los dos primeros bits, luego Y tiene que valer al menos 2; por tanto el caso X=0, Y=1 también es imposible.
  • Si Y=2 hay un sólo cero en los tres bits, luego X no puede valer 2; tenemos que P(X = 2 | Y = 2) = 0.
  • Si Y=1, los bits han de ser {(1,0,0), (0,1,0), (0,0,1)}; luego P(X = 1|Y = 1) = 2/3, P(X = 2|Y = 1) = 1/3.

Resumimos todo lo que tenemos en una tabla de probabilidades condicionadas P(X | Y), marcamos las casillas que hemos visto que tienen probabilidad 0 (sucesos incompatibles):

Probabilidades condicionadas P(X | Y)
Probabilidades condicionadas P(X | Y)

Para obtener la tabla de probabilidades conjunta P\left(A\cap B\right) usaremos la fórmula P\left(A\cap B\right)=P(A\vert B)\cdot P(B) y algunas propiedades útiles:

  1. la suma de probabilidades por filas (distribución marginal de X) coincide con las probabilidades P(X),
  2. la suma de probabilidades por columnas (distribución marginal de Y) coincide con las probabilidades P(Y), y
  3. la suma total ha de ser 1.

Para aplicarlo, será útil tener la tabla de probabilidades para la variable Y:

Y 0 1 2 3
P(Y) 1/8 3/8 3/8 1/8

y también para la variable X:

X 0 1 2
P(X) ¼ ½ ¼

Obtenemos la tabla conjunta X,Y:

Probabilidades conjuntas
Probabilidades conjuntas

Las casillas en azul se han obtenido aplicando las propiedades 1 y 2, no ha sido necesario el cálculo de probabilidades.

Para calcular la covarianza usamos la fórmula:

Cov\left(X,Y\right)=\sum_x\sum_y\left(x-\mu_x\right)\left(y-\mu_y\right)P\left(x,y\right)

Necesitamos los valores medios de las variables:

\mu_x=\underset x{\sum x}\cdot P(x),\;\mu_y=\underset y{\sum y}\cdot P(y)

Los obtenemos de las tablas de probabilidades para X e Y:

Y 0 1 2 3
P(Y) 1/8 3/8 3/8 1/8
Y·P(Y) 0 0.375 0.75 0.375 suma=1.5
X 0 1 2
P(X) 1/4 1/2 1/4  
X·P(X) 0 0.5 0.5 suma=1

Los elementos que entran en el cálculo de la covarianza los disponemos también en forma de tabla:

Y
X 0 1 2 3
0 0 0 -0.0625 -0.1875
1 0 0 0 0
2 -0.1875 -0.0625 0 0

La suma de todos ellos es la covarianza: -0.5, un valor negativo indica dependencia inversa:  valores de X  grandes implican pequeños valores de Y.

separador2

Estadística Aplicada -> Contrastes de Hipótesis

Supongamos que hemos comprado un saco de nueces que contiene unas 1000, y que al llegar a casa cogemos una al azar, resultando que está seca, incomestible. Un optimista pensará, "¡bah! he ido a coger la única que está pasada, no importa", mientras que un pesimista pensará "buenoo ... este saco estará lleno de nueces podridas".  Cualquiera de los dos puede tener razón. Para saberlo, sin tener que vaciar todo el saco, podemos tomar una muestra representativa, esto es, suficientemente grande (por ejemplo, 20 nueces) y bien tomada (mezclamos bien las nueces, cogemos una de arriba, otra del lado derecho, otra de abajo, etc., cambiando de sitio cada vez de forma aleatoria). Después, observando el número de nueces buenas de la muestra, podemos intentar inferir cuantas nueces buenas habrá en el saco. Este procedimiento de comprobación de un producto comercial es parte del proceso de control de calidad, que se hace tanto por parte del fabricante (control de calidad de producción) como del comprador (control de calidad a la recepción del producto). La herramienta estadística que permite, con cierto grado de certeza (denominado nivel de confianza), decidir si una compra como la del saco de nueces es acertada o por el contrario debemos reclamar al fabricante es el contraste de hipótesis estadísticas. Por supuesto, como siempre en Estadística, no podremos saber realmente cuantas nueces están estropeadas a menos que las miremos una por una: aceptar las conclusiones del contraste conllevan un riesgo, como vemos en el siguiente apartado.

Problemas y  errores que podemos cometer en los contrastes

Supongamos que el fabricante, a través de su control de calidad de producción, está convencido de que sólo un 1% de sus nueces envasadas pueden llegar en mal estado al consumidor, y que el consumidor acepta este máximo, y quiere comprobarlo a la recepción del producto, así que aceptará como máximo ese 1% defectuoso. El comprador entonces extrae una muestra para comprobarla ... pero puede suceder que esa muestra resulte ser peor de lo que realmente es la producción (el término estadístico correcto sería la población), con lo cual reclamará al fabricante sin motivo real, erróneamente; este error se denomina error-α o  error de tipo I.  También puede suceder lo contrario, que por azar la muestra resulte ser mucho mejor que la población, el comprador aceptará erróneamente la compra siendo defectuosa, es el error-β o error de tipo II.

Por ejemplo si los pesos de un dulce tienen una media de 20gr y sólo uno de cada 100 se desvía de ese peso más de 1gr, en una muestra de tamaño n = 30, el comprador podría pensar de rechazar su pedido si encuentra un sólo dulce que se desvíe más de 1gr del peso medio, pues 30·1/100 = 0.3, la proporción en la muestra no llega a la unidad. Si cada dulce, al ser pesado, tiene una probabilidad 1/100 de salirse de la tolerancia, cuando pesamos uno por uno los 30 dulces de la muestra, la probabilidad de que uno se salga de la tolerancia viene dada por la distribución de probabilidad binomial, y vale 0.2242, que es un valor alto (un 22,42%), peor aún, la probabilidad de que encontremos uno o más de uno fuera de tolerancia es  α = 26%. Y eso que hemos supuesto que el fabricante dice la verdad. Vemos que este procedimiento de control en la recepción del producto produce un alto error tipo I, con un valor de α = 0.26.

Veamos ahora que pasa con el caso contrario: el fabricante no dice la verdad, y realmente está produciendo un 5% de dulces fuera de tolerancia; ¿qué probabilidad hay de que el comprador no se de cuenta y acepte la compra realizada? Según la distribución binomial, con un 5% de probabilidad de dulce "erróneo", la probabilidad de que no aparezca ninguno en la muestra de 30 dulces es β = 21,5%, que seria la probabilidad de cometer error de tipo II. Este ejemplo muestra claramente que se necesita un procedimiento eficaz para realizar un control de calidad correcto que no perjudique al fabricante con errores de tipo I ni al comprador con errores de tipo II.

En la figura 1 se muestra el aspecto de las probabilidades de aceptación de una muestra en función de la fracción defectuosa en la población; la línea vertical simboliza la tolerancia anunciada por el fabricante, si la fracción defectuosa es menor, la producción es mejor de lo que anuncia, y si es mayor, la producción resulta peor de lo anunciado. Por supuesto, si la fracción defectuosa es cero (producción perfecta) seguro que aceptaremos cualquier muestra, y no hay error posible. Pero entre el valor de cero y la tolerancia de 0,01 vemos que la probabilidad de no aceptar (rechazar) la muestra va aumentando, en esa región se produce el error de tipo I o α. Por otro lado, cuando la producción es más defectuosa de lo anunciado, sigue habiendo una probabilidad significativa de aceptar la muestra (región β).

Fig. 1: Curva de aceptación de una muestra, dependiendo de la proporción real de defectos en la población

Así, la curva divide el cuadrante XY en cuatro regiones: las de error I y II, y las otras dos regiones que corresponden a cuando acertamos en el control: aceptamos la muestra que proviene de una población correcta, o bien rechazamos la muestra que proviene de una población incorrecta.

La matemática del contraste de hipótesis

La Estadística teórica proporciona modelos matemáticos de distribuciones de probabilidad: funciones con ciertas propiedades que nos permiten calcular probabilidades de forma sistemática. Los contrastes de hipótesis usan estos modelos para poder decidir si un control de calidad es o no es válido, y lo hacen del siguiente modo:

  1. Dado un problema real en el que extraemos una muestra de una población para comprobar si un cierto valor (un parámetro de la población) es correcto, identificamos qué modelo matemático es el más adecuado para esa situación, atendiendo al tipo de población y al tamaño de la muestra.
  2. Planteamos dos hipótesis: la denominada hipótesis nula, hipótesis de trabajo, o H0, y la hipótesis alternativa, o H1. La H0 supone que los parámetros dados para la población son correctos, que el modelo de distribución de probabilidad escogido en el paso anterior es también correcto, y que la muestra que tenemos pertenece efectivamente a la población; la hipótesis H1 supone que las afirmaciones anteriores no son correctas (una, algunas o todas)
  3. Suponiendo que la hipótesis de trabajo es cierta, calculamos, usando el modelo de distribución de probabilidad, un valor numérico, denominado estadístico de contraste, que es una variable aleatoria función de la muestra.
  4. Usando las probabilidades dadas por el modelo de distribución de probabilidad, comprobamos si el valor anterior es "creíble" o por el contrario es francamente poco probable que suceda; en el primer caso, damos por verificada la hipótesis H0, en el segundo, rechazamos H0 por ser poco probable y aceptamos la alternativa H1.

Ejemplo 1: comprobar si una moneda es simétrica. Queremos averiguar si, en el lanzamiento al aire de una moneda, realmente el número de caras y de cruces obtenidas son iguales o no. Para ello lanzamos al aire la moneda n = 100 veces y anotamos el número de caras y de cruces, que ha resultados ser 52 y 48, respectivamente. Para decidir si la moneda es simétrica respecto al número de caras y de cruces procedemos sistemáticamente.

  1. Cada lanzamiento de la moneda nos da un valor binario, cara o cruz, cada uno con una cierta probabilidad que llamamos P(cara) = p, P(cruz) = q. Si repetimos el lanzamiento n veces, y nos preguntamos el número de caras X (o de cruces) obtenidas en esos lanzamientos, esa variable X es, por definición, una variable aleatoria con distribución de probabilidad binomial. Tenemos pues el modelo matemático.
  2. En principio, suponemos (hay que comprobarlo) que la moneda es simétrica, o sea que las probabilidades p y q son iguales a 1/2: p = q = 1/2. Nuestra hipótesis H0 será: la variable X número de caras sigue la distribución de probabilidad binomial con p = 1/2. La hipótesis H1 será: o bien X no sigue la distribución de probabilidad binomial, o bien p no es igual a 1/2.
  3. Suponiendo H0 cierta, la proporción de caras obtenidas en la muestra n = 100 lanzamientos, que llamaremos p' = 52/100, debería no estar muy alejada de p = 1/2. Nuestro estadístico de contraste en este caso será simplemente p'.
  4. Suponiendo H0 cierta, ¿cuál es la probabilidad de obtener p' = 0.52 en n = 100 lanzamientos de la moneda? Este planteamiento es demasiado estricto, pues dará una probabilidad baja, concretamente da P(X = 52) = 0.07, porque obtener precisamente 52 caras es totalmente aleatorio, si volvemos a lanzar la moneda otras 100 veces seguramente obtendremos otro valor distinto, así que si seguimos este método estaremos trabajando con una probabilidad grande de cometer  error de tipo I: rechazar una hipótesis que era verdadera. Lo que se hace en contrastes de hipótesis es trabajar siempre con intervalos aceptables de valores, no con valores puntuales; por ejemplo, ¿en qué intervalo de valores esperamos encontrar el número de caras X, en n = 100 lanzamientos, con una probabilidad del 95%? Calculamos el intervalo [a, b] tal que  P(a <= X  <= b) = 0.95; siendo n bastante grande, el cálculo se simplifica aproximando la binomial por una distribución normal, concretamente aplicamos el siguiente resultado:

Teorema 1: Si H0 es cierta, y n es grande, entonces el estadístico de contraste

Z=frac{p'-p}{sqrt{displaystylefrac{pleft(1-pright)}n}}

sigue una distribución de probabilidad Normal estándard.

O sea que para nuestra moneda tendremos

Z=frac{0.52-0.5}{sqrt{displaystylefrac{0.5left(1-0.5right)}{100}}}=frac25=0.4

¿Entre qué valores esperamos que Z esté, con una probabilidad del 95%, siendo Z una variable normal estándar? Consultando las tablas de la Normal encontramos que P(-1.96 < Z < 1.96) = 0.95. Vemos que el valor obtenido del estadístico de contraste, Z = 0.4,  cae dentro de este intervalo, por tanto "todo cuadra", es lo que esperábamos al suponer H0 cierta, por lo que concluimos que, efectivamente, la moneda es simétrica.

Intervalos de aceptación de H0 y H1, p-valor

En el ejemplo 1, el intervalo que hemos obtenido, [-1.96, 1.96], se llama intervalo de aceptación de la hipótesis H0. En seguida deducimos que existe otro intervalo de aceptación de la hipótesis alternativa, que será el complementario: left(-infty,-1.96right)cupleft(1.96,+inftyright), es el intervalo de aceptación de la hipótesis H1. Decidir con qué hipótesis nos quedamos, con H0 o H1, es simplemente ver en cual de estos dos intervalos "cae" el estadístico de contraste.

Claro que estos intervalos son bastante arbitrarios: en el ejemplo 1 lo hemos obtenido a partir de una probabilidad del 95%: el estadístico de contraste Z, debe de estar en [-1.96, 1.96] en un 95% de los casos, siempre que la hipótesis H0 sea cierta; pero, ¿por qué 95%, y no 80%, 70% o 100%? En la siguiente tabla vemos otras elecciones para la probabilidad, su intervalo de aceptación de H0, y la conclusión obtenida al comparar el estadístico de contraste Z = 0.4 con el intervalo:

Probabilidad intervalo aceptación H0   Conclusión
100,00% -∞ +∞ H0 cierta
99,00% -2,5758293035 2,5758293035 H0 cierta
95,00% -1,9599639845 1,9599639845 H0 cierta
90,00% -1,644853627 1,644853627 H0 cierta
80,00% -1,2815515655 1,2815515655 H0 cierta
70,00% -1,0364333895 1,0364333895 H0 cierta
60,00% -0,8416212336 0,8416212336 H0 cierta
50,00% -0,6744897502 0,6744897502 H0 cierta
40,00% -0,5244005127 0,5244005127 H0 cierta
30,00% -0,3853204664 0,3853204664 H0 falsa
20,00% -0,2533471031 0,2533471031 H0 falsa
10,00% -0,1256613469 0,1256613469 H0 falsa
0,00% 0 0 H0 falsa

Sea cual sea la probabilidad escogida, se le llama nivel de confianza del contraste, y se le denota por (1 - α); la probabilidad α también tiene nombre: es el nivel de significación del contraste. Así, en el ejemplo 1 hemos elegido un nivel de confianza del 95%, o equivalentemente, un nivel de significación del 5%.

Recordemos que en todo contraste, al decidir con qué hipótesis nos quedamos, podemos cometer errores, de tipo I o II; el error de tipo I, rechazar H0 cuando era cierta, sería el caso de haber obtenido con una moneda simétrica, por ejemplo, 60 caras en 100 lanzamientos, ya que en este caso obtenemos un estadístico Z = 2, que cae fuera del intervalo de aceptación de H0, [-1.96, 1.96]. Es difícil que esto ocurra, pero no imposible: la probabilidad de obtener un Z fuera del intervalo [-1.96, 1.96] es precisamente del 5%, el nivel de significación, y al mismo tiempo, es ésta la probabilidad de cometer el error de tipo I:

El nivel de significación α es la probabilidad de cometer, en un contraste, el error de tipo I

 Así pues, al escoger la probabilidad (1 - α) del intervalo de aceptación, al mismo tiempo estamos escogiendo con que probabilidad vamos a cometer el error de tipo I. Evidentemente, queremos que sea baja, por lo que los valores de la tabla 0%, 10%, etc para (1 - α) quedan descartados. En la práctica suelen usarse de forma estándar niveles de confianza del 90%, 95% o 99%, equivalentes a niveles de significación de 10%, 5% o 1%. ¿Y por qué no tomamos (1 - α) con lo cual α = 0 y seguro que no cometemos error de tipo I? En la tabla vemos que el intervalo de aceptación de H0 es toda la recta real: sea cual sea el valor del estadístico Z aceptaremos H0: el contraste no hace nada, siempre responde lo mismo, que H0 es cierta, !incluso siendo falsa!. Si lo queremos de otro modo:

Al reducir mucho la probabilidad α de cometer error de tipo I, aumentamos mucho la probabilidad β de cometer error de tipo II.

Dada esta arbitrariedad de elección del nivel de confianza (o del de significación), es útil otra forma alternativa de decidir entre H0 y H1, que consiste en, dado el estadístico z, y la variable aleatoria Z de la población, calcular la probabilidad P(Z > z) = P(z < Z < +∞). Esperamos que esta probabilidad no sea "demasiado pequeña" para aceptar H0, concretamente la comparamos con los niveles de significación habituales, 10%, 5% o 1%. A la probabilidad P(Z > z) se la conoce con el nombre de p-valor del contraste asociado al estadístico Z, o simplemente, el p-valor.

Ejemplo 2: siguiendo con el caso de la moneda, el p-valor correspondiente a z = 0.4 es P(Z > 0.4)  = 0.3446 = p-valor, o expresado en %, es de 34,46%; comparando con los niveles 10%, 5% o 1% vemos que es mayor que todos ellos, así que aceptamos H0 tanto para la significación 10% como para  5% o 1%.

En la realidad sucede a menudo que no está tan claro si aceptar H0 o no, pues depende del nivel de significación finalmente elegido. Por ejemplo, si en el lanzamiento n = 100 veces de la moneda hubiéramos obtenido 60 caras, con lo cual es estadístico z = 2, y el p-valor = 0.0227, o 2.27%, es un valor pequeño, menor que α = 10% o α =5%, pero mayor que α = 1%; entonces, ¿qué decidimos? Diríamos: con unas probabilidades de cometer error I del 10% o del 5%, rechazamos que la moneda sea simétrica, pero con una probabilidad de cometer error I de sólo 1%, lo aceptamos. Todo depende de hasta que punto queramos evitar caer en el error de tipo I: rechazar H0 cuando era cierta.

El p-valor nos informa de la probabilidad de cometer error de tipo I en el contraste: para significaciones α > p-valor, aceptamos H1, para α < p-valor, aceptamos H0.

Contrastes unilaterales y bilaterales

Volvamos al ejemplo de los dulces, sus pesos tienen una media de 20gr y según el fabricante sólo uno de cada 100 se desvía de ese peso más de 1gr. El comprador quiere saber cómo proceder, en una muestra de tamaño n = 30, para decidir si la compra es aceptable o bien si ha de reclamar. Además, nos dice que no le preocupa que el peso real esté por encima de la media ya que en ese caso estará comprando más barato, tendrá más dulce por el mismo precio, lo que le preocupa es pagar por dulces a los que les falte peso para llegar a la media.

En seguida planteamos las hipótesis que darán respuesta al problema planteado:

  • H0: El peso de los dulces, que tiene una distribución de probabilidad normal, tiene una media de al menos 20gr,
  • H1: El peso de los dulces no llega a los 20gr, o bien la distribución real del peso no sigue una distribución normal

Hemos supuesto que la distribución teórica del peso de los dulces es normal, pues así suele suceder. Cuando en la hipótesis de trabajo H0 planteamos una desigualdad respecto a la media, como ahora que hacemos media 20, diremos que hacemos un contraste unilateral, mientras que si trabajamos con una igualdad, como en el caso de la moneda simétrica en el que suponíamos que p = 1/2, es un contraste bilateral.

  • H_0:;mu=mu_0 contraste bilateral
  • H_0:;mugeqmu_0,;H_0:;muleqmu_0 contraste unilateral a la derecha o a la izquierda, respectivamente

Simbólicamente escribimos:

begin{array}{l}left.begin{array}{r}H_0:;;mugeq20\H_1:;mu<20end{array}right}\;end{array}

También tenemos contrastes unilaterales cuando H0 es una igualdad, pero H1 es una desigualdad estricta:

begin{array}{l}left.begin{array}{r}H_0:;;mu=mu_0\H_1:;muneqmu_0end{array}right},left.begin{array}{r}H_0:;;mu=mu_0\H_1:;mu>mu_0end{array}right},;left.begin{array}{r}H_0:;;mu=mu_0\H_1:;mu<mu_0end{array}right}\;end{array}

El primer contraste es bilateral, los otros dos son unilaterales a la derecha o a la izquierda, respectivamente. Aunque no hay unanimidad la corriente mayoritaria considera, por motivos formales, que lo correcto es mantener la igualdad en la hipótesis H0 y en todo caso manejar desigualdades en la hipótesis H1. Siguiendo este convenio, el contraste sobre los dulces quedaría:

begin{array}{l}left.begin{array}{r}H_0:;;mu=20\H_1:;mu<20end{array}right}\;end{array}

entendiendo que si aceptamos H0 significa que el peso es como mínimo de 20gr, ya que se ha rechazado la hipótesis alternativa.

En la práctica el que el contraste sea bilateral o unilateral afecta a los intervalos de aceptación de H0 y H1. Resolvamos ahora el problema del control de calidad a la recepción de los dulces.

Ejemplo 3: Un comprador de dulces al por mayor quiere saber, al tomar una muestra de n = 20 dulces, qué criterio ha de seguir para saber si aceptar o rechazar la compra, con una probabilidad de error tipo I del 10%, suponiendo que los pesos de los dulces siguen una distribución normal de media 20gr.

Ya sabemos que la forma del contraste será

begin{array}{l}left.begin{array}{r}H_0:;;mu=20\H_1:;mu<20end{array}right}\;end{array}

Para calcular el estadístico de contraste en este caso particular necesitamos el siguiente resultado:

Teorema 2: Si la población es normal y H0 es cierta, sabemos la media μ de la población pero desconocemos su desviación típica σ, entonces el estadístico

T=frac{overline x-mu}{s/sqrt n}

es una variable aleatoria que sigue una distribución de probabilidad t-Student con n-1 grados de libertad, siendo s la desviación típica de la muestra.

Conocemos la media y el valor de n, así que:

T=frac{overline x-20}{s/sqrt{20}}

Para aceptar H0 con una significación de α = 10%, el intervalo de aceptación de H0 ha de "abarcar" un 100% - 10% = 90% de probabilidad, y el de H1 el 10% restante. Pero siendo que sólo nos interesa el caso mu<20 para H1, no consideraremos que valores grandes de la media afecten a H1, en otras palabras, el intervalo de aceptación de H1 ha de ser del tipo (-∞, t), siendo t un valor tal que P(-∞ < T < t) = 0.1. Este valor, buscado en las tablas de la distribución t-Student, resulta ser t = -1.328, con lo cual el intervalo de aceptación de H1 es (-∞, -1.328) y  el de H0 será [-1.328, +∞). Para aceptar H0 por tanto debe de cumplirse que

T=frac{overline x-20}{s/sqrt{20}}inlbrack-1.328,+infty)Leftrightarrowfrac{overline x-20}{s/sqrt{20}}geq-1.328Rightarrowboxed{frac{overline x-20}sgeqfrac{-1.328}{sqrt{20}}}

Así que nuestra recomendación al comprador de dulces será:

"Calcule usted la media overline x y la desviación típica s de la muestra de 20 dulces, y sustituya esos valores en la expresión frac{overline x-20}s; si le resulta un valor mayor o igual a -0.2969, acepte la compra, de lo contrario, podrá reclamar al fabricante, con una probabilidad del 10% de error de equivocarse al hacerlo."

Supongamos que nos hace caso y le resulta overline x=19.5, s = 1.1; entonces resultará frac{19.9-20}{1.1}=-0.09;> -0.2969 y le recomendamos aceptar el pedido.

Ejemplo 4: El comprador de dulces se da cuenta de que no ha usado una información importante: el fabricante afirma que sólo uno de cada 100 dulces se desvía de ese peso más de 1gr; con este dato podemos estimar cual es la desviación típica de la población, y afinar más el contraste. La afirmación equivale a decir que P(20 - 1 < X < 20 + 1) = 99/100, siendo la población normal, podemos hacer un cambio de variable para convertirla en normal estándar Z=frac{X-mu}sigma:

Pleft(19<X<21right)=P(frac{19-20}sigma<Z<frac{21-20}sigma)=Pleft(frac{-1}sigma<Z<frac{1}sigmaright)=0.99

Mirando en las tablas de la normal estándar vemos que para que se cumpla la desigualdad anterior ha de ser frac1sigma=2.576Leftrightarrowsigma=0.3882. Para utilizar esta información sobre la población en el contraste necesitamos otra propiedad matemática:

Teorema 3: Si la población es normal y H0 es cierta, sabemos la media μ de la población y su desviación típica σ, entonces el estadístico

z=frac{overline x-mu}{sigma/sqrt n}

es una variable aleatoria que sigue una distribución normal estándard.

Calculamos el valor del estadístico: z=frac{19.9-20}{0.3882/sqrt{20}}=-1.15. Buscamos en las tablas de la normal estándar la probabilidad P(Z > z), que es, según hemos definido, el p-valor, y resulta ser p = 0.12507, la situación se representa en la figura

Intervalos de aceptación de H0 y H1 según el p-valor
Intervalos de aceptación de H0 y H1 según el p-valor

Entonces, para una significación de 0.01 < p-valor, concluimos que no rechazamos H0, la conclusión no ha cambiado respecto al ejemplo anterior.  Si en vez de usar el p-valor usamos el método de buscar en las tablas el intervalo de aceptación de H0, tendremos que encontrar un z tal que P(Z > z) = 0.90 que resulta ser -1.282, el intervalo de aceptación de H0 es [-1.282, +∞), como z = -1.15 cae dentro del intervalo, aceptamos H0.

Potencia de un contraste

Si comparamos los intervalo para H0 de los eje del ejemplos 3 y 4, que son   [-1.328, +∞) y [-1.282, +∞), vemos que el ejemplo 4 es algo más estrecho; por ejemplo, para un valor del estadístico de contraste de -1.3, en el ejemplo 3 aceptaríamos H0 pero en el ejemplo 4 no. Siendo que en los dos ejemplos la significación es la misma, del 10% (que recordemos que es la probabilidad de cometer error de tipo I), ¿porqué hay esta diferencia?

Recordemos que el error de tipo II es: aceptar H0 cuando realmente es falsa; diremos que, a igualdad de significación, un contraste es más potente que otro, si tiene menor probabilidad beta de cometer el error de tipo II. Lo que sucede con los ejemplos 3 y 4 es que el contraste de este último es más potente que el del primero; esto es así porque en el ejemplo 4 usamos más información que en el 3: sabemos la desviación típica de la población. En general, interesa maximizar la potencia del contraste a utilizar, usando toda la información disponible.

Otros contrastes de hipótesis

En los ejemplos anteriores hemos visto como se contrasta el valor de la media (el peso medio de los dulces) y el de la proporción (en el problema de la moneda y las caras y cruces). Otros contrastes de hipótesis decidirán sobre otros parámetros: sobre la varianza, sobre la diferencia de medias entre dos poblaciones, o la diferencia de proporciones.

Ejemplo 5: Nuestro comprador de dulces decide probar con otro fabricante que asegura que sus dulces tienen un peso medio de 22gr con una desviación típica de 1.3gr. La pregunta que nos hace es: ¿con base a una muestra de n_1 = 20, n_2 = 20 dulces del fabricante 1 y del fabricante 2, cómo puedo estar seguro de que efectivamente el fabricante 2 produce dulces con un peso 2gr superior al fabricante 1, con un 10% de posibilidad de error tipo I?

Formalmente, suponiendo que los pesos de las dos poblaciones de dulces de los dos fabricantes siguen una distribución de probabilidad normal, el contraste se establece como sigue:

  • H0: no hay diferencias entre los pesos medios, mu_1=mu_2
  • H1: mu_1>mu_2

Para cada tipo de contraste se necesita un teorema que nos proporcione el estadístico de contraste a utilizar, tal como hemos visto en los ejemplos anteriores; para esta comparación de medias de dos poblaciones normales con desviaciones típicas conocidas usaríamos:

x=frac{left(overline{x_1}-overline{x_2}right)-d_0}{sqrt{displaystylefrac{sigma_1^2+sigma_2^2}{n_1+n_2}}}

Contrastes no paramétricos

En muchos casos prácticos interesa formular hipótesis estadísticas en las que no tenemos conocimiento teórico de la población (no tenemos sus parámetros); por ejemplo, queremos comparar las calificaciones obtenidas en una prueba de idiomas por los alumnos antes y después de un viaje a Inglaterra, para saber si ha surtido algún efecto, la muestra es:

Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5
Antes viaje 7,25 8,00 6,00 8,00 9,00
Después viaje 8,25 7,82 6,36 9,69 8,59

A simple vista parece que sí que ha surtido efecto, pero queremos saber si las diferencias observadas son estadísticamente significativas y que no sean producto del azar. Si no podemos suponer normalidad en la variable, necesitamos aplicar un contraste no paramétrico, por ejemplo uno muy sencillo es el de los signos: observamos los signos de las diferencias entre notas:

Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5
Antes viaje 7,25 8,00 6,00 8,00 9,00
Después viaje 8,25 7,82 6,36 9,69 8,59
Diferéncia 1 -0,18 0,36 1,69 -0,41
Signo + - + + -

Establecemos el contraste:

  • H0: no hay diferencias en las calificaciones obtenidas en la prueba de idiomas de los alumnos antes y después del viaje a Inglaterra
  • H1: sí hay diferencias en las calificaciones obtenidas en la prueba de idiomas de los alumnos antes y después del viaje a Inglaterra

 

Si H0 es cierta, esperaríamos que los signos de las diferéncias fueran por igual positivos que negativos, la proporción para ambos ha de ser 1/2 ; tenemos 3 positivos y 2 negativos.

Estadística -> Estadística Aplicada -> Análisis Multivariante

En esta entrada sólo pretendemos dar una introducción breve a un tema extenso y complejo como es el análisis estadístico multivariante, y lo haremos de forma constructiva, partiendo de un ejemplo simple pero real que iremos desarrollando. No se incluyen demostraciones matemáticas, sólo nos centramos en el "para qué sirve?" y en el "cómo se hace?". Espero que sea de utilidad para los estudiantes no especialistas en Estadística que necesitan tener las ideas claras en esta materia sin perderse en detalles técnicos. En este primer artículo sólo introducimos conceptos, y luego aplicamos dos técnicas relacionadas con la simplificación y reducción de datos: componentes principales y factores; en un segundo artículo trataremos de la otra posibilidad del análisis multivariante: la detección de grupos y clasificación de los individuos.

Contenidos:

  1. Análisis Multivariante: ¿para qué sirve?
  2. Reducir el número de variables: análisis de componentes principales
  3. Reducir el número de variables: análisis factorial

separador2

Análisis Multivariante: ¿para qué sirve?

En los estudios estadísticos de casos reales es frecuente encontrarse con que tenemos que manejar no sólo muchos datos, sino también muchas variables; el tener un gran número de variables dificulta la comprensión del problema así como la interpretación de los resultados estadísticos. En el siguiente ejemplo vemos un caso multivariante típico:

Ejemplo 1: En un centro educativo han estado experimentando en los tres últimos cursos académicos con una nueva técnica pedagógica, que se ha aplicado a cinco grupos distintos de alumnos de bachillerato en distintas asignaturas, un total de 125 alumnos. Se quiere realizar un estudio estadístico para averiguar hasta qué punto la nueva técnica ha sido efectiva en términos no sólo de mejora de calificaciones, si no también de otras variables como la participación activa del alumno en la clase, la mejora de habilidades atencionales y de estudio, y la satisfacción en general del alumno en la clase. Además, se considera importante tener en cuenta en el estudio otras variables que pueden condicionarlo, como por ejemplo la edad, la clase social, la asignatura en la que se utilizó la técnica, el nivel de estudios de los padres, y el profesor que la aplicó. Para comparar resultados, se toman también los datos de otros 125 alumnos con los que no se aplicó la nueva técnica. Se trabajará por tanto con una muestra de 250 alumnos y 11 variables. A continuación se muestran las primeras filas de esta tabla, que puede descargarse de aquí.

TEC CAL PAR ATE EST SAT EDAD CLA ASIG PROF ESTP
0 1 0 1 0 3 16 0 2 3 0
0 1 0 1 0 1 17 0 3 5 0
0 1 0 0 1 7 18 2 2 4 3
0 2 1 1 0 2 19 2 3 5 0
0 2 0 1 2 5 18 2 1 1 0

Los significados de cada variable son:

TEC 1: aplicamos nueva técnica, 0: no lo hacemos
CAL Calificación obtenida
PAR Medida de la participación activa en clase
ATE Medida de la atención en clase
EST Medida de las técnicas de estudio personales
SAT Medida de la satisfacción en clase
EDAD Edad del alumno
CLA Clase social: 0 baja, 1 media, 2 alta
ASIG Asignatura en la que se aplicó la técnica: 1 MAT, 2 CIENCIAS, 3 HISTORIA
PROF Profesor que la aplicó, valores 1,2 (MAT), 3,4 (CIENC), 5 (HIST)
ESTP Nivel de estudios padres: 0 sin estudios, 1 básicos, 2 medios, 3 superiores

Sucede a menudo que las variables consideradas no son independientes entre si, al contrario, hay relaciones entre ellas. También a menudo se pueden clasificar los individuos estudiados (los estudiantes en el ejemplo 1) en grupos homogéneos, y realizar un estudio detallado para cada grupo: en el ejemplo 1 podríamos descubrir que agrupando los alumnos según el profesor que aplicó la técnica hay grandes diferencias entre los grupos y resultados parecidos dentro de los grupos. De todo este análisis se ocupan los métodos multivariantes, concretamente lo que hacen es:

  1. investigar si las variables tienen relaciones entre ellas;
  2. dado un gran número de variables, posiblemente relacionadas entre ellas, reducirlas a un número menor de variables, mostrando las posibles relaciones entre las variables originales, para así simplificar el problema y poder sacar conclusiones;
  3. dado un conjunto de datos individuales, asociados con ciertas variables, formar grupos de individuos parecidos usando las variables para clasificarlos.

Veamos a continuación ejemplos y técnicas para estas aplicaciones.

Reducir el número de variables: análisis de componentes principales

Usaremos el método de análisis de componentes principales; una vez cargados los datos en el entorno R, accedemos a Estadísticos -> Análisis dimensional -> análisis de componentes principales. Seleccionamos todas las variables y en Opciones marcamos "Añadir componentes principales al conjunto de datos"; cuando nos pregunta cuantos componentes vamos a incluir, estamos diciendo a cuantas variables queremos reducir las 11 originales, pondremos 3 (idealmente reduciremos a 4 como máximo, para que los datos sean manejables), y aceptamos. R efectúa el análisis y nos proporciona este informe:

multivariant1
Fig. 1: Componentes principales: coeficientes de las combinaciones

R siempre generará tantos componentes principales como variables originales, 11 en este caso. En la figura 1 no se muestran las columnas 4, 5, ... 11, pues nos interesa estudiar sólo 3. Lo que ha hecho R es crear nuevas variables Comp.1, Comp.2, ..., por combinación lineal de las originales, siendo los coeficientes de las combinaciones los que vemos en la figura 1. O sea que se cumple que:

Comp.1;=;0.06cdot ASIG;-;0.453cdot ATE;-;0.558cdot CAL;+;...;-;0.187cdot TEC

Para el componente principal 2:

Comp.2;=;-0.686cdot ASIG;-;0.012cdot ATE;+;0.029cdot CAL;+;...;;+0.264cdot TEC

etc. En el mismo informe de R encontramos esta otra sección:

Fig. 2: importancia de cada componente principal
Fig. 2: importancia de cada componente principal

Nos fijamos en la fila Cumulative Proportion: nos da la "representatividad" acumulada de las nuevas variables, en tanto por uno; vemos que tomando los tres primeras componentes quedan representados en un 0.50 todas las variables, o en un 50%, por tanto si pasamos de 11 a tres variables perdemos la mitad de la información. Parece una pérdida importante ... si cogemos más componentes principales, perdemos menos información, pero ampliamos de nuevo el número de variables, por ejemplo ampliando a 5 llegamos al 69% de representatividad, con 6 llegamos al 77% y con 7 componentes cubrimos hasta el 85% de la información original, pero la reducción de número de variables es ya escasa:

Fig. 3: ampliando el número de componentes con los que trabajar
Fig. 3: ampliando el número de componentes con los que trabajar

La elección del número de componentes principales con los que trabajar es una elección del experimentador; los problemas "de clase" suelen venir preparados de forma que con pocos componentes principales, 2 o 3, se resumen bien los datos, pero en los problemas reales no suele ser tan evidente.

Para saber cómo se relacionan las nuevas variables con las originales podemos usar la matriz de correlaciones entre pares de variables: en R haremos Estadísticos -> Resúmenes -> Matriz de correlación, escogemos todas las variables, y marcamos la opción Parejas de datos. En la matriz de correlaciones resultante nos fijamos en la columna correspondiente al componente principal PC1, para el cual las correlaciones son:

PC1
ASIG 0.009634422
ATE -0.690929281
CAL -0.8508779590
CLA 0.0891672163
EDAD 0.233171700
EST -0.67173527
ESTP 0.093915413
PAR -0.712555990
PC1 1.000000e+00
PC2 1.006389e-17
PC3 -5.316147e-17
PROF 0.006182726
SAT -0.120799459
TEC -0.28527228

Analizemos estas correlaciones: vemos que PC1 está fuertemente correlacionada (más de un 0,5 por uno, o 50%) con las variables ATE (Medida de la atención en clase, valor negativo), CAL (Calificación obtenida, valor negativo, es la correlación más fuerte), EST (Medida de las técnicas de estudio personales, valor negativo) y PAR (Medida de la participación activa en clase, valor negativo), débilmente correlacionada (entre 10-50%) con EDAD (valor positivo), SAT (Medida de la satisfacción en clase, valor negativo) y TEC (1: aplicamos nueva técnica, 0: no lo hacemos, con valores negativos), y prácticamente nada con las demás.

Los valores negativos de correlación indican que si aumentan esas variables disminuye PC1, y viceversa. A la vista de estas correlaciones podemos interpretar que los valores reducidos de PC1 se consiguen sobre todo con valores altos de atención en clase, técnicas de estudio personales y participación activa en clase, y más marginalmente con la elevada satisfacción en clase y la aplicación de la nueva técnica de estudio, de forma que podemos relacionar valores altos de PC1 con la la falta de buenos hábitos (atención en clase, técnicas de estudio, participación activa)  y bajas calificaciones; la edad tiene signo contrario. a más edad más valor de PC1, y peores resultados. Hay que recordar que PC1 sólo recoge un 21% de la información original (figura 2). Si tuviéramos que dar un nombre a PC1, podría ser "altas calificaciones y buenos hábitos de estudio". El mismo análisis se haría para los componentes PC2 y PC3: PC2 tiene un -0.97 de correlación con la variable ASIG (asignatura) y con las demás variables casi es nula, por tanto PC2 viene a representar a ASIG. En cuanto a PC3 tiene -0.65 con ESTP (nivel de estudios padres) y 0.38 con CLA (clase social), o sea que se relaciona con la familia del estudiante.

Recordar que este método produce variables (los componentes principales) que, a diferencia de las variables originales, no estan correlacionadas entre sí; por ejemplo, el diagrama de dispersión de PC1-PC2 no muestra ninguna tendencia:

Fig. 5: de diagrama de dispersión de dos componentes principales cualesquiera no mostrará ninguna relación
Fig. 4: de diagrama de dispersión de dos componentes principales cualesquiera no mostrará ninguna relación

Hemos podido realizar este diagrama de dispersión gracias a haber seleccionado la opción  , que añade a la hoja de datos original las nuevas variables como columnas adicionales.

Fig. 5: R añade 3 nuevas columnas a la hoja de datos, son los componentes principales elegidos por el usuario
Fig. 5: R añade 3 nuevas columnas a la hoja de datos, son los componentes principales elegidos por el usuario

Como conclusión de este estudio con componentes principales podemos decir:

la nueva técnica de enseñanza sí que parece tener cierta influencia, pues su variable asociada está incluida en el componente PC1 de "buenas prácticas y buenas calificaciones", aunque su efecto parece ser menor (29% de correlación) en comparación a las otras buenas prácticas: atención en clase, etc. Por otro lado la asignatura donde se ha probado el método, que es el componente PC2, no tiene ninguna relación (no hay correlación) con PC1, esto es bueno, nos dice que en cualquier asignatura las "buenas prácticas" tienen los mismos efectos. Lo mismo podemos decir del entorno familiar, representado por PC3.

Reducir el número de variables: análisis factorial

El análisis factorial es otra técnica diseñada para reducir el número de variables, creando unas de nuevas, llamadas factores, por combinación lineales de las originales, que intentan mostrar condiciones que directamente no son fácilmente reconocibles. El software estadístico de análisis factorial permite realizar las llamadas "rotaciones" de variables, una transformación matemática que pretende simplificar al máximo la nueva descripción de variables. Los resultados no son los mismos que usando componentes principales, pues el método matemático es distinto.

En R, vamos a Estadísticos -> Análisis dimensional -> Análisis factorial, y escogemos todas las variables originales del problema. Nos pregunta el número de factores a retener, probamos con 3. El resultado es este resumen:

Uniquenesses:
 ASIG   ATE   CAL   CLA  EDAD   EST  ESTP   PAR  PROF   SAT   TEC 
0.077 0.541 0.262 0.983 0.952 0.722 0.986 0.293 0.005 0.995 0.956 

Loadings:
     Factor1 Factor2 Factor3
ASIG  0.961                 
ATE           0.672         
CAL           0.769   0.381 
CLA                  -0.116 
EDAD                 -0.198 
EST           0.456   0.258 
ESTP                        
PAR           0.289   0.789 
PROF  0.997                 
SAT                         
TEC                   0.158 

               Factor1 Factor2 Factor3
SS loadings      1.947   1.356   0.925
Proportion Var   0.177   0.123   0.084
Cumulative Var   0.177   0.300   0.384

Test of the hypothesis that 3 factors are sufficient.
The chi square statistic is 22.73 on 25 degrees of freedom.
The p-value is 0.593

Nos proporciona los coeficientes de las combinaciones lineales para cada factor (tabla Loadings) que siempre están en el intervalo [-1, 1], la variabilidad explicada por cada factor, la acumulada (para los tres factores sumados tenemos un 38.4% de variabilidad explicada) y un contraste de hipótesis Chi² donde H0: los tres factores son suficientes, H1: no lo son. Vemos que el resultado del contraste es que el p-valor = 0.593, lo que significa que, para los niveles de significación estándar de aceptación de H0,  10%, 5% y 1%, aceptamos H0 (recordemos que H0 se acepta si la significación es menor que el p-valor). Si se hubiera rechazado la hipótesis nula, hubiéramos repetido el análisis con un factor más.

También, para las conclusiones, podemos mirar los datos denominados "Uniquenesses": nos da la proporción de variabilidad no explicada por los factores de la variable en cuestión. Por ejemplo, para la variable ASIG es de 0.077, un 7.7% no explicada por los factores, o sea que está bien resumida con los tres factores. En cambio para CLA vale más del 90%, por lo cual los factores no informan bien de esta variable. También los coeficientes (en valor absoluto) de las combinaciones lineales nos informan de la importancia de cada variable en la composición del factor: entre 0% y 100%; por ello hemos destacado en negrita los coeficientes más importantes (más del 50%).

Así pues, resumimos las 11 variables por tres factores, con la siguiente composición:

  • F1 = 0.961· ASIG + 0.997·PROF; este factor considera la asignatura y el profesor que la imparte como un factor importante en el estudio.
  • F2 = 0.672·ATE + 0.769·CAL + 0.456·EST + 0.289·PAR;este segundo factor tiene en cuenta la atención en clase, la calificación, las técnicas de estudio y la participación activa en clase, de forma parecida al componente principal PC1 del apartado anterior.
  • F3 = 0.381·CAL - 0.116·CLA - 0.198·EDAD + 0.258·EST + 0.789·PAR + 0.158·TEC; el tercer factor considera la relación entre calificación, clase social, edad, técnicas de estudio, participación activa en clase y la aplicación de la nueva técnica de estudio, en éste último caso con un peso más bien bajo, 0.158.

Las conclusiones que podemos obtener son:

en este análisis la variable TEC que estudiamos no parece desempeñar ningún papel, sólo entra en el factor 3 con un peso del 15.8%, y además queda no explicada en un 95.6% (Uniquenesses). Las variables relacionadas que tienen más peso son CAL y ATE en el factor 2, lo que sugiere que la atención en clase es la variable mas correlacionada con la calificación obtenida; en el factor 3 la variable dominante es PAR, participación activa, que tiene una relación más bien débil con la calificación (38.1%) y aún más débil con las otras variables.

 

Introducción a las probabilidades

  • Introducción
  • Probabilidad y predicción
    • Precisión
    • Cálculo de probabilidades
    • Interpretación de la probabilidad como una frecuencia teórica
    • Resultados no equiprobables
    • Combinación de casos independientes
  • Definiciones: Espacio muestral de un experimento aleatorio, puntos muestrales, sucesos.
  • Álgebra de sucesos
  • Regularidad estadística. Primera definición de probabilidad
  • Segunda definición de probabilidad: regla de Laplace, combinatoria
  • Tercera definición de probabilidad: axiomas y propiedades
  • Probabilidad condicionada. sucesos independientes
  • Teoremas de la probabilidad total y de Bayes

separador2

Introducción

Históricamente la Estadística, en sus inicios, no usaba la teoría de las probabilidades, de hecho, ambas ramas de la Matemática en sus inicios fueron independientes; esto es así debido a que la Estadística era de naturaleza descriptiva, como se ha visto en el tema Estadística descriptiva, análisis de datos. Con el tiempo, empezó a usarse para predecir sucesos a partir de datos anteriores, y también para llegar a conclusiones globales usando datos parciales, es lo que se denomina inferencia estadística. Pero estas predicciones y conclusiones no deben nunca interpretarse como precisas, como puede ser en Ciencias Exactas, sino que siempre están limitadas por conceptos como "margen de confianza", "valor estimado", "hipótesis" y también "probabilidad". En este post vemos una introducción breve y simple a la teoría de la probabilidad aplicada a la Estadística.

Probabilidad y predicción

El concepto de probabilidad es la base de la Estadística, y no es un concepto fàcil de entender. La utilidad de los datos del pasado es comprender el presente y poder hacer predicciones sobre el futuro. También, la utilidad de tener unos datos parciales, una muestra de datos, es la de poder hacer predicciones sobre el conjunto total de los datos, o población. A estas predicciones en Estadística las llamamos inferencias, y al conjunto de técnicas para lograrlo, técnicas de inferencia Estadística.

Pero en Estadística estas inferencias no son nunca predicciones exactas sino aproximadas. Para dar una valoración de cuan aproximadas son, utilizamos el concepto de probabilidad. Así, una predicción con una probabilidad asociada del 100% tendría certeza absoluta, y en el otro extremo, con una probabilidad asociada del 0% tendría falsedad absoluta: nunca se cumpliría. En las aplicaciones prácticas, estos valores extremos nunca se alcanzan.

Precisión

Torres Petronas
Torres Petronas

Si leyéramos que la altura de la torres Petronas en Kuala Lumpur es de 452,340 metros, podríamos pensar, con razón, que no tiene mucho sentido detallar los decímetros, centímetros y milímetros de la altura, con lo metros sería suficiente, debido a que unos milímetros más o menos no tienen importancia en este caso concreto.

La valoración del número de decimales correcto es una dificultad para muchos estudiantes; es típico usar una calculadora y dar como resultado demasiados decimales. ¿Cuál es el número correcto de decimales? Depende del problema que estemos resolviendo.

calculadora
El número de decimales de un cálculo frecuentemente es infinito. El número de decimales significativo depende del problema concreto que estamos resolviendo: la media de calificaciones, las medidas de un estante, la longitud de una pieza de relojería, etc.

En Estadística los resultados nunca son precisos, al contrario se intenta averiguar cuanta probabilidad de certeza tiene una afirmación, una hipótesis o un resultado.

Cálculo de probabilidades

Usaremos el clásico ejemplo de la moneda. Es de conocimiento general que, si la moneda no está trucada, la probabilidad de obtener cara o cruz al lanzarla es la misma: 1/2 para los dos resultados. ¿Qué significa realmente esta afirmación?  Significa que, en un gran número de tiradas, las frecuencias de obtención de cara y de cruz serían aproximadamente la mitad del total. En la tabla siguiente vemos una simulación por ordenador del lanzamiento de la moneda:

lanzamientos caras % caras cruces % cruces
10 4 40.00% 6 60.00%
100 41 41.00% 59 59.00%
200 108 54.00% 92 46.00%
500 280 56.00% 220 44.00%
1000 485 48.50% 515 51.50%

Vemos que al aumentar el número de lanzamientos, los porcentajes de caras y cruces se van aproximando al 50% predicho. Pero en ningún caso ha coincido exactamente en ese 50%. Es una predicción aproximada, tanto más precisa como mayor sea el número de tiradas de la moneda. A este concepto de probabilidad, una aproximación a la frecuencia esperada, le podemos dar una definición más matemática:

Definición 1: Dado uno de los posibles resultados de un experimento, el cual repetimos n veces, la probabilidad de ese resultado se define como el límite, cuando n es muy grande, de la frecuencia relativa del resultado respecto al número total de repeticiones; si x es el número de veces que hemos obtenido el resultado, la frecuencia relativa es x/n y la probabilidad será

P(\text{resultado})=\lim_{n\rightarrow\infty}\frac xn

En el ejemplo de la moneda, la probabilidad 1/2 se obtiene de realizar infinitos lanzamientos de la moneda:

P(cara)=\lim_{n\rightarrow\infty}\frac{\text{número de caras}}n

Regla de Laplace

Para el cálculo práctico de las probabilidades no se usa la definición anterior, sino otros métodos, el más simple de ellos es la conocida regla de Laplace:

P(\text{resultado})=\frac{\text{número de casos favorables}}{\text{número de casos totales}}

Es un hecho notable que el valor de la probabilidad calculada con la regla de Laplace coincida con la de la definición 1, que usa límites.  La regla de Laplace tal como se ha dado supone que cada caso posible es igualmente probable, de lo contrario no funcionará.

Ejemplo 1: la regla aplicada al lanzamiento de la moneda, para obtener la probabilidad de obtener cara en un lanzamiento, es:

P(\text{cara})=\frac{\text{número de caras}}{\text{número de casos totales}}=\frac12

Esto es correcto siempre que todos los resultados (cara y cruz) sean igualmente probables. Si realizamos dos lanzamientos de la moneda y queremos saber la probabilidad de obtener al menos una cara, tendremos que contar los casos favorables y los posibles; abreviando por C el resultado "sale cara" y por "X" el resultado "sale cruz", los casos son:

casos posibles: CC, CX, XC, XX

casos favorables: CC, CX, XC

por tanto la P(al menos una cara en dos lanzamientos) = 3/4.

Interpretación de la probabilidad como una frecuencia teórica

De la definición 1 podemos obtener una igualdad útil en los problemas:

P(\text{resultado})=\lim_{n\rightarrow\infty}\frac xn\Leftrightarrow x\xrightarrow[\infty]{}n\cdot P(\text{resultado})

Para el caso de un número de repeticiones muy elevado, tendremos la igualdad x\approx n\cdot P(\text{resultado}), donde x es el número de repeticiones del resultado estudiado.

Ejemplo 2: La probabilidad de que una bombilla halógena recién fabricada sea defectuosa es del 0,01%. ¿Cuántas bombillas defectuosas esperamos encontrar en una remesa de 10.000 bombillas? Aplicamos la fórmula anterior, teniendo en cuenta que el número de "repeticiones" considerado (el número de bombillas) es elevado: \text{número de defectuosas}\approx10.000\cdot\frac{0.01}{100}=1. Recordemos que esta cifra es solo una aproximación.

Combinación de casos independientes

Volvamos al lanzamiento de dos monedas (o al lanzamiento de una moneda dos veces). Los resultados posibles eran CC, CX, XC, XX. Si nos preguntamos por la probabilidad de obtener cualquiera de estos resultados, como por ejemplo "sacar dos caras", obtenemos para todos ellos el valor 1/4 (un caso favorable de cuatro posibles), pero la probabilidad de obtener una cara es 1/2. Vemos que P(CC) = 1/4 = 1/2 · 1/2 = P(C)·P(C). Para tres monedas, los casos posibles son ocho: CCC, CCX, CXC, XCC, XXC, XCX, CXX, XXX, y la probabilidad de obtener cualquiera de estos resultados es de 1/8 = 1/2 · 1/2 · 1/2 = P(C)·P(C)·P(C). En general, la probabilidad de cada combinación posible al realizar n veces el lanzamiento se obtiene
multiplicando las probabilidades de todos los resultados que intervienen en la combinación, siempre que cada lanzamiento sea independiente del anterior, esto es, que los resultados no estén influenciados por los obtenidos anteriormente.

Resultados no equiprobables

Cuando cada caso tiene una probabilidad distinta, no podemos aplicar la regla de Laplace. Debemos estudiar la probabilidad de cada caso.

Ejemplo 3: siguiendo con las bombillas del ejemplo 2, si compramos 3 bombillas, y las probamos ¿cuál es la probabilidad de que la primera sea defectuosa y las otras dos no?

La probabilidad de que una bombilla sea defectuosa es 0.0001, y de que no lo sea de 0.9999. Entonces como cada bombilla es independiente de las demás, la probabilidad del caso "defectuosa, correcta, correcta" será 0.0001·0.9999·0.9999=0.000099.

Ejemplo 4: siguiendo con las bombillas del ejemplo 2, si compramos 3 bombillas, ¿cuál es la probabilidad de que una sea defectuosa?

Llamemos C al resultado "pruebo una bombilla y es correcta", y D al resultado "pruebo una bombilla y es defectuosa". Las combinaciones posibles son CCC, CCD, CDC, DCC, DDC, DCD, CDD, DDD. No son igualmente probables, luego no podemos aplicar Laplace. La probabilidad de cada una de ellas se obtiene multiplicando las probabilidades de todos los resultados que intervienen en la combinación, teniendo en cuenta que P(C)=0.9999, P(D)=0.001. Obtenemos:

Caso Probabilidad
CCC 0.99970003
CCD 0.00009998
CDC 0.00009998
DCC 0.00009998
DDC 0.00000001
DCD 0.00000001
CDD 0.00000001
DDD 1E-012

La probabilidad pedida "una es defectuosa", comprende tres casos: CCD, CDC, DCC. Sumemos ahora sus probabilidades: 0.00009998 + 0.00009998 + 0.00009998 = 0.00029994. 

Por otro lado, si sumamos las probabilidades de todos los casos posibles, el resultado es 1. Esta es una regla fundamental: la suma de probabilidades de todos los casos posibles es siempre igual a 1.

Espacio muestral de un experimento aleatorio

Damos algunas definiciones básicas, y luego vemos sus propiedades y aplicaciones.

Definición 2: Dado un experimento aleatorio (ver el tema Estadística descriptiva, análisis de datos), su espacio muestral Ω es el conjunto de todos los posibles resultados del experimento. Ejemplos:

  • Lanzamiento de un dado: Espacio muestral Ω = {1,2,3,4,5,6}, un conjunto de  6 elementos.
  • Medición de la temperatura en un reactor químico: Ω contiene todos los valores reales positivos (espacio muestral infinito).

Definición 3: Puntos muestrales son cada uno de los posibles resultados de un experimento aleatorio; también podemos decir que son los elementos que componen el conjunto espacio muestral Ω del experimento. Ejemplos:  en el caso del dado los puntos muestrales son {1}, {2}, ... {6}.

Definición 4: Sucesos. Un suceso S es un subconjunto cualquiera del espacio muestral Ω de un experimento aleatorio. Ejemplo: para el experimento "lanzar un dado y anotar la puntuación" un suceso puede ser el subconjunto S = {2, 4, 6}. En particular un suceso elemental es un subconjunto formado por un único punto muestral, como S = {2}.

separador2

Álgebra de sucesos

Temporalmente, nos situamos en otra área: la lógica de proposiciones, aplicándola al caso de sucesos aleatorios.

Definición 5: Una proposición lógica P será una afirmación cualquiera sobre el resultado de un experimento aleatorio. Por ejemplo, en el caso del dado, algunas proposiciones son:

  • P1: "Ha salido un número par"
  • P2: "Ha salido un número mayor que 4"
  • P3: "No ha salido mayor que 4"
  • P4: "Ha salido un número par que es mayor que 2 y menor que 5"

La  correspondencia que estamos definiendo entre las proposiciones lógicas y los sucesos ha de cumplir:

  • Cada proposición lógica se entenderá que se está refiriendo a algún suceso del espacio muestral Ω de un experimento aleatorio; este suceso es único: no pueden haber dos sucesos distintos relacionados con la misma proposición.
  • En cambio, dado un suceso, podemos asociarle muchas proposiciones lógicas

En otras palabras, la relación entre entre el conjunto de proposiciones Σ de un experimento y el conjunto de sucesos Ψ del mismo experimento es una aplicación inyectiva (o de uno-a-muchos).

Ejemplo 5: para el experimento de lanzar un dado, con Ω = {1,2,3,4,5,6}:

  • P1: "Ha salido un número par", se relaciona con el suceso S1 = {2, 4, 6}
  • P2: "Ha salido un número mayor que 4", se relaciona con el suceso S2 = {5, 6}
  • P3: "No ha salido mayor que 4", se relaciona con el suceso S3 = {1,2,3,4}
  • P4: "Ha salido un número par que es mayor que 2 y menor que 5", se relaciona con el suceso S4 = {4}

Todas las proposiciones posibles respecto al experimento aleatorio son válidas, incluso aquellas que no tienen sentido, o son triviales:

  • P5: "Ha salido un número mayor que 6", se relaciona con el subconjunto vacío S = ø, a este suceso se le llama suceso imposible.
  • P6: "Ha salido un número entre 1 y 6", se relaciona con el conjunto total S = Ω = {1,2,3,4,5,6}, a este suceso se le llama suceso seguro.

Álgebra de sucesos
Dentro del conjunto de proposiciones se pueden definir operaciones lógicas que le proporcionan estructura algebraica: el álgebra de Boole. Las operaciones son: AND (y), OR (o), NOT (no). El resultado de una operación lógica entre proposiciones es otra proposición lógica.

Ejemplo 6:

  • AND: P1: "Ha salido un número par", P2: "Ha salido un número mayor que 4", P = P1 y P2: "Ha salido un número par y mayor que 4".
  • NOT: P1: "Ha salido un número par"; negación: P = No "Ha salido un número par"
  • OR: P3: "No ha salido mayor que 4", P5: "Ha salido un número mayor que 6", P = P4 o P5: "O bien no ha salido mayor que 4, o bien ha salido un número mayor que 6"

También tenemos una correspondencia entre las operaciones lógicas y las operaciones en el espacio muestral:

operación lógica Operación entre conjuntos de Ω
AND ("y") Intersección de conjuntos, símbolo 
OR ("o") Unión de conjuntos, símbolo 
NOT ("no") Complementario de un conjunto S es Sc

Ejemplo 7:

  • A la proposición P = (P1 y P2) = ("Ha salido un número par" y "Ha salido un número mayor que 4") corresponde el suceso (S1∩ S2) = {2,4,6}∩ {5,6 } = {6}
  • A la proposición P = no ("Ha salido un número par") corresponde el suceso complementario del {2,4,6} que es {1,3,5}
  • Sucesos excluyentes: son aquellos que no tienen elementos en común, es decir, que su intersección es nula.

separador2

Regularidad estadística. Primera definición de probabilidad

Supongamos que realizamos N repeticiones de un experimento aleatorio y que formamos la tabla de frecuencias relativas. Entonces, el principio de regularidad Estadística afirma que, conforme N se hace más grande, las frecuencias relativas de todos los resultados tienden a ser constantes.

Ejemplo 8: lanzamiento de una moneda. Tabla de frecuencias relativas

Punto muestral

N=10

N=100

N=1000

cara”

4/10 = 0.4

46/100 = 0.46

502/1000 = 0.502

cruz

6/10 = 0.6

54/100 = 0.54

498/100 = 0.498

Se observa que las frecuencias relativas se estabilizan alrededor del valor 0.5. Tomamos este valor límite de la frecuencia relativa cuando N es muy grande como la primera definición de probabilidad:

Definición 5: Probabilidad (frecuencialista) de un suceso S. Dado un suceso S asociado al espacio muestral Ω de un experimento aleatorio, del cual podamos realizar un número cualquiera N de ejecuciones, la probabilidad P(S) del suceso viene dada por:

P(S)=\underset{N\rightarrow\infty}{lim}f(S)

donde f(S) representa la frecuencia relativa del suceso S cuando hacemos N repeticiones del experimento aleatorio.

Ejemplo 9: la probabilidad de S: "ha salido cara" en el experimento de lanzar la moneda es 0.5, pues ese el valor obtenido al simular por ordenador el lanzamiento un número elevado de repeticiones.

separador2

Segunda definición de probabilidad: regla de Laplace, combinatoria

Esta primera definición de probabilidad como límite de frecuencias relativas es útil para interpretar resultados de cálculos, pero no lo es para obtener probabilidades, pues obliga a realizar un límite de una frecuencia relativa, para la cual en general no tenemos ninguna expresión analítica. La siguiente definición, debida a Laplace, soluciona este inconveniente:

Definición 6: Probabilidad de un suceso S, regla de Laplace. Dado un suceso S asociado al espacio muestral Ω de un experimento aleatorio, si el número de puntos muestrales de S es card(S) y el número de puntos muestrales de Ω es card(Ω), la probabilidad P(S) del suceso viene dada por:

P(S)=\frac{\text{card }\left(S\right)}{\text{card }\left(\Omega\right)}

Ejemplo: la probabilidad de S: "ha salido cara" en el experimento de lanzar la moneda se calcula contando el número de puntos muestrales de S = {"cara"}, que es 1, y del espacio Ω = {"cara", "cruz"}, que es 2. Luego P("cara") = 1/2 = 0.5.

Ejemplo 10: la probabilidad de sacar un número par al lanzar un dado, según la regla de Laplace, es:

P(par)=\frac{\text{card }\left(par\right)}{\text{card }\left(\Omega\right)}=\frac{\text{card }\left(\left\{2,4,6\right\}\right)}{\text{card }\left\{1,2,3,4,5,6\right\}}=\frac36=\frac12

Teoría combinatoria

En casos simples es inmediato aplicar la regla de Laplace pero en general no será tan simple. Consideremos por ejemplo el siguiente problema: "Una lotería está formada por N números, de los que m tendrán premio. Calcular la probabilidad de que nos toque algún premio si hemos comprado k números ". Calcular el número de puntos muestrales ahora no es trivial. La teoría combinatoria proporciona técnicas directas para hacerlo; en nuestro caso la solución viene dada por:

P(premio)=1-P(no\;premio)=1-\frac{C_{N-m,k}}{C_{N,k}}=1-\frac{\left(N-k\right)!\left(N-m\right) }{N!\left(N-m-k\right)!}

donde C_{a,b} representan la combinaciones de a elementos tomados de b en b, y el símbolo ! representa la operación factorial. No trataremos esta teoría aquí, aunque en este blog hay una introducción a la teoría y se pueden encontrar algunos problemas resueltos de combinatoria.

separador2

Tercera definición de probabilidad: axiomas y propiedades

La definición más moderna de probabilidad se debe a Kolmogorov:

Definición 7: Probabilidad de un suceso S, Kolmogorov. Dado un suceso S asociado al espacio muestral Ω de un experimento aleatorio, probabilidad es toda función P que asigna a cada suceso S de un espacio muestral un número P (S) comprendido en el intervalo [0, 1] y que además verifica las siguientes propiedades (axiomas de la probabilidad):

1. P (Ω) = 1
2. Si A, B son sucesos excluyentes, entonces P (A ∪ B) = P (A) + P (B)

Se puede demostrar que esta definición es más general que las dos anteriores: La regla de Laplace y el límite de la frecuencia relativa verifican los axiomas, pero hay probabilidades que no se pueden calcular con la regla de Laplace ni con frecuencias, y si según la definición de Kolmogorov.

De la definición de Kolmogorov se pueden deducir otras propiedades de la probabilidad:

  1. P(no S) = P(Sc) = 1 – P(S)

  2. P(suceso imposible) = P(ø) = 0

  3. P(A o B) = P(A∪ B) = P(A) + P(B) – P(A∩ B)

  4. Si el espacio muestral Ω se puede considerar dividido en n subconjuntos disjuntos entre sí, Ω = A1 ∪ A2 ∪ ... ∪ An, entonces P(A1) + P(A2) + ... + P(An) = 1

En las aplicaciones y problemas, se suele usar la definición 2 (Laplace) para calcular, la definición 1 para interpretar el significado de la probabilidad, y las propiedades de la probabilidad para simplificar los cálculos.

Ejemplo 11: Calcular la probabilidad de que al lanzar dos dados simultáneamente, o bien la suma de las puntuaciones de ambos dados mayor que 6, o bien la puntuación de ambos dados sea al menos de 4. Si realizamos ese experimento 100 veces, ¿en cuantas de ellas esperaremos que se cumpla que "las puntuaciones de ambos dados mayor que 6 o bien la puntuación de ambos dados sea al menos de 4"?

Definimos los sucesos S: "la suma de las puntuaciones de ambos dados mayor que 6", y T: "la puntuación de ambos dados sea al menos de 4". Para hallar las probabilidades por la regla de Laplace necesitamos contar los puntos muestrales (resultados posibles) de cada suceso y también del espacio total.

Resultados posibles para S: {1+6, 2+5, 2+6, 3+4, 3+5, 3+6, 4+3, 4+4, 4+5, 4+6, 5+2, 5+3, 5+4, 5+5, 5+6, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6}, total 21

Resultados posibles para T:  {4+4, 4+5, 4+6, 5+4, 5+5, 5+6, 6+4, 6+5, 6+6}, total 9

Resultados posibles totales: tantos como parejas (a, b) podemos formar siendo a,b números entre 1 y 6: son 6·6 = 36.

Ahora aplicamos la tercera propiedad de Kolmogorov: P(S o T) = P(S∪T) = P(S) + P(T) – P(S ∩ T). Necesitamos calcular el número de puntos del conjunto (S ∩ T) = {1+6, 2+5, 2+6, 3+4, 3+5, 3+6, 4+3, 4+4, 4+5, 4+6, 5+2, 5+3, 5+4, 5+5, 5+6, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6} ∩ {4+4, 4+5, 4+6, 5+4, 5+5, 5+6, 6+4, 6+5, 6+6} = {4+4, 4+5, 4+6, 5+4, 5+5, 5+6, 6+4, 6+5, 6+6} = T; esto sucede porque T está incluido en S (T es un subconjunto de S).

También se puede visualizar gráficamente: en una cuadrícula de 6 x 6 marcamos las casillas con una suma superior a 6 con un 1, y las que cumplen que los dos valores son al menos 4 las resaltamos en amarillo:

Valores posibles de las puntuaciones del lanzamiento de dos dados
Valores posibles de las puntuaciones del lanzamiento de dos dados; hay 21 combinaciones con suma > 6, y 9 combinaciones con los dos valores mayores o iguales a 4

Probabilidades según Laplace: P(S) = 21/36, P(T) = 9/36. P(S ∩ T) = 9/36

Probabilidad P(S o T) = P(S∪T) = 21/36 + 9/36 - 9/36 = 21/36.

Si repetimos N = 100 veces el lanzamiento de los dos dados, usando la definición 4 de probabilidad, esperaremos que en 100·21/36 = 58 ocasiones suceda que se cumpla que "la suma de puntuaciones de ambos dados mayor que 6 o bien la puntuación de ambos dados sea al menos de 4".

separador2

Probabilidad condicionada. Sucesos independientes

Cuando tenemos un conocimiento parcial del resultado de un experimento aleatorio podemos utilizarlo para mejorar nuestras predicciones. Por ejemplo: sabemos que en un dado ha salido al menos un 4. ¿Cuál es ahora la probabilidad de que sea un número par? Si no utilizamos la información "ha salido al menos un 4" será, por la regla de Laplace:

P(par) = card {2,4,6} / card {1,2,3,4,5,6} = 3/6

Si en cambio utilizamos la información "extra", entonces el espacio muestral queda restringido a ser los puntos del suceso "ha salido al menos un 4" que son {4,5,6} y en el
suceso "número par" habrá que eliminar el punto {2} que es incompatible. Por lo tanto será:

P ("par" condicionada por "ha salido al menos un 4") = card {4,6} / card {4,5,6} = 2/3

En general:

Definición 8: Diremos que el suceso A está condicionado por el suceso B cuando el conocimiento parcial del resultado B modifica el espacio muestral original Ω, reduciéndolo a otro Ω', de tal modo que la probabilidad de A respecto a Ω' es diferente a la original respecto a Ω. La notación para la probabilidad de A condicionada a B es P (A | B).

Se puede demostrar fácilmente que la nueva función de probabilidad P (S | B) verifica los axiomas y propiedades de la probabilidad de Kolmogorov, y por tanto está bien definida.

Sucesos independientes

En el ejemplo anterior hemos visto que si A = {"un número par"} y B = {"ha salido al menos un 4"} entonces P (A) = 3/6 = 1/2, P (A | B) = 2/3, y las probabilidades no son las mismas. ¿Siempre será así? En general no.

Definición 9Cuando tengamos que  P (A | B) = P (A) diremos que los sucesos A y B son independientes. El condicionamiento impuesto por B no afecta a A. En cambio cuando el condicionamiento si afecte a la probabilidad, diremos que los sucesos son dependientes,

En general se cumple que:

P\left(A\vert B\right)=\frac{P\left(A\cap B\right)}{P\left(B\right)}

Si los sucesos A, B son independientes, entonces:

P\left(A\vert B\right)=\frac{P\left(A\cap B\right)}{P\left(B\right)}=P\left(A\right)\Rightarrow\boxed{P\left(A\cap B\right)=P\left(A\right)P\left(B\right)} [1]

 

Interpretar correctamente la probabilidad condicionada

Los conceptos de dependencia e independencia de sucesos, así como el condicionamiento suelen ser mal comprendidos la primera vez que los vemos. Por ejemplo, en los enunciados de problemas hay que distinguir claramente cuando nos están hablando de probabilidad condicionada o de probabilidad conjunta de dos sucesos; en el primer caso hay una información previa: un suceso se supone que ya ha sucedido, el otro no, mientras que en la probabilidad conjunta no hay esa información previa. Por ejemplo: En una urna hay 4 bolas de color azul, 6 de color rojo y 3 de color amarillo. Sacamos una bola al azar sin mirarla; suponiendo que alguien nos dice "no es de color amarillo", ¿cuál es la probabilidad de que sea roja? Esta es una probabilidad condicionada, pues ya ha sucedido el suceso "no es de color amarillo" (la información previa), y por tanto calcularemos:

P(roja | no es de color amarillo ) = P(roja ∩ no es de color amarillo ) / P(no es de color amarillo )

En cambio si sacamos una bola al azar y la pregunta es ¿cuál es la probabilidad de que simultáneamente suceda que la bola no sea amarilla y sea roja? el cálculo será simplemente P(roja ∩ no es de color amarillo ).

Consideremos otro experimento con la misma urna: sacamos una bola que resulta ser roja; la devolvemos a la urna, y a continuación volvemos a sacar una bola. Nos preguntamos por la probabilidad de que vuelva a ser roja. Aquí entra un nuevo elemento: si consideramos que las distintas extracciones (que son las repeticiones del mismo experimento aleatorio) son independientes entre sí, entonces la probabilidad entre extracciones no varia, dado que hemos devuelto la bola a la urna para que haya exactamente el mismo número de bolas en la segunda extracción. Entonces:

P(bola roja en cada extracción) = 6 / (4 + 6 + 3) = 6 / 13

P((roja en 1ª) Y (roja en 2ª extracción)) = P(roja en 1ª) · P(roja en 2ª extracción) = 6 / 13 · 6 / 13 = 36 / 13²

Aquí hemos usado la igualdad [1] para calcular la probabilidad P((roja en 1ª) Y (roja en 2ª extracción)), teniendo en cuenta que las extracciones son independientes.

Sucesos realmente independientes

¿Cuando podemos considerar que dos sucesos son independientes? Siempre que no se afecten el uno al otro por cualquier medio, ni queden afectados por agentes externos. Por ejemplo, en un laboratorio realizamos, por primera vez, un experimento con una cierta medida M, y la repetimos unos días después. Nos preguntamos por la probabilidad de haber cometido un error absoluto en la medida respecto al valor real R, |R - M|, mayor que una tolerancia e: P(|R - M| > e). ¿Esta probabilidad será la misma el primer dia y el segundo dia? Aquí es más delicado suponer independencia de sucesos, ya que hay diversos factores externos que pueden influir, por ejemplo, la segunda vez se tiene la experiencia de la primera, y podría ser que se procediera mejor en la preparación previa del experimento. También podría ser que los con los resultados de la primera prueba hubiéramos intercambiado información con otros compañeros de trabajo sobre el experimento en cuestión, de forma que en la segunda ocasión sabemos algo más. Por ello en esta situación es más arriesgado suponer que los sucesos son independientes.

Ejemplo 11: (Nonplussed!: Mathematical Proof of Implausible Ideas - by Julian Havil): Como condición para ser aceptado en un club de tenis un jugador novato N ha de jugar tres partidos contra dos miembros del club, que les llamaremos B (jugador de nivel bueno) y M (jugador de nivel medio). Para ser aceptado, N debe ganar dos partidos consecutivos de los tres. N debe elegir uno de las dos posibilidades: jugar en el orden  M, B, M o en el orden B, M, B. La pregunta es: ¿cuál es la mejor opción?

Este es un buen ejemplo de que en ocasiones las probabilidades no son intuitivas en absoluto. Sin hacer ningún cálculo, de forma intuitiva, creeremos que el más importante es jugar lo menos posible con el jugador B, y por tanto la mejor opción es escoger el orden de juego M, B, M i no el B, M, B. Vamos a hacer el cálculo de probabilidades.

Supongamos que la probabilidad de que N venza a M es m, y de que venza a B es b, y que los sucesos son independientes (no afecta al partido siguiente el resultado del anterior).  En el orden de juego M, B, M, todas las combinaciones para vencer dos partidos consecutivos son: (vencer M, vencer B, vencer M), (vencer M, vencer B, perder M), (perder M, vencer B, vencer M). ¿Cuáles son las probabilidades de estas combinaciones? Son:

  • P(vencer M, vencer B, vencer M) = m·b·m
  • P(vencer M, vencer B, perder M) = m·b·(1-m)
  • P(perder M, vencer B, vencer M) = (1-m)·b·m

Observar que para calcular la probabilidad de perder aplicamos la 1ª propiedad de la probabilidad de Kolmogorov: P(no S) = 1 – P(S). La probabilidad de vencer dos partidos consecutivos en el orden M, B, M será la suma de las anteriores probabilidades, ya que los sucesos (vencer M, vencer B, vencer M), (vencer M, vencer B, perder M), (perder M, vencer B, vencer M) son mutuamente excluyentes: la suma es mbm + mb(1-m) + (1-m)bm = bm(m + 1 - m + 1 - m) = bm(2 - m).

Hacemos lo mismo para el orden de juego B, M, B. Las combinaciones y sus probabilidades son:

  • P(vencer B, vencer M, vencer B) = b·m·b
  • P(vencer B, vencer M, perder B) = b·m·(1-b)
  • P(perder B, vencer M, vencer B) = (1-b)·m·b

La suma es b·m·b + b·m·(1-b) + (1-b)·m·b = bm(b + 1 - b + 1 - b) = bm(2 - b)

Como b < m (menos probabilidad de ganar el jugador bueno que el medio), resulta que bm(2 - b) > bm(2 - m), o sea que en el orden de juego B, M, B el jugador novicio tiene más probabilidades de vencer en dos partidos consecutivos que en el orden M, B, M, !incluso siendo  que deberá jugar dos partidos contra el mejor jugador en vez de sólo uno! Un resultado contra intuitivo, pero rigurosamente cierto.

separador2

Ejemplo 12:  Consideremos el mismo problema del club de tenis pero esta vez incorporando aspectos subjetivos; si el jugador novicio gana en un partido al jugador de mejor nivel B, consideraremos que su motivación aumenta y también mejorará su nivel de juego; por otro lado si pierde contra el jugador de nivel medio M entonces bajará ligeramente.

  • si gana a B, sus probabilidades de ganar en el siguiente partido, que eran m, b respectivamente, pasan a ser m', b', que cumplirán m < m' < 1, b < b' < 1. Concretamente, es P( ganar a M | haber ganado B) = m', P( ganar a B | haber ganado B) = b'
  • si pierde con M, sus probabilidades de ganar en el siguiente partido, que eran m, b respectivamente, pasan a ser m'', b'', que cumplirán m'' < m < 1, b'' < b < 1

Ahora estamos considerando probabilidades condicionadas: la probabilidad de ganar un partido depende del resultado del partido anterior. Rehacemos los cálculos; para el orden de juego M, B, M

  • P(vencer M, vencer B, vencer M) = m·b·m'
  • P(vencer M, vencer B, perder M) = m·b·(1-m)
  • P(perder M, vencer B, vencer M) = (1-m)·b''·m'

La suma de estas probabilidades es m·b·m' + m·b·(1-m) + (1-m)·b''·m' = mbm' + mb - m²b + m'b'' - mm'b'' = mm'(b - b'') + mb(1 - m) + m'b''

para el orden de juego B, M, B. Las combinaciones y sus probabilidades son:

  • P(vencer B, vencer M, vencer B) = b·m'·b'
  • P(vencer B, vencer M, perder B) = b·m'·(1-b')
  • P(perder B, vencer M, vencer B) = (1-b)·m·b

La suma de estas probabilidades es b·m'·b' + b·m'·(1-b') + (1-b)·m·b = bm'b' + bm' - bm'b' + mb - b²m = bm' + bm - bbm

¿Cuál es ahora la mejor opción? Para simplificar, damos valores concretos a las probabilidades: m = 0.7, b = 0.5, m'=0.8, b'= 0.6, m''= 0.6, b''=0.4. Sustituimos:

  • P(ingresar en el club jugando M, B, M) =  mm'(b - b'') + mb(1 - m) + m'b'' = 0.7·0.8·(0.5 - 0.4) + 0.7·0.5(1 - 0.7) + 0.8·0.4 = 0.481
  • P(ingresar en el club jugando B, M, B) = bm' + bm - bbm = 0.5·0.8 + 0.5·0.7 - 0.5·0.5·0.7 = 0.575

Vemos que sigue siendo la mejor opción la que incluye más partidos contra el mejor jugador.

separador2

Ejemplo 13: En una encuesta, al 29% le gusta la música clásica. Este 29% se desglosa en un 17% que no les gusta la música moderna y un 12% que también les gusta la música moderna. Por otro lado en un 68% sólo les gusta la música moderna y a un 3% no les gusta la música. Planteamos el experimento aleatorio: preguntar a una persona al azar sobre sus gustos musicales. Sean los sucesos siguientes:

  • M: le gusta la música moderna
  • X: sólo le gusta un tipo de música

La pregunta que nos hacemos es: ¿Son M y X independientes? Dicho de otro modo, el conocimiento previo de que a una persona les guste la música moderna condiciona el que le guste sólo ese tipo de música?

Representamos los datos en un diagrama:

condicionada

Hacemos los cálculos teniendo en cuenta el diagrama:

  • P(M) =P("sólo moderna" O "clásica y también moderna") = 0.68 + 0.12 = 0.8
  • P(X) = P("sólo moderna" O "sólo clásica") = 0.68 + 0.17 = 0.85
  • P(X ∩ M) = P(“sólo un tipo de música” Y “sí la moderna”) = P("sólo moderna" ) = 0.68
  • P(X)·P(M) = 0.85 · 0.8 = 0.68

Resulta que P(X∩ M) = P(X) · P(M), por tanto X, M son independientes

separador2

Teoremas de la probabilidad total y de Bayes

Teorema 1 (de la probabilidad total)Si tenemos un conjunto de sucesos B1, B2, ..., Bn excluyentes entre sí de tal forma que el espacio muestral Ω pueda expresarse como la unión = B1∪ B2∪ ...∪ Bn, (decimos queB1, B2, ..., Bn es una partición de Ω)  y además conocemos las probabilidades P(B1), P(B2) ... P(Bn), entonces para cualquier suceso A se cumple:

P(A)=\sum_{i=1}^nP\left(A\vert B_i\right)\cdot P\left(B_i\right)

Teorema 2 (de Bayes): En las mismas condiciones del teorema anterior tendremos que:

P(B_k\;\vert\;A)=\frac{P\left(B_k\right)\cdot P\left(A\;\vert\;B_k\right)}{\sum_{i=1}^nP\left(A\;\vert\;B_i\right)\cdot P\left(B_i\right)}

Equivalentemente, usando el teorema de la probabilidad total:

P(B_k\;\vert\;A)=\frac{P\left(B_k\right)\cdot P\left(A\;\vert\;B_k\right)}{P\left(A\right)}

Ejemplo 14: El 20% de cierta población tiene estudios superiores, el 60% medios y el 20% básicos. Sabemos que leen habitualmente algún periódico local el 40% de los que tienen estudios superiores, el 25% de lo que tienen estudios medios y el 10% de los que tienen estudios básicos. Elegida una persona al azar resulta que lee habitualmente algún
periódico. ¿Cuál es la probabilidad de que tenga estudios superiores?

La población total está dividida en tres conjuntos disjuntos B1: estudios superiores, B2: medios, B3: básicos. Sabemos las probabilidades condicionadas siguientes: si escogemos al azar una persona, y resulta que tiene estudios superiores, entonces P(leer | B1) = 0.4. Igualmente, P(leer | B2) = 0.25, P(leer | B3) = 0.1. La probabilidad pedida tiene una información previa: "resulta que lee habitualmente algún periódico", por tanto es condicionada, es: P(estudios superiores | lee). Usamos el teorema de Bayes:

P(superiores\;\vert\;lee)=\frac{P\left(superiores\right)\cdot P\left(lee\;\vert\;superiores\right)}{\sum_{i=1}^nP\left(lee\;\;\vert\;B_i\right)\cdot P\left(B_i\right)}

Calculamos primero el denominador, que es la probabilidad total de leer un periódico en esa población, sin tener en cuenta el factor estudios:

\sum_{i=1}^nP\left(lee\;\;\vert\;B_i\right)\cdot P\left(B_i\right)=0.4\cdot0.2+0.25\cdot0.60+0.10\cdot0.20=0.25

Un 25% de la población lee habitualmente un periódico. Sustituimos en el teorema de Bayes:

P(superiores\;\vert\;lee)=\frac{0.2\cdot0.4}{0.25}=0.32

La probabilidad de que una persona con estudios superiores sea lector es superior a la media de la población, 25%, como era de esperar.

separador2

Bibliografia

Métodos Estadísticos: Lo utilicé cuando estudiaba en la UNED, y tengo un buen recuerdo, porque no era muy extenso pero contenía todo el temario bastante bien explicado. Otra parte que me gustó fue que cada capítulo tiene una lista de problemas (ejercicios de autocomprobación) con las soluciones, perfecto para estudiar a distancia. En definitiva, no es una biblia de la Estadística Aplicada ni mucho menos, pero para introducirte en los temas básicos (Estadística descriptiva, probabilidades, variables aleatorias, funciones de distribución, intervalos de confianza, contrastes de hipótesis y ANOVA) cumple bien.

 

Estadística descriptiva, análisis de datos

  • Estadística: concepto, contenido, aplicaciones
  • Concepto de población, muestra, individuo y variable estadística
  • Clasificación de las variables estadísticas
  • Distribución de frecuencias. representaciones gráficas
  • Agrupación de datos en intervalos
  • Estadísticos muestrales

separador2

Estadística: concepto, contenido, aplicaciones

Fenómenos y experimentos deterministas y aleatorios.

Los fenómenos y experimentos en los que hay definidos una causa y su efecto de forma determinista pueden, en principio, ser formulados con ecuaciones matemáticas exactas:

  • F = ma Ley de Newton: dada una fuerza F y una masa m, determinamos su aceleración a.
  • V = IR Ley de Ohm: dado un potencial V y una resistencia R, determinamos la intensidad de corriente I
  • PV = nRT Ley de los gases perfectos: dadas la presión P, la temperatura T y el número de moles n de un gas, determinamos el volumen V del gas
  • Etc...

En la realidad se presenta una variabilidad no predecible que da lugar a los fenómenos y experimentos con cierto grado de aleatoriedad:

  • F = ma + E, donde E es el error experimental, variable en cada repetición del experimento, aleatorio, indeterminado a priori
  • Lanzamiento de un dado (condiciones iniciales no controlables)
  • Encuesta de opinión sobre una población (componente psicológico aleatorio)
  • Electrón que pasa a través de una barrera de potencial (incertidumbre cuántica)

En los ejemplos anteriores el grado de aleatoriedad no es el mismo: en el primer ejemplo tenemos un comportamiento en principio exacto y determinado, F = ma, sólo que debido a errores de medición, de preparación del experimento, humanos, etc, los resultados realmente obtenidos no coinciden con la teoría: es el error experimental, que idealmente tiende a cero. En los ejemplos del dado y de la encuesta de opinión no conocemos ninguna ecuación que nos permita hacer predicciones, aunque quizá existan, pero son desconocidas, por tanto son experimentos totalmente aleatorios. El último ejemplo es distinto, la aleatoriedad es intrínseca al electrón, no puede haber ninguna ley determinista por la propia naturaleza del experimento.

Estadística: objeto

La Estadística estudia los fenómenos aleatorios, midiendo las fuentes de variabilidad y permitiendo hacer predicciones sobre el comportamiento de un experimento aleatorio.

Aplicaciones de la Estadística

Estadística descriptiva: a partir de los resultados de un número de repeticiones de un experimento aleatorio, obtenemos una descripción numérica resumida (parámetros estadísticos) y unos gráficos descriptivos.

Resumir datos: parámetros y gráficos estadísticos
Resumir datos: parámetros y gráficos estadísticos

Estadística matemática: utiliza la teoría de la probabilidad y las herramientas del análisis matemático para elaborar modelos matemáticos probabilistas que describen el comportamiento del fenómeno aleatorio en estudio.

Inferencia estadística: a partir de un número limitado de experimentos aleatorios elabora una estimación del comportamiento del fenómeno en general. Por ejemplo, sabiendo, por datos históricos, que el número medio de accidentes laborales en un año en cierto polígono industrial es de 3 accidentes, calcular la probabilidad de que ocurra al menos un accidente antes del mes de junio del año actual.

De los datos experimentales a las predicciones
De los datos experimentales a las predicciones

Control de calidad y de fiabilidad: utilizando una muestra de la producción, realiza inferencia sobre las calidad de toda la producción siguiendo un conjunto estándar de normas.

Fases de un trabajo estadístico

Típicamente, en un estudio estadístico pasamos por las siguientes fases de trabajo:

  1. Recogida de datos (laboratorio, encuestas, ...)
  2. Descripción, representación y análisis de los datos recogidos (Estadística Descriptiva)
  3. Cotejo de los datos con el modelo teórico adecuado (Estadística Matemática)
  4. Obtención de inferencias o conclusiones (Estadística Inferencial)

Ejemplo 1: En el estudio de siniestralidad laboral en un cierto polígono industrial se han recogido los siguientes datos históricos:

Año Accidentes
2000 4
2001 3
2002 2
2003 4
2004 3
2005 2

Obtenemos algunos parámetros y gráficos estadísticos:

Fase 1: Estadística descriptiva resumen de los datos
Fase 2: Estadística descriptiva resumen de los datos

En la siguiente fase utilizamos el modelo matemático de Poisson, que es útil para el estudio de la siniestralidad en general, para comparar los datos experimentales con los teóricos suministrados por el modelo, asegurando que el modelo teórico es válido en este caso.

Por último, podemos responder a preguntas como "calcular la probabilidad de que ocurra al menos un accidente
antes del mes de junio del año actual
" usando el modelo matemático: resulta ser del 77%.

separador2

Concepto de población, muestra, individuo y variable estadística

Población: el conjunto de todos las posibles realizaciones de un experimento aleatorio.

Ejemplo 2: Encuesta de opinión dirigida a universitarios, población: todos los universitarios. Lanzamiento de un dado, población infinita (todos los posibles lanzamientos). Estudio de calidad de un componente electrónico, población: todos los componentes fabricados en un cierto periodo de tiempo.

Muestra: subconjunto representativo de la población de un experimento aleatorio.

Ejemplo 3: Encuesta a 20 estudiantes elegidos al azar de cada universidad en la zona de estudio. Lanzamos 100 veces un dado (de las infinitas veces que podemos hacerlo, nos conformamos con 100). Estudiamos 20 unidades del componente electrónico fabricados en cierto día.

Individuo: cada elemento de la población o de la muestra (un universitario, un lanzamiento del dado, una unidad del componente electrónico)

Variable estadística: una característica numérica de la población que nos interesa estudiar

Ejemplo 4: preguntamos a cada estudiante si está de acuerdo o no con cierta ley, definimos la variable estadística asignando el valor 1 a la respuesta afirmativa y el valor 0 en la negativa. En el lanzamiento de un dado, la variable es el número de puntos obtenidos.  En el estudio del componente electrónico, la variable puede ser la resistencia eléctrica, o el tiempo de servicio hasta que queda inservible, etc.

Clasificación de las variables estadísticas

Variables discretas: el conjunto de diferentes valores que puede tomar (dominio de la variable) es finito o infinito numerable (un entero). Ejemplo: lanzamiento de un dado, con dominio {1,2,3,4,5,6}.

Variables continuas: el dominio es infinito no numerable (un intervalo de la recta real). Ejemplo: tiempo de servicio de un componente electrónico.

 separador2

Distribución de frecuencias. representaciones gráficas


En Estadística Descriptiva el conjunto de valores a estudiar siempre se representa en forma de tabla de frecuencias observadas. Los programas de estadística toman estas tablas como dato de entrada y nos devuelven parámetros y representaciones gráficas

Ejemplo 5: Sea el experimento aleatorio: lanzamiento N = 10 veces de un dado. Tipo de variable: discreta. Población infinita. Muestra con N = 10. Resultados muestrales: {3, 4, 6, 1, 5, 2, 4, 6, 6, 1}. Con ellos formamos la tabla de frecuencias sin agrupar y el histograma de frecuencias absolutas:

Ejemplo de tabla de frecuencias y su representación gráfica
Ejemplo de tabla de frecuencias y su representación gráfica

El software permite generar una gran variedad de gráficos estadísticos con facilidad, es tarea del analista escoger cuál de ellos es el más adecuado para resumir los datos del estudio y mostrar las propiedades que desea poner de manifiesto.

Opciones de tipo de gráfico en OpenOffice
Opciones de tipo de gráfico en OpenOffice

La utilidad de los gráficos estadísticos es:

  • Mostrar de forma explícita la distribución de valores de la variable, para hacernos una idea rápida de su distribución (uniforme, no uniforme, homogénea, heterogénea, máximos, mínimos, etc.)
  • Poner de manifiesto tendencias y efectos que de otra forma pueden quedar ocultos

 Ejemplo 6: uso práctico de gráficos en el control de calidad de un proceso de fabricación. En una cierta fábrica de bizcochería industrial se han recibido algunas quejas de clientes debido a que sus departamentos de calidad han detectado que en las remesas recibidas los bizcochos tienen un peso medio inferior al esperado, que es de 220 gramos con una tolerancia de ±10 gr. Para comprobarlo, se realiza una muestra aleatoria del peso en gramos del bizcocho producido que puede ser elaborado por dos máquinas diferentes (1 y 2) atendidas indistintamente por dos operarios (A y B), tomando una muestra diaria aleatoriamente de una de las máquinas y uno de los operarios (nota: realmente esto no se hace exactamente así, sólo es un ejemplo), los resultados han sido:

Dia Peso (gr) Máquina Operario
1 195,0 M2 B
2 228,5 M1 A
3 217,6 M1 B
4 207,2 M2 B
5 213,8 M2 A
6 217,6 M2 A
7 211,5 M1 A
8 202,7 M1 A
9 207,8 M1 B
10 203,1 M1 A
11 204,0 M1 B
12 215,7 M2 B
13 202,7 M1 B
14 225,6 M1 A
15 230,3 M1 B
16 216,6 M2 B
17 217,3 M1 B
18 223,3 M2 A
19 221,9 M2 A
20 220,1 M1 A

Representando todos los pesos en un histograma, en el que agrupamos los datos en las categorías [200, 205), [205, 210), [210, 215), [215, 220), [220, 225), [225, 230), [230, 235], resulta:

Histograma de datos agrupados en categorías
Histograma de datos agrupados en categorías

Las dos líneas verticales rojas representan los límites de tolerancia: vemos que efectivamente el proceso de producción está desviado a la izquierda, produce demasiadas unidades por debajo del peso mínimo establecido. Para saber cuál puede ser el orígen del problema, representamos de nuevo los datos pero esta vez separando por categorias: por máquinas y por operarios. Obtenemos:

Datos según las categorías máquinas y operarios
Datos según las categorías máquinas y operarios

Vemos que hay una diferencia acusada entre las dos máquinas, pues la M1 presenta pesos mucho más dispersos del peso medio (220 gr), y con mayor número de unidades en la gama baja de pesos. En cambio entre operarios hay pocas diferencias. En conclusión, parece que debemos revisar la máquina 1.

 separador2

Agrupación de datos en intervalos

 En el ejemplo anterior hemos visto que los datos de una variable continua (peso en gramos) es más cómodo agruparlos en intervalos de valores. Esto se hace más patente cuando aumenta el tamaño de la muestra. Supongamos que en vez de 20 pesos de bizcochos tenemos 160. Para organizar esos datos en intervalos procedemos como sigue:

  1. Hallamos el valor mínimo (redondeado), por ejemplo: 207
  2. Hallamos el valor máximo (redondeado), por ejemplo: 231
  3. calculamos el recorrido = Valor máximo valor mínimo =  231 - 207 =  24
  4. Fijamos el número de intervalos, que suele estar entre 6 y 10, por ejemplo k = 8
  5. Calculamos la anchura de cada intervalo  = recorrido / k = 24 / 8  = 3

Los intervalos (o clases) serán pues: [207, 210), [210, 213), ... [228, 231]. Entonces contamos cuantos de los datos caen en cada intervalo, formando la tabla de frecuencias:

Tabla de datos agrupados en clases, con las frecuencias absolutas y relativas

La marca de clase es simplemente el punto medio del intervalo que define a la clase. La frecuencia relativa se obtiene dividiendo la absoluta por el número N de datos. Las frecuencias acumuladas son sumas parciales de frecuencias.

separador2

Estadísticos muestrales

Un estadístico muestral, también llamado parámetro estadístico, es una función de los datos que devuelve un número, intentando resumir el conjunto de datos en un único indicador. El típico ejemplo es la media aritmética de N datos.

Estadísticos de posición

Resumen la distribución de datos muestrales dando un valor que los representa atendiendo a la posición que ocupan en la recta real. Hay de dos tipos: de posición central y de posición no central.

Estadísticos de posición central

Resumen todos los datos con un único valor que intenta ser central a todos.

Media aritmética: Si tenemos N datos x_1, ..., x_N la media aritmética es simplemente \overline x=\frac1N\sum\nolimits_{i=1}^Nx_i;  si tenemos los datos agrupados por frecuencias de forma que hay k clases, con k marcas de clase diferentes x_1, ..., x_k, con frecuencias absolutas F_1, ..., F_k y un total de N=\sum\nolimits_{i=1}^kF_i datos, la media aritmética es:

\overline x=\frac1N\sum\nolimits_{i=1}^kx_iF_i=\frac{\sum_{i=1}^kx_iF_i}{\sum_{i=1}^kF_i}

Mediana
Si ordenamos en orden creciente los datos no agrupados {x_1, ... x_N} la mediana m ocupa la posición central. Para N impar resulta ser el dato que ocupa la posición (N + 1) / 2; para N par la definimos como la media de los datos que ocupan las posiciones (N / 2) y (N / 2) +1.
Si los datos vienen agrupados en intervalos entonces usamos la fórmula de los centiles Ci (ver más bajo) con i = 50.

Moda
Es el valor que presenta la frecuencia máxima. Puede haber más de una moda (distribución de datos multimodal).

Ejemplo:  la serie de 9 datos ordenados de menor a mayor {2, 5, 6, 6, 7, 9, 9, 9, 10} tiene moda = 9 (dato con más ocurrencia), mediana = 7 (pues con 9 datos el que ocupa la posición central es el quinto dato, que es el número 7) y la media aritmética = 7 (en este caso coincide con la mediana, pero no tiene porque ser así)

De posición no central

Proporcionan valores que, ordenando los datos en orden creciente, dividen la distribución en partes iguales.

  • Cuartiles: son tres valores que hacen cuatro partes iguales
  • Deciles: son nueve valores que hacen diez partes iguales (10% de los datos)
  • Centiles o percentiles: son noventa nueve valores que hacen cien partes iguales (1% de los datos).

Evidentemente, se cumple que Primer cuartil = 25º centil, segundo cuartil = 50º centil, .... También, primer decil = 10º centil, segundo decil = 20º centil, .... Además, la Mediana = 50 centil.

Los tres quartiles dividen el rango de datos en cuatro partes iguales, con un 25% de los datos cada una
Los tres cuartiles dividen el rango de datos en cuatro partes iguales, con un 25% de los datos cada una

Con N datos no agrupados, el centil C_i es el número que ocupa la posición (iN / 100), donde 1\leq i\leq N. Con datos agrupados en intervalos usamos la formula:

C_i=L_{j-1}+\frac{{\displaystyle\frac{i\left(N-1\right)}{100}}+1-N_{j-1}}{n_j}a_j

donde:

N_{j-1}: frecuencia absoluta acumulada del intervalo anterior
L_{j-1}: extremo inferior del intervalo donde está el dato que ocupa la posición (N-1) / 100
a_j: anchura del intervalo donde está el dato que ocupa la posición (N-1) / 100
n_j: frecuencia absoluta del intervalo donde está el dato que ocupa la posición (N-1) / 100

Los percentiles pueden calcularse gráficamente usando el diagrama de frecuencias relativas acumuladas, con líneas que unen los puntos, obtenemos el denominado polígono de frecuencias acumuladas. Para encontrar digamos el percentil c_{20} hallamos la abscisa correspondiente a la ordenada Y = 20:

Polígono acumulativo de frecuencias, y obtención del percentil 20
Polígono acumulativo de frecuencias, y obtención del percentil 20

De hecho la formula que hemos dado no es más que una semejanza entre triángulos; en la figura, si nos fijamos en los dos triángulos semejantes delimitados por los puntos (200, 5%), (C, 20%), y (205, 25%) planteamos:

Triángulos semejantes en el polígono de frecuencias acumuladas
Triángulos semejantes en el polígono de frecuencias acumuladas

\frac{205-200}{25-5}=\frac{205-C}{25-20}\Rightarrow C=205-\frac5{20}5=203.8

Por tanto el percentil 20 vale 203.8. En general, la formula que se deriva del método gráfico será:

\frac{X_{sup}-X_{inf}}{Y_{sup}-Y_{inf}}=\frac{X_{sup}-C}{Y_{sup}-p}\Rightarrow C=X_{sup}-\frac{X_{sup}-X_{inf}}{Y_{sup}-Y_{inf}}\left(Y_{sup}-p\right)

donde p es es porcentaje para el que buscamos el percentil (por ejemplo, para C_{20} será p=20), C es el valor del percentil, Y_{sup} es un porcentaje superior a p,  Y_{inf} es un porcentaje inferior a p, y X_{sup}, X_{inf} los valores de abscisas correspondientes.

Al aplicar las dos formulas de percentiles, la primera que es útil para trabajar con tablas de frecuencias y la segunda para gráficas de frecuencias, encontraremos diferencias en los resultados, debido a que ninguno de los dos son métodos exactos sino aproximaciones. Esto es así debido a que un percentil C_p, en sentido estricto, es un valor de la distribución que la divide en dos partes, con el p% de valores por un lado y el 100-p%  por el otro, pero es posible que ese valor no exista realmente en la distribución, lo que tomamos es una aproximación. Además al trabajar con tablas de frecuencias en vez de con los datos originales siempre tenemos alguna pérdida de información.

Esto se aprecia fácilmente con la mediana, que equivale al percentil 50. Tomemos por ejemplo la siguiente distribución de 19  valores:

\left\{107,\;113,\;119,\;125,\;131,\;135,\;146,\;147,\;147,\;149,\;160,\;162,\;172,\;173,\;177,\;187,\;191,\;193,\;193\right\}

Siendo un número impar de valores, la mediana es el valor que ocupa la posición (N + 1) / 2 = (19 + 1) / 2 = 10, que es el valor X = 149, exactamente.

Agrupemos ahora los datos en una tabla de frecuencias, por ejemplo con cuatro intervalos:

Xinf Xsup freq. freq % F % acum
0 100 0 0 0
100 125 4 21,1 21,1
125 150 6 31,6 52,6
150 175 4 21,1 73,7
175 200 5 26,3 100,0

En amarillo se destaca el intervalo donde debe de estar la mediana, pues su frecuencia acumulada supera el 50%. Si aplicamos ahora las dos formulas aproximadas, obtenemos los valores 150 y 148 respectivamente; en este caso el valor exacto se sitúa en el punto medio entre los dos valores aproximados.

Medidas de dispersión

Indican numéricamente si los valores de los datos están agrupados en torno a la media o dispersos.

  • Recorrido = valor máximo - valor mínimo
  • Desviación media: D=\frac1N\sum\nolimits_{i=1}^n\left|x_i-\overline x\right|
  • Varianza: \sigma^2=\frac1N\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2
  • Desviación típica:
    \sigma=\sqrt{\sigma^2}=\sqrt{\frac1N\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2}
  • Coeficiente de variación (Pearson). Proporciona un valor de la dispersión independiente de las unidades. Útil para comparar dispersiones de variables diferentes: V=\sigma/\overline x

Las fórmulas de la desviación media, varianza y desviación típica han de adaptarse para trabajar con datos de tablas de frecuencias; llamando n_i a la frecuencia absoluta del valor x_i serán: D=\frac1N\sum\nolimits_{i=1}^n\left|x_i-\overline x\right|n_i, \sigma^2=\frac1N\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2n_i y \sigma=\sqrt{\sigma^2}=\sqrt{\frac1N\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2n_i} respectivamente.

Ejemplo 8: En una panadería quieren comparar la distribución de pesos de dos de sus productos, las piezas de pan de 1Kg y las de 1/4Kg. Para ello pesan 20 piezas de cada producto, en días distintos, obteniendo estos resultados, en gramos:

Pan 1Kg (gr) 986 976 1000 965 961 987 1009 1001 961 999 1010 964 978 989 969 1007 971 997 980 982
Pan 1/4 Kg (gr) 243 238 249 233 231 243 254 250 231 249 254 233 239 244 235 253 236 248 240 241

Con la hoja de cálculo, sin agrupar los datos por frecuencias, obtenemos:

Media Mediana Varianza Desv.Tip Desv. Media Coef.Var Recorrido
Pan 1Kg (gr) 984,5 983,8 274,1 16,6 14,0 0,02 49,6
Pan 1/4 Kg (gr) 242,1 241,8 59,7 7,7 6,5 0,03 23,1

Analizando estos parámetros, vemos que:

  • la media de los dos productos está ligeramente por debajo del peso anunciado.
  • La media y la mediana son muy parecidas; esto sucede cuando la distribución de valores cumple que tanto los valores altos como los bajos tienen frecuencias parecidas, de forma simétrica respecto al valor medio.
  • Lo mismo sucede con las desviaciones típica y media, son parecidas entre sí. Además, las desviaciones son medidas absolutas que han de comparase con la media para hacerse una idea de su significado. En la barra de 1Kg la desviación típica, 16.6gr, viene a ser un 16.6·100/984.5 = 1.7%; en general, en los procesos productivos, las desviaciones han de ser lo menor posible, este valor de 1.7% puede ser aceptable para una empresa familiar, pero no serlo para un gran fabricante, pues implica un desconocimiento del peso real de cada unidad.
  • Para comparar las desviaciones entre los dos productos, usamos el coeficiente de variación, y vemos que es superior en la barra de 1/4.

Si queremos una representación gráfica, agrupamos los valores por intervalos para formar la tabla de frecuencias. Por ejemplo escogemos el número de intervalos k = 4, teniendo en cuenta los recorridos, calculamos las anchuras de los intervalos: para las barras de 1Kg será 49,6/4 = 12,4 y para las de 1/4 tenemos 24/4 = 6. Los valores mínimos son 960 y 230 respectivamente. Establecemos los siguientes intervalos: [960, 973), [973, 986), [986, 999) y [999, 1012] para las barras de 1Kg, [230, 236), [236, 242), [242, 248) y [248, 254] para las barras de 1/4. La tabla de frecuencias es:

desde hasta frecuencia desde hasta frecuencia
960 973 6 230 236 6
973 986 5 236 242 4
986 999 4 242 248 4
999 1012 5 248 254 6
0

El histograma de frecuencias absolutas, para el pan de 1Kg, con indicación del valor medio, es:

Histograma de frecuencias absolutas
Histograma de frecuencias absolutas

En este ejemplo vemos que la media aritmética no parece ser un buen representante de la distribución de pesos, simplemente es un valor central.

separador2

Problemas de combinatoria (incompleto)

Contenido (sólo disponible el primer apartado):

  • Problemas de variaciones, permutaciones, combinaciones y la regla del producto
  • Problemas de particiones de conjuntos
  • Problemas de objetos indistinguibles
  • Conjuntos y subconjuntos, bolas y cajas
  • Desarreglos
  • Funciones generatrices

separador2

Problemas de variaciones, permutaciones, combinaciones y la regla del producto:

Regla del producto para listas de elementos de n conjuntos

Si queremos contar el número de n-listas \left \{a_ {1}, a_ {2}, \ldots, a_ {n} \right \}
en las que el primer elemento pertenece a un cierto conjunto A1, el segundo a otro conjunto A2, etc, el número total de listas es \sum\vert A_y\vert donde \vert A_y\vert es el número de elementos del conjunto A_ {y}.

Ejemplo: Sea el conjunto de palabras de 4 letras, la segunda de las cuales es vocal. Cuántas palabras diferentes podemos formar? Solución: Suponiendo que tenemos 26 letras en el alfabeto, y 5 vocales, tendremos 26 · 5 · 26 · 26 palabras diferentes.

1. Cuantas palabras de 5 letras podemos formar con las letras A, B, C, D de forma que no contengan la palabra "CAD"?

Solución: "CAD" puede comenzar en las posiciones CADxx, xCADx, xxCAD. Para las dos restantes posiciones XX, podemos tomar cualquiera de las 4  letras: posibles formas de hacerlo   (regla del producto: 4 · 4 = 4²). En total hay 3\cdot4^2 palabras de 5 letras que contienen "CAD".
Cuantas palabras de 5 letras podemos formar en total? 4^{5}. Por tanto que no contengan la palabra "CAD" serán 4^{5} -3 \text{·} 4^{2}=976

separador2

2.  Cuantos divisores positivos de 6000 hay?

Solución: descomponemos 6000 en factores primos: 6000=2^4\cdot3\cdot5^3.  Entonces cualquier divisor x de 6000 debe ser una combinación de los tres factores primos: x=2^\alpha\;\cdot3^\beta\;\cdot5^\gamma donde 0\leq\alpha\leq4,\;0\leq\beta\leq1,\;0\leq\gamma\leq3. El número de divisores de 6000 coincide con el número de 3-listas \left(\alpha,\beta,\gamma\right) que podemos formar. Por la regla del producto tenemos \vert A1\vert\cdot\vert A2\vert\cdot\vert A3\vert=5\cdot2\cdot4=40 divisores positivos de 6000.

separador23. De cuántas formas podemos colocar m bolas de colores diferentes en n cajas numeradas, si podemos colocar cualquier número de bolas en cada caja, y el orden dentro de cada caja no importa?

Solución: Regla del producto: para la 1ª bola tenemos n posibilidades, para la 2ª también, ..., por la m-ésima también, por la regla del producto tenemos n·n·...·n = n^{m}<span class="hps">.

Si tiramos k dados, cuántos posibles resultados obtenemos?Sol) Regla del producto: por 1º dado tenemos 6 posibilidades, y por el resto también, así que el total será 6 \ text {·} 6 \ text {·} \ ldots \ text {·} 6 = 6 ^ {k}.separador24. Sean los conjuntos A, B con m, n elementos respectivamente. Cuantas posibles aplicaciones inyectivas A \rightarrow B podemos formar tales que verifiquen a) si f (x) = f (y) entonces x = y , B) si x \neq y entonces f (x) \neq f (y)
.
Solución: Debemos tener m \leq n, de otro modo no se verificará la inyectividad. Para el elemento a_{1} de A podemos elegir cualquiera de los n elementos
de B. Para el siguiente elemento a_{2} 
dispondremos de todos menos uno, el que ya hemos elegido para a_ {1}, esto es: n-1, y así sucesivamente. Aplicando la regla del producto tenemos n\text{·}\left(n-1\right)\text{·}\left(n-2\right)\text{·}\ldots(n-m+1)=\frac{n!}{\left(n-m\right)!}.

separador2

5. ¿Cuántas palabras de 3 letras pueden formarse si las tres letras deben ser diferentes?Solución: Para la 1ª letra tenemos todo el alfabeto, 26 letras; para la 2ª dispondremos de todas menos una, la que ya hemos elegido, por tanto 25 opciones, y por la 3ª de 24: por la regla del producto, 26 \cdot25 \cdot24 = 15600.
En general, si tomamos de forma ordenada m elementos distintos a_1,a_2,\dots,a_m de un conjunto de n elementos, el número de combinaciones será n\cdot\left(n-1\right)\cdot\left(n-2\right)\cdot\dots\cdot\left(n-m+1\right)=\frac{n!}{\left(n-m\right)!}. LLamamos Variaciones de n elementos tomados de m en m: V(n,k) a ese número de combinaciones.

separador26. De cuántas formas posibles pueden sentarse 8 personas, entre las que están Ram y Snatam, en 8 asientos, de forma que Ram y Snatam se sienten juntos?

Solución: Formas posibles de que Ram y Snatam se sienten juntos: representando por x el resto de personas, por R a Ram y por S a Snatam, las disposiciones son 7: RSxxxxxx, xRSxxxxxx, ..., xxxxxxRS, pero ademas tenemos que considerar las 7 disposiciones inversas SRxxxxxx, ..., xxxxxxSR. Tenemos R en la 1ª, 2ª, ... posición, o bien S en la 1ª, 2ª, ... posición, total 14 combinaciones. Por cada una de ellas, podemos sentar las 6 personas restantes de cualquier forma en los 6 asientos: permutaciones de 6 elementos: 6! formas de hacerlo. Por la regla del producto, tenemos 14 · 6! = 10080 formas de que Ram y Snatam se sienten juntos.

separador2
 7. De cuántas formas posibles se pueden elegir un libro de Geometría, uno de Cálculo y uno de Álgebra de entre 3, 4 y 5 libros de Geometría, Cálculo y Álgebra respectivamente, sabiendo que los libros son diferentes entre sí?

Solución: Las formas de escoger un libro de Cálculo de entre 3 vienen dadas por las combinaciones de 3 elementos tomadas de 1 en uno: \begin{pmatrix}3\\1\end{pmatrix}. Para los otros libros procedemos igual. El total de posibilidades viene dado por la regla del producto: \begin{pmatrix}3\\1\end{pmatrix}\cdot\begin{pmatrix}4\\1\end{pmatrix}\cdot\begin{pmatrix}5\\1\end{pmatrix}.

separador28. ¿Cuántas maneras hay de organizar las letras de la palabra MISSISSIPPIMISSOURI?

SoluciónLa longitud de la palabra es 19, el conjunto de letras usado para formar la palabra es: {MISPOUR}; el número de ocurrencias de cada letra es {2, 6, 6, 2, 1, 1, 1} respectivamente. Debemos encontrar de cuántas formas podemos colocar dos "M" en 19 posiciones, seis "Y" en 19-2 = 17 posiciones, seis "S" en 17-6 = 11 posiciones, dos "P" en 11-6 = 5 posiciones, y las letras "O", "U", "R" en las 5-2 = 3 posiciones restantes. El número total de palabras será, por la regla del producto, el producto de las anteriores combinaciones.Formas de colocar dos "M" en 19 posiciones = formas de elegir dos números de entre el conjunto de posiciones {1, 2, ..., 19} = </span><span title="\end{array}\right). ">\begin{pmatrix}19\\2\end{pmatrix}.

El resto de combinaciones con las otras letras, se razona igual, y son:

\begin{pmatrix}17\\6\end{pmatrix},\begin{pmatrix}11\\6\end{pmatrix},\begin{pmatrix}5\\2\end{pmatrix}i\begin{pmatrix}3\\1\end{pmatrix},\begin{pmatrix}2\\1\end{pmatrix},\begin{pmatrix}1\\1\end{pmatrix}
Total: \begin{pmatrix}19\\2\end{pmatrix}\begin{pmatrix}17\\6\end{pmatrix}\begin{pmatrix}5\\2\end{pmatrix}\begin{pmatrix}3\\1\end{pmatrix}\begin{pmatrix}2\\1\end{pmatrix}\begin{pmatrix}1\\1\end{pmatrix}=171\cdot12376\cdot462\cdot10\cdot3\cdot2\cdot1=58663725120
separador2

Problemas de particiones de conjuntos

( ... proximamente ...)

Problemas de distribuciones de probabilidad continua

P1) Tenemos una distribución de probabilidad continua bidimensional (X,Y) con función de densidad:

f\left(x,y\right)=\left\{\begin{array}{l}8xy,\;0<x<y<1\\0\;\text{en otro caso}\end{array}\right.

  1. Comprobar que la probabilidad total vale 1
  2. Calcular las densidades de probabilidad marginales f_x(x), f_y(y). ¿Son independientes las variables X, Y?
  3. Calcular la media de X y la media de Y
  4. Hallar la probabilidad condicionada P( X>0.8 | Y < 0.4)
  5. Calcular la covariancia de las dos variables
  6. Calcular la correlación lineal de las dos variables

Resolución:

1. Comprobar que la probabilidad total vale 1

El dominio de definición D de la función de densidad es el triángulo delimitado por los puntos (0,0), (1,0) y (1,1) en el plano XY:

integra_area
Fig. 1: variación de Y en el dominio D: 0 < Y < X > 1

Para encontrar la probabilidad en todo el dominio calculamos la integral doble

\iint_Df\left(x,y\right)\operatorname dx\operatorname dy

La integral doble en el recinto la calculamos con integrales reiteradas, despejando una de las variables en función de la otra; en la imagen vemos que, fijando un valor x, la variable y varía desde y=0 hasta y=x, ya que el dominio es 0 < y < x < 1. Entonces tenemos:

\begin{array}{l}\iint_Df\left(x,y\right)\operatorname dx\operatorname dy=\int_0^1\operatorname dx\int_0^x8xy\operatorname dy=\int_0^1\operatorname dx\left[8x\frac{y^2}2\right]_0^x=\\4\int_0^1x^4\operatorname dx=4\left[\frac{x^4}4\right]_0^1=1.\end{array}

Efectivamente la probabilidad total es 1.

2. Calcular las densidades de probabilidad marginales f_x(x), f_y(y). ¿Son independientes las variables X, Y?

Las densidades de probabilidad marginales:

f_x\left(x\right)=\int f\left(x,y\right)\operatorname dy,\;f_y\left(y\right)=\int f\left(x,y\right)\operatorname dx

representan las probabilidades de las variables X e Y por separado. Para la marginal de x integramos respecto a y,  los límites de integración para la variable y son (0,x), puede visualizarse en el gràfico de la figura 1: la línea vertical simboliza la variación de y dado un x cualquiera, desde altura cero hasta alcanzar la recta y=x:

f_x\left(x\right)=\int_0^x8xy\operatorname dy=8x\left[\frac{y^2}2\right]_0^x=4x^3

Para la marginal de y integramos respecto de x; los límites de integración los visualizamos ahora con una línia horizontal situada dentro del dominio D, desde el valor mínimo x=y sobre la recta hasta el valor máximo x=1:

area2
Fig. 2: variación de X en el dominio D: 0 < y < x < 1

Por tanto la integral es:

f_y\left(y\right)=\int_y^18xy\operatorname dx=8y\left[\frac{x^2}2\right]_y^1=4y\left(1-y^2\right)

Como comprobación no necesaria pero instructiva, integrando cada función de densidad marginal, debe de dar 1 (suma de probabilidades):

\begin{array}{l}\int_0^1f_y\left(y\right)\operatorname dy=\int_0^14y\left(1-y^2\right)\operatorname dy=4\left[\frac{y^2}2-\frac{y^4}4\right]_0^1=4\left(\frac12-\frac14\right)=1;\\\int_0^1f_x\left(x\right)\operatorname dx=\int_0^14x^3\operatorname dx=4\left[\frac{x^4}4\right]_0^1=1\end{array}

Las variables X, Y no son independientes; si lo fueran , el producto de densidades marginales debería coincidir con la densidad de probabilidad conjunta:

f\left(x,y\right)=f_x\left(x\right)\cdot f_y\left(y\right)\;\Leftrightarrow X,\;Y\;\text{independientes}

cosa que no se cumple: 8xy\neq4x^3\cdot4y\left(1-y^2\right)\;\Rightarrow X,\;Y\;\text{dependientes}.

 

3. Calcular la media de X y la media de Y

Cuando tenemos una distribución bidimensional y queremos calcular las medias de las variables, usamos las distribuciones marginales: \mu_x=\int xf_x\left(x\right)\operatorname dx,\;\mu_y=\int yf_y\left(y\right)\operatorname dy. o sea:

\mu_x=\int_0^1x\cdot4x^3\operatorname dx=4\left[\frac{x^5}5\right]_0^1=\frac45,\;\mu_y=\int_0^1y\cdot4y\left(1-y^2\right)\operatorname dx=4\left[\frac{y^3}3-\frac{y^5}5\right]_0^1=\frac8{15}

 

4. Hallar la probabilidad condicionada P( X>0.8 | Y < 0.4).

La probabilidad condicionada P( X>0.8 | Y < 0.4) es, por definición:

P(\;X>0.8\;\vert\;Y\;<\;0.4)=\frac{P(\;X>0.8\;\cap\;Y\;<\;0.4)}{P(\;Y\;<\;0.4)}

El conjunto X>0.8\;\cap\;Y\;<\;0.4, teniendo en cuenta el dominio de definición 0<x<y<1, es un rectángulo:

area

Entonces la probabilidad de la intersección es:

\begin{array}{l}\begin{array}{l}P\left(X>0.8\;\cap\;Y\;<\;0.4\right)=\int_{0.8}^1\operatorname dx\int_0^{0.4}8xy\operatorname dy=8\int_{0.8}^1x\operatorname dx\left[\frac{y^2}2\right]_0^{0.4}=\end{array}\\4\cdot0.4^2\int_{0.8}^1x\operatorname dx=\frac{16}{25}\left[\frac{x^2}2\right]_{0.8}^1=\frac8{25}\left(1-0.8^2\right)=\frac{72}{625}\end{array}

La probabilidad que falta es:

P\left(Y\;<\;0.4\right)=\int_0^{0.4}f_Y\left(y\right)\operatorname dy

donde f_Y es la densidad marginal de la variable Y:

P\left(Y\;<\;0.4\right)=\int_0^{0.4}4y\left(1-y^2\right)\operatorname dy=4\left[\frac{y^2}2-\frac{y^4}4\right]_0^{0.4}=0.2944

Resultado: P\left(X>0.8\;\vert\;Y\;<\;0.4\right)=\frac{\frac{72}{625}}{0.2944}\approx0.3913

5. Calcular la covariancia de las dos variables

Usamos la formula cov\left(X,Y\right)=\int_D\left(x-\mu_x\right)\left(y-\mu_y\right)f\left(x,y\right)\operatorname dx\operatorname dy sustituyendo:

\begin{array}{l}cov\left(X,Y\right)=\int_D\left(x-\frac45\right)\left(y-\frac8{15}\right)8xy\operatorname dx\operatorname dy=\\8\int_0^1x\left(x-\frac45\right)\operatorname dx\int_0^xy\left(y-\frac8{15}\right)\operatorname dy=\\8\int_0^1x\left(x-\frac45\right)\left(\frac{x^3}3-\frac{4x^2}{15}\right)\operatorname dx=\frac4{225}\end{array}

Si las variables hubieran sido independientes, entonces no seria necesario efectuar este cálculo, pues la covariancia de dos variables independientes es cero.

6. Calcular la correlación lineal de las dos variables

La correlación viene dada por el coeficiente de correlación de Pearson:  r_{xy}=\frac{cov\left(X,Y\right)}{\sigma_x\sigma_y}. Primero calculamos las varianzas de cada variable:

Para x:

\begin{array}{l}\sigma_x^2=\int_0^1\left(x-\mu_x\right)^2f_x\left(x\right)\operatorname dx=E\left(X^2\right)-E^2\left(X\right)=\int_0^1x^2f_x\left(x\right)\operatorname dx-\left(\frac45\right)^2=\\\int_0^1x^2\cdot4x^3\operatorname dx-\frac{16}{25}=4\frac16-\frac{16}{25}=\frac2{75}\end{array}

para y:

\begin{array}{l}\sigma_y^2=\int_0^1\left(y-\mu_y\right)^2f_y\left(x\right)\operatorname dx=E\left(Y^2\right)-E^2\left(Y\right)=\int_0^1y^2f_y\left(y\right)\operatorname dy-\left(\frac8{15}\right)^2=\\\int_0^1y\cdot4y\left(1-y^2\right)\operatorname dx-\frac{64}{225}=\frac8{15}-\frac{64}{225}=\frac{56}{225}\end{array}

Sustituimos:

r_{xy}=\frac{\displaystyle\frac4{225}}{\sqrt{\displaystyle\frac2{75}}\sqrt{\displaystyle\frac{56}{225}}}=\frac1{\sqrt{21}}\approx0.22

Esta es una correlación positiva ("al aumentar X, aumenta también Y") pero baja, debido a que la relación entre X, Y no es lineal.

separador2

P2) Función de densidad conjunta. Sea la función de densidad conjunta f(x,y)=\left\{\begin{array}{l}xy\;\text{si }0<x<1,\;0<y<1\\0\;\text{si no}\end{array}\right..

(a) Hallar las funciones de densidad marginales, (b) justificar si las variables X, Y son independientes, (c) calcular la covarianza de X, Y.

La marginal de x es:

f_x\left(x\right)=\int_{-\infty}^\infty f(x,y)\operatorname dy=\left\{\begin{array}{l}\int_0^1xy\operatorname dy=x\left[\frac{y^2}2\right]_0^1=x\frac12\\\int_{-\infty}^00\operatorname dy+\int_1^\infty0\operatorname dy=0\end{array}\right.

La marginal de y es:

f_y\left(y\right)=\int_{-\infty}^\infty f(x,y)\operatorname dx=\left\{\begin{array}{l}\int_0^1xy\operatorname dx=y\left[\frac{x^2}2\right]_0^1=y\frac12\;\text{si }0<y<1\\\int_{-\infty}^00\operatorname dx+\int_1^\infty0\operatorname dx=0\end{array}\right.

Si las variables X, Y son independientes, entonces el producto de densidades marginales ha de ser igual a la densidad conjunta, pero en este caso no se cumple:

f_x\left(x\right)\cdot f_y\left(y\right)=\left\{\begin{array}{l}x\frac12y\frac12=xy\frac14\;\text{si }0<y<1\\0\cdot0=0\end{array}\right.

La covarianza es: Cov\left(X,Y\right)=\int_{-\infty}^\infty\operatorname dx\int_{-\infty}^\infty\operatorname dy\cdot\left(x-\mu_x\right)\left(y-\mu_y\right)f\left(x,y\right), donde \mu_x,\mu_y son los valores medios marginales, que calculamos aparte:

\begin{array}{l}\mu_x=\int_0^1x\cdot f_x(x)\operatorname dx=\int_0^1x\frac12x\operatorname dx=\left[\frac{x^3}6\right]_0^1=\frac16;\\\mu_y=\int_0^1y\cdot f_y(y)\operatorname dy=\int_0^1y\frac12y\operatorname dy=\left[\frac{y^3}6\right]_0^1=\frac16;\end{array}

Sustituyendo:

\begin{array}{l}Cov\left(X,Y\right)=\int_0^1\operatorname dx\int_0^1\operatorname dy\cdot\left(x-\frac16\right)\left(y-\frac16\right)xy=\\\int_0^1\operatorname dx\int_0^1\operatorname dy\cdot\left(x^2y^2-\frac16x^2y-\frac16xy^2+\frac1{36}xy\right)=\\\int_0^1\operatorname dx\left(x^2\frac13-\frac16x^2\frac12-\frac16x\frac13+\frac1{36}x\frac12\right)=\\\frac13\left(\frac13-\frac1{12}\right)+\frac12\left(-\frac1{18}+\frac1{72}\right)=\frac1{16}\end{array}

separador2

P3). Probabilidad condicionada en funciones de densidad de probabilidad. Una variable aleatoria continua X tiene por función de densidad f(x)=kx(1-x) siempre que 0<x<1, valiendo cero en caso contrario. Calcular la probabilidad condicionada P(X>1/3 | X>1/4). ¿Cuál es su varianza?

Por definición, P(X>\frac13\vert X>\frac14)=\frac{P\left(\left(X>\frac13\right)\cap\left(X>\frac14\right)\right)}{P\left(X>\frac14\right)}=\frac{P\left(X>\frac13\right)}{P\left(X>\frac14\right)}, ya que \left(X>\frac13\right)\Rightarrow\left(X>\frac14\right). Para calcular las probabilidades usamos la función de densidad:

\begin{array}{l}P\left(X>\frac13\right)=\int_\frac13^1kx(1-x)\operatorname dx=k\left[\frac{x^2}2-\frac{x^3}3\right]_\frac13^1=k\frac{10}{81};\\P\left(X>\frac14\right)=\int_\frac14^1kx(1-x)\operatorname dx=k\left[\frac{x^2}2-\frac{x^3}3\right]_\frac14^1=k\frac9{64};\end{array},

luego:

P(X>\frac13\vert X>\frac14)=\frac{P\left(X>\frac13\right)}{P\left(X>\frac14\right)}=\frac{k\frac10{81}}{k\frac9{64}}=\frac{640}{729}

Para calcular la varianza usamos la igualdad Var\left(X\right)=\int\left(x-\mu_x\right)^2f\left(x\right)\operatorname dx; calculamos primero el valor medio de X:

\mu_x=\int xf\left(x\right)\operatorname dx=\int_0^0x\cdot kx(1-x)=k\left[\frac{x^3}3-\frac{x^4}4\right]_0^1=k\left(\frac13-\frac14\right)=\frac k{12}

Para determinar el valor de k usamos la condición de normalización de la función de densidad de probabilidad:

\int f\left(x\right)\operatorname dx=1\Rightarrow\int_0^1kx(1-x)=k\left[\frac{x^2}2-\frac{x^3}3\right]_0^1=k\left(\frac12-\frac13\right)=\frac k6\Leftrightarrow k=6

Ya podemos calcular la varianza:

\begin{array}{l}Var\left(X\right)=\int\left(x-\mu_x\right)^2f\left(x\right)\operatorname dx=\int_0^1\left(x-\frac12\right)^2\cdot6x(1-x)\operatorname dx=\\6\int_0^1\left(-x^4+2x^3-\frac{5x^2}4+\frac x4\right)\operatorname dx=6\left[-\frac{x^5}5+2\frac{x^4}4-\frac54\frac{x^3}3+\frac14\frac{x^2}2\right]_0^1=\\\frac1{120}\end{array}

separador2

P4). Función de densidad conjunta. Una variable aleatoria continua X tiene por función de densidad:

f(x)=\left\{\begin{array}{l}e^{1-x}\;\text{si }x\geq1\\0\;\text{si }x<1\end{array}\right.

En un experimento aleatorio con esa variable, tomamos dos medidas independientes entre sí, x_1, x_2; si consideramos una nueva variable aleatoria bidimensional Z formada por los valores anteriores, ¿cuál será su función de densidad de probabilidad? Definimos el estadístico T(z) = mínimo {x_1, x_2}; calcular la probabilidad P(T > t) para cualquier valor t real. ¿Cuál es la función de densidad de probabilidad de T(z)?

Siendo los valores x_1, x_2 independientes entre sí, la densidad de probabilidad conjunta del valor (x_1, x_2) será el producto de densidades; llamemos z=(x,y) por comodidad, entonces:

f(x,y)=\left\{\begin{array}{l}e^{1-x}e^{1-y}\;\text{si }x,y\geq1\\0\;\text{si }x<1\;\text{o }y<1\end{array}\right.

Calculemos ahora P(T > t):

\begin{array}{l}T>t\Leftrightarrow min\left\{x,y\right\}>t\Rightarrow\left(x>t\right)\cap\left(y>t\right);\\P\left(T>t\right)=P\left(\left(x>t\right)\cap\left(y>t\right)\right)=P\left(x>t\right)\cdot P\left(y>t\right)\end{array}

Usando la función de densidad:

P\left(x>t\right)=\int_t^\infty e^{1-x}\operatorname dx=e\left[-e^{-x}\right]_t^\infty=e\left(0+e^{-t}\right)=e^{1-t}

siempre que t\geq1, y cero en otro caso; para la P\left(y>t\right) obtenemos el mismo valor, por tanto: P\left(T>t\right)=e^{1-t}\cdot e^{1-t}=e^{2-2t}.

Por definición de la función de distribución F(t) tenemos que F(t)=P(T<t)=1-P(T>t)=1-e^{2-2t}. Pero la derivada de la función de distribución es la función de densidad, así que:

f\left(t\right)=\frac{\operatorname d{}}{\operatorname dt}F(t)=\frac{\operatorname d{}}{\operatorname dt}\left(1-e^{2-2t}\right)=2e^{2-2t}.

separador2