Archivo de la categoría: Probabilidades

Variables aleatorias


  • Concepto de variable aleatoria
  • Variable aleatoria discreta: funciones de probabilidad y distribución
  • Variable aleatoria continua: funciones de densidad y distribución
  • Esperanza matemática
  • Varianza
  • Desigualdad de Txebixef
  • Variable aleatoria bidimensional

separador2

Concepto de variable aleatoria

Es la generalización de las variables estadísticas que se han visto en el tema Estadística descriptiva, análisis de datos ; la definición era:

Variable estadística: una característica numérica de la población que nos interesa estudiar

Pues bien, una variable aleatoria (v.a.) es:

  1. O bien una variable estadística
  2. O bien una función de una variable estadística

Ejemplo 1 :
1. El resultado de lanzar un dado es una v.a.: X = {1, 2, 3, 4, 5, 6}
2. La (función) suma de puntos de dos dados: S = X1 + X2 = {2, 3, 4, ..., 12}
3. La temperatura del aula en días sucesivos: T = {17, 17.3, ...}
4. El consumo de energía E en calefacción en el aula en función de la temperatura T,  E(T) = Ke^{T-C}, donde C es una constante. Siendo la temperatura T una variable aleatoria, la función E(T) también lo será.

Variables aleatorias discretas y continuas
Si la variable estadística es discreta (toma valores enteros) entonces la variable aleatoria también lo será (como en los ejemplos 1 y 2). Si la variable estadística es continua (toma valores reales) entonces la variable aleatoria también lo será (como en los ejemplos 3 y 4).

Notación para las variables aleatorias
Usaremos letras mayúsculas para las variables aleatorias, tales como X, Y, T, ..., y letras minúsculas para valores concretos de la variable: x = 17.3.

separador2

Variable aleatoria discreta: funciones de probabilidad y distribución

Cada valor que toma la variable aleatoria es: o bien un punto muestral (ver: introducción a las probabilidades) o bien una función de un punto muestral. Como cada punto muestral tiene asociada una probabilidad, también la tendrá la variable aleatoria. Cuando la v.a. es discreta (todos sus valores son enteros), llamamos función de probabilidad a la asignación de probabilidades para cada valor posible:

Valores de la v.a. X

Probabilidad

X = x1

p1 = P(X = x1)

...

...

X = xn

pn = P(X = xn)

En general tendremos P (X = x_i) = p_i. Por las propiedades de la probabilidad es inmediato que P (X = x_i) > 0 para todos los puntos x_i. La suma de valores de la función de probabilidad valdrá 1: \sum_iP(X=x_i)=1.

La función de probabilidad podemos verla como la generalización de la frecuencia relativa (ver Estadística descriptiva, análisis de datos). Definimos la función de distribución para v.a. discreta, F(x), como la probabilidad de que la v.a. X tome valores más pequeños o iguales al valor x_k:

F (x_k) = P (X <= x_k)

La relación con la función de probabilidad es inmediata:

F\left(x_k\right)=\sum_{1\leq i\leq k}P\left(X\leq x_i\right)=P\left(X\leq x_k\right)

La función de probabilidad viene a ser la generalización de la frecuencia relativa acumulada (ver Estadística descriptiva, análisis de datos).

Ejemplo 2: Lanzamos un dado dos veces y definimos la variable aleatoria X restando a los puntos obtenidos en el primer lanzamiento los obtenidos en el segundo lanzamiento. Los valores posibles que puede tomar X son {0, 1, 2, 3, 4, 5, -1, -2, -3, -4, -5}. Para calcular la probabilidad de obtener cada uno de esos valores enumeramos los casos posibles para cada uno de ellos; la probabilidad, por la regla de Laplace, será P(caso) = casos posibles / casos totales, teniendo en cuenta que el número de casos totales es 6·6 = 36 combinaciones de puntuaciones, y que los sucesos son excluyentes (si sucede un caso no puede suceder ningún otro). Por ejemplo, para X = 4 tenemos dos casos: (6, 2) y (5, 1), cada uno de ellos tiene probabilidad 1/36, la probabilidad de que suceda uno o el otro, siendo excluyentes, es la suma 1/36 + 1/36. Procediendo de esta forma obtenemos la función de probabilidad de la v.a. X:

x puntuaciones cuenta probabilidad: f(x)
0 1-1, 2-2, 3-3, 4-4, 5-5, 6-6 6 6/36
1 6-5, 5-4, 4-3, 3-2, 2-1 5 5/36
2 6-4, 5-3, 4-2, 3-1 4 4/36
3 6-3, 5-2, 4-1 3 3/36
4 6-2, 5-1 2 2/36
5 6-1 1 1/36

Para los valores que faltan en la tabla, {-1, -2, -3, -4, -5}, las probabilidades son las mismas que para {1, 2, 3, 4, 5}. Así pues la función de probabilidad viene dada por la tabla:

x 0 1 2 3 4 5 -1 -2 -3 -4 -5
f(x) 6/36 5/36 4/36 3/36 2/36 1/36 5/36 4/36 3/36 2/36 1/36

Como comprobación, siempre tenemos que obtener la suma de todos los valores f(x), que ha de valer 1 (una de las propiedades de las probabilidades: si el espacio muestral Ω se puede considerar dividido en n subconjuntos disjuntos entre sí, Ω = A1 ∪ A2 ∪ … ∪ An, entonces P(A1) + P(A2) + … + P(An) = 1 (ver Introducción a las probabilidades, tercera definición de probabilidad). En efecto: 6/36 + 5/36 + 4/36 + 3/36 + 3/36 + 1/36 + 5/36 + 4/36 + 3/36 + 3/36 + 1/36 = 36/36 = 1.

Para obtener la función de distribución de X basta con calcular la tabla de probabilidades acumuladas:

x

0

1

2

3

4

5

-1

-2

-3

-4

-5

f(x)

6/36

5/36

4/36

3/36

2/36

1/36

5/36

4/36

3/36

2/36

1/36

F(x)

6/36

11/36

15/36

18/36

20/36

21/36

26/36

30/36

33/36

35/36

36/36

La gráfica de la función de probabilidad es:

Función de probabilidad, variable discreta
Función de probabilidad, variable discreta

La función de distribución suele representarse como una función escalonada:

Función de distribución, variable discreta
Función de distribución, variable discreta

Propiedades inmediatas de las funciones de distribución discretas F (x)

  1. El valor de F(x) está en el intervalo [0, 1]
  2. F(x) es no decreciente
  3. La probabilidad P(X > x_k) és igual a 1 - F(x_k)

separador2

Variable aleatoria continua: funciones de densidad y distribución


Cuando la variable es continua sabemos que se trabaja con intervalos de la variable (ver Estadística Descriptiva => Agrupación de datos en intervalos). La asignación de probabilidades se hará por tanto para cada intervalo que definamos.


En el tema Estadística Descriptiva la anchura de cada intervalo la definíamos arbitrariamente según el número de intervalos y el recorrido de la variable. Ahora hay que generalizar para intervalos de cualquier anchura: supongamos que el recorrido de la variable aleatoria es [max, min]; entonces definimos una función de densidad de probabilidad f(x) de la v.a. continua X como cualquiera que verifica las tres condiciones siguientes:

  1. No negatividad: f(x) >= 0
  2. Probabilidad de un intervalo: P\left(X\in\left[a,b\right]\right)=\int_a^bf\left(x\right)\operatorname dx
  3. Normalización: P\left(X\in\left[max,\;min\right]\right)=\int_{min}^{max}f\left(x\right)\operatorname dx=1

Se deducen las siguientes propiedades:

  1. La probabilidad en las variables continuas se calcula con una integral sobre un intervalo (2ª propiedad de las funciones de densidad)
  2. La probabilidad de un punto siempre es cero: P (X = x) = P (x <= X <= x) = 0 pues coinciden los límites de la integral (es un intervalo de longitud nula)
  3. En cambio f (x) no tiene porque ser cero en ningún punto
  4. La gráfica de la función de densidad es la generalización del histograma de frecuencias relativas (Estadística Descriptiva).

Definimos la función de distribución para v.a. continuas, F (x), como la probabilidad de que X tome valores más pequeños que a x: F (x) = P (X < x_k).  La relación con la función de densidad es inmediata: si el valor mínimo de la v.a. X es min, entonces tendremos que:

F\left(x_0\right)=P\left(X\in\left[min,\;x_0\right]\right)=\int_{min}^{x_0}f\left(x\right)\operatorname dx

Si la expresión anterior la expresamos para un valor x genérico y la derivamos respecto ese valor x, aplicando el primer teorema fundamental del cálculo obtenemos otra relación importante entre las funciones de densidad y de distribución continuas:

F'\left(x\right)=\frac{\operatorname d{}}{\operatorname dx}\int_{min}^xf\left(t\right)\operatorname dt=f\left(x\right)

Que se expresa como "La derivada de la función de distribución es la función de densidad"

La función de distribución continua tiene ciertas propiedades:

  1. Asíntotas horizontales izquierda y derecha: F (-) = 0, F (+) = 1
  2. F (x) es continua y no decreciente
  3. La probabilidad de un
    intervalo [a, b] es igual a F (b) - F (a)
Ejemplo 3: Sea la función de densidad de probabilidad

f\left(x\right)=\left\{\begin{array}{l}0\;\;\;\;\;\;\;\;\;\;\;\;\;\text{si }x\not\in\left[0,\;1\right]\\\frac23\left(x+1\right)\;\text{si }x\in\left[0,\;1\right]\end{array}\right.

Calcular P(0\leq X\leq0.5), P(-3\leq X\leq0.5), P(0\leq X\leq1)

Según la propiedad 2 de las funciones de densidad: P(0\leq X\leq0.5)=\int_0^{0.5}f\left(x\right)\operatorname dx=\int_0^{0.5}\frac23\left(x+1\right)\operatorname dx=\frac23\left[\frac{x^2}2+x\right]_0^{0.5}=\frac23\left(\frac{0.5^2}2+0.5-0\right)=\frac5{12}.

Para el segundo intervalo hemos de tener en cuenta los intervalos de definición de la función f(x):

P(-3\leq X\leq0.5)=\int_{-3}^{0.5}f\left(x\right)\operatorname dx=\int_{-3}^00\operatorname dx+\int_0^{0.5}\frac23\left(x+1\right)\operatorname dx=0+\frac5{12}=\frac5{12}

Para el tercer intervalo tenemos:

P(-3\leq X\leq0.5)=\int_0^1f\left(x\right)\operatorname dx=\int_0^1\frac23\left(x+1\right)\operatorname dx=\frac23\left[\frac{x^2}2+x\right]_0^1=\frac23\left(\frac12+1-0\right)=1

un resultado esperado, pues es la condición de normalización de las funciones de densidad.

Problemas de probabilidades

1. En una red local hay las conexiones mostradas en la figura, donde los números indican las probabilidades de que cada rama esté abierta en un cierto intervalo de tiempo dado. Suponiendo que las probabilidades son independientes entre sí, calcular la probabilidad de que haya transmisión de datos entre A y D por cualquier camino. Suponiendo que hay transmisión de datos entre A y D, calcular la probabilidad de que se esté transmitiendo por la ruta ACD.

graf_probabilitats

 Para transmitir entre A y D hay tres caminos: ABD, AD, ACD; si cualquiera de ellos está abierto, hay comunicación entre A y D. ¿cuáles son las posibilidades?

  • ABD abierto, AD y ACD cerrados
  • AD abierto, ABD y ACD cerrados
  • ACD abierto, ABD y AD cerrados
  • ABD y AD abiertos, ACB cerrado
  • ...
  • ABD, AD y ACB abiertos

Vemos que hay bastantes posibilidades a considerar; en estos casos es conveniente pensar en el suceso contrario: ¿cuándo no habrá transmisión entre A y D? Sólo cuando ABD, AD y ACB estén todos cerrados. El camino ABD estará cerrado si AB lo está, o bien BD lo está; teniendo en cuenta que los sucesos son independientes, la probabilidad de "ABD cerrado" es:

\begin{array}{l}\text{P}\left(\text{ABD cerrado}\right)\;=\text{P}\left(\text{AC cerrado}\cup\text{CD cerrado}\right)\;=\text{P}\left(\text{AC cerrado}\right)+\text{P}\left(\text{CD cerrado}\right)\text{-P}\left(\text{AC cerrado}\cap\text{CD cerrado}\right)=\\0.1+0.2-0.1\cdot0.2=0.28\end{array}

ya que P(A cerrado) = 1 - P(A abierto) = 1 - 0.9, e idénticamente para B. La probabilidad de "ACD cerrado" es numéricamente la misma:

P(ACD \; cerrado) = P(AC \; cerrado \cup CD \; cerrado) = P(AC \; cerrado) + P(CD \; cerrado) - P(AC \; cerrado \cap  CD \; cerrado) = 0.2 + 0.1 - 0.2 = 0.28.

Entonces P(no se transmite entre A y D)=P(ABD, AD y ACB todos cerrados)  = P(ABD cerrado \cap AD cerrado \cap ACB cerrado) = P(ABD cerrado})·P(AD cerrado)·P(ACB cerrado) = 0.28·0.3·0.28 = 0.02352.

Por tanto P(se transmite entre A y D) = 1 - P(no se transmite entre A y D) = 1 - 0.02352 = 0.97648.

NOTA: puede ser didáctico realizar simulaciones de probabilidades con hoja de cálculo para verificar experimentalmente los cálculos. En este ejercicio es simple de hacer: usando la función aleatorio() que llevan todas las hojas de cálculo, y con la función lógica =SI(condición; valor_si_cierto;valor_si falso), se puede crear una hoja que presente el valor 1 siempre que el valor aleatorio esté en el intervalo [0,p] siendo p las probabilidades dadas de la red:

AB BD AD AC CD
1 1 1 0 1
1 1 1 1 1
0 0 0 0 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
0 1 0 1 1

Así, por ejemplo, la columna AB presenta un 1 siempre que en esa casilla se haya generado un valor aleatorio en el intervalo [0, 0.9]; cuando hay un 1 significa que la ruta AB está abierta, con un 0 está cerrada. Observad que los valores de esta tabla son binarios, con 1=cierto (hay transmisión), 0=falso (no hay transmisión).

Ampliamos ahora con más columnas:

AB y BD AC y CD (AB·BD)+AD+(AC·CD)
1 0 2
1 1 3
0 0 0
1 1 3
1 1 3
1 1 3
1 1 3
1 1 3
0 1 1

En "AB y AD" multiplicamos las columnas AB por AD, en "AC y AD" lo mismo, pero en la columna (AB·BD)+AD+(AC·CD) al sumar no obtenemos un número binario: si éste valor es cero significa que no hay transmisión entre A y D (todo cerrado) y con un valor superior a cero hay transmisión entre A y D (alguna ruta abierta). Contando el número de celdas superiores a cero de ésta última columna y dividiendo por el número de filas obtenemos una estimación de la probabilidad pedida, tanto mejor como más filas haya. Con 1000 filas se obtienen valores del orden de 0.98.

separador2

 2.  Se elige al azar un número de 3 bits x_1x_2x_3 donde x_i=0x_i=1. Definimos las variables aleatorias X: el número de ceros que tienen conjuntamente los dos primeros bits, Y: número total de unos entre los tres bits. Calcular la tabla de distribución conjunta de probabilidad de X,Y. ¿Cuál es la covarianza de X,Y?

 Para calcular las probabilidades conjuntas tenemos que saber primero las posibles combinaciones de valores, son: X puede valer {0, 1, 2}, Y puede valer {0, 1, 2, 3}. Por tanto tendremos 3·4 = 12 combinaciones de valores (X,Y), que son {(0,0), (0,1), (0,2), (0,3), ..., (2,2), (2,3)}.

Vamos por las probabilidades conjuntas: dado un suceso A de la variable X y un suceso B de la variable Y, la probabilidad conjunta de A y B es P\left(A\cap B\right)=P(A\vert B)\cdot P(B), que será igual a P(A)·P(B) sólo si A, B son sucesos independientes; en este caso, no podemos presuponer independencia entre X, Y, luego aplicamos la primera igualdad.

Veamos un ejemplo de cálculo: sea A el suceso X=1, B el suceso Y=2; la probabilidad condicionada P(X = 1 | Y = 2) se obtiene considerando todos los casos Y=2 y viendo en que proporción de ellos se cumple X=1.

Si Y=2 los bits x_1x_2x_3={(1,1,0), (1,0,1), (0,1,1)}, observando los dos primeros bits, vemos que en dos casos, {(1,0,1), (0,1,1)}, tenemos un cero en uno de los bits; luego la proporción de casos X=1 dentro de Y=2 es de 2/3.

Calculamos ahora la P(Y = 2) como la proporción de casos en que tenemos
2 unos respecto al total de combinaciones de los tres bits, que son 2³=8; la proporción es pues 3/8. Por tanto, P\left(A\cap B\right)=\frac23\cdot\frac38=\frac28=\frac14. Por otro lado, la P(X = 1) se obtiene con la proporción de casos en que tenemos 1 cero en los dos primeros bits respecto al total de casos en esos dos primeros bits: {(1,0),(0,1),(1,1),(0,0)}, por tanto es P(X = 1) = 3/4. La probabilidad P(X = 1)·P(Y = 2) = 3/4 · 3/8 = 9/32 que es distinta de la obtenida para P\left(A\cap B\right), luego los sucesos no son independientes.

Obviamente no vamos a hacer un cálculo tan largo para las otras 11 combinaciones (X,Y), lo abreviamos haciendo una discusión de casos simples:

  • Si el número de unos es de 3 (Y=3), entonces no hay ningún cero, luego X debe valer cero con seguridad (X=1 con probabilidad 100%).
  • Si el número de unos es de 0 (Y=0), entonces todos los bits son cero, luego X debe valer 2 con seguridad (X=2 con probabilidad 100%).
  • El caso X=0, Y=0 es imposible (sucesos incompatibles), ya que X=0 implica que hay dos unos en los dos primeros bits, luego Y tiene que valer al menos 2; por tanto el caso X=0, Y=1 también es imposible.
  • Si Y=2 hay un sólo cero en los tres bits, luego X no puede valer 2; tenemos que P(X = 2 | Y = 2) = 0.
  • Si Y=1, los bits han de ser {(1,0,0), (0,1,0), (0,0,1)}; luego P(X = 1|Y = 1) = 2/3, P(X = 2|Y = 1) = 1/3.

Resumimos todo lo que tenemos en una tabla de probabilidades condicionadas P(X | Y), marcamos las casillas que hemos visto que tienen probabilidad 0 (sucesos incompatibles):

Probabilidades condicionadas P(X | Y)
Probabilidades condicionadas P(X | Y)

Para obtener la tabla de probabilidades conjunta P\left(A\cap B\right) usaremos la fórmula P\left(A\cap B\right)=P(A\vert B)\cdot P(B) y algunas propiedades útiles:

  1. la suma de probabilidades por filas (distribución marginal de X) coincide con las probabilidades P(X),
  2. la suma de probabilidades por columnas (distribución marginal de Y) coincide con las probabilidades P(Y), y
  3. la suma total ha de ser 1.

Para aplicarlo, será útil tener la tabla de probabilidades para la variable Y:

Y 0 1 2 3
P(Y) 1/8 3/8 3/8 1/8

y también para la variable X:

X 0 1 2
P(X) ¼ ½ ¼

Obtenemos la tabla conjunta X,Y:

Probabilidades conjuntas
Probabilidades conjuntas

Las casillas en azul se han obtenido aplicando las propiedades 1 y 2, no ha sido necesario el cálculo de probabilidades.

Para calcular la covarianza usamos la fórmula:

Cov\left(X,Y\right)=\sum_x\sum_y\left(x-\mu_x\right)\left(y-\mu_y\right)P\left(x,y\right)

Necesitamos los valores medios de las variables:

\mu_x=\underset x{\sum x}\cdot P(x),\;\mu_y=\underset y{\sum y}\cdot P(y)

Los obtenemos de las tablas de probabilidades para X e Y:

Y 0 1 2 3
P(Y) 1/8 3/8 3/8 1/8
Y·P(Y) 0 0.375 0.75 0.375 suma=1.5
X 0 1 2
P(X) 1/4 1/2 1/4  
X·P(X) 0 0.5 0.5 suma=1

Los elementos que entran en el cálculo de la covarianza los disponemos también en forma de tabla:

Y
X 0 1 2 3
0 0 0 -0.0625 -0.1875
1 0 0 0 0
2 -0.1875 -0.0625 0 0

La suma de todos ellos es la covarianza: -0.5, un valor negativo indica dependencia inversa:  valores de X  grandes implican pequeños valores de Y.

separador2

Introducción a las probabilidades

  • Introducción
  • Probabilidad y predicción
    • Precisión
    • Cálculo de probabilidades
    • Interpretación de la probabilidad como una frecuencia teórica
    • Resultados no equiprobables
    • Combinación de casos independientes
  • Definiciones: Espacio muestral de un experimento aleatorio, puntos muestrales, sucesos.
  • Álgebra de sucesos
  • Regularidad estadística. Primera definición de probabilidad
  • Segunda definición de probabilidad: regla de Laplace, combinatoria
  • Tercera definición de probabilidad: axiomas y propiedades
  • Probabilidad condicionada. sucesos independientes
  • Teoremas de la probabilidad total y de Bayes

separador2

Introducción

Históricamente la Estadística, en sus inicios, no usaba la teoría de las probabilidades, de hecho, ambas ramas de la Matemática en sus inicios fueron independientes; esto es así debido a que la Estadística era de naturaleza descriptiva, como se ha visto en el tema Estadística descriptiva, análisis de datos. Con el tiempo, empezó a usarse para predecir sucesos a partir de datos anteriores, y también para llegar a conclusiones globales usando datos parciales, es lo que se denomina inferencia estadística. Pero estas predicciones y conclusiones no deben nunca interpretarse como precisas, como puede ser en Ciencias Exactas, sino que siempre están limitadas por conceptos como "margen de confianza", "valor estimado", "hipótesis" y también "probabilidad". En este post vemos una introducción breve y simple a la teoría de la probabilidad aplicada a la Estadística.

Probabilidad y predicción

El concepto de probabilidad es la base de la Estadística, y no es un concepto fàcil de entender. La utilidad de los datos del pasado es comprender el presente y poder hacer predicciones sobre el futuro. También, la utilidad de tener unos datos parciales, una muestra de datos, es la de poder hacer predicciones sobre el conjunto total de los datos, o población. A estas predicciones en Estadística las llamamos inferencias, y al conjunto de técnicas para lograrlo, técnicas de inferencia Estadística.

Pero en Estadística estas inferencias no son nunca predicciones exactas sino aproximadas. Para dar una valoración de cuan aproximadas son, utilizamos el concepto de probabilidad. Así, una predicción con una probabilidad asociada del 100% tendría certeza absoluta, y en el otro extremo, con una probabilidad asociada del 0% tendría falsedad absoluta: nunca se cumpliría. En las aplicaciones prácticas, estos valores extremos nunca se alcanzan.

Precisión

Torres Petronas
Torres Petronas

Si leyéramos que la altura de la torres Petronas en Kuala Lumpur es de 452,340 metros, podríamos pensar, con razón, que no tiene mucho sentido detallar los decímetros, centímetros y milímetros de la altura, con lo metros sería suficiente, debido a que unos milímetros más o menos no tienen importancia en este caso concreto.

La valoración del número de decimales correcto es una dificultad para muchos estudiantes; es típico usar una calculadora y dar como resultado demasiados decimales. ¿Cuál es el número correcto de decimales? Depende del problema que estemos resolviendo.

calculadora
El número de decimales de un cálculo frecuentemente es infinito. El número de decimales significativo depende del problema concreto que estamos resolviendo: la media de calificaciones, las medidas de un estante, la longitud de una pieza de relojería, etc.

En Estadística los resultados nunca son precisos, al contrario se intenta averiguar cuanta probabilidad de certeza tiene una afirmación, una hipótesis o un resultado.

Cálculo de probabilidades

Usaremos el clásico ejemplo de la moneda. Es de conocimiento general que, si la moneda no está trucada, la probabilidad de obtener cara o cruz al lanzarla es la misma: 1/2 para los dos resultados. ¿Qué significa realmente esta afirmación?  Significa que, en un gran número de tiradas, las frecuencias de obtención de cara y de cruz serían aproximadamente la mitad del total. En la tabla siguiente vemos una simulación por ordenador del lanzamiento de la moneda:

lanzamientos caras % caras cruces % cruces
10 4 40.00% 6 60.00%
100 41 41.00% 59 59.00%
200 108 54.00% 92 46.00%
500 280 56.00% 220 44.00%
1000 485 48.50% 515 51.50%

Vemos que al aumentar el número de lanzamientos, los porcentajes de caras y cruces se van aproximando al 50% predicho. Pero en ningún caso ha coincido exactamente en ese 50%. Es una predicción aproximada, tanto más precisa como mayor sea el número de tiradas de la moneda. A este concepto de probabilidad, una aproximación a la frecuencia esperada, le podemos dar una definición más matemática:

Definición 1: Dado uno de los posibles resultados de un experimento, el cual repetimos n veces, la probabilidad de ese resultado se define como el límite, cuando n es muy grande, de la frecuencia relativa del resultado respecto al número total de repeticiones; si x es el número de veces que hemos obtenido el resultado, la frecuencia relativa es x/n y la probabilidad será

P(\text{resultado})=\lim_{n\rightarrow\infty}\frac xn

En el ejemplo de la moneda, la probabilidad 1/2 se obtiene de realizar infinitos lanzamientos de la moneda:

P(cara)=\lim_{n\rightarrow\infty}\frac{\text{número de caras}}n

Regla de Laplace

Para el cálculo práctico de las probabilidades no se usa la definición anterior, sino otros métodos, el más simple de ellos es la conocida regla de Laplace:

P(\text{resultado})=\frac{\text{número de casos favorables}}{\text{número de casos totales}}

Es un hecho notable que el valor de la probabilidad calculada con la regla de Laplace coincida con la de la definición 1, que usa límites.  La regla de Laplace tal como se ha dado supone que cada caso posible es igualmente probable, de lo contrario no funcionará.

Ejemplo 1: la regla aplicada al lanzamiento de la moneda, para obtener la probabilidad de obtener cara en un lanzamiento, es:

P(\text{cara})=\frac{\text{número de caras}}{\text{número de casos totales}}=\frac12

Esto es correcto siempre que todos los resultados (cara y cruz) sean igualmente probables. Si realizamos dos lanzamientos de la moneda y queremos saber la probabilidad de obtener al menos una cara, tendremos que contar los casos favorables y los posibles; abreviando por C el resultado "sale cara" y por "X" el resultado "sale cruz", los casos son:

casos posibles: CC, CX, XC, XX

casos favorables: CC, CX, XC

por tanto la P(al menos una cara en dos lanzamientos) = 3/4.

Interpretación de la probabilidad como una frecuencia teórica

De la definición 1 podemos obtener una igualdad útil en los problemas:

P(\text{resultado})=\lim_{n\rightarrow\infty}\frac xn\Leftrightarrow x\xrightarrow[\infty]{}n\cdot P(\text{resultado})

Para el caso de un número de repeticiones muy elevado, tendremos la igualdad x\approx n\cdot P(\text{resultado}), donde x es el número de repeticiones del resultado estudiado.

Ejemplo 2: La probabilidad de que una bombilla halógena recién fabricada sea defectuosa es del 0,01%. ¿Cuántas bombillas defectuosas esperamos encontrar en una remesa de 10.000 bombillas? Aplicamos la fórmula anterior, teniendo en cuenta que el número de "repeticiones" considerado (el número de bombillas) es elevado: \text{número de defectuosas}\approx10.000\cdot\frac{0.01}{100}=1. Recordemos que esta cifra es solo una aproximación.

Combinación de casos independientes

Volvamos al lanzamiento de dos monedas (o al lanzamiento de una moneda dos veces). Los resultados posibles eran CC, CX, XC, XX. Si nos preguntamos por la probabilidad de obtener cualquiera de estos resultados, como por ejemplo "sacar dos caras", obtenemos para todos ellos el valor 1/4 (un caso favorable de cuatro posibles), pero la probabilidad de obtener una cara es 1/2. Vemos que P(CC) = 1/4 = 1/2 · 1/2 = P(C)·P(C). Para tres monedas, los casos posibles son ocho: CCC, CCX, CXC, XCC, XXC, XCX, CXX, XXX, y la probabilidad de obtener cualquiera de estos resultados es de 1/8 = 1/2 · 1/2 · 1/2 = P(C)·P(C)·P(C). En general, la probabilidad de cada combinación posible al realizar n veces el lanzamiento se obtiene
multiplicando las probabilidades de todos los resultados que intervienen en la combinación, siempre que cada lanzamiento sea independiente del anterior, esto es, que los resultados no estén influenciados por los obtenidos anteriormente.

Resultados no equiprobables

Cuando cada caso tiene una probabilidad distinta, no podemos aplicar la regla de Laplace. Debemos estudiar la probabilidad de cada caso.

Ejemplo 3: siguiendo con las bombillas del ejemplo 2, si compramos 3 bombillas, y las probamos ¿cuál es la probabilidad de que la primera sea defectuosa y las otras dos no?

La probabilidad de que una bombilla sea defectuosa es 0.0001, y de que no lo sea de 0.9999. Entonces como cada bombilla es independiente de las demás, la probabilidad del caso "defectuosa, correcta, correcta" será 0.0001·0.9999·0.9999=0.000099.

Ejemplo 4: siguiendo con las bombillas del ejemplo 2, si compramos 3 bombillas, ¿cuál es la probabilidad de que una sea defectuosa?

Llamemos C al resultado "pruebo una bombilla y es correcta", y D al resultado "pruebo una bombilla y es defectuosa". Las combinaciones posibles son CCC, CCD, CDC, DCC, DDC, DCD, CDD, DDD. No son igualmente probables, luego no podemos aplicar Laplace. La probabilidad de cada una de ellas se obtiene multiplicando las probabilidades de todos los resultados que intervienen en la combinación, teniendo en cuenta que P(C)=0.9999, P(D)=0.001. Obtenemos:

Caso Probabilidad
CCC 0.99970003
CCD 0.00009998
CDC 0.00009998
DCC 0.00009998
DDC 0.00000001
DCD 0.00000001
CDD 0.00000001
DDD 1E-012

La probabilidad pedida "una es defectuosa", comprende tres casos: CCD, CDC, DCC. Sumemos ahora sus probabilidades: 0.00009998 + 0.00009998 + 0.00009998 = 0.00029994. 

Por otro lado, si sumamos las probabilidades de todos los casos posibles, el resultado es 1. Esta es una regla fundamental: la suma de probabilidades de todos los casos posibles es siempre igual a 1.

Espacio muestral de un experimento aleatorio

Damos algunas definiciones básicas, y luego vemos sus propiedades y aplicaciones.

Definición 2: Dado un experimento aleatorio (ver el tema Estadística descriptiva, análisis de datos), su espacio muestral Ω es el conjunto de todos los posibles resultados del experimento. Ejemplos:

  • Lanzamiento de un dado: Espacio muestral Ω = {1,2,3,4,5,6}, un conjunto de  6 elementos.
  • Medición de la temperatura en un reactor químico: Ω contiene todos los valores reales positivos (espacio muestral infinito).

Definición 3: Puntos muestrales son cada uno de los posibles resultados de un experimento aleatorio; también podemos decir que son los elementos que componen el conjunto espacio muestral Ω del experimento. Ejemplos:  en el caso del dado los puntos muestrales son {1}, {2}, ... {6}.

Definición 4: Sucesos. Un suceso S es un subconjunto cualquiera del espacio muestral Ω de un experimento aleatorio. Ejemplo: para el experimento "lanzar un dado y anotar la puntuación" un suceso puede ser el subconjunto S = {2, 4, 6}. En particular un suceso elemental es un subconjunto formado por un único punto muestral, como S = {2}.

separador2

Álgebra de sucesos

Temporalmente, nos situamos en otra área: la lógica de proposiciones, aplicándola al caso de sucesos aleatorios.

Definición 5: Una proposición lógica P será una afirmación cualquiera sobre el resultado de un experimento aleatorio. Por ejemplo, en el caso del dado, algunas proposiciones son:

  • P1: "Ha salido un número par"
  • P2: "Ha salido un número mayor que 4"
  • P3: "No ha salido mayor que 4"
  • P4: "Ha salido un número par que es mayor que 2 y menor que 5"

La  correspondencia que estamos definiendo entre las proposiciones lógicas y los sucesos ha de cumplir:

  • Cada proposición lógica se entenderá que se está refiriendo a algún suceso del espacio muestral Ω de un experimento aleatorio; este suceso es único: no pueden haber dos sucesos distintos relacionados con la misma proposición.
  • En cambio, dado un suceso, podemos asociarle muchas proposiciones lógicas

En otras palabras, la relación entre entre el conjunto de proposiciones Σ de un experimento y el conjunto de sucesos Ψ del mismo experimento es una aplicación inyectiva (o de uno-a-muchos).

Ejemplo 5: para el experimento de lanzar un dado, con Ω = {1,2,3,4,5,6}:

  • P1: "Ha salido un número par", se relaciona con el suceso S1 = {2, 4, 6}
  • P2: "Ha salido un número mayor que 4", se relaciona con el suceso S2 = {5, 6}
  • P3: "No ha salido mayor que 4", se relaciona con el suceso S3 = {1,2,3,4}
  • P4: "Ha salido un número par que es mayor que 2 y menor que 5", se relaciona con el suceso S4 = {4}

Todas las proposiciones posibles respecto al experimento aleatorio son válidas, incluso aquellas que no tienen sentido, o son triviales:

  • P5: "Ha salido un número mayor que 6", se relaciona con el subconjunto vacío S = ø, a este suceso se le llama suceso imposible.
  • P6: "Ha salido un número entre 1 y 6", se relaciona con el conjunto total S = Ω = {1,2,3,4,5,6}, a este suceso se le llama suceso seguro.

Álgebra de sucesos
Dentro del conjunto de proposiciones se pueden definir operaciones lógicas que le proporcionan estructura algebraica: el álgebra de Boole. Las operaciones son: AND (y), OR (o), NOT (no). El resultado de una operación lógica entre proposiciones es otra proposición lógica.

Ejemplo 6:

  • AND: P1: "Ha salido un número par", P2: "Ha salido un número mayor que 4", P = P1 y P2: "Ha salido un número par y mayor que 4".
  • NOT: P1: "Ha salido un número par"; negación: P = No "Ha salido un número par"
  • OR: P3: "No ha salido mayor que 4", P5: "Ha salido un número mayor que 6", P = P4 o P5: "O bien no ha salido mayor que 4, o bien ha salido un número mayor que 6"

También tenemos una correspondencia entre las operaciones lógicas y las operaciones en el espacio muestral:

operación lógica Operación entre conjuntos de Ω
AND ("y") Intersección de conjuntos, símbolo 
OR ("o") Unión de conjuntos, símbolo 
NOT ("no") Complementario de un conjunto S es Sc

Ejemplo 7:

  • A la proposición P = (P1 y P2) = ("Ha salido un número par" y "Ha salido un número mayor que 4") corresponde el suceso (S1∩ S2) = {2,4,6}∩ {5,6 } = {6}
  • A la proposición P = no ("Ha salido un número par") corresponde el suceso complementario del {2,4,6} que es {1,3,5}
  • Sucesos excluyentes: son aquellos que no tienen elementos en común, es decir, que su intersección es nula.

separador2

Regularidad estadística. Primera definición de probabilidad

Supongamos que realizamos N repeticiones de un experimento aleatorio y que formamos la tabla de frecuencias relativas. Entonces, el principio de regularidad Estadística afirma que, conforme N se hace más grande, las frecuencias relativas de todos los resultados tienden a ser constantes.

Ejemplo 8: lanzamiento de una moneda. Tabla de frecuencias relativas

Punto muestral

N=10

N=100

N=1000

cara”

4/10 = 0.4

46/100 = 0.46

502/1000 = 0.502

cruz

6/10 = 0.6

54/100 = 0.54

498/100 = 0.498

Se observa que las frecuencias relativas se estabilizan alrededor del valor 0.5. Tomamos este valor límite de la frecuencia relativa cuando N es muy grande como la primera definición de probabilidad:

Definición 5: Probabilidad (frecuencialista) de un suceso S. Dado un suceso S asociado al espacio muestral Ω de un experimento aleatorio, del cual podamos realizar un número cualquiera N de ejecuciones, la probabilidad P(S) del suceso viene dada por:

P(S)=\underset{N\rightarrow\infty}{lim}f(S)

donde f(S) representa la frecuencia relativa del suceso S cuando hacemos N repeticiones del experimento aleatorio.

Ejemplo 9: la probabilidad de S: "ha salido cara" en el experimento de lanzar la moneda es 0.5, pues ese el valor obtenido al simular por ordenador el lanzamiento un número elevado de repeticiones.

separador2

Segunda definición de probabilidad: regla de Laplace, combinatoria

Esta primera definición de probabilidad como límite de frecuencias relativas es útil para interpretar resultados de cálculos, pero no lo es para obtener probabilidades, pues obliga a realizar un límite de una frecuencia relativa, para la cual en general no tenemos ninguna expresión analítica. La siguiente definición, debida a Laplace, soluciona este inconveniente:

Definición 6: Probabilidad de un suceso S, regla de Laplace. Dado un suceso S asociado al espacio muestral Ω de un experimento aleatorio, si el número de puntos muestrales de S es card(S) y el número de puntos muestrales de Ω es card(Ω), la probabilidad P(S) del suceso viene dada por:

P(S)=\frac{\text{card }\left(S\right)}{\text{card }\left(\Omega\right)}

Ejemplo: la probabilidad de S: "ha salido cara" en el experimento de lanzar la moneda se calcula contando el número de puntos muestrales de S = {"cara"}, que es 1, y del espacio Ω = {"cara", "cruz"}, que es 2. Luego P("cara") = 1/2 = 0.5.

Ejemplo 10: la probabilidad de sacar un número par al lanzar un dado, según la regla de Laplace, es:

P(par)=\frac{\text{card }\left(par\right)}{\text{card }\left(\Omega\right)}=\frac{\text{card }\left(\left\{2,4,6\right\}\right)}{\text{card }\left\{1,2,3,4,5,6\right\}}=\frac36=\frac12

Teoría combinatoria

En casos simples es inmediato aplicar la regla de Laplace pero en general no será tan simple. Consideremos por ejemplo el siguiente problema: "Una lotería está formada por N números, de los que m tendrán premio. Calcular la probabilidad de que nos toque algún premio si hemos comprado k números ". Calcular el número de puntos muestrales ahora no es trivial. La teoría combinatoria proporciona técnicas directas para hacerlo; en nuestro caso la solución viene dada por:

P(premio)=1-P(no\;premio)=1-\frac{C_{N-m,k}}{C_{N,k}}=1-\frac{\left(N-k\right)!\left(N-m\right) }{N!\left(N-m-k\right)!}

donde C_{a,b} representan la combinaciones de a elementos tomados de b en b, y el símbolo ! representa la operación factorial. No trataremos esta teoría aquí, aunque en este blog hay una introducción a la teoría y se pueden encontrar algunos problemas resueltos de combinatoria.

separador2

Tercera definición de probabilidad: axiomas y propiedades

La definición más moderna de probabilidad se debe a Kolmogorov:

Definición 7: Probabilidad de un suceso S, Kolmogorov. Dado un suceso S asociado al espacio muestral Ω de un experimento aleatorio, probabilidad es toda función P que asigna a cada suceso S de un espacio muestral un número P (S) comprendido en el intervalo [0, 1] y que además verifica las siguientes propiedades (axiomas de la probabilidad):

1. P (Ω) = 1
2. Si A, B son sucesos excluyentes, entonces P (A ∪ B) = P (A) + P (B)

Se puede demostrar que esta definición es más general que las dos anteriores: La regla de Laplace y el límite de la frecuencia relativa verifican los axiomas, pero hay probabilidades que no se pueden calcular con la regla de Laplace ni con frecuencias, y si según la definición de Kolmogorov.

De la definición de Kolmogorov se pueden deducir otras propiedades de la probabilidad:

  1. P(no S) = P(Sc) = 1 – P(S)

  2. P(suceso imposible) = P(ø) = 0

  3. P(A o B) = P(A∪ B) = P(A) + P(B) – P(A∩ B)

  4. Si el espacio muestral Ω se puede considerar dividido en n subconjuntos disjuntos entre sí, Ω = A1 ∪ A2 ∪ ... ∪ An, entonces P(A1) + P(A2) + ... + P(An) = 1

En las aplicaciones y problemas, se suele usar la definición 2 (Laplace) para calcular, la definición 1 para interpretar el significado de la probabilidad, y las propiedades de la probabilidad para simplificar los cálculos.

Ejemplo 11: Calcular la probabilidad de que al lanzar dos dados simultáneamente, o bien la suma de las puntuaciones de ambos dados mayor que 6, o bien la puntuación de ambos dados sea al menos de 4. Si realizamos ese experimento 100 veces, ¿en cuantas de ellas esperaremos que se cumpla que "las puntuaciones de ambos dados mayor que 6 o bien la puntuación de ambos dados sea al menos de 4"?

Definimos los sucesos S: "la suma de las puntuaciones de ambos dados mayor que 6", y T: "la puntuación de ambos dados sea al menos de 4". Para hallar las probabilidades por la regla de Laplace necesitamos contar los puntos muestrales (resultados posibles) de cada suceso y también del espacio total.

Resultados posibles para S: {1+6, 2+5, 2+6, 3+4, 3+5, 3+6, 4+3, 4+4, 4+5, 4+6, 5+2, 5+3, 5+4, 5+5, 5+6, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6}, total 21

Resultados posibles para T:  {4+4, 4+5, 4+6, 5+4, 5+5, 5+6, 6+4, 6+5, 6+6}, total 9

Resultados posibles totales: tantos como parejas (a, b) podemos formar siendo a,b números entre 1 y 6: son 6·6 = 36.

Ahora aplicamos la tercera propiedad de Kolmogorov: P(S o T) = P(S∪T) = P(S) + P(T) – P(S ∩ T). Necesitamos calcular el número de puntos del conjunto (S ∩ T) = {1+6, 2+5, 2+6, 3+4, 3+5, 3+6, 4+3, 4+4, 4+5, 4+6, 5+2, 5+3, 5+4, 5+5, 5+6, 6+1, 6+2, 6+3, 6+4, 6+5, 6+6} ∩ {4+4, 4+5, 4+6, 5+4, 5+5, 5+6, 6+4, 6+5, 6+6} = {4+4, 4+5, 4+6, 5+4, 5+5, 5+6, 6+4, 6+5, 6+6} = T; esto sucede porque T está incluido en S (T es un subconjunto de S).

También se puede visualizar gráficamente: en una cuadrícula de 6 x 6 marcamos las casillas con una suma superior a 6 con un 1, y las que cumplen que los dos valores son al menos 4 las resaltamos en amarillo:

Valores posibles de las puntuaciones del lanzamiento de dos dados
Valores posibles de las puntuaciones del lanzamiento de dos dados; hay 21 combinaciones con suma > 6, y 9 combinaciones con los dos valores mayores o iguales a 4

Probabilidades según Laplace: P(S) = 21/36, P(T) = 9/36. P(S ∩ T) = 9/36

Probabilidad P(S o T) = P(S∪T) = 21/36 + 9/36 - 9/36 = 21/36.

Si repetimos N = 100 veces el lanzamiento de los dos dados, usando la definición 4 de probabilidad, esperaremos que en 100·21/36 = 58 ocasiones suceda que se cumpla que "la suma de puntuaciones de ambos dados mayor que 6 o bien la puntuación de ambos dados sea al menos de 4".

separador2

Probabilidad condicionada. Sucesos independientes

Cuando tenemos un conocimiento parcial del resultado de un experimento aleatorio podemos utilizarlo para mejorar nuestras predicciones. Por ejemplo: sabemos que en un dado ha salido al menos un 4. ¿Cuál es ahora la probabilidad de que sea un número par? Si no utilizamos la información "ha salido al menos un 4" será, por la regla de Laplace:

P(par) = card {2,4,6} / card {1,2,3,4,5,6} = 3/6

Si en cambio utilizamos la información "extra", entonces el espacio muestral queda restringido a ser los puntos del suceso "ha salido al menos un 4" que son {4,5,6} y en el
suceso "número par" habrá que eliminar el punto {2} que es incompatible. Por lo tanto será:

P ("par" condicionada por "ha salido al menos un 4") = card {4,6} / card {4,5,6} = 2/3

En general:

Definición 8: Diremos que el suceso A está condicionado por el suceso B cuando el conocimiento parcial del resultado B modifica el espacio muestral original Ω, reduciéndolo a otro Ω', de tal modo que la probabilidad de A respecto a Ω' es diferente a la original respecto a Ω. La notación para la probabilidad de A condicionada a B es P (A | B).

Se puede demostrar fácilmente que la nueva función de probabilidad P (S | B) verifica los axiomas y propiedades de la probabilidad de Kolmogorov, y por tanto está bien definida.

Sucesos independientes

En el ejemplo anterior hemos visto que si A = {"un número par"} y B = {"ha salido al menos un 4"} entonces P (A) = 3/6 = 1/2, P (A | B) = 2/3, y las probabilidades no son las mismas. ¿Siempre será así? En general no.

Definición 9Cuando tengamos que  P (A | B) = P (A) diremos que los sucesos A y B son independientes. El condicionamiento impuesto por B no afecta a A. En cambio cuando el condicionamiento si afecte a la probabilidad, diremos que los sucesos son dependientes,

En general se cumple que:

P\left(A\vert B\right)=\frac{P\left(A\cap B\right)}{P\left(B\right)}

Si los sucesos A, B son independientes, entonces:

P\left(A\vert B\right)=\frac{P\left(A\cap B\right)}{P\left(B\right)}=P\left(A\right)\Rightarrow\boxed{P\left(A\cap B\right)=P\left(A\right)P\left(B\right)} [1]

 

Interpretar correctamente la probabilidad condicionada

Los conceptos de dependencia e independencia de sucesos, así como el condicionamiento suelen ser mal comprendidos la primera vez que los vemos. Por ejemplo, en los enunciados de problemas hay que distinguir claramente cuando nos están hablando de probabilidad condicionada o de probabilidad conjunta de dos sucesos; en el primer caso hay una información previa: un suceso se supone que ya ha sucedido, el otro no, mientras que en la probabilidad conjunta no hay esa información previa. Por ejemplo: En una urna hay 4 bolas de color azul, 6 de color rojo y 3 de color amarillo. Sacamos una bola al azar sin mirarla; suponiendo que alguien nos dice "no es de color amarillo", ¿cuál es la probabilidad de que sea roja? Esta es una probabilidad condicionada, pues ya ha sucedido el suceso "no es de color amarillo" (la información previa), y por tanto calcularemos:

P(roja | no es de color amarillo ) = P(roja ∩ no es de color amarillo ) / P(no es de color amarillo )

En cambio si sacamos una bola al azar y la pregunta es ¿cuál es la probabilidad de que simultáneamente suceda que la bola no sea amarilla y sea roja? el cálculo será simplemente P(roja ∩ no es de color amarillo ).

Consideremos otro experimento con la misma urna: sacamos una bola que resulta ser roja; la devolvemos a la urna, y a continuación volvemos a sacar una bola. Nos preguntamos por la probabilidad de que vuelva a ser roja. Aquí entra un nuevo elemento: si consideramos que las distintas extracciones (que son las repeticiones del mismo experimento aleatorio) son independientes entre sí, entonces la probabilidad entre extracciones no varia, dado que hemos devuelto la bola a la urna para que haya exactamente el mismo número de bolas en la segunda extracción. Entonces:

P(bola roja en cada extracción) = 6 / (4 + 6 + 3) = 6 / 13

P((roja en 1ª) Y (roja en 2ª extracción)) = P(roja en 1ª) · P(roja en 2ª extracción) = 6 / 13 · 6 / 13 = 36 / 13²

Aquí hemos usado la igualdad [1] para calcular la probabilidad P((roja en 1ª) Y (roja en 2ª extracción)), teniendo en cuenta que las extracciones son independientes.

Sucesos realmente independientes

¿Cuando podemos considerar que dos sucesos son independientes? Siempre que no se afecten el uno al otro por cualquier medio, ni queden afectados por agentes externos. Por ejemplo, en un laboratorio realizamos, por primera vez, un experimento con una cierta medida M, y la repetimos unos días después. Nos preguntamos por la probabilidad de haber cometido un error absoluto en la medida respecto al valor real R, |R - M|, mayor que una tolerancia e: P(|R - M| > e). ¿Esta probabilidad será la misma el primer dia y el segundo dia? Aquí es más delicado suponer independencia de sucesos, ya que hay diversos factores externos que pueden influir, por ejemplo, la segunda vez se tiene la experiencia de la primera, y podría ser que se procediera mejor en la preparación previa del experimento. También podría ser que los con los resultados de la primera prueba hubiéramos intercambiado información con otros compañeros de trabajo sobre el experimento en cuestión, de forma que en la segunda ocasión sabemos algo más. Por ello en esta situación es más arriesgado suponer que los sucesos son independientes.

Ejemplo 11: (Nonplussed!: Mathematical Proof of Implausible Ideas - by Julian Havil): Como condición para ser aceptado en un club de tenis un jugador novato N ha de jugar tres partidos contra dos miembros del club, que les llamaremos B (jugador de nivel bueno) y M (jugador de nivel medio). Para ser aceptado, N debe ganar dos partidos consecutivos de los tres. N debe elegir uno de las dos posibilidades: jugar en el orden  M, B, M o en el orden B, M, B. La pregunta es: ¿cuál es la mejor opción?

Este es un buen ejemplo de que en ocasiones las probabilidades no son intuitivas en absoluto. Sin hacer ningún cálculo, de forma intuitiva, creeremos que el más importante es jugar lo menos posible con el jugador B, y por tanto la mejor opción es escoger el orden de juego M, B, M i no el B, M, B. Vamos a hacer el cálculo de probabilidades.

Supongamos que la probabilidad de que N venza a M es m, y de que venza a B es b, y que los sucesos son independientes (no afecta al partido siguiente el resultado del anterior).  En el orden de juego M, B, M, todas las combinaciones para vencer dos partidos consecutivos son: (vencer M, vencer B, vencer M), (vencer M, vencer B, perder M), (perder M, vencer B, vencer M). ¿Cuáles son las probabilidades de estas combinaciones? Son:

  • P(vencer M, vencer B, vencer M) = m·b·m
  • P(vencer M, vencer B, perder M) = m·b·(1-m)
  • P(perder M, vencer B, vencer M) = (1-m)·b·m

Observar que para calcular la probabilidad de perder aplicamos la 1ª propiedad de la probabilidad de Kolmogorov: P(no S) = 1 – P(S). La probabilidad de vencer dos partidos consecutivos en el orden M, B, M será la suma de las anteriores probabilidades, ya que los sucesos (vencer M, vencer B, vencer M), (vencer M, vencer B, perder M), (perder M, vencer B, vencer M) son mutuamente excluyentes: la suma es mbm + mb(1-m) + (1-m)bm = bm(m + 1 - m + 1 - m) = bm(2 - m).

Hacemos lo mismo para el orden de juego B, M, B. Las combinaciones y sus probabilidades son:

  • P(vencer B, vencer M, vencer B) = b·m·b
  • P(vencer B, vencer M, perder B) = b·m·(1-b)
  • P(perder B, vencer M, vencer B) = (1-b)·m·b

La suma es b·m·b + b·m·(1-b) + (1-b)·m·b = bm(b + 1 - b + 1 - b) = bm(2 - b)

Como b < m (menos probabilidad de ganar el jugador bueno que el medio), resulta que bm(2 - b) > bm(2 - m), o sea que en el orden de juego B, M, B el jugador novicio tiene más probabilidades de vencer en dos partidos consecutivos que en el orden M, B, M, !incluso siendo  que deberá jugar dos partidos contra el mejor jugador en vez de sólo uno! Un resultado contra intuitivo, pero rigurosamente cierto.

separador2

Ejemplo 12:  Consideremos el mismo problema del club de tenis pero esta vez incorporando aspectos subjetivos; si el jugador novicio gana en un partido al jugador de mejor nivel B, consideraremos que su motivación aumenta y también mejorará su nivel de juego; por otro lado si pierde contra el jugador de nivel medio M entonces bajará ligeramente.

  • si gana a B, sus probabilidades de ganar en el siguiente partido, que eran m, b respectivamente, pasan a ser m', b', que cumplirán m < m' < 1, b < b' < 1. Concretamente, es P( ganar a M | haber ganado B) = m', P( ganar a B | haber ganado B) = b'
  • si pierde con M, sus probabilidades de ganar en el siguiente partido, que eran m, b respectivamente, pasan a ser m'', b'', que cumplirán m'' < m < 1, b'' < b < 1

Ahora estamos considerando probabilidades condicionadas: la probabilidad de ganar un partido depende del resultado del partido anterior. Rehacemos los cálculos; para el orden de juego M, B, M

  • P(vencer M, vencer B, vencer M) = m·b·m'
  • P(vencer M, vencer B, perder M) = m·b·(1-m)
  • P(perder M, vencer B, vencer M) = (1-m)·b''·m'

La suma de estas probabilidades es m·b·m' + m·b·(1-m) + (1-m)·b''·m' = mbm' + mb - m²b + m'b'' - mm'b'' = mm'(b - b'') + mb(1 - m) + m'b''

para el orden de juego B, M, B. Las combinaciones y sus probabilidades son:

  • P(vencer B, vencer M, vencer B) = b·m'·b'
  • P(vencer B, vencer M, perder B) = b·m'·(1-b')
  • P(perder B, vencer M, vencer B) = (1-b)·m·b

La suma de estas probabilidades es b·m'·b' + b·m'·(1-b') + (1-b)·m·b = bm'b' + bm' - bm'b' + mb - b²m = bm' + bm - bbm

¿Cuál es ahora la mejor opción? Para simplificar, damos valores concretos a las probabilidades: m = 0.7, b = 0.5, m'=0.8, b'= 0.6, m''= 0.6, b''=0.4. Sustituimos:

  • P(ingresar en el club jugando M, B, M) =  mm'(b - b'') + mb(1 - m) + m'b'' = 0.7·0.8·(0.5 - 0.4) + 0.7·0.5(1 - 0.7) + 0.8·0.4 = 0.481
  • P(ingresar en el club jugando B, M, B) = bm' + bm - bbm = 0.5·0.8 + 0.5·0.7 - 0.5·0.5·0.7 = 0.575

Vemos que sigue siendo la mejor opción la que incluye más partidos contra el mejor jugador.

separador2

Ejemplo 13: En una encuesta, al 29% le gusta la música clásica. Este 29% se desglosa en un 17% que no les gusta la música moderna y un 12% que también les gusta la música moderna. Por otro lado en un 68% sólo les gusta la música moderna y a un 3% no les gusta la música. Planteamos el experimento aleatorio: preguntar a una persona al azar sobre sus gustos musicales. Sean los sucesos siguientes:

  • M: le gusta la música moderna
  • X: sólo le gusta un tipo de música

La pregunta que nos hacemos es: ¿Son M y X independientes? Dicho de otro modo, el conocimiento previo de que a una persona les guste la música moderna condiciona el que le guste sólo ese tipo de música?

Representamos los datos en un diagrama:

condicionada

Hacemos los cálculos teniendo en cuenta el diagrama:

  • P(M) =P("sólo moderna" O "clásica y también moderna") = 0.68 + 0.12 = 0.8
  • P(X) = P("sólo moderna" O "sólo clásica") = 0.68 + 0.17 = 0.85
  • P(X ∩ M) = P(“sólo un tipo de música” Y “sí la moderna”) = P("sólo moderna" ) = 0.68
  • P(X)·P(M) = 0.85 · 0.8 = 0.68

Resulta que P(X∩ M) = P(X) · P(M), por tanto X, M son independientes

separador2

Teoremas de la probabilidad total y de Bayes

Teorema 1 (de la probabilidad total)Si tenemos un conjunto de sucesos B1, B2, ..., Bn excluyentes entre sí de tal forma que el espacio muestral Ω pueda expresarse como la unión = B1∪ B2∪ ...∪ Bn, (decimos queB1, B2, ..., Bn es una partición de Ω)  y además conocemos las probabilidades P(B1), P(B2) ... P(Bn), entonces para cualquier suceso A se cumple:

P(A)=\sum_{i=1}^nP\left(A\vert B_i\right)\cdot P\left(B_i\right)

Teorema 2 (de Bayes): En las mismas condiciones del teorema anterior tendremos que:

P(B_k\;\vert\;A)=\frac{P\left(B_k\right)\cdot P\left(A\;\vert\;B_k\right)}{\sum_{i=1}^nP\left(A\;\vert\;B_i\right)\cdot P\left(B_i\right)}

Equivalentemente, usando el teorema de la probabilidad total:

P(B_k\;\vert\;A)=\frac{P\left(B_k\right)\cdot P\left(A\;\vert\;B_k\right)}{P\left(A\right)}

Ejemplo 14: El 20% de cierta población tiene estudios superiores, el 60% medios y el 20% básicos. Sabemos que leen habitualmente algún periódico local el 40% de los que tienen estudios superiores, el 25% de lo que tienen estudios medios y el 10% de los que tienen estudios básicos. Elegida una persona al azar resulta que lee habitualmente algún
periódico. ¿Cuál es la probabilidad de que tenga estudios superiores?

La población total está dividida en tres conjuntos disjuntos B1: estudios superiores, B2: medios, B3: básicos. Sabemos las probabilidades condicionadas siguientes: si escogemos al azar una persona, y resulta que tiene estudios superiores, entonces P(leer | B1) = 0.4. Igualmente, P(leer | B2) = 0.25, P(leer | B3) = 0.1. La probabilidad pedida tiene una información previa: "resulta que lee habitualmente algún periódico", por tanto es condicionada, es: P(estudios superiores | lee). Usamos el teorema de Bayes:

P(superiores\;\vert\;lee)=\frac{P\left(superiores\right)\cdot P\left(lee\;\vert\;superiores\right)}{\sum_{i=1}^nP\left(lee\;\;\vert\;B_i\right)\cdot P\left(B_i\right)}

Calculamos primero el denominador, que es la probabilidad total de leer un periódico en esa población, sin tener en cuenta el factor estudios:

\sum_{i=1}^nP\left(lee\;\;\vert\;B_i\right)\cdot P\left(B_i\right)=0.4\cdot0.2+0.25\cdot0.60+0.10\cdot0.20=0.25

Un 25% de la población lee habitualmente un periódico. Sustituimos en el teorema de Bayes:

P(superiores\;\vert\;lee)=\frac{0.2\cdot0.4}{0.25}=0.32

La probabilidad de que una persona con estudios superiores sea lector es superior a la media de la población, 25%, como era de esperar.

separador2

Bibliografia

Métodos Estadísticos: Lo utilicé cuando estudiaba en la UNED, y tengo un buen recuerdo, porque no era muy extenso pero contenía todo el temario bastante bien explicado. Otra parte que me gustó fue que cada capítulo tiene una lista de problemas (ejercicios de autocomprobación) con las soluciones, perfecto para estudiar a distancia. En definitiva, no es una biblia de la Estadística Aplicada ni mucho menos, pero para introducirte en los temas básicos (Estadística descriptiva, probabilidades, variables aleatorias, funciones de distribución, intervalos de confianza, contrastes de hipótesis y ANOVA) cumple bien.

 

Problemas de distribuciones de probabilidad continua

P1) Tenemos una distribución de probabilidad continua bidimensional (X,Y) con función de densidad:

f\left(x,y\right)=\left\{\begin{array}{l}8xy,\;0<x<y<1\\0\;\text{en otro caso}\end{array}\right.

  1. Comprobar que la probabilidad total vale 1
  2. Calcular las densidades de probabilidad marginales f_x(x), f_y(y). ¿Son independientes las variables X, Y?
  3. Calcular la media de X y la media de Y
  4. Hallar la probabilidad condicionada P( X>0.8 | Y < 0.4)
  5. Calcular la covariancia de las dos variables
  6. Calcular la correlación lineal de las dos variables

Resolución:

1. Comprobar que la probabilidad total vale 1

El dominio de definición D de la función de densidad es el triángulo delimitado por los puntos (0,0), (1,0) y (1,1) en el plano XY:

integra_area
Fig. 1: variación de Y en el dominio D: 0 < Y < X > 1

Para encontrar la probabilidad en todo el dominio calculamos la integral doble

\iint_Df\left(x,y\right)\operatorname dx\operatorname dy

La integral doble en el recinto la calculamos con integrales reiteradas, despejando una de las variables en función de la otra; en la imagen vemos que, fijando un valor x, la variable y varía desde y=0 hasta y=x, ya que el dominio es 0 < y < x < 1. Entonces tenemos:

\begin{array}{l}\iint_Df\left(x,y\right)\operatorname dx\operatorname dy=\int_0^1\operatorname dx\int_0^x8xy\operatorname dy=\int_0^1\operatorname dx\left[8x\frac{y^2}2\right]_0^x=\\4\int_0^1x^4\operatorname dx=4\left[\frac{x^4}4\right]_0^1=1.\end{array}

Efectivamente la probabilidad total es 1.

2. Calcular las densidades de probabilidad marginales f_x(x), f_y(y). ¿Son independientes las variables X, Y?

Las densidades de probabilidad marginales:

f_x\left(x\right)=\int f\left(x,y\right)\operatorname dy,\;f_y\left(y\right)=\int f\left(x,y\right)\operatorname dx

representan las probabilidades de las variables X e Y por separado. Para la marginal de x integramos respecto a y,  los límites de integración para la variable y son (0,x), puede visualizarse en el gràfico de la figura 1: la línea vertical simboliza la variación de y dado un x cualquiera, desde altura cero hasta alcanzar la recta y=x:

f_x\left(x\right)=\int_0^x8xy\operatorname dy=8x\left[\frac{y^2}2\right]_0^x=4x^3

Para la marginal de y integramos respecto de x; los límites de integración los visualizamos ahora con una línia horizontal situada dentro del dominio D, desde el valor mínimo x=y sobre la recta hasta el valor máximo x=1:

area2
Fig. 2: variación de X en el dominio D: 0 < y < x < 1

Por tanto la integral es:

f_y\left(y\right)=\int_y^18xy\operatorname dx=8y\left[\frac{x^2}2\right]_y^1=4y\left(1-y^2\right)

Como comprobación no necesaria pero instructiva, integrando cada función de densidad marginal, debe de dar 1 (suma de probabilidades):

\begin{array}{l}\int_0^1f_y\left(y\right)\operatorname dy=\int_0^14y\left(1-y^2\right)\operatorname dy=4\left[\frac{y^2}2-\frac{y^4}4\right]_0^1=4\left(\frac12-\frac14\right)=1;\\\int_0^1f_x\left(x\right)\operatorname dx=\int_0^14x^3\operatorname dx=4\left[\frac{x^4}4\right]_0^1=1\end{array}

Las variables X, Y no son independientes; si lo fueran , el producto de densidades marginales debería coincidir con la densidad de probabilidad conjunta:

f\left(x,y\right)=f_x\left(x\right)\cdot f_y\left(y\right)\;\Leftrightarrow X,\;Y\;\text{independientes}

cosa que no se cumple: 8xy\neq4x^3\cdot4y\left(1-y^2\right)\;\Rightarrow X,\;Y\;\text{dependientes}.

 

3. Calcular la media de X y la media de Y

Cuando tenemos una distribución bidimensional y queremos calcular las medias de las variables, usamos las distribuciones marginales: \mu_x=\int xf_x\left(x\right)\operatorname dx,\;\mu_y=\int yf_y\left(y\right)\operatorname dy. o sea:

\mu_x=\int_0^1x\cdot4x^3\operatorname dx=4\left[\frac{x^5}5\right]_0^1=\frac45,\;\mu_y=\int_0^1y\cdot4y\left(1-y^2\right)\operatorname dx=4\left[\frac{y^3}3-\frac{y^5}5\right]_0^1=\frac8{15}

 

4. Hallar la probabilidad condicionada P( X>0.8 | Y < 0.4).

La probabilidad condicionada P( X>0.8 | Y < 0.4) es, por definición:

P(\;X>0.8\;\vert\;Y\;<\;0.4)=\frac{P(\;X>0.8\;\cap\;Y\;<\;0.4)}{P(\;Y\;<\;0.4)}

El conjunto X>0.8\;\cap\;Y\;<\;0.4, teniendo en cuenta el dominio de definición 0<x<y<1, es un rectángulo:

area

Entonces la probabilidad de la intersección es:

\begin{array}{l}\begin{array}{l}P\left(X>0.8\;\cap\;Y\;<\;0.4\right)=\int_{0.8}^1\operatorname dx\int_0^{0.4}8xy\operatorname dy=8\int_{0.8}^1x\operatorname dx\left[\frac{y^2}2\right]_0^{0.4}=\end{array}\\4\cdot0.4^2\int_{0.8}^1x\operatorname dx=\frac{16}{25}\left[\frac{x^2}2\right]_{0.8}^1=\frac8{25}\left(1-0.8^2\right)=\frac{72}{625}\end{array}

La probabilidad que falta es:

P\left(Y\;<\;0.4\right)=\int_0^{0.4}f_Y\left(y\right)\operatorname dy

donde f_Y es la densidad marginal de la variable Y:

P\left(Y\;<\;0.4\right)=\int_0^{0.4}4y\left(1-y^2\right)\operatorname dy=4\left[\frac{y^2}2-\frac{y^4}4\right]_0^{0.4}=0.2944

Resultado: P\left(X>0.8\;\vert\;Y\;<\;0.4\right)=\frac{\frac{72}{625}}{0.2944}\approx0.3913

5. Calcular la covariancia de las dos variables

Usamos la formula cov\left(X,Y\right)=\int_D\left(x-\mu_x\right)\left(y-\mu_y\right)f\left(x,y\right)\operatorname dx\operatorname dy sustituyendo:

\begin{array}{l}cov\left(X,Y\right)=\int_D\left(x-\frac45\right)\left(y-\frac8{15}\right)8xy\operatorname dx\operatorname dy=\\8\int_0^1x\left(x-\frac45\right)\operatorname dx\int_0^xy\left(y-\frac8{15}\right)\operatorname dy=\\8\int_0^1x\left(x-\frac45\right)\left(\frac{x^3}3-\frac{4x^2}{15}\right)\operatorname dx=\frac4{225}\end{array}

Si las variables hubieran sido independientes, entonces no seria necesario efectuar este cálculo, pues la covariancia de dos variables independientes es cero.

6. Calcular la correlación lineal de las dos variables

La correlación viene dada por el coeficiente de correlación de Pearson:  r_{xy}=\frac{cov\left(X,Y\right)}{\sigma_x\sigma_y}. Primero calculamos las varianzas de cada variable:

Para x:

\begin{array}{l}\sigma_x^2=\int_0^1\left(x-\mu_x\right)^2f_x\left(x\right)\operatorname dx=E\left(X^2\right)-E^2\left(X\right)=\int_0^1x^2f_x\left(x\right)\operatorname dx-\left(\frac45\right)^2=\\\int_0^1x^2\cdot4x^3\operatorname dx-\frac{16}{25}=4\frac16-\frac{16}{25}=\frac2{75}\end{array}

para y:

\begin{array}{l}\sigma_y^2=\int_0^1\left(y-\mu_y\right)^2f_y\left(x\right)\operatorname dx=E\left(Y^2\right)-E^2\left(Y\right)=\int_0^1y^2f_y\left(y\right)\operatorname dy-\left(\frac8{15}\right)^2=\\\int_0^1y\cdot4y\left(1-y^2\right)\operatorname dx-\frac{64}{225}=\frac8{15}-\frac{64}{225}=\frac{56}{225}\end{array}

Sustituimos:

r_{xy}=\frac{\displaystyle\frac4{225}}{\sqrt{\displaystyle\frac2{75}}\sqrt{\displaystyle\frac{56}{225}}}=\frac1{\sqrt{21}}\approx0.22

Esta es una correlación positiva ("al aumentar X, aumenta también Y") pero baja, debido a que la relación entre X, Y no es lineal.

separador2

P2) Función de densidad conjunta. Sea la función de densidad conjunta f(x,y)=\left\{\begin{array}{l}xy\;\text{si }0<x<1,\;0<y<1\\0\;\text{si no}\end{array}\right..

(a) Hallar las funciones de densidad marginales, (b) justificar si las variables X, Y son independientes, (c) calcular la covarianza de X, Y.

La marginal de x es:

f_x\left(x\right)=\int_{-\infty}^\infty f(x,y)\operatorname dy=\left\{\begin{array}{l}\int_0^1xy\operatorname dy=x\left[\frac{y^2}2\right]_0^1=x\frac12\\\int_{-\infty}^00\operatorname dy+\int_1^\infty0\operatorname dy=0\end{array}\right.

La marginal de y es:

f_y\left(y\right)=\int_{-\infty}^\infty f(x,y)\operatorname dx=\left\{\begin{array}{l}\int_0^1xy\operatorname dx=y\left[\frac{x^2}2\right]_0^1=y\frac12\;\text{si }0<y<1\\\int_{-\infty}^00\operatorname dx+\int_1^\infty0\operatorname dx=0\end{array}\right.

Si las variables X, Y son independientes, entonces el producto de densidades marginales ha de ser igual a la densidad conjunta, pero en este caso no se cumple:

f_x\left(x\right)\cdot f_y\left(y\right)=\left\{\begin{array}{l}x\frac12y\frac12=xy\frac14\;\text{si }0<y<1\\0\cdot0=0\end{array}\right.

La covarianza es: Cov\left(X,Y\right)=\int_{-\infty}^\infty\operatorname dx\int_{-\infty}^\infty\operatorname dy\cdot\left(x-\mu_x\right)\left(y-\mu_y\right)f\left(x,y\right), donde \mu_x,\mu_y son los valores medios marginales, que calculamos aparte:

\begin{array}{l}\mu_x=\int_0^1x\cdot f_x(x)\operatorname dx=\int_0^1x\frac12x\operatorname dx=\left[\frac{x^3}6\right]_0^1=\frac16;\\\mu_y=\int_0^1y\cdot f_y(y)\operatorname dy=\int_0^1y\frac12y\operatorname dy=\left[\frac{y^3}6\right]_0^1=\frac16;\end{array}

Sustituyendo:

\begin{array}{l}Cov\left(X,Y\right)=\int_0^1\operatorname dx\int_0^1\operatorname dy\cdot\left(x-\frac16\right)\left(y-\frac16\right)xy=\\\int_0^1\operatorname dx\int_0^1\operatorname dy\cdot\left(x^2y^2-\frac16x^2y-\frac16xy^2+\frac1{36}xy\right)=\\\int_0^1\operatorname dx\left(x^2\frac13-\frac16x^2\frac12-\frac16x\frac13+\frac1{36}x\frac12\right)=\\\frac13\left(\frac13-\frac1{12}\right)+\frac12\left(-\frac1{18}+\frac1{72}\right)=\frac1{16}\end{array}

separador2

P3). Probabilidad condicionada en funciones de densidad de probabilidad. Una variable aleatoria continua X tiene por función de densidad f(x)=kx(1-x) siempre que 0<x<1, valiendo cero en caso contrario. Calcular la probabilidad condicionada P(X>1/3 | X>1/4). ¿Cuál es su varianza?

Por definición, P(X>\frac13\vert X>\frac14)=\frac{P\left(\left(X>\frac13\right)\cap\left(X>\frac14\right)\right)}{P\left(X>\frac14\right)}=\frac{P\left(X>\frac13\right)}{P\left(X>\frac14\right)}, ya que \left(X>\frac13\right)\Rightarrow\left(X>\frac14\right). Para calcular las probabilidades usamos la función de densidad:

\begin{array}{l}P\left(X>\frac13\right)=\int_\frac13^1kx(1-x)\operatorname dx=k\left[\frac{x^2}2-\frac{x^3}3\right]_\frac13^1=k\frac{10}{81};\\P\left(X>\frac14\right)=\int_\frac14^1kx(1-x)\operatorname dx=k\left[\frac{x^2}2-\frac{x^3}3\right]_\frac14^1=k\frac9{64};\end{array},

luego:

P(X>\frac13\vert X>\frac14)=\frac{P\left(X>\frac13\right)}{P\left(X>\frac14\right)}=\frac{k\frac10{81}}{k\frac9{64}}=\frac{640}{729}

Para calcular la varianza usamos la igualdad Var\left(X\right)=\int\left(x-\mu_x\right)^2f\left(x\right)\operatorname dx; calculamos primero el valor medio de X:

\mu_x=\int xf\left(x\right)\operatorname dx=\int_0^0x\cdot kx(1-x)=k\left[\frac{x^3}3-\frac{x^4}4\right]_0^1=k\left(\frac13-\frac14\right)=\frac k{12}

Para determinar el valor de k usamos la condición de normalización de la función de densidad de probabilidad:

\int f\left(x\right)\operatorname dx=1\Rightarrow\int_0^1kx(1-x)=k\left[\frac{x^2}2-\frac{x^3}3\right]_0^1=k\left(\frac12-\frac13\right)=\frac k6\Leftrightarrow k=6

Ya podemos calcular la varianza:

\begin{array}{l}Var\left(X\right)=\int\left(x-\mu_x\right)^2f\left(x\right)\operatorname dx=\int_0^1\left(x-\frac12\right)^2\cdot6x(1-x)\operatorname dx=\\6\int_0^1\left(-x^4+2x^3-\frac{5x^2}4+\frac x4\right)\operatorname dx=6\left[-\frac{x^5}5+2\frac{x^4}4-\frac54\frac{x^3}3+\frac14\frac{x^2}2\right]_0^1=\\\frac1{120}\end{array}

separador2

P4). Función de densidad conjunta. Una variable aleatoria continua X tiene por función de densidad:

f(x)=\left\{\begin{array}{l}e^{1-x}\;\text{si }x\geq1\\0\;\text{si }x<1\end{array}\right.

En un experimento aleatorio con esa variable, tomamos dos medidas independientes entre sí, x_1, x_2; si consideramos una nueva variable aleatoria bidimensional Z formada por los valores anteriores, ¿cuál será su función de densidad de probabilidad? Definimos el estadístico T(z) = mínimo {x_1, x_2}; calcular la probabilidad P(T > t) para cualquier valor t real. ¿Cuál es la función de densidad de probabilidad de T(z)?

Siendo los valores x_1, x_2 independientes entre sí, la densidad de probabilidad conjunta del valor (x_1, x_2) será el producto de densidades; llamemos z=(x,y) por comodidad, entonces:

f(x,y)=\left\{\begin{array}{l}e^{1-x}e^{1-y}\;\text{si }x,y\geq1\\0\;\text{si }x<1\;\text{o }y<1\end{array}\right.

Calculemos ahora P(T > t):

\begin{array}{l}T>t\Leftrightarrow min\left\{x,y\right\}>t\Rightarrow\left(x>t\right)\cap\left(y>t\right);\\P\left(T>t\right)=P\left(\left(x>t\right)\cap\left(y>t\right)\right)=P\left(x>t\right)\cdot P\left(y>t\right)\end{array}

Usando la función de densidad:

P\left(x>t\right)=\int_t^\infty e^{1-x}\operatorname dx=e\left[-e^{-x}\right]_t^\infty=e\left(0+e^{-t}\right)=e^{1-t}

siempre que t\geq1, y cero en otro caso; para la P\left(y>t\right) obtenemos el mismo valor, por tanto: P\left(T>t\right)=e^{1-t}\cdot e^{1-t}=e^{2-2t}.

Por definición de la función de distribución F(t) tenemos que F(t)=P(T<t)=1-P(T>t)=1-e^{2-2t}. Pero la derivada de la función de distribución es la función de densidad, así que:

f\left(t\right)=\frac{\operatorname d{}}{\operatorname dt}F(t)=\frac{\operatorname d{}}{\operatorname dt}\left(1-e^{2-2t}\right)=2e^{2-2t}.

separador2