Archivo de la categoría: Estadística aplicada

Estadística -> Estadística Aplicada -> Series Temporales

Series temporales, tendencia, estacionalidad

Las series temporales (de datos estadísticos) relacionan eventos parecidos acaecidos en diferentes épocas, buscando detectar algún patrón de comportamiento, alguna tendencia, que permita hacer predicciones futuras.

Ejemplo 1: Comparar las importaciones y exportaciones anuales de una empresa en los últimos 15 años, comparándolas, analizando su evolución temporal.

Puede ser un problema complicado, ya que frecuentemente sucede que las sucesivas observaciones no son independientes entre sí, como por ejemplo las ventas de un comercio en un mes pueden no ser independientes de las ventas del mes anterior.

Las variables utilizadas en las series temporales

Hay variables estadísticas, que miden cantidades, de la que puede determinarse su valor, al menos en teoría, en cualquier momento del tiempo; por ejemplo, el número de parejas de hecho que residen en una cierta localidad. Es un número variable, pero puede hacerse un censo y determinar su número en un cierto día escogido obviando dificultades técnicas, quizá la población es demasiado numerosa para completar el censo en un sólo día, pero no es una limitación de base, sino una de recursos disponibles, de hecho, el número de parejas de hecho está claramente definido en cualquier hora de cualquier día.

Por otro lado, hay variables estadísticas que miden flujos o variaciones de otras cantidades, en las que siempre debemos determinar su valor en un intervalo de tiempo más o menos amplio; por ejemplo, el número de uniones de parejas en el juzgado en un día determinado puede ser cero, mientras que el día siguiente será mayor que cero. En éste último caso cogeremos un intervalo de tiempo suficientemente amplio y trataremos con "uniones civiles en el juzgado por día" por ejemplo, dividiendo por el número de días del período.

Ejemplo 2: Gráfico de ventas de unos grandes almacenes.

Fig.1: gráficos de ventas, izquierda, anuales, derecha, trimestrales
Fig.1: gráficos de ventas, izquierda, anuales, derecha, trimestrales
Tendencia general

A menudo los datos cuando se representan en intervalos largos de tiempo presentan una curva de evolución  suave, como en la figura 1 a la izquierda, que muestra las ventas totales de unos almacenes por años mostrando una tendencia general de crecimiento constante; en cambio los mismos datos tomados a intervalos de tiempo más cortos presentan fuertes oscilaciones, como vemos en la figura a la derecha, que muestra las ventas trimestrales en dos años consecutivos, no se ve una tendencia clara.

Estacionalidad

Al reducir el intervalo temporal, puede suceder que salgan a la luz influencias periódicas particulares que varían los datos en tiempos fijados, como por ejemplo campañas de Navidad, rebajas de agosto, influencia del turismo en ciertas épocas de cada año, etc; en este caso diremos que la serie temporal presenta estacionalidad. Hemos visto dos características importantes de las series temporales (de datos estadísticos): la tendencia general y las influencias periódicas.

Ciclos

Si representamos de nuevo el gráfico de ventas por meses, las oscilaciones aumentan, pero aún podemos observar la tendencia general ascendente, la estacionalidad (en el mes 6, junio, y en el 6+12 = 18, junio del año siguiente, las ventas presentan máximos) y la aparición de ciclos (cambios recurrentes a medio plazo), que son períodos en los que los datos presentan un aspecto parecido: en la figura 2 la estructura entre los meses 1 y 12 es algo semejante, pero incrementada, a la de los meses 13 a 24 del año siguiente.

Fig. 2: tendencia general, estacionalidad y ciclos
Fig. 2: tendencia general, estacionalidad y ciclos
Variaciones erráticas o aleatorias

Además de las causas anteriores de variabilidad, encontraremos en la práctica variaciones que no son debidas a ninguna de esas causas, y por ello las atribuiremos al azar.

Así pues, el modelo clásico de tratamiento de series temporales supone que las variaciones entre datos pueden explicarse por una, varias o todas estas fuentes de variación:

  1. una tendencia general
  2. una estacionalidad
  3. aparición de ciclos de variaciones
  4. variaciones aleatorias

Análisis de series temporales

Las cuatro causas anteriores de variabilidad se combinan entre sí matemáticamente, formando un modelo teórico con el cual se pueden explicar los comportamientos del los datos y hacer predicciones. Los datos se procesan con un programa de Estadística, en el cual, en las opciones, deberemos indicar de que forma combinaremos las causas; los modelos caen en dos categorías:

  • Modelos estáticos
    • Modelo multiplicativo: considera que la variabilidad total observada es el producto de las producidas por cada factor, o sea por la tendencia general, estacionalidad, etc
    • Modelo aditivo: considera que la variabilidad total observada es la suma de las producidas por cada factor, o sea por la tendencia general, estacionalidad, etc
  • Modelos dinámicos: las variaciones en el tiempo t se calculan tomando las variaciones de los factores en tiempos anteriores de la serie, t-1, t-2, etc.

Los modelos dinámicos contemplan una complicación típica de las series temporales que es la presencia de correlación serial o relaciones entre datos contiguos (la no independencia de datos que comentábamos); toda la Estadística en general se simplifica cuando los datos son independientes entre sí, y se complica cuando no lo son. Un ejemplo en el que podemos esperar encontrar correlación serial sería el caso de las ventas de los almacenes: después de un mes de ventas elevadas es posible inferir que las ventas pueden bajar debido a que los clientes habituales ya han hecho sus compras importantes el mes anterior y posiblemente no gasten mucho dinero en dos meses consecutivos. En cambio en una serie temporal mensual del número de turistas que visitan una ciudad, los turistas son independientes entre sí, no repiten la visita cada mes, así que no podemos inferir nada de la cantidad de turistas de un mes para el siguiente.

Otra complicación que puede aparecer es la presencia de valores inusuales, atípicos, denominados valores influyentes; cuando un evento extraordinario modifica la tendencia natural se producen estos valores singulares que nos pueden llevar a un análisis erróneo si no los detectamos y aislamos.

Por suerte, los programas estadísticos proporcionan "filtros" para detectar, dados los datos de una serie temporal, su tendencia general, estacionalidad, periodicidad, sus ciclos, sus correlaciones seriales y sus valores influyentes.

Determinación de la tendencia por regresión, suavización de la serie, detección de ciclos: ejemplo práctico

Consideremos los datos de tasa de paro en España entre los años 1978 y 2013, que reproducimos parcialmente:

Año Tasa
1978 7
1979 9
1980 12
1981 14
1982 16
1983 18
1984 21
1985 22

(...)

2008 13,9
2009 18,1
2010 20
2011 21,7
2012 25,1
2013 26,3

Observamos la gráfica de puntos de la serie:

Fig.3: gráfica de serie temporal
Fig.3: gráfica de serie temporal

La línea roja marca la media de todos los datos; vemos que los valores parecen oscilar en torno a la media, aunque la oscilación se hace mayor en los últimos años; cuando se observa esta oscilación en torno a la media, decimos que la serie presenta estacionariedad en media. Además, la serie parece presentar cierta pauta de variación, hay unos mínimos muy parecidos en los años 70 y en el 2005, y unos máximos en los años 80 y 90, así que podemos pensar que la serie presenta cambios cíclicos (no estacionalidad, pues no se aprecia repetición de pauta en años concretos, más bien son cambios a medio-largo plazo).

Observamos ahora el gráfico de las desviaciones respecto a la media, obtenidas haciendo las diferencias X_t-\overline{X_t} para cada dato de la serie:

Fig. 4: Gráfica de desviaciones respecto de la media total
Fig. 4: Gráfica de desviaciones respecto de la media total

De nuevo vemos que hay una oscilación de las desviaciones en torno del valor cero, oscilación que se amplifica en los últimos años (quizá debido a la crisis financiera del 2008 y siguientes): hay una estacionariedad en la desviación respecto de la media.

Para concretar si las variaciones observadas son cíclicas y/o estacionarias, interesa quitar de la serie las oscilaciones aleatorias y eliminar, si la hay, la tendencia general (si hay por ejemplo una tendencia general al aumento de la tasa de desempleo, se hace más difícil ver las oscilaciones de cada período). A este proceso le denominamos suavizar la serie. 

El primer paso será determinar la tendencia de la serie, hay dos métodos para hacerlo, en el primero se usa regresión para ajustar una curva a la gráfica de la serie temporal:  en la hoja de cálculo hacemos clic-derecho sobre la gráfica de la serie y escogemos agregar línea de tendencia, que puede seguir diversos modelos matemáticos: lineal, logarítmico, polinómico, etc. Hay que ensayar algunos, observando para cada prueba el coeficiente de determinación, por ejemplo:

Fig 5: tendencia lineal y polinómica de grado 3 para la serie temporal
Fig 5: tendencia lineal y polinómica de grado 3 para la serie temporal

En la figura 5 se ha ensayado ajuste lineal, con un coeficiente R² muy bajo, del 0.009, y polinómica de grado 3, con un coeficiente R² bastante bueno, 0,69; se presenta también la ecuación del ajuste polinómico. No es necesario un ajuste muy bueno, sólo queremos captar la tendencia general, así que daríamos por aceptable el ajuste polinómico. Un economista podría sugerirnos que esa tendencia está siguiendo alguno de los ciclos económicos, vemos que hay un máximo de paro laboral en 1988 y otro en 2014, y hay mínimos en 1978 y en 2004, con un intervalo entre máximos y mínimos de unos 25 años; los máximos de paro podrían achacarse a la reconversión industrial del los años 80, y a a incorporación a la Comunidad Económica Europea (1986) que obligó a un proceso culminante de desmantelamiento industrial a partir de 1986, y a la crisis financiera del 2008 y siguientes.

serie_temporal6
Fig. 6: la línia en rojo representa la serie de datos a la que se ha restado la curva de tendencia

 En la figura 6 hemos restado de la serie de datos original la tendencia, el resultado es la serie representada por puntos rojos; las oscilaciones ahora están en torno al valor cero, y son de más corto plazo que las anteriores: cada cinco años, aproximadamente, que coinciden con otro ciclo económico: el ciclo de Kitchin, debido a oscilaciones en la producción de las empresas y sus ajustes a la demanda real. Al restar la tendencia hemos supuesto que la serie se ajusta bien al modelo sumativo, que supone que la variabilidad total observada es la suma de las producidas por cada factor, o sea por la tendencia general, estacionalidad, etc.

Correlación serial, determinación de la tendencia por el método de las medias móviles: ejemplo

Siguiendo con los datos del paro en España,  como sospechamos que puede haber una correlación serial (la tasa de paro de cada año condiciona la del año siguiente, pues es un índice que no se cambia fácilmente de un año para otro) calculamos el coeficiente de correlación serial definido como

r=\frac{\text{cov}\left(X_t,X_{t-1}\right)}{S_{X_t}\cdot S_{X_{t-1}}} [1]

donde X_t son los datos en el período t, y  X_{t-1} son los datos en el año anterior:

Año Xt Xt-1
1978 7 -
1979 9 7
1980 12 9
1981 14 12

(...)

2010 20 18,1
2011 21,7 20
2012 25,1 21,7
2013 26,3 25,1
2014 - 26,3

La \text{cov}\left(X_t,X_{t-1}\right) es la covarianza de las dos variables, y las S son sus desviaciones típicas, resulta: S_t=4,94S_{t-1}=5,11, Cov = 23,39, autocorrelación = 0,93. La autocorrelación, que se interpreta igual que la correlación de Pearson, es muy alta, del 93%, confirmando nuestra suposición de que la tasa de un año influye en la siguiente. Las causas principales de autocorrelación son las tendencias o ciclos, así que en este segundo análisi de los datos también llegamos al mismo punto: parece que las variaciones en la tasa de desempleo son cíclicas en el tiempo.

Para determinar los ciclos procedemos como antes: hay que determinar la tendencia de la serie y proceder a suavizarla.  Para determinar la tendencia ya hemos visto que podemos hacerlo por regresión, pero ahora lo haremos con un método alternativo: el de las medias móviles. Consiste en sustituir los datos originales por las medias de 2 datos correlativos (medias móviles de orden 1), de 3 datos (medias móviles de orden 2), etc. Reproducimos algunas de esas medias en la siguiente tabla, donde "media movil-2" significa media de dos datos (media de orden 1), "media movil-3" significa media de tres datos (media de orden 2), etc.:

Año Tasa media móvil-2 media móvil-3 media móvil-4
2013 26,3
2012 25,1 25,7
2011 21,7 23,4 22,9
2010 20 20,9 20,2 23,3
2009 18,1 19,1 17,9 21,2
2008 13,9 16,0 16,1 18,4
2007 8,3 11,1 14,7 15,1
2006 8,1 8,2 13,6 12,1
2005 9,2 8,7 12,8 9,9
2004 10,4 9,8 12,3 9,0

Lógicamente, a medida que vamos aumentando el orden de la media móvil, tenemos menos datos, pasando de los N originales a N-1 medias de orden 1, N-2 de orden 2, ... N-m de orden m.

En la figura 7 vemos estas series de medias moviles. Si nos fijamos en las medias de orden 3, la línia roja, y la comparamos la tendencia polinómica de grado 3 de la figura 5 veremos que coinciden mucho: las medias de orden 3 son una buena aproximación a la tendencia de esta serie.

Fig. 7: representación de las series de medias móviles
Fig. 7: representación de las series de medias móviles

A partir de aquí procederíamos como en la sección anterior: restando la tendencia (las medias móviles de orden 3) de los datos de la serie original para obtener la serie suavizada.

Conclusión

Este artículo es sólo una breve introducción práctica al estudio de las series temporales, presentando los aspectos básicos. En el estudio de las series de datos en el tiempo interesa analizar sus variaciones para detectar sus posibles causas, normalmente interesa reducir esas variaciones (tasa de empleo constante, por ejemplo) o bien mantenerlas siempre positivas (aumento continuo de las ventas), e incluso, más difícil, hacer predicciones de futuro.

Estadística Aplicada -> Contrastes de Hipótesis

Supongamos que hemos comprado un saco de nueces que contiene unas 1000, y que al llegar a casa cogemos una al azar, resultando que está seca, incomestible. Un optimista pensará, "¡bah! he ido a coger la única que está pasada, no importa", mientras que un pesimista pensará "buenoo ... este saco estará lleno de nueces podridas".  Cualquiera de los dos puede tener razón. Para saberlo, sin tener que vaciar todo el saco, podemos tomar una muestra representativa, esto es, suficientemente grande (por ejemplo, 20 nueces) y bien tomada (mezclamos bien las nueces, cogemos una de arriba, otra del lado derecho, otra de abajo, etc., cambiando de sitio cada vez de forma aleatoria). Después, observando el número de nueces buenas de la muestra, podemos intentar inferir cuantas nueces buenas habrá en el saco. Este procedimiento de comprobación de un producto comercial es parte del proceso de control de calidad, que se hace tanto por parte del fabricante (control de calidad de producción) como del comprador (control de calidad a la recepción del producto). La herramienta estadística que permite, con cierto grado de certeza (denominado nivel de confianza), decidir si una compra como la del saco de nueces es acertada o por el contrario debemos reclamar al fabricante es el contraste de hipótesis estadísticas. Por supuesto, como siempre en Estadística, no podremos saber realmente cuantas nueces están estropeadas a menos que las miremos una por una: aceptar las conclusiones del contraste conllevan un riesgo, como vemos en el siguiente apartado.

Problemas y  errores que podemos cometer en los contrastes

Supongamos que el fabricante, a través de su control de calidad de producción, está convencido de que sólo un 1% de sus nueces envasadas pueden llegar en mal estado al consumidor, y que el consumidor acepta este máximo, y quiere comprobarlo a la recepción del producto, así que aceptará como máximo ese 1% defectuoso. El comprador entonces extrae una muestra para comprobarla ... pero puede suceder que esa muestra resulte ser peor de lo que realmente es la producción (el término estadístico correcto sería la población), con lo cual reclamará al fabricante sin motivo real, erróneamente; este error se denomina error-α o  error de tipo I.  También puede suceder lo contrario, que por azar la muestra resulte ser mucho mejor que la población, el comprador aceptará erróneamente la compra siendo defectuosa, es el error-β o error de tipo II.

Por ejemplo si los pesos de un dulce tienen una media de 20gr y sólo uno de cada 100 se desvía de ese peso más de 1gr, en una muestra de tamaño n = 30, el comprador podría pensar de rechazar su pedido si encuentra un sólo dulce que se desvíe más de 1gr del peso medio, pues 30·1/100 = 0.3, la proporción en la muestra no llega a la unidad. Si cada dulce, al ser pesado, tiene una probabilidad 1/100 de salirse de la tolerancia, cuando pesamos uno por uno los 30 dulces de la muestra, la probabilidad de que uno se salga de la tolerancia viene dada por la distribución de probabilidad binomial, y vale 0.2242, que es un valor alto (un 22,42%), peor aún, la probabilidad de que encontremos uno o más de uno fuera de tolerancia es  α = 26%. Y eso que hemos supuesto que el fabricante dice la verdad. Vemos que este procedimiento de control en la recepción del producto produce un alto error tipo I, con un valor de α = 0.26.

Veamos ahora que pasa con el caso contrario: el fabricante no dice la verdad, y realmente está produciendo un 5% de dulces fuera de tolerancia; ¿qué probabilidad hay de que el comprador no se de cuenta y acepte la compra realizada? Según la distribución binomial, con un 5% de probabilidad de dulce "erróneo", la probabilidad de que no aparezca ninguno en la muestra de 30 dulces es β = 21,5%, que seria la probabilidad de cometer error de tipo II. Este ejemplo muestra claramente que se necesita un procedimiento eficaz para realizar un control de calidad correcto que no perjudique al fabricante con errores de tipo I ni al comprador con errores de tipo II.

En la figura 1 se muestra el aspecto de las probabilidades de aceptación de una muestra en función de la fracción defectuosa en la población; la línea vertical simboliza la tolerancia anunciada por el fabricante, si la fracción defectuosa es menor, la producción es mejor de lo que anuncia, y si es mayor, la producción resulta peor de lo anunciado. Por supuesto, si la fracción defectuosa es cero (producción perfecta) seguro que aceptaremos cualquier muestra, y no hay error posible. Pero entre el valor de cero y la tolerancia de 0,01 vemos que la probabilidad de no aceptar (rechazar) la muestra va aumentando, en esa región se produce el error de tipo I o α. Por otro lado, cuando la producción es más defectuosa de lo anunciado, sigue habiendo una probabilidad significativa de aceptar la muestra (región β).

Fig. 1: Curva de aceptación de una muestra, dependiendo de la proporción real de defectos en la población

Así, la curva divide el cuadrante XY en cuatro regiones: las de error I y II, y las otras dos regiones que corresponden a cuando acertamos en el control: aceptamos la muestra que proviene de una población correcta, o bien rechazamos la muestra que proviene de una población incorrecta.

La matemática del contraste de hipótesis

La Estadística teórica proporciona modelos matemáticos de distribuciones de probabilidad: funciones con ciertas propiedades que nos permiten calcular probabilidades de forma sistemática. Los contrastes de hipótesis usan estos modelos para poder decidir si un control de calidad es o no es válido, y lo hacen del siguiente modo:

  1. Dado un problema real en el que extraemos una muestra de una población para comprobar si un cierto valor (un parámetro de la población) es correcto, identificamos qué modelo matemático es el más adecuado para esa situación, atendiendo al tipo de población y al tamaño de la muestra.
  2. Planteamos dos hipótesis: la denominada hipótesis nula, hipótesis de trabajo, o H0, y la hipótesis alternativa, o H1. La H0 supone que los parámetros dados para la población son correctos, que el modelo de distribución de probabilidad escogido en el paso anterior es también correcto, y que la muestra que tenemos pertenece efectivamente a la población; la hipótesis H1 supone que las afirmaciones anteriores no son correctas (una, algunas o todas)
  3. Suponiendo que la hipótesis de trabajo es cierta, calculamos, usando el modelo de distribución de probabilidad, un valor numérico, denominado estadístico de contraste, que es una variable aleatoria función de la muestra.
  4. Usando las probabilidades dadas por el modelo de distribución de probabilidad, comprobamos si el valor anterior es "creíble" o por el contrario es francamente poco probable que suceda; en el primer caso, damos por verificada la hipótesis H0, en el segundo, rechazamos H0 por ser poco probable y aceptamos la alternativa H1.

Ejemplo 1: comprobar si una moneda es simétrica. Queremos averiguar si, en el lanzamiento al aire de una moneda, realmente el número de caras y de cruces obtenidas son iguales o no. Para ello lanzamos al aire la moneda n = 100 veces y anotamos el número de caras y de cruces, que ha resultados ser 52 y 48, respectivamente. Para decidir si la moneda es simétrica respecto al número de caras y de cruces procedemos sistemáticamente.

  1. Cada lanzamiento de la moneda nos da un valor binario, cara o cruz, cada uno con una cierta probabilidad que llamamos P(cara) = p, P(cruz) = q. Si repetimos el lanzamiento n veces, y nos preguntamos el número de caras X (o de cruces) obtenidas en esos lanzamientos, esa variable X es, por definición, una variable aleatoria con distribución de probabilidad binomial. Tenemos pues el modelo matemático.
  2. En principio, suponemos (hay que comprobarlo) que la moneda es simétrica, o sea que las probabilidades p y q son iguales a 1/2: p = q = 1/2. Nuestra hipótesis H0 será: la variable X número de caras sigue la distribución de probabilidad binomial con p = 1/2. La hipótesis H1 será: o bien X no sigue la distribución de probabilidad binomial, o bien p no es igual a 1/2.
  3. Suponiendo H0 cierta, la proporción de caras obtenidas en la muestra n = 100 lanzamientos, que llamaremos p' = 52/100, debería no estar muy alejada de p = 1/2. Nuestro estadístico de contraste en este caso será simplemente p'.
  4. Suponiendo H0 cierta, ¿cuál es la probabilidad de obtener p' = 0.52 en n = 100 lanzamientos de la moneda? Este planteamiento es demasiado estricto, pues dará una probabilidad baja, concretamente da P(X = 52) = 0.07, porque obtener precisamente 52 caras es totalmente aleatorio, si volvemos a lanzar la moneda otras 100 veces seguramente obtendremos otro valor distinto, así que si seguimos este método estaremos trabajando con una probabilidad grande de cometer  error de tipo I: rechazar una hipótesis que era verdadera. Lo que se hace en contrastes de hipótesis es trabajar siempre con intervalos aceptables de valores, no con valores puntuales; por ejemplo, ¿en qué intervalo de valores esperamos encontrar el número de caras X, en n = 100 lanzamientos, con una probabilidad del 95%? Calculamos el intervalo [a, b] tal que  P(a <= X  <= b) = 0.95; siendo n bastante grande, el cálculo se simplifica aproximando la binomial por una distribución normal, concretamente aplicamos el siguiente resultado:

Teorema 1: Si H0 es cierta, y n es grande, entonces el estadístico de contraste

Z=frac{p'-p}{sqrt{displaystylefrac{pleft(1-pright)}n}}

sigue una distribución de probabilidad Normal estándard.

O sea que para nuestra moneda tendremos

Z=frac{0.52-0.5}{sqrt{displaystylefrac{0.5left(1-0.5right)}{100}}}=frac25=0.4

¿Entre qué valores esperamos que Z esté, con una probabilidad del 95%, siendo Z una variable normal estándar? Consultando las tablas de la Normal encontramos que P(-1.96 < Z < 1.96) = 0.95. Vemos que el valor obtenido del estadístico de contraste, Z = 0.4,  cae dentro de este intervalo, por tanto "todo cuadra", es lo que esperábamos al suponer H0 cierta, por lo que concluimos que, efectivamente, la moneda es simétrica.

Intervalos de aceptación de H0 y H1, p-valor

En el ejemplo 1, el intervalo que hemos obtenido, [-1.96, 1.96], se llama intervalo de aceptación de la hipótesis H0. En seguida deducimos que existe otro intervalo de aceptación de la hipótesis alternativa, que será el complementario: left(-infty,-1.96right)cupleft(1.96,+inftyright), es el intervalo de aceptación de la hipótesis H1. Decidir con qué hipótesis nos quedamos, con H0 o H1, es simplemente ver en cual de estos dos intervalos "cae" el estadístico de contraste.

Claro que estos intervalos son bastante arbitrarios: en el ejemplo 1 lo hemos obtenido a partir de una probabilidad del 95%: el estadístico de contraste Z, debe de estar en [-1.96, 1.96] en un 95% de los casos, siempre que la hipótesis H0 sea cierta; pero, ¿por qué 95%, y no 80%, 70% o 100%? En la siguiente tabla vemos otras elecciones para la probabilidad, su intervalo de aceptación de H0, y la conclusión obtenida al comparar el estadístico de contraste Z = 0.4 con el intervalo:

Probabilidad intervalo aceptación H0   Conclusión
100,00% -∞ +∞ H0 cierta
99,00% -2,5758293035 2,5758293035 H0 cierta
95,00% -1,9599639845 1,9599639845 H0 cierta
90,00% -1,644853627 1,644853627 H0 cierta
80,00% -1,2815515655 1,2815515655 H0 cierta
70,00% -1,0364333895 1,0364333895 H0 cierta
60,00% -0,8416212336 0,8416212336 H0 cierta
50,00% -0,6744897502 0,6744897502 H0 cierta
40,00% -0,5244005127 0,5244005127 H0 cierta
30,00% -0,3853204664 0,3853204664 H0 falsa
20,00% -0,2533471031 0,2533471031 H0 falsa
10,00% -0,1256613469 0,1256613469 H0 falsa
0,00% 0 0 H0 falsa

Sea cual sea la probabilidad escogida, se le llama nivel de confianza del contraste, y se le denota por (1 - α); la probabilidad α también tiene nombre: es el nivel de significación del contraste. Así, en el ejemplo 1 hemos elegido un nivel de confianza del 95%, o equivalentemente, un nivel de significación del 5%.

Recordemos que en todo contraste, al decidir con qué hipótesis nos quedamos, podemos cometer errores, de tipo I o II; el error de tipo I, rechazar H0 cuando era cierta, sería el caso de haber obtenido con una moneda simétrica, por ejemplo, 60 caras en 100 lanzamientos, ya que en este caso obtenemos un estadístico Z = 2, que cae fuera del intervalo de aceptación de H0, [-1.96, 1.96]. Es difícil que esto ocurra, pero no imposible: la probabilidad de obtener un Z fuera del intervalo [-1.96, 1.96] es precisamente del 5%, el nivel de significación, y al mismo tiempo, es ésta la probabilidad de cometer el error de tipo I:

El nivel de significación α es la probabilidad de cometer, en un contraste, el error de tipo I

 Así pues, al escoger la probabilidad (1 - α) del intervalo de aceptación, al mismo tiempo estamos escogiendo con que probabilidad vamos a cometer el error de tipo I. Evidentemente, queremos que sea baja, por lo que los valores de la tabla 0%, 10%, etc para (1 - α) quedan descartados. En la práctica suelen usarse de forma estándar niveles de confianza del 90%, 95% o 99%, equivalentes a niveles de significación de 10%, 5% o 1%. ¿Y por qué no tomamos (1 - α) con lo cual α = 0 y seguro que no cometemos error de tipo I? En la tabla vemos que el intervalo de aceptación de H0 es toda la recta real: sea cual sea el valor del estadístico Z aceptaremos H0: el contraste no hace nada, siempre responde lo mismo, que H0 es cierta, !incluso siendo falsa!. Si lo queremos de otro modo:

Al reducir mucho la probabilidad α de cometer error de tipo I, aumentamos mucho la probabilidad β de cometer error de tipo II.

Dada esta arbitrariedad de elección del nivel de confianza (o del de significación), es útil otra forma alternativa de decidir entre H0 y H1, que consiste en, dado el estadístico z, y la variable aleatoria Z de la población, calcular la probabilidad P(Z > z) = P(z < Z < +∞). Esperamos que esta probabilidad no sea "demasiado pequeña" para aceptar H0, concretamente la comparamos con los niveles de significación habituales, 10%, 5% o 1%. A la probabilidad P(Z > z) se la conoce con el nombre de p-valor del contraste asociado al estadístico Z, o simplemente, el p-valor.

Ejemplo 2: siguiendo con el caso de la moneda, el p-valor correspondiente a z = 0.4 es P(Z > 0.4)  = 0.3446 = p-valor, o expresado en %, es de 34,46%; comparando con los niveles 10%, 5% o 1% vemos que es mayor que todos ellos, así que aceptamos H0 tanto para la significación 10% como para  5% o 1%.

En la realidad sucede a menudo que no está tan claro si aceptar H0 o no, pues depende del nivel de significación finalmente elegido. Por ejemplo, si en el lanzamiento n = 100 veces de la moneda hubiéramos obtenido 60 caras, con lo cual es estadístico z = 2, y el p-valor = 0.0227, o 2.27%, es un valor pequeño, menor que α = 10% o α =5%, pero mayor que α = 1%; entonces, ¿qué decidimos? Diríamos: con unas probabilidades de cometer error I del 10% o del 5%, rechazamos que la moneda sea simétrica, pero con una probabilidad de cometer error I de sólo 1%, lo aceptamos. Todo depende de hasta que punto queramos evitar caer en el error de tipo I: rechazar H0 cuando era cierta.

El p-valor nos informa de la probabilidad de cometer error de tipo I en el contraste: para significaciones α > p-valor, aceptamos H1, para α < p-valor, aceptamos H0.

Contrastes unilaterales y bilaterales

Volvamos al ejemplo de los dulces, sus pesos tienen una media de 20gr y según el fabricante sólo uno de cada 100 se desvía de ese peso más de 1gr. El comprador quiere saber cómo proceder, en una muestra de tamaño n = 30, para decidir si la compra es aceptable o bien si ha de reclamar. Además, nos dice que no le preocupa que el peso real esté por encima de la media ya que en ese caso estará comprando más barato, tendrá más dulce por el mismo precio, lo que le preocupa es pagar por dulces a los que les falte peso para llegar a la media.

En seguida planteamos las hipótesis que darán respuesta al problema planteado:

  • H0: El peso de los dulces, que tiene una distribución de probabilidad normal, tiene una media de al menos 20gr,
  • H1: El peso de los dulces no llega a los 20gr, o bien la distribución real del peso no sigue una distribución normal

Hemos supuesto que la distribución teórica del peso de los dulces es normal, pues así suele suceder. Cuando en la hipótesis de trabajo H0 planteamos una desigualdad respecto a la media, como ahora que hacemos media 20, diremos que hacemos un contraste unilateral, mientras que si trabajamos con una igualdad, como en el caso de la moneda simétrica en el que suponíamos que p = 1/2, es un contraste bilateral.

  • H_0:;mu=mu_0 contraste bilateral
  • H_0:;mugeqmu_0,;H_0:;muleqmu_0 contraste unilateral a la derecha o a la izquierda, respectivamente

Simbólicamente escribimos:

begin{array}{l}left.begin{array}{r}H_0:;;mugeq20\H_1:;mu<20end{array}right}\;end{array}

También tenemos contrastes unilaterales cuando H0 es una igualdad, pero H1 es una desigualdad estricta:

begin{array}{l}left.begin{array}{r}H_0:;;mu=mu_0\H_1:;muneqmu_0end{array}right},left.begin{array}{r}H_0:;;mu=mu_0\H_1:;mu>mu_0end{array}right},;left.begin{array}{r}H_0:;;mu=mu_0\H_1:;mu<mu_0end{array}right}\;end{array}

El primer contraste es bilateral, los otros dos son unilaterales a la derecha o a la izquierda, respectivamente. Aunque no hay unanimidad la corriente mayoritaria considera, por motivos formales, que lo correcto es mantener la igualdad en la hipótesis H0 y en todo caso manejar desigualdades en la hipótesis H1. Siguiendo este convenio, el contraste sobre los dulces quedaría:

begin{array}{l}left.begin{array}{r}H_0:;;mu=20\H_1:;mu<20end{array}right}\;end{array}

entendiendo que si aceptamos H0 significa que el peso es como mínimo de 20gr, ya que se ha rechazado la hipótesis alternativa.

En la práctica el que el contraste sea bilateral o unilateral afecta a los intervalos de aceptación de H0 y H1. Resolvamos ahora el problema del control de calidad a la recepción de los dulces.

Ejemplo 3: Un comprador de dulces al por mayor quiere saber, al tomar una muestra de n = 20 dulces, qué criterio ha de seguir para saber si aceptar o rechazar la compra, con una probabilidad de error tipo I del 10%, suponiendo que los pesos de los dulces siguen una distribución normal de media 20gr.

Ya sabemos que la forma del contraste será

begin{array}{l}left.begin{array}{r}H_0:;;mu=20\H_1:;mu<20end{array}right}\;end{array}

Para calcular el estadístico de contraste en este caso particular necesitamos el siguiente resultado:

Teorema 2: Si la población es normal y H0 es cierta, sabemos la media μ de la población pero desconocemos su desviación típica σ, entonces el estadístico

T=frac{overline x-mu}{s/sqrt n}

es una variable aleatoria que sigue una distribución de probabilidad t-Student con n-1 grados de libertad, siendo s la desviación típica de la muestra.

Conocemos la media y el valor de n, así que:

T=frac{overline x-20}{s/sqrt{20}}

Para aceptar H0 con una significación de α = 10%, el intervalo de aceptación de H0 ha de "abarcar" un 100% - 10% = 90% de probabilidad, y el de H1 el 10% restante. Pero siendo que sólo nos interesa el caso mu<20 para H1, no consideraremos que valores grandes de la media afecten a H1, en otras palabras, el intervalo de aceptación de H1 ha de ser del tipo (-∞, t), siendo t un valor tal que P(-∞ < T < t) = 0.1. Este valor, buscado en las tablas de la distribución t-Student, resulta ser t = -1.328, con lo cual el intervalo de aceptación de H1 es (-∞, -1.328) y  el de H0 será [-1.328, +∞). Para aceptar H0 por tanto debe de cumplirse que

T=frac{overline x-20}{s/sqrt{20}}inlbrack-1.328,+infty)Leftrightarrowfrac{overline x-20}{s/sqrt{20}}geq-1.328Rightarrowboxed{frac{overline x-20}sgeqfrac{-1.328}{sqrt{20}}}

Así que nuestra recomendación al comprador de dulces será:

"Calcule usted la media overline x y la desviación típica s de la muestra de 20 dulces, y sustituya esos valores en la expresión frac{overline x-20}s; si le resulta un valor mayor o igual a -0.2969, acepte la compra, de lo contrario, podrá reclamar al fabricante, con una probabilidad del 10% de error de equivocarse al hacerlo."

Supongamos que nos hace caso y le resulta overline x=19.5, s = 1.1; entonces resultará frac{19.9-20}{1.1}=-0.09;> -0.2969 y le recomendamos aceptar el pedido.

Ejemplo 4: El comprador de dulces se da cuenta de que no ha usado una información importante: el fabricante afirma que sólo uno de cada 100 dulces se desvía de ese peso más de 1gr; con este dato podemos estimar cual es la desviación típica de la población, y afinar más el contraste. La afirmación equivale a decir que P(20 - 1 < X < 20 + 1) = 99/100, siendo la población normal, podemos hacer un cambio de variable para convertirla en normal estándar Z=frac{X-mu}sigma:

Pleft(19<X<21right)=P(frac{19-20}sigma<Z<frac{21-20}sigma)=Pleft(frac{-1}sigma<Z<frac{1}sigmaright)=0.99

Mirando en las tablas de la normal estándar vemos que para que se cumpla la desigualdad anterior ha de ser frac1sigma=2.576Leftrightarrowsigma=0.3882. Para utilizar esta información sobre la población en el contraste necesitamos otra propiedad matemática:

Teorema 3: Si la población es normal y H0 es cierta, sabemos la media μ de la población y su desviación típica σ, entonces el estadístico

z=frac{overline x-mu}{sigma/sqrt n}

es una variable aleatoria que sigue una distribución normal estándard.

Calculamos el valor del estadístico: z=frac{19.9-20}{0.3882/sqrt{20}}=-1.15. Buscamos en las tablas de la normal estándar la probabilidad P(Z > z), que es, según hemos definido, el p-valor, y resulta ser p = 0.12507, la situación se representa en la figura

Intervalos de aceptación de H0 y H1 según el p-valor
Intervalos de aceptación de H0 y H1 según el p-valor

Entonces, para una significación de 0.01 < p-valor, concluimos que no rechazamos H0, la conclusión no ha cambiado respecto al ejemplo anterior.  Si en vez de usar el p-valor usamos el método de buscar en las tablas el intervalo de aceptación de H0, tendremos que encontrar un z tal que P(Z > z) = 0.90 que resulta ser -1.282, el intervalo de aceptación de H0 es [-1.282, +∞), como z = -1.15 cae dentro del intervalo, aceptamos H0.

Potencia de un contraste

Si comparamos los intervalo para H0 de los eje del ejemplos 3 y 4, que son   [-1.328, +∞) y [-1.282, +∞), vemos que el ejemplo 4 es algo más estrecho; por ejemplo, para un valor del estadístico de contraste de -1.3, en el ejemplo 3 aceptaríamos H0 pero en el ejemplo 4 no. Siendo que en los dos ejemplos la significación es la misma, del 10% (que recordemos que es la probabilidad de cometer error de tipo I), ¿porqué hay esta diferencia?

Recordemos que el error de tipo II es: aceptar H0 cuando realmente es falsa; diremos que, a igualdad de significación, un contraste es más potente que otro, si tiene menor probabilidad beta de cometer el error de tipo II. Lo que sucede con los ejemplos 3 y 4 es que el contraste de este último es más potente que el del primero; esto es así porque en el ejemplo 4 usamos más información que en el 3: sabemos la desviación típica de la población. En general, interesa maximizar la potencia del contraste a utilizar, usando toda la información disponible.

Otros contrastes de hipótesis

En los ejemplos anteriores hemos visto como se contrasta el valor de la media (el peso medio de los dulces) y el de la proporción (en el problema de la moneda y las caras y cruces). Otros contrastes de hipótesis decidirán sobre otros parámetros: sobre la varianza, sobre la diferencia de medias entre dos poblaciones, o la diferencia de proporciones.

Ejemplo 5: Nuestro comprador de dulces decide probar con otro fabricante que asegura que sus dulces tienen un peso medio de 22gr con una desviación típica de 1.3gr. La pregunta que nos hace es: ¿con base a una muestra de n_1 = 20, n_2 = 20 dulces del fabricante 1 y del fabricante 2, cómo puedo estar seguro de que efectivamente el fabricante 2 produce dulces con un peso 2gr superior al fabricante 1, con un 10% de posibilidad de error tipo I?

Formalmente, suponiendo que los pesos de las dos poblaciones de dulces de los dos fabricantes siguen una distribución de probabilidad normal, el contraste se establece como sigue:

  • H0: no hay diferencias entre los pesos medios, mu_1=mu_2
  • H1: mu_1>mu_2

Para cada tipo de contraste se necesita un teorema que nos proporcione el estadístico de contraste a utilizar, tal como hemos visto en los ejemplos anteriores; para esta comparación de medias de dos poblaciones normales con desviaciones típicas conocidas usaríamos:

x=frac{left(overline{x_1}-overline{x_2}right)-d_0}{sqrt{displaystylefrac{sigma_1^2+sigma_2^2}{n_1+n_2}}}

Contrastes no paramétricos

En muchos casos prácticos interesa formular hipótesis estadísticas en las que no tenemos conocimiento teórico de la población (no tenemos sus parámetros); por ejemplo, queremos comparar las calificaciones obtenidas en una prueba de idiomas por los alumnos antes y después de un viaje a Inglaterra, para saber si ha surtido algún efecto, la muestra es:

Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5
Antes viaje 7,25 8,00 6,00 8,00 9,00
Después viaje 8,25 7,82 6,36 9,69 8,59

A simple vista parece que sí que ha surtido efecto, pero queremos saber si las diferencias observadas son estadísticamente significativas y que no sean producto del azar. Si no podemos suponer normalidad en la variable, necesitamos aplicar un contraste no paramétrico, por ejemplo uno muy sencillo es el de los signos: observamos los signos de las diferencias entre notas:

Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5
Antes viaje 7,25 8,00 6,00 8,00 9,00
Después viaje 8,25 7,82 6,36 9,69 8,59
Diferéncia 1 -0,18 0,36 1,69 -0,41
Signo + - + + -

Establecemos el contraste:

  • H0: no hay diferencias en las calificaciones obtenidas en la prueba de idiomas de los alumnos antes y después del viaje a Inglaterra
  • H1: sí hay diferencias en las calificaciones obtenidas en la prueba de idiomas de los alumnos antes y después del viaje a Inglaterra

 

Si H0 es cierta, esperaríamos que los signos de las diferéncias fueran por igual positivos que negativos, la proporción para ambos ha de ser 1/2 ; tenemos 3 positivos y 2 negativos.

Estadística -> Estadística Aplicada -> Análisis Multivariante

En esta entrada sólo pretendemos dar una introducción breve a un tema extenso y complejo como es el análisis estadístico multivariante, y lo haremos de forma constructiva, partiendo de un ejemplo simple pero real que iremos desarrollando. No se incluyen demostraciones matemáticas, sólo nos centramos en el "para qué sirve?" y en el "cómo se hace?". Espero que sea de utilidad para los estudiantes no especialistas en Estadística que necesitan tener las ideas claras en esta materia sin perderse en detalles técnicos. En este primer artículo sólo introducimos conceptos, y luego aplicamos dos técnicas relacionadas con la simplificación y reducción de datos: componentes principales y factores; en un segundo artículo trataremos de la otra posibilidad del análisis multivariante: la detección de grupos y clasificación de los individuos.

Contenidos:

  1. Análisis Multivariante: ¿para qué sirve?
  2. Reducir el número de variables: análisis de componentes principales
  3. Reducir el número de variables: análisis factorial

separador2

Análisis Multivariante: ¿para qué sirve?

En los estudios estadísticos de casos reales es frecuente encontrarse con que tenemos que manejar no sólo muchos datos, sino también muchas variables; el tener un gran número de variables dificulta la comprensión del problema así como la interpretación de los resultados estadísticos. En el siguiente ejemplo vemos un caso multivariante típico:

Ejemplo 1: En un centro educativo han estado experimentando en los tres últimos cursos académicos con una nueva técnica pedagógica, que se ha aplicado a cinco grupos distintos de alumnos de bachillerato en distintas asignaturas, un total de 125 alumnos. Se quiere realizar un estudio estadístico para averiguar hasta qué punto la nueva técnica ha sido efectiva en términos no sólo de mejora de calificaciones, si no también de otras variables como la participación activa del alumno en la clase, la mejora de habilidades atencionales y de estudio, y la satisfacción en general del alumno en la clase. Además, se considera importante tener en cuenta en el estudio otras variables que pueden condicionarlo, como por ejemplo la edad, la clase social, la asignatura en la que se utilizó la técnica, el nivel de estudios de los padres, y el profesor que la aplicó. Para comparar resultados, se toman también los datos de otros 125 alumnos con los que no se aplicó la nueva técnica. Se trabajará por tanto con una muestra de 250 alumnos y 11 variables. A continuación se muestran las primeras filas de esta tabla, que puede descargarse de aquí.

TEC CAL PAR ATE EST SAT EDAD CLA ASIG PROF ESTP
0 1 0 1 0 3 16 0 2 3 0
0 1 0 1 0 1 17 0 3 5 0
0 1 0 0 1 7 18 2 2 4 3
0 2 1 1 0 2 19 2 3 5 0
0 2 0 1 2 5 18 2 1 1 0

Los significados de cada variable son:

TEC 1: aplicamos nueva técnica, 0: no lo hacemos
CAL Calificación obtenida
PAR Medida de la participación activa en clase
ATE Medida de la atención en clase
EST Medida de las técnicas de estudio personales
SAT Medida de la satisfacción en clase
EDAD Edad del alumno
CLA Clase social: 0 baja, 1 media, 2 alta
ASIG Asignatura en la que se aplicó la técnica: 1 MAT, 2 CIENCIAS, 3 HISTORIA
PROF Profesor que la aplicó, valores 1,2 (MAT), 3,4 (CIENC), 5 (HIST)
ESTP Nivel de estudios padres: 0 sin estudios, 1 básicos, 2 medios, 3 superiores

Sucede a menudo que las variables consideradas no son independientes entre si, al contrario, hay relaciones entre ellas. También a menudo se pueden clasificar los individuos estudiados (los estudiantes en el ejemplo 1) en grupos homogéneos, y realizar un estudio detallado para cada grupo: en el ejemplo 1 podríamos descubrir que agrupando los alumnos según el profesor que aplicó la técnica hay grandes diferencias entre los grupos y resultados parecidos dentro de los grupos. De todo este análisis se ocupan los métodos multivariantes, concretamente lo que hacen es:

  1. investigar si las variables tienen relaciones entre ellas;
  2. dado un gran número de variables, posiblemente relacionadas entre ellas, reducirlas a un número menor de variables, mostrando las posibles relaciones entre las variables originales, para así simplificar el problema y poder sacar conclusiones;
  3. dado un conjunto de datos individuales, asociados con ciertas variables, formar grupos de individuos parecidos usando las variables para clasificarlos.

Veamos a continuación ejemplos y técnicas para estas aplicaciones.

Reducir el número de variables: análisis de componentes principales

Usaremos el método de análisis de componentes principales; una vez cargados los datos en el entorno R, accedemos a Estadísticos -> Análisis dimensional -> análisis de componentes principales. Seleccionamos todas las variables y en Opciones marcamos "Añadir componentes principales al conjunto de datos"; cuando nos pregunta cuantos componentes vamos a incluir, estamos diciendo a cuantas variables queremos reducir las 11 originales, pondremos 3 (idealmente reduciremos a 4 como máximo, para que los datos sean manejables), y aceptamos. R efectúa el análisis y nos proporciona este informe:

multivariant1
Fig. 1: Componentes principales: coeficientes de las combinaciones

R siempre generará tantos componentes principales como variables originales, 11 en este caso. En la figura 1 no se muestran las columnas 4, 5, ... 11, pues nos interesa estudiar sólo 3. Lo que ha hecho R es crear nuevas variables Comp.1, Comp.2, ..., por combinación lineal de las originales, siendo los coeficientes de las combinaciones los que vemos en la figura 1. O sea que se cumple que:

Comp.1;=;0.06cdot ASIG;-;0.453cdot ATE;-;0.558cdot CAL;+;...;-;0.187cdot TEC

Para el componente principal 2:

Comp.2;=;-0.686cdot ASIG;-;0.012cdot ATE;+;0.029cdot CAL;+;...;;+0.264cdot TEC

etc. En el mismo informe de R encontramos esta otra sección:

Fig. 2: importancia de cada componente principal
Fig. 2: importancia de cada componente principal

Nos fijamos en la fila Cumulative Proportion: nos da la "representatividad" acumulada de las nuevas variables, en tanto por uno; vemos que tomando los tres primeras componentes quedan representados en un 0.50 todas las variables, o en un 50%, por tanto si pasamos de 11 a tres variables perdemos la mitad de la información. Parece una pérdida importante ... si cogemos más componentes principales, perdemos menos información, pero ampliamos de nuevo el número de variables, por ejemplo ampliando a 5 llegamos al 69% de representatividad, con 6 llegamos al 77% y con 7 componentes cubrimos hasta el 85% de la información original, pero la reducción de número de variables es ya escasa:

Fig. 3: ampliando el número de componentes con los que trabajar
Fig. 3: ampliando el número de componentes con los que trabajar

La elección del número de componentes principales con los que trabajar es una elección del experimentador; los problemas "de clase" suelen venir preparados de forma que con pocos componentes principales, 2 o 3, se resumen bien los datos, pero en los problemas reales no suele ser tan evidente.

Para saber cómo se relacionan las nuevas variables con las originales podemos usar la matriz de correlaciones entre pares de variables: en R haremos Estadísticos -> Resúmenes -> Matriz de correlación, escogemos todas las variables, y marcamos la opción Parejas de datos. En la matriz de correlaciones resultante nos fijamos en la columna correspondiente al componente principal PC1, para el cual las correlaciones son:

PC1
ASIG 0.009634422
ATE -0.690929281
CAL -0.8508779590
CLA 0.0891672163
EDAD 0.233171700
EST -0.67173527
ESTP 0.093915413
PAR -0.712555990
PC1 1.000000e+00
PC2 1.006389e-17
PC3 -5.316147e-17
PROF 0.006182726
SAT -0.120799459
TEC -0.28527228

Analizemos estas correlaciones: vemos que PC1 está fuertemente correlacionada (más de un 0,5 por uno, o 50%) con las variables ATE (Medida de la atención en clase, valor negativo), CAL (Calificación obtenida, valor negativo, es la correlación más fuerte), EST (Medida de las técnicas de estudio personales, valor negativo) y PAR (Medida de la participación activa en clase, valor negativo), débilmente correlacionada (entre 10-50%) con EDAD (valor positivo), SAT (Medida de la satisfacción en clase, valor negativo) y TEC (1: aplicamos nueva técnica, 0: no lo hacemos, con valores negativos), y prácticamente nada con las demás.

Los valores negativos de correlación indican que si aumentan esas variables disminuye PC1, y viceversa. A la vista de estas correlaciones podemos interpretar que los valores reducidos de PC1 se consiguen sobre todo con valores altos de atención en clase, técnicas de estudio personales y participación activa en clase, y más marginalmente con la elevada satisfacción en clase y la aplicación de la nueva técnica de estudio, de forma que podemos relacionar valores altos de PC1 con la la falta de buenos hábitos (atención en clase, técnicas de estudio, participación activa)  y bajas calificaciones; la edad tiene signo contrario. a más edad más valor de PC1, y peores resultados. Hay que recordar que PC1 sólo recoge un 21% de la información original (figura 2). Si tuviéramos que dar un nombre a PC1, podría ser "altas calificaciones y buenos hábitos de estudio". El mismo análisis se haría para los componentes PC2 y PC3: PC2 tiene un -0.97 de correlación con la variable ASIG (asignatura) y con las demás variables casi es nula, por tanto PC2 viene a representar a ASIG. En cuanto a PC3 tiene -0.65 con ESTP (nivel de estudios padres) y 0.38 con CLA (clase social), o sea que se relaciona con la familia del estudiante.

Recordar que este método produce variables (los componentes principales) que, a diferencia de las variables originales, no estan correlacionadas entre sí; por ejemplo, el diagrama de dispersión de PC1-PC2 no muestra ninguna tendencia:

Fig. 5: de diagrama de dispersión de dos componentes principales cualesquiera no mostrará ninguna relación
Fig. 4: de diagrama de dispersión de dos componentes principales cualesquiera no mostrará ninguna relación

Hemos podido realizar este diagrama de dispersión gracias a haber seleccionado la opción  , que añade a la hoja de datos original las nuevas variables como columnas adicionales.

Fig. 5: R añade 3 nuevas columnas a la hoja de datos, son los componentes principales elegidos por el usuario
Fig. 5: R añade 3 nuevas columnas a la hoja de datos, son los componentes principales elegidos por el usuario

Como conclusión de este estudio con componentes principales podemos decir:

la nueva técnica de enseñanza sí que parece tener cierta influencia, pues su variable asociada está incluida en el componente PC1 de "buenas prácticas y buenas calificaciones", aunque su efecto parece ser menor (29% de correlación) en comparación a las otras buenas prácticas: atención en clase, etc. Por otro lado la asignatura donde se ha probado el método, que es el componente PC2, no tiene ninguna relación (no hay correlación) con PC1, esto es bueno, nos dice que en cualquier asignatura las "buenas prácticas" tienen los mismos efectos. Lo mismo podemos decir del entorno familiar, representado por PC3.

Reducir el número de variables: análisis factorial

El análisis factorial es otra técnica diseñada para reducir el número de variables, creando unas de nuevas, llamadas factores, por combinación lineales de las originales, que intentan mostrar condiciones que directamente no son fácilmente reconocibles. El software estadístico de análisis factorial permite realizar las llamadas "rotaciones" de variables, una transformación matemática que pretende simplificar al máximo la nueva descripción de variables. Los resultados no son los mismos que usando componentes principales, pues el método matemático es distinto.

En R, vamos a Estadísticos -> Análisis dimensional -> Análisis factorial, y escogemos todas las variables originales del problema. Nos pregunta el número de factores a retener, probamos con 3. El resultado es este resumen:

Uniquenesses:
 ASIG   ATE   CAL   CLA  EDAD   EST  ESTP   PAR  PROF   SAT   TEC 
0.077 0.541 0.262 0.983 0.952 0.722 0.986 0.293 0.005 0.995 0.956 

Loadings:
     Factor1 Factor2 Factor3
ASIG  0.961                 
ATE           0.672         
CAL           0.769   0.381 
CLA                  -0.116 
EDAD                 -0.198 
EST           0.456   0.258 
ESTP                        
PAR           0.289   0.789 
PROF  0.997                 
SAT                         
TEC                   0.158 

               Factor1 Factor2 Factor3
SS loadings      1.947   1.356   0.925
Proportion Var   0.177   0.123   0.084
Cumulative Var   0.177   0.300   0.384

Test of the hypothesis that 3 factors are sufficient.
The chi square statistic is 22.73 on 25 degrees of freedom.
The p-value is 0.593

Nos proporciona los coeficientes de las combinaciones lineales para cada factor (tabla Loadings) que siempre están en el intervalo [-1, 1], la variabilidad explicada por cada factor, la acumulada (para los tres factores sumados tenemos un 38.4% de variabilidad explicada) y un contraste de hipótesis Chi² donde H0: los tres factores son suficientes, H1: no lo son. Vemos que el resultado del contraste es que el p-valor = 0.593, lo que significa que, para los niveles de significación estándar de aceptación de H0,  10%, 5% y 1%, aceptamos H0 (recordemos que H0 se acepta si la significación es menor que el p-valor). Si se hubiera rechazado la hipótesis nula, hubiéramos repetido el análisis con un factor más.

También, para las conclusiones, podemos mirar los datos denominados "Uniquenesses": nos da la proporción de variabilidad no explicada por los factores de la variable en cuestión. Por ejemplo, para la variable ASIG es de 0.077, un 7.7% no explicada por los factores, o sea que está bien resumida con los tres factores. En cambio para CLA vale más del 90%, por lo cual los factores no informan bien de esta variable. También los coeficientes (en valor absoluto) de las combinaciones lineales nos informan de la importancia de cada variable en la composición del factor: entre 0% y 100%; por ello hemos destacado en negrita los coeficientes más importantes (más del 50%).

Así pues, resumimos las 11 variables por tres factores, con la siguiente composición:

  • F1 = 0.961· ASIG + 0.997·PROF; este factor considera la asignatura y el profesor que la imparte como un factor importante en el estudio.
  • F2 = 0.672·ATE + 0.769·CAL + 0.456·EST + 0.289·PAR;este segundo factor tiene en cuenta la atención en clase, la calificación, las técnicas de estudio y la participación activa en clase, de forma parecida al componente principal PC1 del apartado anterior.
  • F3 = 0.381·CAL - 0.116·CLA - 0.198·EDAD + 0.258·EST + 0.789·PAR + 0.158·TEC; el tercer factor considera la relación entre calificación, clase social, edad, técnicas de estudio, participación activa en clase y la aplicación de la nueva técnica de estudio, en éste último caso con un peso más bien bajo, 0.158.

Las conclusiones que podemos obtener son:

en este análisis la variable TEC que estudiamos no parece desempeñar ningún papel, sólo entra en el factor 3 con un peso del 15.8%, y además queda no explicada en un 95.6% (Uniquenesses). Las variables relacionadas que tienen más peso son CAL y ATE en el factor 2, lo que sugiere que la atención en clase es la variable mas correlacionada con la calificación obtenida; en el factor 3 la variable dominante es PAR, participación activa, que tiene una relación más bien débil con la calificación (38.1%) y aún más débil con las otras variables.

 

Estadística descriptiva, análisis de datos

  • Estadística: concepto, contenido, aplicaciones
  • Concepto de población, muestra, individuo y variable estadística
  • Clasificación de las variables estadísticas
  • Distribución de frecuencias. representaciones gráficas
  • Agrupación de datos en intervalos
  • Estadísticos muestrales

separador2

Estadística: concepto, contenido, aplicaciones

Fenómenos y experimentos deterministas y aleatorios.

Los fenómenos y experimentos en los que hay definidos una causa y su efecto de forma determinista pueden, en principio, ser formulados con ecuaciones matemáticas exactas:

  • F = ma Ley de Newton: dada una fuerza F y una masa m, determinamos su aceleración a.
  • V = IR Ley de Ohm: dado un potencial V y una resistencia R, determinamos la intensidad de corriente I
  • PV = nRT Ley de los gases perfectos: dadas la presión P, la temperatura T y el número de moles n de un gas, determinamos el volumen V del gas
  • Etc...

En la realidad se presenta una variabilidad no predecible que da lugar a los fenómenos y experimentos con cierto grado de aleatoriedad:

  • F = ma + E, donde E es el error experimental, variable en cada repetición del experimento, aleatorio, indeterminado a priori
  • Lanzamiento de un dado (condiciones iniciales no controlables)
  • Encuesta de opinión sobre una población (componente psicológico aleatorio)
  • Electrón que pasa a través de una barrera de potencial (incertidumbre cuántica)

En los ejemplos anteriores el grado de aleatoriedad no es el mismo: en el primer ejemplo tenemos un comportamiento en principio exacto y determinado, F = ma, sólo que debido a errores de medición, de preparación del experimento, humanos, etc, los resultados realmente obtenidos no coinciden con la teoría: es el error experimental, que idealmente tiende a cero. En los ejemplos del dado y de la encuesta de opinión no conocemos ninguna ecuación que nos permita hacer predicciones, aunque quizá existan, pero son desconocidas, por tanto son experimentos totalmente aleatorios. El último ejemplo es distinto, la aleatoriedad es intrínseca al electrón, no puede haber ninguna ley determinista por la propia naturaleza del experimento.

Estadística: objeto

La Estadística estudia los fenómenos aleatorios, midiendo las fuentes de variabilidad y permitiendo hacer predicciones sobre el comportamiento de un experimento aleatorio.

Aplicaciones de la Estadística

Estadística descriptiva: a partir de los resultados de un número de repeticiones de un experimento aleatorio, obtenemos una descripción numérica resumida (parámetros estadísticos) y unos gráficos descriptivos.

Resumir datos: parámetros y gráficos estadísticos
Resumir datos: parámetros y gráficos estadísticos

Estadística matemática: utiliza la teoría de la probabilidad y las herramientas del análisis matemático para elaborar modelos matemáticos probabilistas que describen el comportamiento del fenómeno aleatorio en estudio.

Inferencia estadística: a partir de un número limitado de experimentos aleatorios elabora una estimación del comportamiento del fenómeno en general. Por ejemplo, sabiendo, por datos históricos, que el número medio de accidentes laborales en un año en cierto polígono industrial es de 3 accidentes, calcular la probabilidad de que ocurra al menos un accidente antes del mes de junio del año actual.

De los datos experimentales a las predicciones
De los datos experimentales a las predicciones

Control de calidad y de fiabilidad: utilizando una muestra de la producción, realiza inferencia sobre las calidad de toda la producción siguiendo un conjunto estándar de normas.

Fases de un trabajo estadístico

Típicamente, en un estudio estadístico pasamos por las siguientes fases de trabajo:

  1. Recogida de datos (laboratorio, encuestas, ...)
  2. Descripción, representación y análisis de los datos recogidos (Estadística Descriptiva)
  3. Cotejo de los datos con el modelo teórico adecuado (Estadística Matemática)
  4. Obtención de inferencias o conclusiones (Estadística Inferencial)

Ejemplo 1: En el estudio de siniestralidad laboral en un cierto polígono industrial se han recogido los siguientes datos históricos:

Año Accidentes
2000 4
2001 3
2002 2
2003 4
2004 3
2005 2

Obtenemos algunos parámetros y gráficos estadísticos:

Fase 1: Estadística descriptiva resumen de los datos
Fase 2: Estadística descriptiva resumen de los datos

En la siguiente fase utilizamos el modelo matemático de Poisson, que es útil para el estudio de la siniestralidad en general, para comparar los datos experimentales con los teóricos suministrados por el modelo, asegurando que el modelo teórico es válido en este caso.

Por último, podemos responder a preguntas como "calcular la probabilidad de que ocurra al menos un accidente
antes del mes de junio del año actual
" usando el modelo matemático: resulta ser del 77%.

separador2

Concepto de población, muestra, individuo y variable estadística

Población: el conjunto de todos las posibles realizaciones de un experimento aleatorio.

Ejemplo 2: Encuesta de opinión dirigida a universitarios, población: todos los universitarios. Lanzamiento de un dado, población infinita (todos los posibles lanzamientos). Estudio de calidad de un componente electrónico, población: todos los componentes fabricados en un cierto periodo de tiempo.

Muestra: subconjunto representativo de la población de un experimento aleatorio.

Ejemplo 3: Encuesta a 20 estudiantes elegidos al azar de cada universidad en la zona de estudio. Lanzamos 100 veces un dado (de las infinitas veces que podemos hacerlo, nos conformamos con 100). Estudiamos 20 unidades del componente electrónico fabricados en cierto día.

Individuo: cada elemento de la población o de la muestra (un universitario, un lanzamiento del dado, una unidad del componente electrónico)

Variable estadística: una característica numérica de la población que nos interesa estudiar

Ejemplo 4: preguntamos a cada estudiante si está de acuerdo o no con cierta ley, definimos la variable estadística asignando el valor 1 a la respuesta afirmativa y el valor 0 en la negativa. En el lanzamiento de un dado, la variable es el número de puntos obtenidos.  En el estudio del componente electrónico, la variable puede ser la resistencia eléctrica, o el tiempo de servicio hasta que queda inservible, etc.

Clasificación de las variables estadísticas

Variables discretas: el conjunto de diferentes valores que puede tomar (dominio de la variable) es finito o infinito numerable (un entero). Ejemplo: lanzamiento de un dado, con dominio {1,2,3,4,5,6}.

Variables continuas: el dominio es infinito no numerable (un intervalo de la recta real). Ejemplo: tiempo de servicio de un componente electrónico.

 separador2

Distribución de frecuencias. representaciones gráficas


En Estadística Descriptiva el conjunto de valores a estudiar siempre se representa en forma de tabla de frecuencias observadas. Los programas de estadística toman estas tablas como dato de entrada y nos devuelven parámetros y representaciones gráficas

Ejemplo 5: Sea el experimento aleatorio: lanzamiento N = 10 veces de un dado. Tipo de variable: discreta. Población infinita. Muestra con N = 10. Resultados muestrales: {3, 4, 6, 1, 5, 2, 4, 6, 6, 1}. Con ellos formamos la tabla de frecuencias sin agrupar y el histograma de frecuencias absolutas:

Ejemplo de tabla de frecuencias y su representación gráfica
Ejemplo de tabla de frecuencias y su representación gráfica

El software permite generar una gran variedad de gráficos estadísticos con facilidad, es tarea del analista escoger cuál de ellos es el más adecuado para resumir los datos del estudio y mostrar las propiedades que desea poner de manifiesto.

Opciones de tipo de gráfico en OpenOffice
Opciones de tipo de gráfico en OpenOffice

La utilidad de los gráficos estadísticos es:

  • Mostrar de forma explícita la distribución de valores de la variable, para hacernos una idea rápida de su distribución (uniforme, no uniforme, homogénea, heterogénea, máximos, mínimos, etc.)
  • Poner de manifiesto tendencias y efectos que de otra forma pueden quedar ocultos

 Ejemplo 6: uso práctico de gráficos en el control de calidad de un proceso de fabricación. En una cierta fábrica de bizcochería industrial se han recibido algunas quejas de clientes debido a que sus departamentos de calidad han detectado que en las remesas recibidas los bizcochos tienen un peso medio inferior al esperado, que es de 220 gramos con una tolerancia de ±10 gr. Para comprobarlo, se realiza una muestra aleatoria del peso en gramos del bizcocho producido que puede ser elaborado por dos máquinas diferentes (1 y 2) atendidas indistintamente por dos operarios (A y B), tomando una muestra diaria aleatoriamente de una de las máquinas y uno de los operarios (nota: realmente esto no se hace exactamente así, sólo es un ejemplo), los resultados han sido:

Dia Peso (gr) Máquina Operario
1 195,0 M2 B
2 228,5 M1 A
3 217,6 M1 B
4 207,2 M2 B
5 213,8 M2 A
6 217,6 M2 A
7 211,5 M1 A
8 202,7 M1 A
9 207,8 M1 B
10 203,1 M1 A
11 204,0 M1 B
12 215,7 M2 B
13 202,7 M1 B
14 225,6 M1 A
15 230,3 M1 B
16 216,6 M2 B
17 217,3 M1 B
18 223,3 M2 A
19 221,9 M2 A
20 220,1 M1 A

Representando todos los pesos en un histograma, en el que agrupamos los datos en las categorías [200, 205), [205, 210), [210, 215), [215, 220), [220, 225), [225, 230), [230, 235], resulta:

Histograma de datos agrupados en categorías
Histograma de datos agrupados en categorías

Las dos líneas verticales rojas representan los límites de tolerancia: vemos que efectivamente el proceso de producción está desviado a la izquierda, produce demasiadas unidades por debajo del peso mínimo establecido. Para saber cuál puede ser el orígen del problema, representamos de nuevo los datos pero esta vez separando por categorias: por máquinas y por operarios. Obtenemos:

Datos según las categorías máquinas y operarios
Datos según las categorías máquinas y operarios

Vemos que hay una diferencia acusada entre las dos máquinas, pues la M1 presenta pesos mucho más dispersos del peso medio (220 gr), y con mayor número de unidades en la gama baja de pesos. En cambio entre operarios hay pocas diferencias. En conclusión, parece que debemos revisar la máquina 1.

 separador2

Agrupación de datos en intervalos

 En el ejemplo anterior hemos visto que los datos de una variable continua (peso en gramos) es más cómodo agruparlos en intervalos de valores. Esto se hace más patente cuando aumenta el tamaño de la muestra. Supongamos que en vez de 20 pesos de bizcochos tenemos 160. Para organizar esos datos en intervalos procedemos como sigue:

  1. Hallamos el valor mínimo (redondeado), por ejemplo: 207
  2. Hallamos el valor máximo (redondeado), por ejemplo: 231
  3. calculamos el recorrido = Valor máximo valor mínimo =  231 - 207 =  24
  4. Fijamos el número de intervalos, que suele estar entre 6 y 10, por ejemplo k = 8
  5. Calculamos la anchura de cada intervalo  = recorrido / k = 24 / 8  = 3

Los intervalos (o clases) serán pues: [207, 210), [210, 213), ... [228, 231]. Entonces contamos cuantos de los datos caen en cada intervalo, formando la tabla de frecuencias:

Tabla de datos agrupados en clases, con las frecuencias absolutas y relativas

La marca de clase es simplemente el punto medio del intervalo que define a la clase. La frecuencia relativa se obtiene dividiendo la absoluta por el número N de datos. Las frecuencias acumuladas son sumas parciales de frecuencias.

separador2

Estadísticos muestrales

Un estadístico muestral, también llamado parámetro estadístico, es una función de los datos que devuelve un número, intentando resumir el conjunto de datos en un único indicador. El típico ejemplo es la media aritmética de N datos.

Estadísticos de posición

Resumen la distribución de datos muestrales dando un valor que los representa atendiendo a la posición que ocupan en la recta real. Hay de dos tipos: de posición central y de posición no central.

Estadísticos de posición central

Resumen todos los datos con un único valor que intenta ser central a todos.

Media aritmética: Si tenemos N datos x_1, ..., x_N la media aritmética es simplemente \overline x=\frac1N\sum\nolimits_{i=1}^Nx_i;  si tenemos los datos agrupados por frecuencias de forma que hay k clases, con k marcas de clase diferentes x_1, ..., x_k, con frecuencias absolutas F_1, ..., F_k y un total de N=\sum\nolimits_{i=1}^kF_i datos, la media aritmética es:

\overline x=\frac1N\sum\nolimits_{i=1}^kx_iF_i=\frac{\sum_{i=1}^kx_iF_i}{\sum_{i=1}^kF_i}

Mediana
Si ordenamos en orden creciente los datos no agrupados {x_1, ... x_N} la mediana m ocupa la posición central. Para N impar resulta ser el dato que ocupa la posición (N + 1) / 2; para N par la definimos como la media de los datos que ocupan las posiciones (N / 2) y (N / 2) +1.
Si los datos vienen agrupados en intervalos entonces usamos la fórmula de los centiles Ci (ver más bajo) con i = 50.

Moda
Es el valor que presenta la frecuencia máxima. Puede haber más de una moda (distribución de datos multimodal).

Ejemplo:  la serie de 9 datos ordenados de menor a mayor {2, 5, 6, 6, 7, 9, 9, 9, 10} tiene moda = 9 (dato con más ocurrencia), mediana = 7 (pues con 9 datos el que ocupa la posición central es el quinto dato, que es el número 7) y la media aritmética = 7 (en este caso coincide con la mediana, pero no tiene porque ser así)

De posición no central

Proporcionan valores que, ordenando los datos en orden creciente, dividen la distribución en partes iguales.

  • Cuartiles: son tres valores que hacen cuatro partes iguales
  • Deciles: son nueve valores que hacen diez partes iguales (10% de los datos)
  • Centiles o percentiles: son noventa nueve valores que hacen cien partes iguales (1% de los datos).

Evidentemente, se cumple que Primer cuartil = 25º centil, segundo cuartil = 50º centil, .... También, primer decil = 10º centil, segundo decil = 20º centil, .... Además, la Mediana = 50 centil.

Los tres quartiles dividen el rango de datos en cuatro partes iguales, con un 25% de los datos cada una
Los tres cuartiles dividen el rango de datos en cuatro partes iguales, con un 25% de los datos cada una

Con N datos no agrupados, el centil C_i es el número que ocupa la posición (iN / 100), donde 1\leq i\leq N. Con datos agrupados en intervalos usamos la formula:

C_i=L_{j-1}+\frac{{\displaystyle\frac{i\left(N-1\right)}{100}}+1-N_{j-1}}{n_j}a_j

donde:

N_{j-1}: frecuencia absoluta acumulada del intervalo anterior
L_{j-1}: extremo inferior del intervalo donde está el dato que ocupa la posición (N-1) / 100
a_j: anchura del intervalo donde está el dato que ocupa la posición (N-1) / 100
n_j: frecuencia absoluta del intervalo donde está el dato que ocupa la posición (N-1) / 100

Los percentiles pueden calcularse gráficamente usando el diagrama de frecuencias relativas acumuladas, con líneas que unen los puntos, obtenemos el denominado polígono de frecuencias acumuladas. Para encontrar digamos el percentil c_{20} hallamos la abscisa correspondiente a la ordenada Y = 20:

Polígono acumulativo de frecuencias, y obtención del percentil 20
Polígono acumulativo de frecuencias, y obtención del percentil 20

De hecho la formula que hemos dado no es más que una semejanza entre triángulos; en la figura, si nos fijamos en los dos triángulos semejantes delimitados por los puntos (200, 5%), (C, 20%), y (205, 25%) planteamos:

Triángulos semejantes en el polígono de frecuencias acumuladas
Triángulos semejantes en el polígono de frecuencias acumuladas

\frac{205-200}{25-5}=\frac{205-C}{25-20}\Rightarrow C=205-\frac5{20}5=203.8

Por tanto el percentil 20 vale 203.8. En general, la formula que se deriva del método gráfico será:

\frac{X_{sup}-X_{inf}}{Y_{sup}-Y_{inf}}=\frac{X_{sup}-C}{Y_{sup}-p}\Rightarrow C=X_{sup}-\frac{X_{sup}-X_{inf}}{Y_{sup}-Y_{inf}}\left(Y_{sup}-p\right)

donde p es es porcentaje para el que buscamos el percentil (por ejemplo, para C_{20} será p=20), C es el valor del percentil, Y_{sup} es un porcentaje superior a p,  Y_{inf} es un porcentaje inferior a p, y X_{sup}, X_{inf} los valores de abscisas correspondientes.

Al aplicar las dos formulas de percentiles, la primera que es útil para trabajar con tablas de frecuencias y la segunda para gráficas de frecuencias, encontraremos diferencias en los resultados, debido a que ninguno de los dos son métodos exactos sino aproximaciones. Esto es así debido a que un percentil C_p, en sentido estricto, es un valor de la distribución que la divide en dos partes, con el p% de valores por un lado y el 100-p%  por el otro, pero es posible que ese valor no exista realmente en la distribución, lo que tomamos es una aproximación. Además al trabajar con tablas de frecuencias en vez de con los datos originales siempre tenemos alguna pérdida de información.

Esto se aprecia fácilmente con la mediana, que equivale al percentil 50. Tomemos por ejemplo la siguiente distribución de 19  valores:

\left\{107,\;113,\;119,\;125,\;131,\;135,\;146,\;147,\;147,\;149,\;160,\;162,\;172,\;173,\;177,\;187,\;191,\;193,\;193\right\}

Siendo un número impar de valores, la mediana es el valor que ocupa la posición (N + 1) / 2 = (19 + 1) / 2 = 10, que es el valor X = 149, exactamente.

Agrupemos ahora los datos en una tabla de frecuencias, por ejemplo con cuatro intervalos:

Xinf Xsup freq. freq % F % acum
0 100 0 0 0
100 125 4 21,1 21,1
125 150 6 31,6 52,6
150 175 4 21,1 73,7
175 200 5 26,3 100,0

En amarillo se destaca el intervalo donde debe de estar la mediana, pues su frecuencia acumulada supera el 50%. Si aplicamos ahora las dos formulas aproximadas, obtenemos los valores 150 y 148 respectivamente; en este caso el valor exacto se sitúa en el punto medio entre los dos valores aproximados.

Medidas de dispersión

Indican numéricamente si los valores de los datos están agrupados en torno a la media o dispersos.

  • Recorrido = valor máximo - valor mínimo
  • Desviación media: D=\frac1N\sum\nolimits_{i=1}^n\left|x_i-\overline x\right|
  • Varianza: \sigma^2=\frac1N\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2
  • Desviación típica:
    \sigma=\sqrt{\sigma^2}=\sqrt{\frac1N\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2}
  • Coeficiente de variación (Pearson). Proporciona un valor de la dispersión independiente de las unidades. Útil para comparar dispersiones de variables diferentes: V=\sigma/\overline x

Las fórmulas de la desviación media, varianza y desviación típica han de adaptarse para trabajar con datos de tablas de frecuencias; llamando n_i a la frecuencia absoluta del valor x_i serán: D=\frac1N\sum\nolimits_{i=1}^n\left|x_i-\overline x\right|n_i, \sigma^2=\frac1N\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2n_i y \sigma=\sqrt{\sigma^2}=\sqrt{\frac1N\sum\nolimits_{i=1}^n\left(x_i-\overline x\right)^2n_i} respectivamente.

Ejemplo 8: En una panadería quieren comparar la distribución de pesos de dos de sus productos, las piezas de pan de 1Kg y las de 1/4Kg. Para ello pesan 20 piezas de cada producto, en días distintos, obteniendo estos resultados, en gramos:

Pan 1Kg (gr) 986 976 1000 965 961 987 1009 1001 961 999 1010 964 978 989 969 1007 971 997 980 982
Pan 1/4 Kg (gr) 243 238 249 233 231 243 254 250 231 249 254 233 239 244 235 253 236 248 240 241

Con la hoja de cálculo, sin agrupar los datos por frecuencias, obtenemos:

Media Mediana Varianza Desv.Tip Desv. Media Coef.Var Recorrido
Pan 1Kg (gr) 984,5 983,8 274,1 16,6 14,0 0,02 49,6
Pan 1/4 Kg (gr) 242,1 241,8 59,7 7,7 6,5 0,03 23,1

Analizando estos parámetros, vemos que:

  • la media de los dos productos está ligeramente por debajo del peso anunciado.
  • La media y la mediana son muy parecidas; esto sucede cuando la distribución de valores cumple que tanto los valores altos como los bajos tienen frecuencias parecidas, de forma simétrica respecto al valor medio.
  • Lo mismo sucede con las desviaciones típica y media, son parecidas entre sí. Además, las desviaciones son medidas absolutas que han de comparase con la media para hacerse una idea de su significado. En la barra de 1Kg la desviación típica, 16.6gr, viene a ser un 16.6·100/984.5 = 1.7%; en general, en los procesos productivos, las desviaciones han de ser lo menor posible, este valor de 1.7% puede ser aceptable para una empresa familiar, pero no serlo para un gran fabricante, pues implica un desconocimiento del peso real de cada unidad.
  • Para comparar las desviaciones entre los dos productos, usamos el coeficiente de variación, y vemos que es superior en la barra de 1/4.

Si queremos una representación gráfica, agrupamos los valores por intervalos para formar la tabla de frecuencias. Por ejemplo escogemos el número de intervalos k = 4, teniendo en cuenta los recorridos, calculamos las anchuras de los intervalos: para las barras de 1Kg será 49,6/4 = 12,4 y para las de 1/4 tenemos 24/4 = 6. Los valores mínimos son 960 y 230 respectivamente. Establecemos los siguientes intervalos: [960, 973), [973, 986), [986, 999) y [999, 1012] para las barras de 1Kg, [230, 236), [236, 242), [242, 248) y [248, 254] para las barras de 1/4. La tabla de frecuencias es:

desde hasta frecuencia desde hasta frecuencia
960 973 6 230 236 6
973 986 5 236 242 4
986 999 4 242 248 4
999 1012 5 248 254 6
0

El histograma de frecuencias absolutas, para el pan de 1Kg, con indicación del valor medio, es:

Histograma de frecuencias absolutas
Histograma de frecuencias absolutas

En este ejemplo vemos que la media aritmética no parece ser un buen representante de la distribución de pesos, simplemente es un valor central.

separador2