¡Bienvenidos!
pitagoras Tresfonsitas

La media muestral

Vamos a considerar una distribución rectángular en el intervalo (0;4).

Supondremos que esta distribución es el modelo aleatorio del rendimiento obtenido en una operación comercial.

Cuando nos refiramos a este modelo de distribución usaremos el término "población". Así mismo, cuando nos refiramos a la media (2) y a la varianza (1'333) nos expresaremos mediante "parámetros poblacionales" o más concretamente "media poblacional" y "varianza poblacional".

Pensemos ahora en disponer de varias experiencias de esta operación comercial. Con lenguaje matemático hablaríamos de n variables aleatorias (X1,X2,........ Xn ) iguales entre sí e iguales a la población X. Además, supondremos que estas v.a. son independientes entre sí; esto requiere ciertas condiciones mínmas de realización del experimento: así, quedaría excluído, por ejemplo, que se relicen todas con el mismo cliente, o que se realicen todas en un día especial que influya demasiado en los resultados.

Cuando hablemos de este conjunto de experiencias utilizaremos el término "muestra aleatoria".

A veces, al hablar de muestra, nos referiremos ya a los valores observados, por ejemplo, (0'8€; 3'2€; 1'5€; 1'9€; 2€): a estos valores los llamaremos "muestra observada".

La media muestral X es es el resultado de dividir por n la suma de los componentes (X1,X2,........Xn ) de la muestra. Si la muestra tiene un tamaño igual o mayor que 30, la distribución de la media muestral se aproxima a una normal, cuya media es la media poblacional, y cuya varianza es la varianza poblacional dividida entre n.

En nuestro ejemplo, si tomamos n=36, la media muestral sería aproximadamente normal de media 2 y varianza 0'037. Si tomamos n=100, la media no variaría (2), pero la varianza se reduciría a 0'0133. Si tomamos n=3600, la varianza se reduciría a 0'00037.

En un libro que podemos llamar "muestreo" y en la hoja "media muestral" podemos representar estas 3 campanas.

La campana correspondiente a n=36 está centrada en 2 (la media poblacional) y es muy difícil que se aleje más allá de ± 0'5€ de esa media poblacional.

La campana correspondiente a n=100 también está centrada en 2 y es muy difícil que se aleje más allá de ± 0'35€ de esa media poblacional.

La campana correspondiente a n=3600 está centrada en 2 y es muy difícil que se separe más allá de ± 0'1€ de esa media poblacional.

Se suele decir, para referirse al hecho de que la media muestral está centrada en la media poblacional, que no presenta "sesgo".

Para comentar las propiedades de la media muestral se recurre a un símil con un buen tirador. Así, se dice que la media muestral es como un tirador que no presenta sesgo con respecto al "blanco" y que con un buen entrenamiento mejora su precisión.

Podemos ser más rigurosos con el concepto de separación entre la media poblacional y la media muestral si le combinamos con una probabilidad.

En el caso n=36 se cumple P(1'65;2'35)=0'9311. Se puede afirmar que, con una probabilidad 0'9311 (93'11%) la separación entre las medias poblacional y muestral no excederá el valor ± 0'35.

Para n=100 se cumple P(1'8;2'2)=0'9167. Se puede afirmar que, con una probabilidad 0'9167 (91'67%) la separación entre las medias no excederá el valor ± 0'2.

Para n=3600 se cumple P(1'96;2'04)=0'9624. Se puede afirmar que, con una probabilidad 0'9624 (96'24%) la separación entre las medias (poblacional y muestral) no se irá fuera de ± 0'04.

¿Qué utilidad puede tener que la media muestral tenga valores próximos a la media poblacional?

Supongamos que un empresario quiere añadir una nueva operación mercantil a su panel de actividades. Y que le gustaría saber cual va a ser el resultado medio (m) que va a obtener. Para ello, va a realizar 36 experiencias. En cuanto a la varianza, supone que no diferirá de la que presentan sus operaciones habituales: 1'333.

Por lo que llevamos dicho, parece razonable pensar que la media muestral puede proporcionar un número próximo a la media poblacional (m) que se investiga.

Se suele decir que la media muestral es un buen estimador de la media poblacional.

Al valor numérico realmente observado se le suele llamar "estimación". Así, si se ha obtenido 3'2€, diríamos que la estimación "puntual" de m es 3'2€.

La estimación "puntual" se mejora mediante la estimación por "intervalo de confianza"; esta permite realizar afirmaciones del tipo: "la ganancia media se encuentra en determinado intervalo con una cierta confianza".

Repitamos que la media muestral se aproxima a una normal, cuya media es la media poblacional, y cuya varianza es la varianza poblacional dividida entre n.

La tipificada tendrá por tanto una distribución N(0;1).

Se prueba que, siendo z el valor de la N(0;1) que deja a su izquierda una probabilidad (1-α/2) (es decir, α/2 a su derecha), la probabilidad de que la separación entre las medias muestral y poblacional no exceda del nivel δ=z σ/√n, es igual a (1-α)

Una vez tomada la muestra y obtenido el valor X se prefiere hablar de confianza (en %) y no de probabilidad. Así, se dice: la media de la población (m), con una confianza 100 (1-α)%, pertenecerá al intervalo (X± z σ/√ n).

Vamos a concretar: supongamos que se ha tomado una muestra n=36 y se ha obtenido x=3'2€. ¿Cuál es el intervalo de confianza para m si fijamos el nivel de confianza en el 95'45%?

Vamos a realizar esta tarea en la hoja "intervalo de confianza". En la celda B5 vamos a colocar la probabilidad (confianza) 0'9545. En B6 vamos a obtener el valor de la función de distribución F(z):


=B5+(1-B5)/2

Y en B7 el valor tipificado correspondiente:


=DISTR.NORM.INV(B6;0;1)

En E14 daremos entrada a la varianza (1'3333). En B15 colocaremos el tamaño muestral (36). En E16 calcularemos la varianza de la media muestral:


=E14/B15

En B19 escribiremos el valor observado de la media muestral (3'2). En B20 escribiremos la fórmula que nos dará la semiamplitud δ:


=B7*raíz(E16)

El resultado será: δ=0'385. Con una confianza del 95'45%, m pertenecerá al intervalo (2'815;3'585).

Ahora podemos dar entrada en la hoja otros valores y los resultados se adaptarán automáticamente. Por ejemplo.

La proporción muestral

Vamos a considerar en la Contabilidad de una empresa un rasgo muy concreto: el 30% de las anotaciones contables "no" coinciden con la factura correspondiente.

La Contabilidad será para nosotros la población, y a la proporción de anotaciones "no" correctas la llamaremos "proporción poblacional": p=0'3.

Pensemos ahora en una "muestra aleatoria" de n=36 facturas. Convendremos en que esas facturas serán "independientes" entre sí: no se tomarán, por ejemplo, facturas seguidas, ni del mismo cliente.

Una vez tomadas las facturas, y habiendo obtenido que 10 de ellas han sido "mal" contabilizadas, ya hablaremos de "muestra observada".

Proporción muestral: f = x /n, donde x es el nº de facturas "mal" contabilizadas encontrado en la muestra.

La proporción muestral f tiene una distribución aproximadamente normal de media p (proporción poblacional) y de varianza p(1-p)/n.

En nuestro ejemplo: f aprox. N(0'3; 0'0058).

Si tomamos n=100: f aprox. N(0'3; 0'0021).

Si tomamos n=3600: f aprox. N(0'3; 0'000058).

En una hoja "proporción muestral" podemos representar estas 3 campanas.

En el caso n=36 se cumple P(0'15;0'45)=0'95. Se puede afirmar que, con una probabilidad 0'95 (95%), la separación entre p y la proporción muestral no excederá el valor ± 0'15.

Para n=100 se cumple P(0'2;0'4)=0'97. Se puede afirmar que, con una probabilidad 0'97 (97%) la separación entre p y la proporción muestral f no excederá el valor ± 0'1.

Para n=3600 se cumple P(0'28;0'32)=0'99. Se puede afirmar que, con una probabilidad 0'99 (99%) la separación entre las proporciones (poblacional y muestral) no se irá fuera de ± 0'02.

Pensemos ahora en un auditor que se enfrenta a la Contabilidad de una empresa sobre la que debe informar. Le gustaría saber cual es la proporción p de anotaciones contables "no" coincidentes con la factura correspondiente. Para ello se va a tomar una muestra aleatoria de 6400 facturas.

Parece razonable pensar que la proporción muestral puede proporcionar un número próximo a la proporción poblacional (p) que se investiga.

Diríamos que la proporción muestral es un buen estimador de la proporción poblacional.

Si se han encontrado 1280 facturas "mal contabilizadas", la estimación "puntual" de p es: f=0'2 (20%).

La estimación "puntual" se mejora mediante la estimación por "intervalo de confianza".

Se prueba que la probabilidad de que la separación entre las frecuencias muestral y poblacional no exceda del nivel δ=z /√p(1-p)/n, es igual a (1-α), siendo z el valor de la N(0;1) que deja a su izquierda una probabilidad (1-α/2).

Una vez tomada la muestra diremos que la proporción poblacional p, con una confianza 100(1-α)% pertenecerá al intervalo (f ± z√f(1-f)/n).

El cálculo del intervalo de confianza se puede preparar en una hoja.

Distribución del estadístico Ji cuadrado

Para medir la distancia entre una distribución de probabilidad teórica (por ejemplo, la correspondiente a un dado correcto) y la distribución de frecuencias observada en una muestra procedente de esa distribución teórica, se usa el estadístico ji cuadrado : z=∑(fo-ft)2/ft, cuya distribución apróximada es "ji cuadrado" con (k-1) grados de libertad, siendo k el nº de clases en las que se distribuye la muestra.

Para concretar, vamos a medir la distancia entre la distribución de probabilidad correspondiente a un dado correcto y la distribución de frecuencias observadas al lanzar 60 dados.

Empecemos por decir que el estadístico z tendrá una distribución "ji cuadrado" con 5 grados de libertad. Aunque las caras del dado son 6, se pierde un grado de libertad por la restricción n1+n2+....+n6=60.

Vamos a utilizar una hoja. En la columna B escribiremos las probabilidades y en C calcularemos las frecuencias teóricas.

También usaremos una macro. En B11 leerá el nº de experiencias: empezaremos por una experiencia única. Un bucle recorrerá los 60 lanzamientos: si el valor RND es ≤ 1/6 se incrementará en una unidad el depósito f(1); si se cumple 1/6 <RND≤2/6 se incrementará f(2) ......; si 5/6 < RND se incrementará f(6).

La macro escribe las frecuencias observadas en la columna D y la hoja calcula el valor "ji 2" en la celda F10:


=suma(F4:F9)

También la macro calcula el valor z y lo escribe en A13.

Veamos ahora el funcionamiento de la macro cuando el nº de experiencias es mayor que 1 (4000 por ejemplo). Un bucle exterior realizará todas estas simulaciones. Se pondrá a cero el depósito ji2 en el que se volcará el valor z. También pondremos a cero el vector f(k) en el que se depositarán las frecuencias observadas.

Ya no se escribirán las frecuencias f(k) en la columna D y será sólo la macro la que calcúle el valor z y lo escriba en la columna A, a partir de A13.

En B13 obtenemos el máximo de los valores z de la columna A, que nos permitirá juzgar los intervalos diseñados para distribuir la variable (columnas C y D).

En la columna E obtendremos las frecuencias y en la F las frecuencias relativas. A efectos comparativos, en la columna G obtendremos los valores de la distribución "ji 2" con 5 grados de libertad:


=1-DISTR.CHI(C13;5)

En la columna H se calcularán las probabilidades exactas que podemos ver en la hoja o en el gráfico.

Prueba de ajuste a una distribución

Sea una muestra aleatoria de tamaño n. Vamos a contrastar la hipótesis nula de que la muestra procede de una población con distribución de probabilidades D

Usaremos el estadístico "ji cuadrado", cuya distribución, si la hipótesis nula es cierta, será la distribución "ji cuadrado" con (k-p-1) grados de libertad, donde k es el nº de clases entre las que se distribuye la muestra, y p el nº de parámetros estimado.

Si el estadístico z supera el nivel de rechazo χ2α, se rechazará la hipótesis nula. El nivel de rechazo es el valor de la variable que deja a su derecha una probabilidad α.

El valor α se conoce como "nivel de significación" y nos informa de la probabilidad de error si finalmente adoptamos la decisión de rechazar la hipótesis nula. En efecto, si H0 es cierta, existe una probabilidad α de que el estadístico z tome valores superiores a χ2α. Al nivel de significación se le suele llamar también "probabilidad de error de tipo 1".

Ejemplo. Vamos a contrastar si la distribución de los goles marcados por los equipos que jugaban en su terreno, en las 38 jornadas de la temporada 2007-2008, sigue la distribución de Poisson.

Tenemos una muestra de tamaño 380 (38 jornadas y 10 equipos por jornada). Necesitamos estimar el parámetro λ de Poisson; lo haremos por medio de la media muestral (recordemos que λ es la media de la distribución de Poisson).

En una hoja escribimos los goles marcados en la columna B (desde la fila 3 hasta la 382). En la celda B383 obtenemos el total (589). En E3 obtenemos la media de goles "caseros" por partido: 1'55.

Por tanto, la hipótesis nula a contrastar es, H0: Distribución de Poisson (lambda=1'55).

En las columnas E y G preparamos las frecuencias observadas y teóricas. Como las frecuencias teóricas deben cumplir ft ≥5 reducimos el nº de clases.

Teniendo en cuenta que el nº de grados de libertad es 4 (6-1-1), y fijando el nivel de significación en 0'05 (5%), en la casilla J3 obtendremos el "nivel de rechazo":


=PRUEBA.CHI.INV(0'05;4)

Como el "nivel de rechazo" es 9'49 y el valor z es 5, la decisión debe ser "no rechazar".

Hemos decidido, por tanto, "no rechazar" que la distribución de los goles caseros (por partido) siga el modelo de Poisson (λ=1'55).

¡Hola!
¡Un saludo!