¡Bienvenidos!
pitagoras Tresfonsitas

Distribución del estadístico F de Snedecor

Como base de partida vamos a simular un modelo lineal y=a+bx+e donde a=20; b=0; y la perturbación aleatoria e tiene una distribución aproximadamente normal de media cero y desviación típica 1.

Es decir: y=20+e; e aprox. N(0;1)

Como nº de observaciones tomaremos n=10.

En la hoja "Distribución F" escribiremos en la columna A los valores de x: 0,1,2...9.

En la macro fsnedecor() dimensionaremos dos vectores: x(10) e y(10).

En la celda (29,3) leeremos el nº de simulaciones. El bucle exterior recorrerá las "numsimul" experiencias. Para empezar trabajaremos con una única simulación.

En otro bucle interior recorreremos las n=10 observaciones del modelo lineal.

En un tercer bucle obtendremos el valor N(0;1) para cada observación. Recordemos que los valores "rnd" son valores aleatorios en en el intervalo (0;1); la media y la varianza correspondiente son 0'5 y 1/12. Si sumamos 12 de estos valores aleatorios es posible aplicar el Teorema Central del Límite, aunque el nº de valores (12) sea un poco escaso: entonces la suma z se distribuirá aproximadamente como una normal de media 6 ( 12*0'5 ) y varianza 1 ( 12*(1/12) ). Si consideramos z-6 se distribuirá como una N(0;1).

Luego leeremos los valores de x en la columna 1 (a partir de la fila sexta) y simularemos los valores de y (estos se escribirán en la columna B). Y luego calcularemos medias, varianzas y covarianza.

La macro obtiene a continuación las estimaciones MC de los parámetros a y b de la recta. Los escribe en G5 y H5.

Luego calcula SSE, la suma de los cuadrados de los residuos e (diferencia de los valores observados de y con los valores estimados a partir de la variable x). Tambien calcula SST (suma de los cuadrados de las diferencias de los valores observados de y con su media) multiplicando la varianza de y por 10. Y los grados de libertad (10-2=8). Con estos elementos calcula el estadístico F que mide la distancia entre el modelo estimado con los datos observados y el modelo teórico (b=0, es decir la pendiente de la recta es nula). Escribe estos valores en G8, G9, H8, H9.

Toda esta información también nos la proporciona Excel mediante la fórmula matricial =ESTIMACION.LINEAL(B6:B15;A6:A15;VERDADERO;VERDADERO), cuyos 2 primeros argumentos son naturalmente los datos observados de las 2 variables y, x; el tercer argumento indica que la constante a del modelo debe calcularse (en caso contrario se forzaría a que tomara el valor a=0); el cuarto argumento indica que se deben escribir los valores F, SSE, etc (en caso contrario sólo se escribirían las estimaciones de a y de b). Esta fórmula matricial da más información que la que hemos presentado aquí; más adelante completaremos esta laguna provisional. Como cualquier fórmula matricial es preciso establecer a priori el rango que va a ocupar el resultado: en este caso la dimensión sería (2*5). Asi mismo, podemos calcular los residuos en la columna C.

Ahora vamos a realizar diez mil simulaciones de nuestro estadístico F. La macro las escribirá en la columna A, a partir de la fila 30 (ya no escribirá los detalles de cada simulación como ha hecho antes). En la celda (31,2) obtenemos el máximo de los valores F y en (33,2) el mínimo. Luego preparamos unos intervalos adecuados y las distribuciones de frecuencias absolutas y relativas para el estadístico F.

Pues bien, como hemos fijado en nuestro modelo simulado la restricción b=0, esta distribución que hemos obtenido en la hoja es una distribución F de Snedecor con 1, 8 grados de libertad.

Para comprobar nuestra tarea podemos obtener la distribución "F de Snedecor (1,8)" en la columna G, a partir de la fila 31, mediante:


=1-DISTR.F(D31;1;8)

A partir de la función de distribución obtenemos las probabilidades de los intervalos y vemos que la aproximación es casi perfecta. Aún mejor lo contemplamos en un gráfico .

Distribución del estadístico t de Student

Sea un modelo lineal y=a+bx+e donde a=0; b=2; y la perturbación aleatoria e tiene una distribución aproximadamente normal de media cero y desviación típica 1.

Es decir: y=0+2x+e; e aprox. N(0;1)

Como nº de observaciones tomaremos n=10.

En la hoja "Distribución t" escribiremos en la columna A los valores de x: 0,1,2...9.

Con carácter preliminar vamos a realizar unas operaciones sobre este vector de valores de x. En el rango A17:B26 vamos a colocar una matriz cuya primera columna es de "unos" y la segunda el vector de valores de x; a esta matriz (10*2) le vamos a llamar "matrizoperx". En el rango D17:M18, mediante "pegado especial" y "transponer" situaremos la matriz transpuesta "matrizoperxtras". En el rango D20:E21 calcularemos su producto, mediante:


=MMULT(matrizoperxtras;matrizoperx)

En el rango D23:E24 obtendremos la matriz inversa, mediante:


=MINVERSA(D20:E21)

En la macro tstudent() dimensionaremos dos vectores: x(10) e y(10).

En la celda (29,3) leeremos el nº de simulaciones. El bucle exterior recorrerá las "numsimul" experiencias. Para empezar trabajaremos con una única simulación.

En otro bucle interior recorreremos las n=10 observaciones del modelo lineal.

En un tercer bucle obtendremos el valor N(0;1) para cada observación. Luego leeremos los valores de x en la columna A y simularemos los valores de y (estos se escribirán en la columna B). Calcularemos medias, varianzas y covarianza, y estimaremos a y b (la macro los escribe en la hoja en G5 y H5).

Luego calcula SSE, la suma de los cuadrados de los residuos. Tambien evalúa los grados de libertad y calcula la varianza del modelo (dividiendo SSE entre los grados de libertad). Esta varianza del modelo es una estimación de la varianza teórica que en nuestro caso es 1 (así lo hemos elegido nosotros). En la celda (23,4) la macro lee el factor de inflación de varianza del estimador de a y, a partir de él obtiene la desviación del estimador de a. Con estos elementos calcula el estadístico t que mide la distancia entre el modelo estimado con los datos observados y el modelo teórico (a=0, es decir la constante de la recta es nula). Escribe estos valores en H6 (desviación del estimador), H7 (desviación del modelo), H8 (grados de libertad), H9 (SSE) y H10 (estadístico t).

En la hoja podemos calcular estos valores mediante "ESTIMACION.LINEAL", que se escribirán en el rango "G11:H15". Ahora ya estamos en condiciones de interpretar todos los valores:


estimación de b; estimación de a
desviación del estimador de b; desviación del estimador de a
coeficiente de correlación al cuadrado; desviación del modelo
estadístico F; grados de libertad
SST-SSE; SSE

Aunque no se nos dé el estadístico "t" este es de cálculo muy fácil, dividiendo la estimación por la desviación del estimador correspondiente.

Mediante cálculo matricial podemos obtener también las estimaciones de a y b en el rango "E26:E27"

Ahora vamos a realizar diez mil simulaciones de nuestro estadístico t. La macro las escribirá en la columna A, a partir de la fila 30 (ya no escribirá los detalles de cada simulación como ha hecho antes). En la celda (31,2) obtenemos el máximo de los valores t y en (33,2) el mínimo. Luego preparamos unos intervalos adecuados y las distribuciones de frecuencias absolutas y relativas para el estadístico t.

Pues bien, como hemos fijado en nuestro modelo simulado la restricción a=0, esta distribución que hemos obtenido en la hoja es una distribución t de Student con 8 grados de libertad.

Para comprobar nuestra tarea podemos obtener la función de distribución exacta en la columna G mediante (para valores positivos):


=1-DISTR.T(C39;8;1)

El tercer parámetro se refiere a que la probabilidad se calcula para una cola (en este caso la de la derecha). Para valores negativos la fórmula será:


=DISTR.T(ABS(C31);8;1)

A partir de la función de distribución obtenemos las probabilidades de los intervalos y vemos que la aproximación es casi perfecta. Aún mejor lo contemplamos en un gráfico .

El precio del petróleo

Vamos a estudiar la evolución temporal del precio del petróleo desde 1970. La variable que seguiremos es el precio del barril de crudo de Illinois en dólares.

Para evaluar la tendencia vamos a obtener la recta de regresión MC (mínimo cuadrática) que explique y (logaritmos neperianos del precio del petróleo) por medio de x (tiempo: 0,1,2,...37), que podemos ver en la hoja .

La fórmula matricial =estimación.lineal() nos da la recta y los estadísticos. Las sumas de cuadrados SSE y (SST-SSE), es decir, 9'81 y 7'86 nos informan de la parte en que el modelo lineal (la recta) "no explica" los datos, y la parte en que "sí" quedan explicados. El coeficiente de correlación al cuadrado nos dice cual es el % que explica la recta: 44%.

El valor de F (28'8) y los grados de libertad (36) nos permitirán contrastar la hipótesis nula de que la recta no sirve (b=0).

La regla de decisión es: rechazar "b=0" si F es mayor que el valor "F de Snedecor con (1,36) grados de libertad" que deja a su derecha una cola del nivel alfa igual al 5%. Este valor (4'11) se obtiene de:


=DISTR.F.INV(0'05;1;36)

Se rechaza por tanto la hipótesis nula y concluímos que la recta es adecuada.

Pasemos a contrastar la hipótesis nula de que la constante de la recta es cero (a=0).

Usaremos el estadístico t (12'9), que es el resultado de dividir la estimación de a (2'14) entre la desviación del estimador de a (0'166).

La regla de decisión es: rechazar "a=0" si el valor absoluto de t es mayor que el valor "t de Student con (36) grados de libertad" que deja en las dos colas un nivel alfa igual al 5% (es decir, en la cola de la derecha el 2'5%). Este valor (2'028) se obtiene de:


=DISTR.t.INV(0'05;36)

Se rechaza por tanto la hipótesis nula y concluímos que la constante de la recta es válida.

Por lo tanto aceptamos las dos estimaciones (a=2'14; b=0'0415) de los coeficiente de la recta que explica los logaritmos en función del tiempo. La función que explica el precio en función del tiempo tendrá por coeficientes:


e2'1422=8'519
e0'041=1'042

La función será:


precio=8'519*1'042x

Para x=0 tenemos el precio inicial: 8'519$. Luego, cada año el precio se multiplica por 1'042, es decir, crece el 4'2% anual. Las estimaciones se ven en la columna G de la hoja . El gráfico nos permite comparar los datos observados con la tendencia estimada y, además nos hace ver no sólo la tendencia creciente sino las fluctuaciones habidas.

En la columna H situamos los residuos e (diferencia entre precio observado y precio estimado) que recogen la fluctuación una vez eliminada la tendencia creciente estimada.

Vamos a estudiar la fluctuación (los residuos e) mediante un modelo autorregresivo de orden1:


e=k*e(-1)

Se trata de una recta que explica los residuos por los residuos del año anterior. Creamos en la columna I esta variable retrasada un año. Naturalmente se pierde un dato (n=37) ya que no tenemos el año anterior a 1970.

Excel nos da los estadísticos, mediante "estimacion.lineal()" en J7:K11. Una división nos da el estadístico "t" (1,035) correspondiente a la estimación de la constante a, que compararemos con el nivel crítico que nos da "=DISTR.T.INV(0,05;35)" (2,0301). Por tanto "no rechazamos" la hipótesis nula de que la constante a sea cero. Procedemos a estimar el modelo sin constante, mediante:


=ESTIMACION.LINEAL(H3:H39;I3:I39;FALSO;VERDADERO)

Ahora tenemos (para la estimación de b, único parametro del modelo) b=0,9379; como la desviación del estimador es 0,08823, el estadístico t resulta 10,629. El nivel crítico (2'028) nos lo da (al carecer la recta de constante ya no se pierden 2 grados de libertad, sino uno):


=DISTR.T.INV(0,05;36)

Se rechaza la hipótesis nula (b=0) y, por tanto, retenemos el modelo autorregresivo de orden 1:


e=0,9379 e(-1)

Calculamos estos residuos estimados en la columna L. En la columna M vamos a reconstruir el precio del petróleo mediante:


precio=8'519*1'042x+ 0,9379 e(-1)

En un gráfico podemos ver la serie observada y la reconstruída.

El precio del petróleo en $ constantes de 2007

Vamos a estudiar ahora el precio del petróleo en $ constantes de 2007.

Vamos a obtener la recta de regresión MC (mínimo cuadrática) que explique y (logaritmos neperianos del precio del petróleo) por medio de x (tiempo: 0,1,2,...37), tal como vemos en la hoja .

Excel nos da F=0,203; como el valor crítico es 4,113 "no rechazamos" la hipótesis nula (b=0). Por tanto estimamos un crecimiento cero, fijándose el precio estimado en la constante:


precio=e3'659=38'825

Las estimaciones se ven en la columna G de la hoja . El gráfico nos permite comparar los datos observados con la tendencia constante y ver las fluctuaciones habidas.

En la columna H calculamos los residuos (e=precio-38'825). Excel nos da el modelo autorregresivo de orden 1:


e=0,887 e(-1)

Calculamos estos residuos estimados en la columna L. En la columna M vamos a reconstruir el precio del petróleo mediante:


precio=38'825+ 0,887 e(-1)

En un gráfico podemos ver la serie observada y la reconstruída.

El hecho de que los precios ($ constantes) presenten una tendencia constante indica que el sistema económico ha funcionado bien, sobre todo teniendo en cuenta el fuerte crecimiento de la economía mundial y el hecho de que los recursos de petróleo son limitados. Quizás se podría decir que la fase expansiva de los precios presenta una excesiva subida, lo que conllevaría un freno demasiado brusco al crecimiento económico.

¡Hola!
¡Un saludo!