¡Bienvenidos!
pitagoras Tresfonsitas

Covarianza

Consideremos las series de España en los años 76 a 97:


x "tipo de cambio del dólar (pesetas)"
y "empleo masculino (miles)"

Vamos a colocar estos datos en una hoja de nombre "empleo y dolar" dentro de un libro al que llamaremos "correlación". En la columna A (a partir de la fila 2) situaremos los años, en la columna B el tipo de cambio del dólar y en la C el empleo.

Así queda la hoja .

La covarianza se calcula dividiendo por N la suma de los productos de las desviaciones de cada variable respecto de su media.

En nuestra hoja, en B24, obtendremos el cambio medio del dólar: 111'27 ptas. En C24 la media del empleo: 8154'39 (miles).

En la columna D calcularemos las desviaciones del tipo de cambio respecto del cambio medio, y en D25 la desviación típica: 31'30 ptas.

En E obtendremos las desviaciones del empleo masculino respecto de su media, y en E25 su desviación típica: 364'5 (miles).

En la columna F calcularemos los productos de las desviaciones anuales de una y otra variable. En F2 escribiremos:


=D2*E2

Luego copiaremos esa celda a lo largo de la columna F. Y en F24 obtendremos la covarianza:


=suma(F2:F23)/22

El resultado será: sxy=-8317'46. Así lo vemos en la hoja

La covarianza mide el grado de relación lineal entre las variables x e y. Si la covarianza es cero indica ausencia de relación lineal. Si la covarianza es positiva los puntos (xi;yi) se sitúan en torno a una recta de pendiente positiva; si es negativa los puntos se sitúan en torno a una recta decreciente.

Propiedad. Al multiplicar cualquiera de las variables por una constante la covarianza se ve también multiplicada. El hecho de que la covarianza se vea afectada por los cambios de escala, supone que sea costoso interpretar si un valor de la covarianza es grande o pequeño.

Correlación

La correlación se calcula dividiendo la covarianza por las desviaciones típicas de cada variable.

Nuestra correlación valdrá: rxy=-0'73. Así lo podemos ver en la hoja.

Propiedad. Al multiplicar cualquiera de las variables por una constante la correlación no varía. El coeficiente de correlación, siendo como la covarianza una medida del grado de relación lineal entre las variables, es interpretable en términos sencillos.

En primer lugar, el coef. de correlación está comprendido en [-1 ; 1], es decir: -1 ≤rxy ≤1.

Si rxy=1, entonces los puntos (x,y) están todos perfectamente alineados sobre una recta creciente.

Si rxy es positivo y próximo a 1, entonces los puntos (x,y) están cerca de una recta creciente.

Si rxy es igual a cero, o próximo a cero, entonces hay que hablar de ausencia de relación lineal.

Si rxy es negativo y próximo a -1 entonces los puntos (x,y) se encuentran cercanos a una recta decreciente.

Si rxy=-1, entonces los puntos (x,y) están todos perfectamente alineados sobre una recta decreciente.

Por lo tanto, en nuestro caso diremos que, entre tipo de cambio y empleo masculino hay un cierto grado de relación lineal decreciente. Así lo confirma el gráfico .

Podemos mejorar este gráfico rotulando los puntos con el año correspondiente. El problema es que entre las opciones posibles que ofrece el menú de Excel no se encuentra la que nos interesa: rotular con el contenido de la columna A; provisionalmente nos conformamos con una de las posibilidades, por ejemplo, "nombre de la serie".

La vía para realizar nuestra tarea sería editar cada rótulo, pinchando sobre él, y escribir por teclado el año correspondiente; pero esto sería excesivamente laborioso y sujeto a posibles errores.

De todos modos lo vamos a hacer para el primer rótulo, si bien poniendo en acción previamente la función de "grabar nueva macro". Tras el doble pinchazo se habra generado la siguiente macro. La macro en primer lugar activa el gráfico, luego selecciona el conjunto de rótulos, luego selecciona el rótulo del primer punto y por último le asigna el rótulo "aaaa". Pues bien, vamos a añadirle un bucle que lea los años en la columna A y luego los asigne al conjunto de puntos. Así quedará la macro.

Además de contrastar la relativa cercanía de los puntos a una recta decreciente, el gráfico. nos permite seguir el devenir de la economía española en el último cuarto del siglo XX: entre 1976 y 1985 se camina por una fase recesiva con continuas perdidas de empleo masculino y depreciación de la pta; hasta el 91 la situación se invierte y la peseta y el empleo de hombres se recuperan; luego tenemos una nueva recesión, hasta el 94; y por último contemplamos una recuperación.

Incorrelación

Llamamos incorreladas a 2 variables cuya correlación es cero: r=0; sxy=0

Cuando 2 variables son independientes, ello implica ausencia de cualquier tipo de relación, lineal o no lineal; por eso la noción de independencia es más amplia que la de incorrelación.

Propiedad 1. Sea una suma de variables z=x+y

Se cumple que la media de la suma es la suma de las medias.

Si las variables están incorreladas se cumple que la varianza de la suma es la suma de las varianzas.

Propiedad 2. Sea una diferencia de variables z=x-y

Se cumple que la media de la diferencia es la diferencia de las medias.

Si las variables están incorreladas se cumple que la varianza de la diferencia es la suma de las varianzas.

Series económicas en la España del siglo XX

Un análisis factorial

A las 2 series ya presentadas (tipo de cambio y empleo masculino) vamos a añadir otras 5 formando una base de datos de 7 series:


Enemilvi "transporte de viajeros por ferrocarril en enero (miles)
EnemilTM "transporte de mercancias por ferrocarril en enero (miles Tm)
IPCDIC "IPC mes diciembre (base 92)"
PIBptacons "PIB (millones de ptas constantes del 86)"
tcambiodólar "tipo de cambio del dólar (pesetas)"
ocuvar "empleo masculino (miles)"
ocumuj "empleo femenino (miles)"

Nuestro objetivo será construir, mediante sumas y restas de estas 7 variables, 2 factores que resuman, del mejor modo posible, la información. La consecución de este objetivo se basará en la matriz de covarianzas.

Comenzaremos por el cálculo de medias y desviaciones típicas, tal como se ve en la hoja .

Como se sabe, varianzas y covarianzas dependen de la unidad de medida, cuestión que obliga a seleccionar la escala de las variables: usaremos las variables tipificadas (resultado de dividir por la desviación típica después de haber restado la media).

El cálculo de la matriz de covarianzas se realiza rápidamente sobre la matriz de valores tipificados. Vamos a llamarla T, para facilitar el trabajo. Seleccionaremos el rango correspondiente, es decir, B29:H50, y escribiremos el nombre (T) en el cuadro de nombres que se encuentra arriba, a la izquierda. La matriz de covarianzas M se obtiene mediante:


M=TTT / 22

La matriz TT la obtendremos por copia de T: haremos un pegado especial con las opciones "valores" y "trasponer", a partir de la celda B53; tendremos la matriz traspuesta en el rango B53:W59, y utilizando el "cuadro de nombres" le llamaremos TT.

Cuestión previa al cálculo de M es la de seleccionar el rango adecuado para depositar los valores de esta matriz: así, seleccionaremos B62:H68, de dimensión 7 por 7.

Luego escribiremos la fórmula matricial:


M=MMULT(TT;T)/22

Hay que advertir que para que el cálculo se efectúe en la hoja al pulsar ENTER, hay que mantener pulsadas las teclas SHIFT y CONTROL.

De este modo llegamos a la matriz de covarianzas que aparece en la hoja . Esta matriz es la matriz de covarianzas entre las variables tipificadas, pero como estas tienen desviaciones típicas igual a 1, también es su matriz de correlación. Ahora bien, como el coef. de correlación es invariante a cambios de escala, también es la matriz de correlación entre las 7 variables originales. De modo que nos referiremos a ella como matriz de correlación.

Ahora procederemos a construír el factor 1º. Buscaremos la mayor correlación de la matriz: 0'97, entre el IPC y el PIB. Ahora trataremos de encontrar otras variables bien correlacionadas con estas dos: tenemos el transporte de viajeros ; también el transporte de mercancías (correlacionado negativamente) y también el empleo femenino. El factor primero queda así:


F1=tipiIPC+tipiPIB+tipivi-tipiM+tipimuj

Para el segundo factor sólo nos quedan el cambio del dólar y el empleo masculino. Como están bien correlacionadas, aunque negativamente, tendremos:


F2=tipivar-tipidolar

En la hoja se ve como quedan los 2 factores así como sus varianzas y correlación.

Los 2 factores tienen media cero por ser sumas algebraicas de variables tipificadas, que tienen todas ellas media cero.

La proporción entre las varianzas de F1 (22'23) y de F2 (3'46) nos dice que el primer factor retiene la mayor cantidad de la información original.

La correlación entre los 2 factores está próxima a la incorrelación, hecho que parece deseable ya que, en caso contraio, es decir si F1 y F2 estuvieran bien correlacionados, la información ofrecida por F2 ya estaría dada, en buena medida, por F1..

En el gráfico observamos, en el sentido del factor 1, la tendencia hacia el crecimiento sostenido de la economía española, en tanto que, asociada al factor 2, contemplamos la fluctuación de la actividad, con fases de expansión (85-91 y 94-97) y fases de recesión.

Distribución de la tierra en España

Los 50 millones de hectáreas de la superficie española se distribuyen, según las variables y1 (empleo de la tierra) e y2 (regiones) tal como recoge la siguiente base de datos.

Comenzamos por colocar los datos en una hoja de cálculo.

La información que contiene esta tabla se aprecia mejor si obtenemos los porcentajes (o tantos por 1) que supone cada uso de la tierra en las diferentes regiones. A estas distribuciones se les conoce como distribuciones de y1 (empleo de la tierra) condicionadas por los diferentes valores de y2 (regiones).

Será de interés comparar estas distribuciones con los porcentajes (tantos por 1) que supone cada uso en el total de España; a esta distribución se la conoce como distribución marginal de y1 (empleo de la tierra).

Preparamos esta información en nuestra hoja .

Como se puede observar el empleo dominante en el conjunto de España (37%) es el "cultivo" (se incluyen tierras en barbecho y plantaciones de árboles frutales). Le sigue con un 32% el uso "forestal" (no sólo monte maderable, sino también dehesas, terrenos con chaparros de encina, terrenos con matas de brezo...).

En tercer lugar, con el 17%, se encuentra el capítulo "otras" : aquí figuran los "eriales" (pastos muy pobres), los "espartizales" (cultivados o no), los "no agrarios" (poblaciones, zonas industriales, vías férreas, carreteras....), los "improductivos" (desiertos, pedregales, zonas nevadas...) y "ríos y lagos".

En último lugar (14%) figuran "prados" (se incluyen pastizales no susceptibles de aprovechamiento por siega).

Las distribuciones de la tierra en las diversas regiones son muy diferentes de la del total español. Estamos muy lejos de lo que se conoce como "independencia" entre y1 (empleo de la tierra) e y2 (región); en efecto, esa "independencia estadística" conllevaría que todas las distribuciones regionales fueran iguales entre sí e iguales a la distribución para toda España.

Así, podemos ver como el territorio manchego está dedicado al "cultivo" en un porcentaje superior al 50%; en tanto que en las otras 3 modalidades no llega al porcentaje para el total español.

En el caso canario domina el apartado "otras", sobre todo por el concepto "improductivos".

Vamos a tratar de resumir en dos factores F1 y F2, las 4 columnas que conforman nuestra tabla de porcentajes (tantos por 1):


x1 (cultivos)
x2 (prados)
x3 (bosques)
x4 (otras)

A cada una de las 17 regiones les vamos a asignar un peso que resulte de la proporción entre superficie regional y superficie española:


{pi}={p1,p2,...p17}

Como podemos ver en la hoja hay regiones pequeñas (Asturias, Cantabria, P.Vasco, Navarra, Rioja, Madrid, Murcia y las 2 regiones insulares) y regiones muy grandes (las 2 Castillas y Andalucía superan el 50% de la superficie total).

¿Cuáles son las medias de estas 4 columnas? Pues son los 4 "tantos por 1" correspondientes al total español:


{fj}={f1=0'37; f2=0'14; f3=0'32; f4=0'17}

Por eso, a estos "tantos por 1" del total de España se les conoce como "perfil medio".

La selección de F1 y F2 se va a basar en el análisis de la matriz de covarianzas. ¿Qué escala debemos utilizar? Vamos a utilizar la métrica "ji cuadrado", que es la adecuada para este tipo de datos. Se trata de un centrado (restar la media fj) y un escalamiento consistente en dividir por la raíz cuadrada de fj .

En la hoja, en B42, escribiremos:


=(B2-B$39)/raiz(B$39)

Luego copiaremos esta fórmula en B42:E58.

En la hoja se encuentran los valores escalados: z1,z2,z3,z4.

Las medias de estas nuevas variables son nulas. La matriz de varianzas y covarianzas se calcula sobre una matriz D resultante de multiplicar los valores escalados de cada región por la raíz de pi:


M=DTD

En la hoja podemos ver esta matriz D.

Mediante un pegado especial ("valores" y "trasponer") colocamos en la hoja la matriz traspuesta. Luego las llamamos D y DT en el cuadro de nombres.

Seleccionamos un rango B87:E90 para colocar la matriz de covarianzas. Luego escribimos:


=MMULT(DT;D)

Finalmente pulsamos ENTER, manteniendo pulsadas SHIFT y CONTROL.

En la hoja podemos ver esta matriz de covarianzas.

Vamos a construír el factor primero; buscaremos la variable de mayor varianza: se trata de "cultivos". A continuación buscaremos variables que tengan la covarianza alta con "cultivos": encontramos "forestal". El factor 1º, teniendo en cuenta que esa covarianza (-0'027) es negativa, se construirá así: F1=z1-z3

Para el factor 2 tenemos "otras" que es la de mayor varianza entre las 2 variables que quedan; como no presenta una covarianza fuerte con "prados" optamos por: F2=z4

Los 2 factores quedan así.

Estos factores tienen media cero por proceder de variables centradas (de media cero).

La varianza de F1 es:


S2F1=S21+S23 -2S13=0'040+0'037 + 2* 0'027= 0'131

La varianza de F1 es:


S2F2=S24=0'037

Así pues, el factor F1 retiene la mayor cantidad de información.

La covarianza entre los factores F1 y F2 vale 0,0041, como se ve en la hoja. La correlación entre ambos factores, como es deseable, es baja: rF1,F2 = 0'06.

En el gráfico tenemos, a la izquierda del plano 3 regiones forestales: Galicia, Cantabria y País vasco; en menor medida también lo son Cataluña, Valencia y Extremadura.

A la derecha tenemos las regiones cultivadoras: Andalucía y las 2 Castillas.

En la parte superior, asociada a "otras", vemos las 2 regiones insulares (por terrenos improductivos) y Madrid (por terrenos no agrarios).

A la izquierda y arriba vemos Asturias, región forestal y ligada a "otras" por "terrenos improductivos".

¡Hola!
¡Un saludo!