You are on page 1of 49

Uni

ANALISIS DE COMPONENTES
PRINCIPALES
Con SPSS
Dr. Edgar Eloy Carpio Vargas
Contenido
ANALISIS DE COMPONENTES PRINCIPALES..................................................................2
1. Introducción............................................................................................................ 2
2. Utilidad.................................................................................................................. 3
3. Aplicaciones:........................................................................................................... 3
4. Ejemplo inicial........................................................................................................ 3
5. Definiciones básicas................................................................................................ 10
6. Fases:.................................................................................................................. 11
7. Planteamiento del problema..................................................................................... 14
OBTENCION DE LA COMPONENTES PRINCIPALES....................................................16
Calculo de los componentes......................................................................................... 17

1
ANALISIS DE COMPONENTES PRINCIPALES
1. Introducción.
El análisis de componentes principales (ACP) es una técnica multivariante de síntesis,
simplificación o reducción de la dimensionalidad. Su objetivo es explicar la mayor parte de
la variabilidad total de un conjunto de variables cuantitativas con el menor número de
componentes o factores comunes posibles. A diferencia del análisis factorial que tiene como
objetivo simplificar las numerosas y complejas relaciones que se pueden encontrar en un
conjunto de variables cuantitativas observadas. Para ello trata de encontrar dimensiones o
factores que ponen en relación a las aparentemente no relacionadas variables.
El ACP se clasifica entre los métodos de simplificación o reducción de dimensiones, es decir,
reducir p variables a un pequeño subconjunto r < p. No es necesario establecer jerarquías
previas variables dependientes o independientes, ni suponer normalidad de los datos. Los
nuevos componentes principales o factores se caracterizan por estar incorrelacionadas entre
sí y son una combinación lineal de las variables originales e independientes entre sí. Esta
técnica se circunscribe dentro de la estadística descriptiva.
La extracción de componentes principales se efectúa sobre variables tipificadas para evitar
problemas derivados de escala, aunque también se puede aplicar sobre variables expresadas
en desviaciones respecto a la media.
La técnica de componentes principales es debida a Hotelling (1933). Su utilidad es doble:
1. Permite representar óptimamente en un espacio de dimensión pequeña observaciones de
un espacio general p-dimensional
2. Permite transformar las variables originales, en general las correlacionadas, en nuevas
variables incorrelacionadas, facilitando la interpretación de los datos.
Un aspecto clave en ACP es la interpretación de los factores, ya que ésta no viene dada a
priori, sino que será deducida tras observar la relación de los factores con las variables
iniciales (habrá, pues, que estudiar tanto el signo como la magnitud de las correlaciones).
Esto no siempre es fácil, y será de vital importancia el conocimiento que el experto tenga
sobre la materia de investigación.
Si tomamos demasiadas variables sobre un conjunto de objetos, por ejemplo 20 variables,
20 =180
tendremos que considerar ( )2
posibles coeficientes de correlación; si son 40
variables dicho número aumenta hasta 780. Evidentemente, en este caso es difícil visualizar
relaciones entre las variables. Otro problema que se presenta es la fuerte correlación que
muchas veces se presenta entre las variables, lo normal es que estén relacionadas o que
midan lo mismo bajo distintos puntos de vista. Por ejemplo, en estudios médicos, la presión
sanguínea a la salida del corazón y a la salida de los pulmones están fuertemente
relacionadas.
Es posible interpretar la posible relación entre las variables, pero también las similitudes
entre los individuos. Dos individuos próximos tendrán características similares, mientras
que dos individuos alejados tendrán características diferentes. Se pueden buscar también
grupos de puntos cercanos con características similares.
Imaginemos n individuos bajo una sola variable, es fácil describir a estos individuos sobre
una recta, ahora si fuesen dos variables representaríamos a dichos individuos sobre un plano.
Incluso si las variables fueran tres, podemos recurrir a una nube de puntos. Estas

2
representaciones graficas permiten observar geométricamente la estructura interna de la
nube de puntos, pero, ¿Qué ocurre si el número de variables es igual o superior a 4?, la
respuesta es que la gráfica es imposible.

2. Utilidad
 Permite representar óptimamente en un espacio de dimensión pequeña, observaciones de
un espacio p-dimensional. Es un 1er paso para identificar variables generadoras de los
datos.
 Permite transformar las variables originales, en general correladas, en nuevas variables
incorreladas facilitando la interpretación de los datos.

3. Aplicaciones:
Para identificar personas mediante una base de datos de imágenes 3D de los rostros.
Se identifican las proteínas responsables del movimiento de la espina dorsal basándose en
los ángulos de éstas
Para encontrar nuevas estructuras en los datos climáticos sobre huracanes que permitan
prevenir sus efectos.
Para encontrar estructuras genéticas relacionadas con el cáncer
Para encontrar estructuras espaciales de la actividad de los medicamentos mediante
imágenes
Disponemos de 1420 observaciones de datos de contaminación atmosférica en la provincia
de Madrid. Se midió el ozono, el dióxido nitroso y el monóxido de carbono en diferentes
meses y años. Su representación gráfica es la siguiente:

4. Ejemplo inicial
Suponiendo que se desea conocer los factores de riesgo relacionados con la enfermedad
coronaria. Por conocimiento previo se sabe que los factores relacionados con esta
enfermedad son: la presión arterial, la edad, peso, la obesidad, el tiempo que ha sido
hipertenso, el pulso, y el estrés. Para realizar la investigación se seleccionaron al azar 20
pacientes hipertensos en los que se midieron las siguientes variables:
X1: Presión arterial media (mm Hg)

3
X2: Edad (años)
X3: Peso (kg)
X4: Superficie corporal (m2) pulso
X5: Duración de la Hipertensión (años)
X6: Pulso (pulsaciones/minuto)
X7: Medida del stress
Los datos obtenidos se muestran a continuación:
Id. Presión Edad Peso Superficie Duración Pulso Stress
1 105 47 85,4 1,75 5,1 63 33
2 115 49 94,2 2,10 3,8 70 14
3 116 49 95,3 1,98 8,2 72 10
4 117 50 94,7 2,01 5,8 73 99
5 112 51 89,4 1,89 7,0 72 95
6 121 48 99,5 2,25 9,3 71 10
7 121 49 99,8 2,25 2,5 69 42
8 110 47 90,9 1,90 6,2 66 8
9 110 49 89,2 1,83 7,1 69 62
10 114 48 92,7 2,07 5,6 64 35
11 114 47 94,4 2,07 5,3 74 90
12 115 49 94,1 1,98 5,6 71 21
13 114 50 91,6 2,05 10,2 68 47
14 106 45 87,1 1,92 5,6 67 80
15 125 52 101,3 2,19 10,0 76 98
16 114 46 94,5 1,98 7,4 69 95
17 106 46 87,0 1,87 3,6 62 18
18 113 46 94,5 1,90 4,3 70 12
19 110 48 90,5 1,88 9,0 71 99
20 122 56 95,7 2,09 7,0 75 99

La dimensión inicial lo componen las 7 variables.


¿Será posible describir el conjunto de datos utilizando un número menor de dimensiones,
aprovechando las interrelaciones entre las variables?
¿Sera posible definir un índice general que cuantifique la situación de riesgo?

1) Consideráramos inicialmente la representación gráfica de dos variables (edad y presión)


en un diagrama de dispersión,

4
Figura Nro. 01. Diagrama de dispersión para la edad y la presión arterial
Es posible observar la posible relación entre las variables, pero también las similitudes entre
los individuos. Dos individuos próximos tendrán características similares, mientras que dos
individuos alejados tendrán características diferentes. Se pueden buscar también grupos de
puntos cercanos con características similares.
Ahora consideramos tres variables, aún es posible representarlas en tres dimensiones como se
muestra en la figura 2. Las representaciones tridimensionales sobre el papel son difíciles de
interpretar ya que no se tiene una referencia visual clara. La interpretación puede realizarse
mediante un programa de ordenador que permita el movimiento de la figura para ver las
posiciones relativas de los puntos.

Figura Nro. 02. Representación tridimensional de las variables presión, edad y peso.

Si hacemos una rotación,

5
Figura Nro 3. Rotación de la representación tridimensional que muestra que los puntos se
encuentran aproximadamente en un plano.

Observaremos que los puntos están prácticamente sobre un plano. Esto se pone de
manifiesto en la figura siguiente en la que se ha conseguido un punto de vista desde que los
puntos parecen estar sobre una línea recta. Este hecho pone de manifiesto que no es posible
describir el conjunto de datos con tres dimensiones, sino solamente dos.
La solución es buscar un sistema de referencia para el plano (subespacio) más cercano a la
nube de puntos de forma que, al proyectarlos todos sobre dicho plano, la pérdida de
información sea mínima. La pérdida de información puede entenderse en términos de
variabilidad del conjunto de puntos o en términos de la similitud entre las interdistancias
entre los puntos, calculadas en el espacio original y las calculadas en la proyección del
subespacio.
El subespacio quedará definido mediante un sistema de referencia para el mismo, es decir,
mediante dos vectores perpendiculares dentro del subespacio. El primero lo situaremos en la
dirección en la que más varían los datos, el segundo, perpendicular al primero recogiendo la
mayor parte de la variabilidad restante y así sucesivamente.
Los vectores del sistema de referencia definen nuevas variables, que son combinaciones
lineales de las variables de partida y se denominan componentes principales. De esta forma,
podemos reducir la dimensión seleccionando solamente las primeras componentes. La
reducción de la dimensión se deriva del hecho de que las variables están relacionadas entre
sí y, por tanto, tienen información común, de alguna manera, la información común a todas
ellas se extrae en las componentes principales.

6
Figura Nro. 4. Espacio de las componentes con las tres primeras variables

La representación de las dos primeras componentes, para los datos anteriores y con sólo tres
variables aparece en la figura siguiente. Las dos primeras componentes absorben el 99% de
la variabilidad de los datos.
Sobre el diagrama de dispersión es posible interpretar las distancias entre los puntos en
términos de similitud, buscar conjuntos de individuos similares, etc, con la garantía de que la
pérdida de información sea mínima y de que hemos recogido las fuentes de variabilidad más
importantes en el conjunto de datos.
La figura siguiente muestra las dos primeras componentes principales para el conjunto de las
7 variables. Las componentes se denotan con x e y. Se han superpuesto sobre el gráfico
vectores que representan a las variables originales y que interpretaremos más tarde. También
se han suprimido las escalas ya que, en este contexto son menos importantes.

Figura Nro. 5. Espacio de las componentes con todas las variables.

En este caso, las dos primeras componentes recogen aproximadamente el 77% de la


variabilidad, más aún recogen las fuentes de variabilidad más importantes de los datos.

7
Si prescindimos, por el momento, de los vectores que representan a las variables,
podemos interpretar las distancias entre puntos y buscar grupos, tal y como hacíamos en el
diagrama de dispersión inicial.
Como las componentes son variables compuestas calculadas a partir de las originales,
solamente queda por determinar cuál es la información que han recogido las componentes,
es decir, que variables explican la similitud de los individuos en el subespacio de
representación final.
La interpretación se hace a partir de las correlaciones entre las variables observadas y las
componentes. Dichas correlaciones se muestran en la tabla siguiente. (Las componentes se
denominan factores en la tabla).

Figura Nro. 6. Correlaciones entre las componentes principales y las variables observadas

Observamos que la primera componente está altamente correlacionada con las variables:
presión, edad, peso, supcorp y pulso y la segunda componente con: Duración y Stress. Es
decir, la primera componente muestra, fundamentalmente aspectos relacionados con el
aumento de la presión arterial y de las variables determinantes del riesgo de la enfermedad
coronaria, por tanto, la primera componente sería un índice del riesgo de enfermedad de
forma que, los individuos que se sitúen a la derecha en la proyección sobre el eje del gráfico
serán los que tienen riesgo más alto de enfermedad y los que se sitúan a la izquierda, riesgo
más bajo.
Sobre el gráfico habíamos superpuesto también vectores que representaban a cada una de las
variables originales. Los vectores representan la dirección de mejor ajuste para cada una de
las variables, en el sentido de que, si proyectamos los puntos que representan a los
individuos sobre uno de los vectores, las puntuaciones obtenidas estarían más
correlacionadas con la variable original que las proyecciones en cualquier otra dirección. El
coseno del ángulo que forma cada vector con el eje, mide aproximadamente la correlación
con el mismo y los cosenos de los ángulos entre dos vectores aproximan la correlación entre
las variables a las que representan, es decir, a menor ángulo menor correlación.
La representación con las variables añadidas se denomina representación biplot.
A las correlaciones al cuadrado entre la variable y el eje se le denomina también
contribución relativa del factor al elemento, y mide la parte de la variabilidad de la variable
que explica cada uno de los ejes. Las variables con contribuciones altas en uno de los ejes y
bajas en los demás son las que han de interpretarse para cada eje ya que son características
exclusivas del mismo.

8
Como las componentes son incorreladas, tienen información independiente por lo que la
suma de las correlaciones al cuadrado es 1. La parte explicada por un plano, se calcula
simplemente sumando la parte explicada (contribución) por los ejes que lo componen, a esta
cantidad se la denomina también “calidad de la representación”.
La calidad de representación puede interpretarse también como la correlación al cuadrado
entre los valores de la variable original y las proyecciones de los puntos sobre la dirección
que representa a la variable.
De la misma manera que hemos hecho para las variables es posible definir calidades de
representación para los individuos. Veamos una interpretación diferente de la misma más
adecuada para el estudio de los individuos.
La figura siguiente muestra la proyección de uno de los puntos de la nube en un espacio
bidimensional. Supongamos que se trata de la proyección de uno de los vectores que
representa a una variable.

Si observamos el espacio tridimensional que aparece en la figura, la variable representada y


el eje horizontal forman un ángulo de casi 90° por lo que pueden considerarse
independientes; sin embargo, en la proyección sobre el espacio bidimensional, el ángulo es
muy pequeño, hecho que se podría traducir en una fuerte relación. Esto es debido a que la
calidad de la representación del vector sobre el plano es baja.
La figura siguiente muestra la situación esquematizada. El coseno al cuadrado del ángulo se
puede tomar como medida de la relación entre la variable y el eje.

A esta medida la denominaremos CALIDAD DE LA REPRESENTACION del punto i


sobre el eje factorial. (CLRil ).

9
Esta cantidad puede calcularse también a partir del producto escalar entre el vector i y un
vector cualquiera en la dirección del eje.
La calidad de la representación es una medida relativa, ya que la suma de las calidades de la
representación de cada elemento sobre todos los ejes factoriales es 1.
El gráfico siguiente muestra una representación sobre tres ejes factoriales, donde se
especifican los cosenos de los ángulos con los tres ejes que, como es sabido, su suma de
cuadrados es la unidad.

La calidad de la representación con respecto a un plano se mide de la misma manera, es


decir, como el coseno al cuadrado del ángulo que forman el vector y el plano. Este coseno al
cuadrado es la suma de los cosenos al cuadrado de los ángulos con los ejes que forman el
plano.

Por tanto, la calidad de la representación del elemento es una medida aditiva que puede
calcularse para la proyección en cualquier plano factorial, sin más que sumar las calidades
de representación con respecto a los ejes factoriales que lo forman.

5. Definiciones básicas

DATOS: Disponemos de una matriz Xnxp que contiene las medidas de p variables tomadas
sobre n individuos. Para simplificar el resto de la exposición supondremos, sin pérdida de
generalidad, que las columnas de X tienen media cero, es decir que se le ha restado la
media.
Todas las variables tienen el mismo papel, es decir, el conjunto no se divide en variables
dependientes e independientes como en el caso de la regresión.
DEFINICION: El Análisis de Componentes principales consiste en encontrar
transformaciones ortogonales de las variables originales para conseguir un nuevo conjunto
de variables incorreladas, denominadas Componentes Principales, que se obtienen en orden
decreciente de importancia.

10
6. Fases:
1. PREPARACIÓN DE LOS DATOS PARA EL ANÁLISIS
Elección de las variables predictoras: Se seleccionan aquellas que resultan interesantes
para el objetivo del estudio. Se suelen emplear todas.
Estandarización de las variables: Para evitar la influencia de las unidades de medida en
la ponderación de los componentes
Eliminación de datos anómalos: Para evitar que se enmascaren relaciones existentes o
se encuentren algunas inexistentes.

2. EXTRACCIÓN DE LAS COMPONENTES


Criterios de selección del número de componentes principales
1er Componente:
Se define como la combinación lineal de las variables originales que tienen V máxima:
z1= xa1 con a1’a1=1.
Al maximizarla su solución es a1 igual al vector propio de S y si λ1 es su valor propio,
V(z1)= λ1.
Por tanto, a1 (vector de coeficientes) es el vector propio de S asociado al mayor valor
propio
2ª Componente:
Se calcula max V(z1)+ V(z2), si z2 = xa2 y ||a1 ||=||a2 || =1.
También a2 es un vector propio de S tal que λ2, su valor propio asociado es el 2º mayor de
S. Se comprueba fácilmente que a1 y a2 están incorrelados.
Generalización:
Análogamente se puede calcular el espacio de dimensión r definido por los vectores
propios asociados a los r mayores valores propios de S (Z=XA con A’A=I).
Calcular los C.P. Equivale a aplicar una transformación ortogonal a X para obtener las
nuevas, Z, incorreladas entre sí.

Selección del número de factores.


1. Realizar un gráfico de valores propios frente a vectores propios. Seleccionar
componentes hasta que los restantes tengan aproximadamente el mismo λi.
2. Seleccionar componentes hasta que se cubra una proporción determinada de varianza
(80 o 90%). Se debe emplear con cuidado.
3. Desechar aquellos λi menores que la unidad (regla arbitraria).

PROPIEDADES
Conservan la variabilidad inicial.

11
λh
La proporción de variabilidad explicada por un componente es .
∑ λi
Cov(zi; x1,..., xp)= λi ai.

ρ (Zi , X j )=
λ i aij
=a ij
√ λi
√λ S 2 Sj
i j

Las r C.P. proporcionan la predicción lineal óptima con r variables, del conjunto de
variables X.
Si estandarizamos los C.P. Se obtiene la estandarización multivariante de los datos
originales.
ANÁLISIS NORMADO
Las C.P. se obtienen maxima la varianza de la proyección, cuando una v. tiene una
varianza mucho mayor que las demás el 1er componente coincidirá aprox. con ésta v.
Para evitar esto, conviene estandarizar las v. antes de calcular los componentes ⇒ los C.P.
normados se obtienen calculando los vectores propios de R.
Si las diferencias entre v. son informativas no debemos estandarizar. En caso de duda
conviene realizar ambos análisis y quedarse con el más informativo.

3. INTERPRETACIÓN DE LOS RESULTADOS


Numéricos y gráficos
Cuando existe una alta correlación positiva entre todas las v., el 1er C.P. puede
interpretarse como un factor global de tamaño, y los siguientes de forma (medias
ponderadas de grupos contrapuestos por el signo).
La interpretación mejora con las proyecciones de las observaciones sobre los planos
definidos por las parejas de componentes más importantes.
Si existen relaciones fuertes pero no lineales este análisis puede dar una información muy
parcial.

Se minimizan los cuadrados de las distancias (d) al eje x’


El eje y´ se calcula ortogonal al x’

4. VALIDACIÓN DE LOS RESULTADOS

12
Negativa: Introducción de modificaciones
Positivo: Conclusión del análisis
La validación de los componentes principales se realiza con un análisis de componentes
de la varianza.

OTRAS ACTUACIONES
1. Antes de obtenerlos conviene asegurarse de que no hay atípicos que distorsionen la
matriz S.
2. Pueden verse como un conjunto nuevo de variables y estudiarse sus distribuciones (e
investigar relaciones no lineales)
3. Las C.P. generalizados constituyen componentes con v. adicionales (x 2 y xixj) que
pueden detectar relaciones no lineales mediante λi próximos a 0. El inconveniente es
que aumenta la dimensión.

7. Planteamiento del problema.


Supongamos que se dispone de p-variables en n elementos de una población dispuestos en
una matriz X de dimensiones n×p, donde las columnas contienen las variables y las filas los
elementos.

13
Supondremos en este capítulo que previamente hemos restado a cada variable su media, de
manera que las variables de la matriz X tienen media cero y su matriz de covarianzas vendrá
1
dada por X´X .
n
El problema que se desea resolver es encontrar un espacio de dimensión más reducida que
represente adecuadamente los datos. Puede abordarse desde tres perspectivas equivalentes.

a) Enfoque descriptivo. Se desea encontrar un subespacio de dimensión menor que p tal


que al proyectar sobre él los puntos conserven su estructura con la menor distorsión
posible.
Consideremos primero un subespacio de dimensión uno, una recta. Se desea que las
proyecciones de los puntos sobre esta recta mantengan, lo más posible, sus posiciones
relativas. Consideremos ahora el caso de dos dimensiones (p = 2). La Figura 5.1 indica el
diagrama de dispersión y una recta que, intuitivamente, proporciona un buen resumen de
los datos, ya que la recta pasa cerca de todos los puntos y las distancias entre ellos se
mantienen aproximadamente en su proyección sobre la recta. La condición de que la recta
pase cerca de la mayoría de los puntos puede concretarse exigiendo que las distancias
entre los puntos originales y sus proyecciones sobre la recta sean lo más pequeñas
posibles. En consecuencia, si consideramos un punto xi y una dirección a1 = (a11, ..., a1p)´,
definida por un vector a1 de norma unidad, la proyección del punto xi sobre esta dirección
es el escalar:
z i=a11 x i 1+…+a1 p x ip =a´1 X i (5.1)
y el vector que representa esta proyección será z i a 1 . Llamando ri a la distancia entre
el punto xi, y su proyección sobre la dirección a1, este criterio implica:
n n
2
minimizar ∑ r 2i =∑|X i−z i a 1|
i=1 i=1

Donde |u| es la norma euclidea o modulo del vector u.

Figura 5.1 recta que minimiza las distancias ortogonales de los puntos a ella

14
La Figura 5.1 muestra que al proyectar cada punto sobre la recta se forma un triángulo
rectángulo donde la hipotenusa es la distancia del punto al origen, ( X ´i X i )1 /2 , y los
catetos la proyección del punto sobre la recta (zi) y la distancia entre el punto y su
proyección (ri). Por el teorema de Pitágoras, podemos escribir:
X ´i X i=z 2i +r 2i
y sumando esta expresión para todos los puntos, se obtiene:
n n n

∑ X ´i X i =∑ z 2i +∑ r 2i
i=1 i=1 i=1
n
Como el primer miembro es constante, minimizar ∑ r 2i , la suma de las distancias a la
i=1
n
recta de todos los puntos, es equivalente a maximizar ∑ z2i , la suma al cuadrado de
i=1
los valores de las proyecciones. Como las proyecciones zi son, por (5.1) variables de
media cero, maximizar la suma de sus cuadrados equivale a maximizar su varianza, y
obtenemos el criterio de encontrar la dirección de proyección que maximice la varianza
de los datos proyectados. Este resultado es intuitivo: la recta de la Figura 5.1 parece
adecuada porque conserva lo más posible la variabilidad original de los puntos. El lector
puede convencerse considerando una dirección de proyección perpendicular a la de la
recta en esta figura: los puntos tendrían muy poca variabilidad y perderíamos la
información sobre sus distancias en el espacio.
Si en lugar de buscar la dirección que pasa cerca de los puntos buscamos la dirección tal
que los puntos proyectados sobre ella conserven lo más posible sus distancias relativas
llegamos al mismo criterio. En efecto, si llamamos d^ 2ij =X ´i X j a los cuadrados de las
distancias originales entre los puntos y d^ 2ij =(z i− z j)2 a las distancias entre los puntos
proyectados sobre una recta, deseamos que
d ij −d^ ij
2 2

( ¿¿)
∑¿
j

D=∑ ¿
i

sea mínima. Como la suma de las distancias originales es fija, minimizar D requiere
^2
maximizar ∑ ∑ dij , las distancias entre los puntos proyectados. Se demuestra en el
i j
Apéndice 5.1 que la dirección es la misma que proporciona una variable escalar de
varianza máxima.

b) Enfoque estadístico. Representar puntos p dimensionales con la mínima perdida de


información en un espacio de dimensión uno es equivalente a sustituir las p variables
originales por una nueva variable, z1, que resuma óptimamente la información. Esto
supone que la nueva variable debe tener globalmente máxima correlación con las
originales o, en otros términos, debe permitir prever las variables originales con la
máxima precisión. Esto no será posible si la nueva variable toma un valor semejante en
todos los elementos, y, se demuestra que la condición para que podamos prever con la

15
mínima perdida de información los datos observados, es utilizar la variable de máxima
variabilidad.
Volviendo a la Figura 5.1, se observa que la variable escalar obtenida al proyectar los
puntos sobre la recta sirve para prever bien el conjunto de los datos. La recta indicada en
la figura no es la línea de regresión de ninguna de las variables con respecto a la otra, que
se obtienen minimizando las distancias verticales u horizontales, sino la que minimiza las
distancias ortogonales o entre los puntos y la recta y se encuentra entre ambas rectas de
regresión.
Este enfoque puede extenderse para obtener el mejor subespacio resumen de los datos de
dimensión 2. Para ello, calcularemos el plano que mejor aproxima a los puntos. El
problema se reduce a encontrar una nueva dirección definida por un vector unitario, a 2,
que, sin pérdida de generalidad, puede tomarse ortogonal a a 1, y que verifique la
condición de que la proyección de un punto sobre este eje maximice las distancias entre
los puntos proyectados. Estadísticamente esto equivale a encontrar una segunda variable
z2, incorrelada con la anterior, y que tenga varianza máxima. En general, la componente
zr(r < p) tendrá varianza máxima entre todas las combinaciones lineales de las p variables
originales, con la condición de estar incorrelada con las z1, .. ., zr−1 previamente obtenidas.

c) Enfoque geométrico. El problema puede abordarse desde un punto de vista geométrico


con el mismo resultado final. Si consideramos la nube de puntos de la Figura 5.1 vemos
que los puntos se sitúan siguiendo una elipse y podemos describirlos por su proyección
en la dirección del eje mayor de la elipse. Puede demostrarse que este eje es la recta que
minimiza las distancias ortogonales, con lo que volvemos al problema que ya hemos
resuelto. En varias dimensiones tendremos elipsoides, y la mejor aproximación a los
datos es la proporcionada por su proyección sobre el eje mayor del elipsoide.
Intuitivamente la mejor aproximación en dos dimensiones es la proyección sobre el plano
de los dos ejes mayores del elipsoide y así sucesivamente. Considerar los ejes del
elipsoide como nuevas variables originales supone pasar de variables correladas a
variables ortogonales o incorreladas como veremos a continuación.

8. Obtención de la componentes principales

La obtención de las CP puede realizarse por varios métodos alternativos:


1.- Buscando aquella combinación lineal de las variables que maximiza la variabilidad.
(Hottelling).
2.- Buscando el subespacio de mejor ajuste por el método de los mínimos cuadrados.
(Minimizando la suma de cuadrados de las distancias de cada punto al subespacio).
(Pearson).
3.- Minimizando la discrepancia entre las distancias euclídeas entre los puntos calculadas
en el espacio original y en el subespacio de baja dimensión. (Coordenadas
principales, Gower).
4.- Mediante regresiones alternadas (métodos Biplot)

16
Calculo de los componentes
En el análisis de componentes principales se dispone de una muestra de tamaño n acerca de
p variables X1, X2,…, Xp (tipificadas, expresadas en desviaciones respecto a la media)
inicialmente correlacionadas, para posteriormente obtener a partir de ellas un número
k ≤ p variables incorrelacionadas Z1, Z2,…, Zp que sean combinación lineal de las
variables iniciales y que expliquen la mayor parte de su variabilidad. En principio, podemos
obtener tantas componentes como variables originales. X denotará el vector de variables
originales e Y el de componentes.
Calculo del primer componente principal. El primer componente principal se define como
la combinación lineal de las variables originales que tiene varianza máxima. Los valores en
este primer componente de los n individuos se representarán por un vector z1, dado por
Z 1 i=u11 X 1i +u12 X 2 i+ … .+u1 p X pi
Para un conjunto de n observaciones, esta ecuación puede matricialmente expresarse como:

[ ][ ][ ]
Z 11 X 11 X 21 . .. X p 1 u 11
Z12 = X 12 X 22 . .. X p 2 = u12
… … …
Z1n X 1 n X 2n . .. X pn u1 p

En notación abreviada:
Z 1= X u 1
Tanto si las Xj están tipificadas, como si están expresadas en desviaciones respecto a su
media muestral, la media de Z1 es cero, esto es, E [ Z 1 ]=E ( X u 1) =E ( X ) ui=0 . Su varianza
será:
n

∑ Z 21i
V ( Z 1 )=
i=1
n
1 ´
n
1 ´ ´
n [
´ 1
n ] ´
= z 1 z 1= u1 X X u1=u 1 X ´ X u1=u1 V u 1

Si las variables están expresadas en desviaciones respecto a la media, la expresión


1
X ´ X (matriz de inercia) es la matriz de varianzas covarianzas muestral a la que
n
1
denominaremos V (caso más general) y para variables tipificadas X ´ X es la matriz de
n
correlaciones R.
La primera componente z1 se obtiene de forma que su varianza sea máxima y sujeta a la
restricción de que la suma de los pesos u1i al cuadrado sea igual a la unidad, es decir, la
variable de los pesos ponderados ( u11 , u12 , … , u1 p )´ se toma normalizada.
p
Se trata de hallar Z1 maximizando V(Z1)= u1´Vu1, sujeta a la restricción ∑ u21 i=u ´1 u1=1
j=1

Introduciremos esta restricción mediante el multiplicador de Lagrange:


´ ´
L¿ u 1 V u1−λ (u1 u 1−1)
y maximizaremos esta expresión de la forma habitual derivando respecto a los componentes
de u1 e igualando a cero.

17
∂L
=2 V u1−2 λ u1=0 → ( V −λI ) u1=0
∂u 1
Se trata de un sistema homogéneo en u 1, que solo tiene solución si el determinante de la
matriz de coeficientes es nulo, es decir |V − λI|=0 . Pero la expresión |V − λI|=0 es
equivakente a decir que λ es un valor propio de la matriz V.
En general la ecuación |V − λI|=0 tiene n raíces λ1 , λ2 , … λn que puede ordenarlas de
mayor a menor λ1 > λ 2> … ¿ λn .
´
En la ecuación (V − λI )u i=0 podemos multiplicar por u1 a la derecha, con lo que se
tiene u´1 (V − λI )u i=0 →u ´1 V ui=λ , entonces, V(Z1)= λ
Por lo tanto, para maximizar V(Z1) ha de tomar el mayor valor propio λ de la matriz V.
Tomando λ1 como el mayor valor propio de V y tomando u1 como su vector propio
u
asociado normalizado ¿ ), ya que tenemos definido el vector de ponderaciones que se
¿
¿
aplica a las variables iniciales para obtener la primera componente principal definida como:
Z 1= X u 1
Ejemplo. Ilustración del cálculo de la primera componente principal. Los paquetes
estadísticos (Minitab, SPSS, Statgraphics, etc.) proporcionan directamente los componentes
principales. La matriz de varianzas y covarianzas en logaritmos, es:

[ ]
0.35 0.15 −0.19
V = 0.15 0.13 −0.03
−0.19−0.03 0.16
Los valores propios son las raíces de la ecuación:
|V − λI|=¿

|[ 0.35 0.15 −0.19


] [ ]|
λ 0 0 2 3
0.15 0.13 −0.03 − 0 λ 0 =0.000382−0.0628 λ+0.64 λ −λ =0
−0.19−0.030.16 00 λ

Las raíces de este polinomio, λ1=0.521, λ2=0.113, λ3=6.51×10−3. El vector propio asociado a
λ1 nos da los pesos de la primera componente principal. Para calcularlo, resolvemos el
sistema.
V u 1=λ1 u1
que conduce a:

18
y el sistema es compatible indeterminado. Para encontrar una de las infinitas soluciones
tomemos la primera variable como parámetro, x, y resolvamos el sistema en función de x.
La solución es,
{a 11=x , a12=0.42 x , a13=−0.562 x }
El valor de x se obtiene ahora imponiendo que el vector tenga norma unidad, con lo que
resulta:

[ ]
−0.817
a1= −0.349
0.459
y el primer componente es
Z 1=−0.817 X 1−0.349 X 2 +0.459 X 3
donde X1, X2 y X3 son las variables en logaritmos. Por ejemplo, el valor de esta nueva
variable, la primera componente principal, para la primera observación (la primera acción)
es,
z 1=−0.817 xlog ( 3.4 )−0.349 xlog ( 89.7 )+ 0.459 xlog ( 30.2 )=−1.0049
El primer componente principal puede aproximadamente escribirse
Z 1 ≅−0.82 X 1+ 0.35( X 3 −X 2 )+ 0.11 X 3
y utilizando la definición de las variables originales:
Z 1 ≅−0.82 log ⁡( d / p)+0.35 log( p /d)+0.11 log ⁡( pN /b)
es decir,
Z 1 ≅−1.17 log ⁡( d / p)+0.11 log ⁡( pN /b)
que indica que este primer componente depende básicamente de la variable X1, la
rentabilidad por dividendos. Llamando z1 = log Z1 este primer componente puede escribirse
también como
p1.27 N 0.09
z 1= ( )
d 1.16 B
que es, aproximadamente, de nuevo la variable x1, el cociente entre el precio de la acción y
los dividendos recibidos. Esta variable es la que explica mejor la variabilidad conjunta de las
acciones.

Ejemplo
Los datos de EPF de la encuesta de presupuestos familiares en España presentan los gastos
medios de las familias españolas para las 51 provincias (Ceuta y Melilla aparecen unidas
como una provincia) en nueve epígrafes: X1 = alimentación, X2 = vestido y calzado, X3 =
vivienda, X4 = mobiliario doméstico, X5 = gastos sanitarios, X6 = transportes, X7 =
enseñanza y cultura, X8 = turismo y ocio, X 9 = otros gastos. La matriz de covarianzas
resume la variabilidad de estas 9 variables en los 51 elementos observados.

19
Como las distribuciones de los gastos son muy asimétricas, las variables se han expresado en
logaritmos. El vector propio asociado al mayor valor propio, 0.348, define la siguiente
variable, primer componente principal:
z 1=0.12 x 1 +0.18 x 2+ 0.30 x 3 +0.31 x 4 +0.46 x 5+ 0.34 x 6+ 0.50 x7 +0.31 x 8 +0.31 x 9

Se observa que z1 es una suma ponderada de todos los gastos, con mayor peso, de los gastos
en enseñanza y cultura (x7) y sanitarios (x5). El menor peso lo tiene el gasto en alimentación
(x1).
Si calculamos los valores de z1 para las provincias españolas y las ordenamos por esta nueva
variable las provincias quedan prácticamente ordenadas por su renta. La primera
componente principal tiene, pues, en este caso, una explicación inmediata: redescubre la
renta de cada provincia.

Cálculo de la segunda componente principal.


Al igual que las restantes, se expresa como una combinación lineal de las variables
originales:
Z 2 i=u 21 X 1 i+ u22 X 2i +… .+u 2 p X pi
Para un conjunto de n observaciones esta ecuación puede matricialmente expresarse
como:

[ ][ ][ ]
Z21 X 11 X 21 . .. X p 1 u21
Z22 = X 12 X 22 . .. X p 2 = u22
… … …
Z2n X 1 n X 2n . .. X pn u2 p

En notación abreviada:
Z 2= X u 2
Tanto si las Xj están tipificadas, como si están expresadas en desviaciones respecto a su
media muestral, la media de Z2 es cero, esto es, E [ Z 2 ] =E ( X u 2) =E ( X ) u2=0 . Su
varianza será:
n

∑ Z 22i
V ( Z 2 )= i=1
n
1 1
[
1
]
= z ´2 z2 = u´2 X ´ X u2 =u´2 X ´ X u2=u ´2 V u2
n n n
La segunda componente z2 se obtiene de forma que su varianza sea máxima y sujeta a la
restricción de que la suma de los pesos u2i al cuadrado sea igual a la unidad, es decir, la
variable de los pesos ponderados ( u21 , u22 , … ,u 2 p )´ se toma normalizada.
Por otra parte como Z1 y Z2 han de estar incorrelacionadas se tiene que:
´ ´ ´ ´ ´
0=E( Z2 Z 1 )=E(u 2 X ´ X u1 )=u2 E( X X )u 1=u2 V u1
También sabemos que V u 1=λ u1 (ya que u1 es el vector propio de V asociado a su mayor
valor propio λ1 ). Si multiplicamos por u2´ a la derecha, obtenemos:
´ ´ ´
0=u2 V u1= λ1 u 2 u1=u 2 u1=0

20
Con lo que u1 y u2 son ortogonales.
Se trata de hallar Z2 maximizando V(Z2)= u2´Vu2, sujeta a la restricción u´2 u 2=1 y
´
u2 V u2 =0
Introduciremos esta restricción mediante el multiplicador de Lagrange:
L¿ u ´2 V u2−2 μ(u´2 V u 1)− λ(u´2 u2−1)
y maximizaremos esta expresión de la forma habitual derivando respecto a los componentes
de u1 e igualando a cero.
∂L
=2 V u2−2 μV u1 −2 λu 2=0
∂u 2
Dividido por dos y premultiplicando por u1´ tenemos:
u´1 V u2 −μ u ´1 V u1−λ u´1 u2=0
Como V u 1=λ1 u1 (ya que u1 es el vector propio de V asociado a su mayor valor propio
λ1 ), entonces u´1 V =λ1 u´1 , podemos escribir la igualdad como:
´ ´
λ u1 u2=μV [ Z 1 ]−u1 u2=0
pero:
´
u1 u 2=0 → μV [ Z1 ]=0→ μ=0
De donde:
∂L
=2 V u2−2 λ u2=0→(V −λI )u2=0
∂u 2
Se trata de un sistema homogéneo en u 2 que solo tiene solución si el determinante de la
matriz de los coeficientes es nulo, es decir |V − λI|=0 . Pero la expresión |V − λI|=0
es equivalente a decir que λ es un valor propio de la matriz V.
En general la ecuación |V − λI|=0 tiene n raíces λ1 , λ2 , … λn que puede ordenarlas de
mayor a menor λ1 > λ 2> … ¿ λn .
En la ecuación (V − λI )u 2=0 podemos multiplicar por u´2 a la derecha, con lo que se
tiene u´2 (V − λI )u2=0 →u ´2 V u2=λ , entonces, V(Z2)= λ
Por lo tanto, para maximizar V(Z2) ha de tomar el mayor valor propio λ de la matriz V.
(el mayor ya lo había tomado al obtener la primera componente principal)
Tomando λ2 como el segundo mayor valor propio de V y tomando u2 como su vector
u
propio asociado normalizado ¿ ) , ya que tenemos definido el vector de ponderaciones
¿
¿
que se aplica a las variables iniciales para obtener la segunda componente principal
definida como:
Z 2= X u 2
De forma similar, la componente principal h-esima se define como:
Z h =X uh

21
Donde uh es el vector propio de V asociado a su h-esimo mayor valor propio. Suele
denominarse también a uh eje factorial h-esimo.
Ejemplo. El segundo componente principal para las variables de gastos de la EPF definidas
en el Ejemplo 5.2 es el asociado al segundo valor propio mayor, que es 0,032. El vector
propio asociado a este valor propio define la nueva variable:

Esta variable es aproximadamente la diferencia entre dos medias ponderadas de los gastos.
La primera, da sobre todo peso a otros gastos (x9), y transporte (x6). En otros gastos están
incluidas las transferencias fuera de la provincia a miembros de la familia mayores de 14
años que no residan en ella, podemos conjeturar que esta variable separa las provincias que
reciben transferencias de las que las envían. Es también significativo que estas provincias
tienen altos gastos en transporte. La primera media ponderada puede considerarse un
indicador de cómo esta provincia envía recursos a otras. La segunda media da mayor peso a
las variables enseñanza y cultura (x7) y gastos sanitarios (x5).

Figura 5.2. Proyeccion de los datos de la EPF sobre el plano definido por las dos primeras
componentes principales.

Este segundo componente va a separar a provincias que envian recursos a otras (alto valor
de x9) y que tienen tambi´en altos gastos de transporte, respecto a las que transfieren
relativamente poco y tienen altos gastos de educaci´on y sanidad. Las provincias con valores
m´as altos de este componente son Zamora, Le´on, Lugo, Toledo, Huesca, L´erida, Segovia,
Soria y Palencia. Estas provincias no han tenido tradicionalmente universidad, por lo que
tienen que enviar los estudiantes fuera y tienen bajos costes de educaci´on. Por el contrario,
las provincias con valores bajos de este componente z2 incluyen a Madrid y Barcelona,
centros receptores netos de estudiantes de otras provincias, as´ı como a Salamanca,
Zaragoza y Tenerife. La Tabla 5.1 presenta la ordenaci´on de las provincias seg´un el primer
y segundo componente. La Figura 5.2 representa cada provincia en el plano de las dos
primeras componentes principales. Cada punto aparece representado por sus coordenadas

22
respecto a los ejes definidos por las componentes principales y puede interpretarse como la
proyecci´on de los puntos, que est´an en un espacio de dimensi´on 9, tantos como variables,
sobre el plano que mejor mantiene sus distancias relativas, que es el definido por las dos
primeras componentes.

Tabla 5.1. Ordenación de las provincias de la EPF, seg´un los dos primeros componentes

Ejemplo. Generalización. Los restantes valores propios de la matriz de covarianzas de los


datos de la EPF son 0.027, 0.0175, 0.0126, 0.0107, 0.010, 0.0059, y 0.00526. A partir del
tercero son muy pequeños. El tercer componente principal es

z3 = 0.12x1 + 0.05x2 + 0.34x3 + 0.11x4 − 0.85x5 + 0.04x6− 0.30x7 + 0.20x8 + 0.003x9


= (0.12x1 + 0.05x2 + 0.34x3 + 0.11x4 + 0.04x6 + 0.20x8)− (0.85x5 + 0.30x7)

y puede de nuevo interpretarse como la diferencia entre dos medias ponderadas. La primera
da sobre todo peso a las variables 3, vivienda, 8, turismo y ocio, 1, alimentación y 4,
mobiliario doméstico. La segunda a la 5, gastos sanitarios, y a la 7, enseñanza y cultura.
Separa provincias con bajos costes en sanidad y altos en vivienda y ocio de las que tengan la
estructura opuesta. La Figura 5.3 representa las observaciones proyectadas sobre el plano de
23
las componentes primera y tercera. Se observa que la tercera dimensión es independiente de
la primera (riqueza o renta) y separa provincias con altos gastos en sanidad, como
Salamanca y Palencia, de otras con gastos relativamente bajos en esta magnitud y mayor en
vivienda y ocio.

Figura 5.3. Representaci´on de los datos de la EPF em el plano definido por los
componentes primero y tercero.

Ejemplo. La Tabla 5.2 presenta la matriz de varianzas y covarianzas entre nueve indicadores
economicos medidos en distintas empresas.

Los valores propios de esta matriz se presentan en la Tabla 5.3. Su suma es 1441.8, pr
´acticamente igual, salvo por errores de redondeo, a la suma de las varianzas de las
variables, que es 1442. Ya veremos que esta concordancia ocurre siempre. Los vectores
propios de los tres primeros componentes se indican en la Tabla 5.4. Se observa que el
primer componente principal es una media ponderada de las primeras seis variables. El
segundo contrapone la primera, la segunda y la cuarta a la tercera y la sexta. El tercer
componente contrapone las tres primeras al resto de las variables.
Estos resultados son consistentes con la matriz de la Tabla 5.2. El rasgo m´as caracter´ıstico
de esta tabla es la distinta magnitud de las seis primeras variables respecto al resto. Esto lo
recoge el primer componente principal. El segundo rasgo es la presencia de covarianzas
negativas en las filas de las dos primeras variables y esto se recoge en el segundo
componente.

24
El tercero incorpora por un lado las tres ´ultimas variables y, por otro, contrapone las tres
primeras variables frente al resto.

Tabla 5.3. Autovalores de la matriz Tabla 5.2

VARIANZAS DE LAS COMPONENTES


En el proceso de obtención de las componentes principales presentado en el apartado
anterior hemos visto que la varianza de la componente h-ésima es:
V ( Z h ) =u´h Vuh =λh
Es decir, la varianza de cada componente es igual al valor propio de la matriz V al que va
asociada.
Si, como es lógico, la medida de la variabilidad de las variables originales es la suma de sus
varianzas, dicha variabilidad será:
p

∑ V ( X h) =traza(V )
h=1

ya que las varianzas de las variables son los términos que aparecen en la diagonal de la
matriz de varianzas covarianzas V.
Ahora bien, como V es una matriz real simétrica, por la teoría de diagonalización de
matrices, existe una matriz ortogonal P (P -1=P’) tal que P’VP=D, siendo D diagonal con los
valores propios de V ordenados de mayor a menor en la diagonal principal. Por lo tanto:

p
traza ( P ´ VP )=traza ( D )=∑ λh
h=1

Pero:
traza ( P ´ VP )=traza ( VPP ´ )=traza ( V . I )=traza(V )
Con lo que ya podemos escribir:

25
Z
V (¿¿ h)
p p
V ( X h ) =traza ( V )=traza ( P ´ VP )=traza ( D )=∑ λh=¿ ∑ ¿
h=1 h=1
p

∑¿
h=1

Hemos comprobado, además, que la suma de las varianzas de las variables (inercia total de
la nube de puntos) es igual a la suma de las varianzas de las componentes principales e igual
a la suma de los valores propios de la matriz de varianzas covarianzas muestral V.
La proporción de la variabilidad total recogida por la componente principal h-ésima
(porcentaje de inercia explicada por la componente principal h-ésima) vendrá dada por:

λh λh
p
=
traza(V )
∑ λh
h=1

Si las variables están tipificadas, V = R y traza(V) = traza(R) = p, con lo que la proporción


de la componente h-ésima en la variabilidad total será λh/p.
También se define el porcentaje de inercia explicada por las k primeras componentes
principales (o ejes factoriales) como:
k k

∑ λh ∑ λh
h=1 h=1
p
=
traza(V )
∑ λh
h=1

ESTRUCTURA FACTORIAL DE LAS COMPONENTES PRINCIPALES


Se denomina estructura factorial de las componentes principales a la matriz de correlaciones
entre las componentes Zh y las variables originales Xj.
Consideramos los vectores muestrales relativos a Zh y Xj respectivamente:

[][]
X j1 Xh1
X j2 Xh2
X j = . Z h= .
. .
. .
X jn X hn

La covarianza muestral entre Zh y Xj viene dada por:


1 ´
Cov ( X j , Z h )= X j Z h
n
El vector Xj se puede expresar en función de la matriz X utilizando el vector de orden p, al
que denominamos por δ, que tiene un 1 en la posición j-ésima y 0 en las posiciones

26
restantes. La forma de expresar Xj en función de la matriz X a través del vector p es la
siguiente:

Teniendo en cuenta que Zh = Xuh podemos escribir:

Por lo tanto, podemos escribir la correlación existente entre la variable X j y la componente


Zh de la siguiente forma:

Si las variables originales están tipificadas, la correlación entre las variable Xj y la


componente Zh es la siguiente:

PUNTUACIONES O MEDICIÓN DE LAS COMPONENTES


El análisis en componentes principales es en muchas ocasiones un paso previo a otros
análisis, en los que se sustituye el conjunto de variables originales por las componentes
obtenidas. Por ejemplo, en el caso de estimación de modelos afectados de multicolinealidad
o correlación serial (autocorrelación). Por ello, es necesario conocer los valores que toman
las componentes en cada observación.
Una vez calculados los coeficientes uhj (componentes del vector propio normalizado
asociado al valor propio h-ésimo de la matriz V = X’X/n relativo a la componente principal
Zh), se pueden obtener las puntuaciones Z hj, es decir, los valores de las componentes
correspondientes a cada observación, a partir de la siguiente relación:
Z hi =u h 1 X 1 i +uh 2 X 2 i+ … uhp X pi h=1 … p i=1 … n

Si las componentes se dividen por su desviación típica se obtienen las componentes


tipificadas. Por lo tanto, si llamamos Yh a la componente Zh tipificada tenemos:

27
La matriz formada por los coeficientes chi suele denominarse matriz de coeficientes de
puntuaciones de los factores (factor score coefficient matrix).

CONTRASTES SOBRE EL NÚMERO DE COMPONENTES PRINCIPALES A


RETENER
En general, el objetivo de la aplicación de las componentes principales es reducir las
dimensiones de las variables originales, pasando de p variables originales a m<p
componentes principales. El problema que se plantea es cómo fijar m, o, dicho de otra
forma, ¿qué número de componentes se deben retener? Aunque para la extracción de las
componentes principales no hace falta plantear un modelo estadístico previo, algunos de los
criterios para determinar cuál debe ser el número óptimo de componentes a retener requieren
la formulación previa de hipótesis estadísticas.

Criterio de la media aritmética


Según este criterio se seleccionan aquellas componentes cuya raíz caracterísica λj excede de
la media de las raíces características. Recordemos que la raíz característica asociada a una
componente es precisamente su varianza.
Analíticamente este criterio implica retener todas aquellas componentes en que se verifique
que:
p

∑ λh
λi > λ́= j=1
p
Si se utilizan variables tipificadas, entonces, como ya se ha visto, se verifica que
p

∑ λ h= p , con lo que para variables tipificadas se retiene aquellas componentes tales que
j=1
λh >1.

Contraste sobre las raíces características no retenidas

28
Se puede considerar que, las p-m últimas raíces características poblacionales son iguales a 0.
Si las raíces muestrales que observamos correspondientes a estas componentes no son
exactamente igual a 0, se debe a los problemas del azar. Por ello, bajo el supuesto de que las
variables originales siguen una distribución normal multivariante, se pueden formular las
siguientes hipótesis relativas a las raíces características poblacionales:
H 0 : λm +1=λm +2=…=λ p=0
El estadístico que se considera para contrastar esta hipótesis es el siguiente:
p

(
Q¿ = n−
2 p+11
6 )(
( p−m) ln λ́ p−m− ∑ ln λ j
j=m+1
)
Bajo la hipótesis nula H0, el estadístico anterior se distribuye como una chicuadrado con (p-
m+2)(p-m+l)/2 grados de libertad. Este contraste se deriva del contraste de esfericidad de
Barlett para la existencia o no de una relación significativa entre las variables analizadas que
se utiliza en la validación del modelo de análisis multivariante de la varianza.
Para ver la mecánica de la aplicación de este contraste, supongamos que inicialmente se han
retenido m raíces características (por ejemplo, las que superan la unidad al aplicar el criterio
de la media aritmética. En el caso de que se rechace la hipótesis nula H0, implica que una o
más de las raíces características no retenidas es significativa. La decisión a tomar en ese
caso sería retener una nueva componente, y aplicar de nuevo el contraste a las restantes
raíces características. Este proceso continuaría hasta que no se rechace la hipótesis nula.
Prueba de Anderson
Si los valores propios, a partir del valor m+1, son iguales, no hay ejes principales a partir del
eje m+1, en el sentido de que no hay direcciones de máxima variabilidad. La variabilidad en
las últimas (n-m) dimensiones es esférica. Para decidir este hecho se debe testearse la
hipótesis siguiente:
H 0 : λm +1=λm +2=…=λ p=0
Si esta hipótesis es cierta, el estadístico:
p

2
χ =( n−1 ) ∑
p

j=m +1
ln λ j+ ( p−m ) (n−1)ln ( ∑
j=m+1

( p−m )
ln λ j
)
sigue una distribucion chi-cuadrado con (p-m)(p-m+1)/2-1 grados de libertad, siempre y
cuando el número de individuos n sea grande. Si para un m fijado, χ2 es significativo, debe
rechazarse la hipótesis H0. λl, ..., λn representan los valores propios calculados sobre la
matriz de covarianzas muestral.
Esta prueba sólo es válida si las variables Xl, ..., Xn son normales con distribución conjunta
normal.
Prueba de Lebart y Fenelón
Tanto esta prueba como las dos siguientes obedecen a una concepción más empírica que
racional del problema. La formulación matemática de lo que pretenden demostrar está
pobremente justificada en términos de inferencia estadística.

29
La idea general es la siguiente: a partir de una cierta dimensión (número de componentes a
retener), la restante variabilidad explicada es debida a causas aleatorias (ruidos) que
perturban la información contenida en la tabla de datos inicial. En esencia, este "ruido" es
debido a fluctuaciones del muestreo (desviaciones de la normalidad, errores de medida,
gradientes de dependencia entre los individuos, etc.). Asimilando el ruido a variables
independientes, la significación de la dimensión m queda resuelta cuando la varianza
explicada supera claramente a la varianza explicada por el ruido. La varianza explicada por
las primeras m componentes viene expresada por Vm = λl + ...+ λm.
La prueba de Lebart y Fenelon consiste en realizar k análisis sobre n variables
independientes para un tamaño muestral n. Ordenando las varianzas explicadas en cada
análisis tenemos que V im <V im …< V im
1 2 k

La probabilidad de que se verifique una ordenación fijada es 1/k!. Consideremos el suceso:


"la varianza explicada por el k-ésimo análisis supera a la varianza de los demás", es decir, k
V im <V im …< V im . Como podemos formar (k−1)! permutaciones en el conjunto
1 2 k

(1,...,k−1), la probabilidad de este suceso vendrá dada por (k−1)! / k! =1/k.


Consideremos entonces el nivel de significación α = 0.05. Sea Vm la varianza explicada por
el análisis real cuya dimensión queremos estudiar. Generemos k−1 = 19 (1/k = 0,05 ⇒ k =
100/5 = 20) análisis con variables independientes generadas al azar. Si V m procede de
variables independientes, la probabilidad de que supere a las varianzas explicadas por los
análisis simulados es 1/20 = 0.05. De este modo tenemos una prueba no paramétrica para
decidir la significación de Vm al nivel α = 0,05. Si V m supera a la varianza explicada por los
19 análisis simulados, se puede afirmar, con probabilidad de error 0,05, que la dimensión m
es significativa en el sentido dado anteriormente. De manera análoga, para un nivel de
significaci6n 0,01 deberíamos simular k−1 = 99 análisis (1/k = 0,01⇒ k = 100/1 = 100).
El valor critico de Vm, a partir del cual la varianza explicada es significativa, se obtiene por
simulación de datos generados al azar. Lebart y Fenelon publican gráficas y tablas de V m
para 1≤m≤5 en función del número de observaciones n y el número de variables p.
Prueba del bastón roto de Frontier
Frontier asimila la descomposición de la variabilidad total VT = λ l + ...+ λp al romper un
bastón de longitud VT en p trozos por p-1 lugares del mismo elegidos al azar. Ordenando los
trozos del bastón, de longitudes Ll ≥ ... ≥ Lp, se demuestra que:
p− j
1 1 1 1 1 1
E ( L p )=
p 2 (
, E ( Ln−1 )= +
p p p−1 )
, E ( L j )= ∑
p i=0 j+1
j=1, … , p

Hemos supuesto que VT = 1 para normalizar el problema. Si expresamos estos valores


medios, cuya suma es 1, en porcentajes de la longitud total, obtenemos el modelo teórico de
la descomposición de la varianza en p componentes obtenidas al azar. Por ejemplo, para p =
4 tenemos E(L1) = 0.5208, E(L2) = 0.2708, E(L3) = 0.1458 y E(L4) = 0.0625. Por lo que los
porcentajes acumulados de varianza de las componentes serán 52,08%,
52,08+27.08=79,16%, 52,08+27,08+14.58=93,74% y 52,08+27,08+14,58+6,25=100%.
Las m primeras componentes son significativas si explican claramente mayor varianza que
los m primeros valores medios del modelo del bastón roto. Se considera que las demás
componentes descomponen la varianza residual al azar.
Prueba ε de Ibañez

30
Esta prueba consiste en añadir a las p variables observables del problema una variable ε
formada por datos generados al azar. Se repite entonces el análisis de componentes
principales con la nueva variable añadida. Si a partir de la componente m+1 la variable ε
queda resaltada en la estructura factorial (la saturación o carga de ε en la componente m+1
es alta), el número significativo de componentes no puede ser superior a m, pues las demás
componentes explicarían una variabilidad inferior a la que es debida a la variable arbitraria
ε. Ibanez da solamente una justificación empírica de esta prueba, comparando los resultados
de un análisis sin variable ε con otro análisis con variable ε, y concluyendo que las
componentes deducidas de ambos son prácticamente las mismas. Seguidamente ilustra la
prueba ε sobre otros análisis con datos experimentales publicados por el propio Ibanez. La
prueba ε sólo llega a proporcionar una cota superior para la dimensión m.
El gráfico de sedimentación
El gráfico de sedimentación se obtiene al representar en ordenadas las raíces características
y en abscisas los números de las componentes principales correspondientes a cada raíz
característica en orden decreciente. Uniendo todos los puntos se obtiene una Figura que, en
general, se parece al perfil de una montaña con una pendiente fuerte hasta llegar a la base,
formada por una meseta con una ligera inclinación. Continuando con el símil de la montaña,
en esa meseta es donde se acumulan los guijarros caídos desde la cumbre, es decir, donde se
sedimentan. Por esta razón, a este gráfico se le conoce con el nombre de gráfico de
sedimentación. Su denominación en inglés es scree plot. De acuerdo con el criterio gráfico
se retienen todas aquellas componentes previas a la zona de sedimentación.
Retención de variables
Hasta ahora todos los contrastes han estado dedicados a determinar el número de
componentes a retener. Pero, la retención de componentes, ¿puede afectar a las variables
originales? Si se retiene un número determinado de componentes, ¿qué hacer si alguna
variable está correlacionada muy débilmente con cada una de las componentes retenidas? Si
se plantea un caso de este tipo, sería conveniente suprimir dicha variable del conjunto de
variables originales, ya que no estaría representada por las componentes retenidas. Ahora
bien, si se considera que la variable a suprimir juega un papel esencial en la investigación,
entonces se deberían retener componentes adicionales en el caso de que algunas de ellas
estuvieran correlacionadas de forma importante con la variable a suprimir.

LA REGRESIÓN SOBRE COMPONENTES PRINCIPALES Y EL PROBLEMA DE


LA MULTICOLINEALIDAD
La regresión sobre componentes principales sustituye el método clásico de ajuste lineal,
cuando las variables exógenas del modelo son numerosas o fuertemente correlacionadas
entre sí (multicolinealidad).
Consideremos el modelo lineal general Y = Xβ+e con las hipótesis clásicas de normalidad
de los residuos, E(e)=0 y V(e) = σ2I, pero con problemas de correlación entre las variables
exógenas del modelo. Designaremos por ^y el vector de n valores de la variable endógena
centrada, y por ^ X la matriz conteniendo en columnas los p vectores de n valores, de las
variables exógenas centradas. Designaremos estas columnas por ^x 1 , ^x 2 , … , ^x p . Si los
vectores ^x 1 , ^x 2 , … , ^x p no son linealmente independientes (multicolinealidad en el modelo
Y = xβ+e), el vector ^β=( ^
−1
X´^X) ^ X ´ ^y de los coeficientes estimados de la regresión no
podrá ser calculado, ya que la matriz ^ X´^ X no será inversible.

31
Si algunos de los vectores ^x 1 , ^x 2 , … , ^x p tienen ángulos pequeños entre sí (dicho de otra
forma, si los coeficientes de correlación muestral entre ciertas variables exógenas son
cercanos a 1) el vector ^β se conocerá, pero con mala precisión. En este caso las
contribuciones de cada uno de los coeficientes son difíciles de discernir. En efecto, si la
matriz ^ X´^X es «casi singular», algunos de sus valores propios serán próximos a 0. La
descomposición de ^ X´^X en función de vectores y valores propios se escribe como:
p
^
X´^
X= ∑ λα u α u ´ α
α =1

ya que X ^´X ^ es una matriz simétrica definida positiva con valores propios λ α relativos a
vectores propios uα ortogonales, cuya diagonalización permite escribir:

Además:

lo que permite ver que uno o varios valores propios casi nulos hacen impreciso el ajuste.
Se eliminaría el problema de la casi colinealidad de los vectores columna de ^ X
suprimiendo p-q vectores uk (k = q+1, q+2,..., p) correspondiente a los valores propios λk
más pequeños de ^ X´^X .
En estas condiciones, el vector de los coeficientes de ajuste mínimo cuadrático se escribe
como:

32
q
^β ¿=( ^
X´ ^
−1
X) ^ X ´ ^y =(∑ α =1
1
)
u u´ ^
λα α α
X ´ ^y q< p

y la estimación de su matriz de varianzas covarianzas será:


β^
q
^ (¿¿ ¿)=S 2 ∑ 1 uα u ´ α
V
α =1 λα
¿
Una vez diagonalizada la matriz ^ X´^ X , el cálculo de los coeficientes de ajuste referidos a
(u1, u2,...,uq) se realiza considerando las componentes principales tipificadas:
1 ^
zα= X uα para α =1,2, … , q
√ λα
El modelo inicial Y=Xβ+e se ha ajustado ahora mediante ^y =Zc+ d donde Z = (z1,..., zq)
es la matriz (n,q) cuyas columnas son los q vectores propios unitarios y ortogonales zα
asociados a los ^ X´^X , y donde c es el vector de los q nuevos coeficientes hallados
mediante:
2
c=( Z ´ Z ) ^
−1 −1
X ´ ^y con V ( c ) =S ( Z ´ Z )
Pero como Z Z ' = Iq ya que Z = (z1,..., zq) con zα ortogonales y unitarios, podemos escribir:

n
X ´ ^y =Z ´ ^y con V ( c )=S2 ( Z ´ Z )−1=S2 I =
c=( Z ´ Z ) ^
−1
( 1

n−q−1 i=1 )
d 2i I

Por lo tanto, los coeficientes c están incorrelacionados y tienen todos la misma varianza,
estimada por S2.

LA REGRESIÓN ORTOGONAL Y LAS COMPONENTES PRINCIPALES


La regresión ortogonal es un método utilizado para determinar una relación lineal entre p
variables las cuales a priori juegan papeles análogos (no se hace la distinción, como en el
modelo lineal, entre variables endógenas y exógenas). Más concretamente, se buscan los
coeficientes tales que aseguren la más pequeña dispersión de esta combinación lineal de las
variables.

5.4. Propiedades de los componentes


Los componentes principales son nuevas variables con las propiedades siguientes:
1. Conservan la variabilidad inicial: la suma de las varianzas de los componentes es igual a
la suma de las varianzas de las variables originales, y la varianza generalizada de los
componentes es igual a la original.
Comprobemos el primer punto. Como Var (zh) = λ h y la suma de los valores propios es la
traza de la matriz:

33
es el producto de los valores propios, llamando Sz a la matriz de covarianzas de los
componentes, que es diagonal con términos λ i :

2. La proporción de variabilidad explicada por un componente es el cociente entre su


varianza, el valor propio asociado al vector propio que lo define, y la suma de los valores
propios de la matriz.
En efecto, la varianza del componente h es λ h, y la suma de las varianzas de las variables
p
originales es ∑ λi , igual, como acabamos de ver, a la suma de las varianzas de los
i=1
componentes. La proporción de variabilidad total explicada por el componente h es
λh
∑ λi
3. Las covarianzas entre cada componente principal y las variables X vienen dadas por el
producto de las coordenadas del vector propio que define el componente por su valor propio:

donde ai es el vector de coeficientes de la componente zi.


Para justificar este resultado, vamos a calcular la matriz p × p de covarianzas entre los
componentes y las variables originales. Esta matriz es:
1
Cov ( z , x )= Z ´ X
n
y su primera fila proporciona las covarianzas entre la primera componente y las p variables
originales. Como Z = XA, sustituyendo
1
Cov ( z , x )= A ´ Z ´ X =A ´ S=DA ´
n
donde A contiene en columnas los vectores propios de S y D es la matriz diagonal de los
valores propios. En consecuencia, la covarianza entre, por ejemplo, el primer componente
principal y las p variables vendrá dada por la primera fila de A ´ S , es decir a´1 S o
también λ1 a´1 , donde a´1 es el vector de coeficientes de la primera componente
principal.
4. La correlación entre un componente principal y una variable X es proporcional al
coeficiente de esa variable en la definición del componente, y el coeficiente de

34
proporcionalidad es el cociente entre la desviación típica del componente y la desviación
típica de la variable.
Para comprobarlo:

5. Las r componentes principales (r < p) proporcionan la predicción lineal optima


con r variables del conjunto de variables X.
Esta afirmación puede demostrarse de dos formas. La primera demostrando que la mejor
predicción lineal con r variables de las variables originales se obtiene utilizando las r
primeras componentes principales. La segunda demostrando que la mejor aproximación de
la matriz de datos que puede construirse con una matriz de rango r se obtiene construyendo
esta matriz con los valores de los r primeros componentes principales. La demostración de
estas propiedades puede verse en el apéndice 5.1.
6. Si estandarizamos los componentes principales, dividiendo cada uno por su desviación
típica, se obtiene la estandarización multivariante de los datos originales.

Estandarizando los componentes Z por sus desviaciones típicas, se obtienen las nuevas
variables
−1 /2 −1/ 2
Y c =Z D = XA D
donde D−1/2 es la matriz que contienen las inversas de las desviaciones típicas de las
componentes. Hemos visto en el capıtulo anterior que la estandarización multivariante de
una matriz de variables X de media cero se define como:
−1/ 2 ´
Y s =XA D A
Tanto las variables Yc como las Ys tienen matriz de covarianzas identidad, pero unas pueden
ser una rotación de las otras. Esto no altera sus propiedades, y la estandarización
multivariante puede interpretarse como:
(1) obtener los componentes principales;
(2) estandarizarlos para que tengan todos la misma varianza.
Esta relación se presenta gráficamente en la Figura 5.4. La transformación mediante
componentes principales conduce a variables incorreladas pero con distinta varianza. Puede
interpretarse como rotar los ejes de la elipse que definen los puntos para que coincidan con
sus ejes naturales. La estandarización multivariante produce variables incorreladas con
varianza unidad, lo que supone buscar los ejes naturales y luego estandarizarlos. En
consecuencia, si estandarizamos los componentes se obtiene las variables estandarizadas de
forma multivariante.

35
Figura 5.4. Representación grafica de la relación entre componentes principales y
estandarización multivariante

5.5. Análisis normado o con correlaciones


Los componentes principales se obtienen maximizando la varianza de la proyección. En
términos de las variables originales esto supone maximizar:

con la restricción a´ a=1 . Si alguna de las variables, por ejemplo la primera, tiene una
varianza S 21 , mayor que las demás, la manera de aumentar M es hacer tan grande como
podamos la coordenada a1 asociada a esta variable. En el lımite, si una variable tiene una
varianza mucho mayor que las demás, el primer componente principal coincidirá muy
aproximadamente con esta variable.
Cuando las variables tienen unidades distintas esta propiedad no es conveniente: si
disminuimos la escala de medida de una variable cualquiera, de manera que aumenten en
magnitud sus valores numéricos (pasamos por ejemplo de medir en km a medir en metros),
el peso de esa variable en el análisis aumentara, ya que en (5.13):
(1) su varianza será mayor y aumentará su coeficiente en el componente, a 2i, pues
contribuye más a aumentar M;
(2) sus covarianzas con todas las variables aumentaran, con el consiguiente efecto de
incrementar ai.

En resumen, cuando las escalas de medida de las variables son muy distintas, la
maximización de (5.13) dependerá decisivamente de estas escalas de medida y las variables
con valores mas grandes tendrán más peso en el análisis. Si queremos evitar este problema,
conviene estandarizar las variables antes de calcular los componentes de manera que las
magnitudes de los valores numéricos de las variables X sean similares.
La estandarización resuelve otro posible problema. Si las variabilidades de las X son muy
distintas, las variables con mayor varianza van a influir más en la determinación de la

36
primera componente. Este problema se evita al estandarizar las variables, ya que entonces
las varianzas son la unidad, y las covarianzas son los coeficientes de correlación. La
ecuación a maximizar se transforma en:

siendo rij el coeficiente de correlación lineal entre las variables i y j. En consecuencia, la


solución depende de las correlaciones y no de las varianzas.
Los componentes principales normados se obtienen calculando los vectores y valores
propios de la matriz R, de coeficientes de correlación. Llamando λ Rp a las raíces
características de esa matriz, que suponemos no singular, se verifica que:

Las propiedades de los componentes extraídos de R son:


R
1. La proporción de variación explicada por λp sera:

λRp
p
2. Las correlaciones entre cada componente zj y las variables X originales vienen dados
directamente por a´j √ λ j siendo zj = Xaj.
Estas propiedades son consecuencia inmediata de los resultados de la Sección 5.4.
Cuando las variables X originales están en distintas unidades conviene aplicar el análisis de
la matriz de correlaciones o análisis normado. Cuando las variables tienen las mismas
unidades, ambas alternativas son posibles. Si las diferencias entre las varianzas de las
variables son informativas y queremos tenerlas en cuenta en el análisis, no debemos
estandarizar las variables: por ejemplo, supongamos dos índices con la misma base pero uno
fluctúa mucho y el otro es casi constante. Este hecho es informativo, y para tenerlo en
cuenta no se deben estandarizar las variables, de manera que el índice de mayor variabilidad
tenga más peso. Por el contrario, si las diferencias de variabilidad no son relevantes se
eliminan con el análisis normado. En caso de duda, conviene realizar ambos análisis, y
seleccionar aquel que conduzca a conclusiones más informativas.

Ejemplo 5.6.
La matriz de correlación de los nueve indicadores económicos del Ejemplo 5.5 es

37
Los valores propios son:

y los vectores propios asociados a los tres primeros valores propios son:

Si comparamos estos resultados con los del Ejemplo 5.5 vemos que el primer vector propio
cambia apreciablemente. Con la matriz de varianzas las variables con más peso en el
componente eran las que tenían una mayor varianza: la 2, luego la 3 y finalmente las 1, 4, 5
y 6 con un peso parecido. Estos pesos reproducen la relación relativa entre las varianzas de
las variables. Sin embargo, al utilizar la matriz de correlaciones este efecto desaparece, y el
peso de las variables esta mas relacionado con las correlaciones. La proporción de
variabilidad explicada por el primer componente cambia mucho: de 878.5/1441.8 = 60.9 por
100 a 3.7/9 = 41 por 100.
El segundo componente cambia completamente: ahora esta prácticamente asociado a las tres
últimas variables. La proporción de variabilidad que explica ha aumentado
considerablemente, del 196/1441.8 = 13.6 por 100 a 2.72/9 = 30 por 100. El tercer vector
propio es también distinto en ambas matrices.

Ejemplo 5.7.
Consideremos los datos de INVEST publicaciones científicas en los países de la OCDE. Los
datos tienen magnitudes muy distintas (unos bancos de datos tienen muchos más trabajos
que otros). Si deseamos conservar esta propiedad, que está asociada a que en algunos
campos científicos se publica mucho más que en otros, haremos el análisis sobre la matriz
de covarianzas. Si no queremos dar más peso a unos campos que a otros, es conveniente
realizar el análisis normado o sobre la matriz de correlación. Los resultados en este último
caso se indican en la Tabla 5.6.
Se observa que el primer componente principal explica una proporción muy alta de la
variabilidad, el 95.4 por 100. Con los tres primeros componentes se explica el 99.5 por 100
d la variabilidad. Además, después del tercer vector propio la variabilidad explicada
disminuye claramente, (véase la Tabla 5.6 y la Figura 5.5 lo que indica que solo debemos
preocuparnos de los tres primeros componentes ya que los siguientes tienen poca capacidad

38
explicativa. En la Tabla 5.7 se indican los valores de los componentes para estos tres
vectores propios.

Tabla 5.6. Variabilidad explicada por los componentes principales para los datos de INVEST
en logaritmos

Tabla 5.7. Vectores propios de los tres primeros componentes para los datos de INVEST
en logaritmos

Para interpretar los componentes consideramos sus coordenadas en las variables. Estas se
indican en la Tabla 5.7 y en la Figura 5.6. Se observa que el primer componente es un factor
de tamaño, ya que es una media ponderada de todas las variables con mayor peso de los
bancos interdisciplinarios y del banco médico. El segundo componente es un factor de forma
y contrapone la investigación en Química e Ingeniería frente a la realizada en Agricultura y
Biología. El tercero contrapone ingeniería, física y el banco interA con respecto a Biología y
Química.

Figura 5.5. Grafico para la selección del número de componentes. Datos de INVEST en
logaritmos.

39
Figura 5.6. Representación de los pesos de las dos componentes. Datos de INVEST en
logaritmos.

5.6. Interpretación de los componentes


- Diagramas de dispersión que representan los valores de los individuos en las primeras
componentes principales.
- Interpretación de distancias en términos de similitud.
- Búsqueda de clusters (grupos) y patrones.
- Interpretación de las componentes utilizando las correlaciones con las
variables originales. Las posiciones de los individuos se interpretan después
en relación a la interpretación dada a las componentes.

Componentes de tamaño y forma


Cuando existe una alta correlación positiva entre todas las variables, el primer componente
principal tiene todas sus coordenadas del mismo signo y puede interpretarse como un
promedio ponderado de todas las variables (vease el Ejercicio 5.2), o un factor global de
“tamaño”. Los restantes componentes se interpretan como factores “de forma” y típicamente
tienen coordenadas positivas y negativas, que implica que contraponen unos grupos de
variables frente a otros. Estos factores de forma pueden frecuentemente escribirse como
medias ponderadas de dos grupos de variables con distinto signo y contraponen las variables
de un signo a las del otro. Por ejemplo, el segundo componente principal de los datos de la
EPF del Ejercicio 5.3 puede escribirse aproximadamente, despreciando los coeficientes
pequeños (menores que 0,1):

40
que indica que es un promedio de estos dos ratios (vease el Ejemplo 5.1).
La interpretación de los componentes se simplifica suponiendo que los coeficientes
pequeños con cero y redondeando los coeficientes grandes para expresar el componente
como cocientes, diferencias o sumas entre variables. Estas aproximaciones son razonables si
modifican poco la estructura del componente y mejoran su interpretación. Una medida del
cambio introducido al modificar un vector propio de ai a aiM es el cambio en la proporción
de variabilidad explicada por el componente. Si el valor propio asociado a ai es λi , el
componente explica el λi / ∑ λ j de la variabilidad. Si ahora modificamos el vector a aiM,
la varianza de la proyección de los datos sobre este componente es
~ (~
X aℑ )
´
λ ℑ=a ℑ S a ℑ=( X a ℑ ) ´ , la varianza del componente, y la proporción de variabilidad
n
λ
explicada será λ ℑ =∑ λ j . El cambio relativo será (¿ ¿ i−λ ℑ)/ λ i , ya que siempre
¿
λi ≥ λℑ , y si este cambio es pequeño, está justificada la modificación si favorece la
interpretación.
Vamos a calcular el cambio relativo que experimenta el segundo componente principal de
los datos de la EPF si despreciamos los coeficientes mas pequeños. La varianza del segundo
componente modificado es 0.0319. La varianza del componente original es 0.0320, por lo
que el cambio de explicacion por tomar el coeficiente simplificado es solo de
(0.0320-0.0319)/0.0320= 1/320= 0.0031
Ejemplo 5.9.
Supongamos 6 observaciones x1, . . . , x6 en dos dimensiones, cada observación
corresponde a un rectángulo y las variables son longitud de la base y altura del rectángulo.
Gráficamente las observaciones son,

41
Si ordenamos los rectángulos según el valor de la primera y segunda componente
obtenemos,

La primera ordenación coincide con la inducida por el volumen de los rectángulos, es una
transformación creciente del producto de la base por la altura, y el primer componente
describe el tamaño. El segundo componente relaciona la base con la altura y ordena las
observaciones en función de su forma.

Selección del número de componentes

42
Se han sugerido distintas reglas para seleccionar el número de componentes:
1. Realizar un gráfico de λi frente a i. Comenzar seleccionando componentes hasta que
los restantes tengan aproximadamente el mismo valor de λi . La idea es buscar un
“codo” en el gráfico, es decir, un punto a partir del cual los valores propios son
aproximadamente iguales. El criterio es quedarse con un número de componentes que
excluya los asociados a valores pequeños y aproximadamente del mismo tamaño.
2. Seleccionar componentes hasta cubrir una proporción determinada de varianza, como el
80 o el 90 por 100. Esta regla es arbitraria y debe aplicarse con cierto cuidado. Por
ejemplo, es posible que un único componente de “tamaño” recoja el 90 por 100 de la
variabilidad y, sin embargo, pueden existir otros componentes que sean muy adecuados
para explicar la “forma” de las variables.
3. Desechar aquellos componentes asociados a valores propios inferiores a una cota, que
suele fijarse como la varianza media, ∑ λ i / p . En particular, cuando se trabaja con la
matriz de correlación, el valor medio de los componentes es 1, y esta regla lleva a
seleccionar los valores propios mayores que la unidad. De nuevo esta regla es arbitraria:
una variable que sea independiente del resto suele llevarse un componente principal
(véase Ejercicio 5.8) y puede tener un valor propio mayor que la unidad. Sin embargo, si
está incorrelada con el resto puede ser una variable poco relevante para el análisis, y no
aportar mucho a la comprensión del fenómeno global.

Representación gráfica
La interpretación de los componentes principales se favorece representando las proyecciones
de las observaciones sobre un espacio de dimensión dos, definido por parejas de los
componentes principales más importantes. Este punto se ha ilustrado en los ejemplos
anteriores, donde se ha indicado que la proyección de cualquier observación sobre un
componente es directamente el valor del componente para esa observación. La
representación habitual es tomar dos ejes ortogonales que representen los dos componentes
considerados, y situar cada punto sobre ese plano por sus coordenadas con relación a estos
ejes, que son los valores de los dos componentes para esa observación. Por ejemplo, en el
plano de los dos primeros componentes, las coordenadas

43
Ejercicios.
La tabla de datos siguiente muestra los porcentajes de personas empleadas en 9 sectores
distintos para 26 países europeos (antes de los últimos cambios políticos). En este
caso, el Análisis Multivariante puede ser útil para aislar grupos de países con distribuciones de
empleo similares y en general para intentar comprender mejor las relaciones existentes entre los
países y las variables.
SECTORES:
AGR: Agricultura, MIN: Minería, MAN: Manufacturas, ENER: Energía, CON:
Construcción, SER: Industrias de servicios, FIN: finanzas, SSP: Servicios sociales y
personales, TC: Transportes y comunicaciones.

PAISES AGR MIN MAN ENER CON SER FIN SSP TC


BÉLGICA 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2
DINAMARCA 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1
FRANCIA 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7
RFA 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1
IRLANDA 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1
ITALIA 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7
LUXEMBURGO 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2
HOLANDA 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8
U.K. 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4
AUSTRIA 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0
FINLANDIA 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6
GRECIA 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7
NORUEGA 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4
PORTUGAL 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7
ESPAÑA 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5
SUECIA 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8
SUIZA 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7
TURQUÍA 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2
BULGARIA 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7
CHECOSLOVAQUI 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0
A
RDA 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4
HUNGRÍA 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0
POLONIA 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9
RUMANIA 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0

URSS 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3
YUGOSLAVIA 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0

Minitab

44
La salida que nos ofrece Minitab es la siguiente

45
En primer lugar nos aparecen los valores propios (eigenvalue) de cada componente principal,
y justo debajo la proporción de varianza explicada (proportion) por cada una de ellos y la
varianza explicada acumulada (cumulative).
Los datos de varianza explicada son muy importantes para saber cuántos componentes
principales vamos a utilizar en nuestro análisis. No hay una regla definida sobre el número que
se debe utilizar, con lo cual deberemos decidir en función del número de variables iniciales (hay
que recordar que se trata de reducirlas en la medida de lo posible) y de la proporción de varianza
explicada acumulada.
En este caso, parece razonable quedarse con los 3 primeros componentes principales, ya que con
ellos se explica el 94,1% de la varianza, y teniendo en cuenta que añadiendo uno más sólo
ganamos un 2,7%, y quitando uno perdemos un 12%.
Finalmente, nos aparecen las correlaciones de cada componente principal con cada variable: esto
nos ayudará a interpretar las variables.
En este caso, vemos que PC1 tiene la mayor correlación positiva con las asignaturas LENGUA,
INGLÉS, HISTORIA y FILOSOFÍA, mientras que tiene correlación negativa con
MATEMÁTICAS y casi nula con el resto de asignaturas. Por tanto, es claro que estamos
hablando de la facilidad para las asignaturas de Letras.
En cuanto a PC2, ocurre justo al contrario, ya que tiene correlación positiva con FÍSICA,
QUÍMICA y MATEMÁTICAS, y cercana a 0 con el resto de asignaturas. Evidentemente, se está
refiriendo a la facilidad en las asignaturas de Ciencias.
Por último, PC3 tiene una correlación positiva muy alta (casi 1) con GIMNASIA, con lo cual
habría que interpretarla como la facilidad en dicha asignatura, bastante independiente del resto

46
También obtenemos el gráfico en dos dimensiones de PC1 y PC2, donde podemos ver la
variabilidad de las observaciones, y si existe alguna que ofrezca un valor extrañamente alto o
bajo en cada eje.

BIBLIOGRAFÍA
• “Selección de variables a través de la técnica de Componentes Principales”
www.inegi.gob.mx/difusion/espanol/niveles/jly/nivbien/componentes.html.
• Cubiles de la Vega, M.D, Muñoz Conde, M., Muñoz Pichardo, JM. Pascual Acosta, A. “e-
Encuestas Probabilísticas I. Los Marcos” Estadística Española, Vol. 44, núm 151, 2002.
• Data Mining Institute. “Análisis Factorial” 1997-2004. www.estadístico.com/arts.html?
20001106
• Kaiser, H.F. “The Varimax criterion for analytic rotation in factor analysis”. Psychometrika,
1958.
• Kim, J. y Mueller, C.W. “An introduction to factor analysis. What it is and how to do it”.
Beverly Hills, CA, 1978.
• Kotler, P., Cámara, D., y Grande, I. “Dirección de Marketing” (octava edición) Ed. Prentice
Hall, 1999.
• Lizasoain, L; Joaristi. L. Gestión y análisis de datos con SPSS versión 11. Universidad del País
Vasco. Ed. Thomson-Paraninfo. Madrid, 2003.
• Múgica, Jose Miguel y Ruiz de Maya, Salvador “El comportamiento del consumidor. Análisis
del proceso de Compra” Ariel Economía, 1997
• Múria Albiol, J. Gil Saura, R. ”Preparación, Tabulación y Análisis de Encuestas para
Directivos.” ESIC Editorial, 1998.
• Peña Sánchez de Rivera, D. “Estadística. Modelos y Métodos. Volumen 2” Ed. Alianza.
Madrid, 1987.
• Proyecto e-Math. Secretaría de Estado de Educación y Universidades. “Análisis de
Componentes Principales.“ www.uoc.edu

47
• Ruiz Soler, M. “Metodología de encuestas”. Curso del Doctorado de UCLA.
http://campusvirtual.uma.es/campus/jur_soc/rsoler/material/UCLA2/sld057.htm
• Takeshi, A. “Modelos de respuesta cualitativa: un examen” Cuadernos Económicos del ICE. Nº
39. 1988/2.
• Thurstone, L.L. “Multiple Factor Analysis”. University of Chicago Press, 1947.

48

You might also like