Biopsychology.org

English

Artículos Casos   Libros Apuntes Otros  

Análisis del Comportamiento Verbal Articulatorio en Conversaciones Grupales Espontáneas. E. Barrull, 1992. (esteban@biopsychology.org)

Atrás Arriba Siguiente

 

Apéndice D: Análisis de Componentes Principales (ACP)

Representación en el espacio de los sujetos
Representación en el espacio de las variables


El núcleo fundamental del Análisis de Componentes Principales (ACP), y en general del Análisis Factorial, es el problema de la obtención de los vectores y valores propios (principales) de un operador vectorial, que en el campo del cálculo matricial se da bajo el problema de la diagonalización de una matriz cuadrada. Este problema algebraico, que inicialmente impulsó el desarrollo del Análisis Factorial en el estudio de la regresión lineal entre múltiples variables en los trabajos que Pearson (1901, 1904) realizó en aplicaciones biológicas y psicométricas, se ha convertido, a lo largo de nuestro siglo, en el uno de los instrumentos más extendidos en todas las ramas científicas. No sólo es una técnica de análisis empírico de la varianza, sino que puede jugar un papel decisivo en la formulación teórica, tal y como lo demuestra su papel protagonista en la formulación de la teoría de la Mecánica Cuántica moderna.

Aunque una exposición general de los fundamentos matemáticos del ACP requiera la introducción de espacios vectoriales aleatorios de dimensión infinita, nuestra exposición se hace desde el punto de vista práctico, es decir, centrada en espacios vectoriales reales de dimensión finita, lo que permite una cierta simplificación.

Consideremos un conjunto de medidas {Xi(wj)} de p variables {Xi} sobre un conjunto de n sujetos {wj}. Designamos por Xi(wj) el valor (real) que toma la variable Xi en el sujeto wj. Estos datos permiten definir una tabla o matriz de la forma

Cuando el número de variables p y el número de sujetos n son mayores que dos, se nos puede hacer difícil la emergencia de relaciones entre variables y/o sujetos (regresión, correlaciones, estructuras, etc.). Desde un punto de vista geométrico, el conjunto de datos puede ser visto como un objeto cuya dimensión es p, donde cada sujeto define un punto de dicho objeto. Una representación bidimensional de dicho objeto siempre será parcial e incompleta, es decir, nunca podrá poner de relieve toda la información contenida en él.

La estrategia del ACP es clara desde este punto de vista. Se trata de encontrar la mejor representación bidimensional posible de dicho objeto, es decir, aquella que es capaz de dar la mayor información de él. El grado de bondad de dicha representación vendrá determinada por el porcentaje de información total del objeto puesta de relieve en ella. En algunos casos puede llegar al 90% mientras que en otros no pase del 30%, lo cual nos indicará el grado de orden del objeto (datos) representado (la información que contiene). Vamos a ver como se consigue esta representación óptima del conjunto de datos de partida {Xi(wj)}.

En primer lugar, el conjunto de n sujetos {wj} pueden ser considerados como vectores del espacio vectorial euclidiano (real) Rp, puesto que cada sujeto se determina por su puntuación en cada una de las p variables.

El sujeto wj de nuestra tabla será el vector

donde Xi(wj) representa la coordenada del vector-sujeto sobre el vector de la base canónica de Rp, es decir,

El producto escalar definido en Rp es el ordinario

y se representa en la base canónica de Rp por la matriz unidad Ip. Al espacio vectorial Rp lo llamamos el espacio de los sujetos.

Por otra parte, el conjunto de p variables {Xi} pueden ser consideradas como vectores generadores del subespacio vectorial V del espacio vectorial de variables aleatorias L2, y constituyen una base no ortogonal de V, por lo que su dimensión viene dada por el rango del sistema generador, siendo <=p.

Todo vector de V puede expresarse como una combinación lineal de los vectores generadores, es decir,

Al subespacio vectorial V lo llamamos el subespacio de las variables. El producto escalar en el espacio de las variables viene dado por

Nótese que para distinguir a los vectores de los distintos espacios vectoriales hemos optado por designar con minúsculas a los vectores-sujeto y con mayúsculas a los vectores-variable, así, designa un vector del espacio de los sujetos, y un vector del subespacio de las variables. Cuando nos referimos a un vector-variable en su calidad de variable exclusivamente, omitimos.

Para simplificar el análisis, es necesario que las variables estén centradas, es decir, E[Xj] = 0. Con ello, no se altera la forma del objeto, ni las relaciones que en él se dan. Si las variables de los datos de partida no están centradas deberemos proceder a centrarlas. La media de cada variable es

entonces la variable centrada será

En primer lugar, definimos la aplicación F del espacio de los sujetos Rp, al subespacio de las variables V, de modo que

donde

es decir, a cada vector del espacio de los sujetos, le corresponde un vector del subespacio de las variables, formado por la combinación lineal de los vectores generadores, ponderados por las componentes escalares {ui} que definen al vector en su base canónica.

Nótese que, según la aplicación definida,

es decir, al conjunto de vectores de la base canónica de Rp, le corresponde el conjunto de vectores generadores del subespacio de las variables.

La condición de variables centradas se mantiene para cualquier vector de V, puesto que

Definimos la forma bilineal Gde RpxRp en R por:

y por definición del producto escalar en V

Puesto que las variables U y V están centradas, la esperanza de su producto es igual a su covarianza, por lo que

es decir, dado un par cualesquiera de vectores-sujeto, la forma bilineal G obtiene la covarianza sus vectores-variable asociados a través de la aplicación F.

De ello se deduce que .

Los elementos de la matriz pxp asociada a la forma bilineal G, vienen dados por

matriz que corresponde a la matriz de covarianza del conjunto de las p variables {Xi} de nuestra tabla.

La matriz de covarianza G es simétrica positiva, ya que

y

Si nos planteamos intuitivamente cual es la mejor representación bidimensional posible de un objeto de p>2 dimensiones, estaremos de acuerdo en que esta será la que nos muestre una mayor extensión del mismo, o la que nos muestre más cosas de él. El concepto estadístico de varianza de una variable, es un buen indicador de la "extensión" que toman un conjunto de sujetos "vistos" desde ella. Por ello, definimos matemáticamente los objetivos del ACP como:

1) Encontrar un vector, tal que sea máxima, con la condición de que . Es decir, queremos encontrar el vector unitario que defina la línea de máxima proyección del objeto a representar. También podemos decir que buscamos la dimensión más extensa de nuestro objeto.

2) Encontrar un segundo vector, tal que sea máxima, con la condición de que sea ortonormal a, y por tanto, que cumpla .

Estos dos vectores definen los ejes de la mejor representación bidimensional de nuestro objeto, es decir, permiten mostrar la máxima información posible de él, en un plano bidimensional. El porcentaje de información que cada vector aporta a la representación viene dado por la relación entre su varianza y la varianza total.

3) repetir el paso 2) hasta completar una base ortonormal de Rp, lo que supone encontrar el conjunto de vectores , tal que . Con ello determinamos una base ortonormal de p para la representación óptima de los sujetos de nuestra tabla de datos.

A este conjunto de p vectores-sujeto le corresponderá el conjunto de vectores-variable que nos permite la representación óptima de las variables.

La condición de ortogonalidad nos asegura la independencia estadística de las variables obtenidas.

La condición de ser vectores de norma 1 es debido a que la varianza de la variable asociada es afectada por la norma del vector.

Se demuestra que el conjunto de vectores que satisfacen las condiciones anteriores son precisamente los vectores propios del operador G(el operador asociado a la forma bilineal ), es decir, aquellos que cumplen

donde

Los vectores propios son aquellos vectores que sólo quedan modificados en su módulo al ser transformados por el operador .

El escalar li es el valor propio de G asociado al vector propio , y el conjunto de los valores propios {li} definen la matriz diagonal equivalente a la matriz G.

Los vectores propios hallados reciben el nombre de vectores principales del ACP, y sus vectores-variable asociados del subespacio de las variables, el de componentes principales del ACP, donde

Los valores propios li determinan la varianza "soportada" por el eje de su correspondiente vector propio, ya que

y la varianza total viene dada por la suma de todos los valores propios

Si ordenamos los valores propios (varianzas) de G, de mayor a menor, tenemos que satisfacen los puntos 1) y 2) respectivamente, mientras que el resto de vectores propios satisfacen el punto 3), ya que el conjunto de vectores propios de G forman una base ortonormal de Rp.

Estamos en condiciones de plantear la representación de los datos originales tanto en el espacio de los sujetos (representación de los sujetos), como en el espacio de las variables (representación de las variables).

 

Representación en el espacio de los sujetos


Nos interesa ahora calcular las coordenadas de cada sujeto de nuestra tabla de datos, en relación a los ejes definidos por los vectores principales de G. Estas coordenadas nos han de permitir su representación óptima escogiendo los dos primeros vectores principales (los de máxima varianza).

El operador que define la proyección de cualquier vector de Rp sobre el conjunto de vectores principales, viene dado por

Así pues, la proyección de un vector-sujeto en el nuevo sistema de ejes es

donde wij es la coordenada del vector sobre el vector principal, y viene dada por

Representación en el espacio de las variables

El mismo planteamiento anterior lo podemos formular para el caso del subespacio vectorial de las variables V. Al conjunto de vectores principales de G, le corresponde, por la aplicación F, el conjunto de componentes principales , donde

Por tanto, el proyector sobre las componentes principales es

por lo que, el cálculo de las coordenadas de un vector-variable viene dado por

y

por definición de producto escalar en V.


Una propiedad destacada de la representación de las variables es

cos(

Así pues, cuando representamos las variables en los planos definidos por las componentes principales, los ángulos entre cada vector-variable y el eje de proyección nos da el índice de correlación entre la variable y la componente principal.

 

© Biopsychology.org, 1998-2006

 
Última actualización:
22/12/07