16 PCA (Análisis de Componentes Principales)

El Análisis de Componentes Principales es una de las herramientas más potentes de la estadística para entender matrices de datos masivos. Su objetivo central es reducir la dimensionalidad de los datos, extrayendo la información más importante mediante la identificación de las direcciones de mayor varianza (Strang 2018 Lec. 7; Armentano 2026 Clase 15).

La potencia del PCA reside en su capacidad para encontrar la “mejor línea” que resume una nube de puntos en un espacio multidimensional. Esta línea no es la misma que se obtiene mediante una regresión por mínimos cuadrados ordinarios, y su distinción es puramente geométrica.

Mínimos Cuadrados: Busca minimizar el error vertical (la distancia en el eje de la variable dependiente) entre el dato y la línea.
PCA: Busca la línea que minimiza la distancia perpendicular de cada punto a dicha recta. Es la dirección que maximiza la varianza de las proyecciones de los datos.

En el marco de la SVD, esta “mejor línea” es precisamente la dirección definida por el primer vector singular derecho, \(v_1\). Al proyectar la matriz de datos centrada \(X\) sobre esta dirección, obtenemos la matriz de rango 1, \(\tilde{X}_1\), que es la sombra más informativa de los datos originales.

Centrado de Datos: Antes de aplicar PCA, es imperativo que los datos tengan media cero. Si partimos de una matriz de datos \(A\) donde las filas representan muestras y las columnas variables, restamos a cada fila el promedio de todas las filas. Este paso centra la nube de puntos en el origen, permitiendo que las componentes principales capturen la estructura de la varianza intrínseca y no el desplazamiento del conjunto.
SVD: Una vez centrados los datos en una matriz \(X \in \mathbb{R}^{n \times d}\) (donde \(n\) es el número de individuos y \(d\) el de variables), utilizamos la Descomposición en Valores Singulares (SVD): \(X = U \Sigma V^\top\).
Componentes Principales: Los vectores de la base ortonormal \(V = [v_1, v_2, \dots, v_d]\) son las componentes principales. El vector \(v_1\) apunta en la dirección de la “mejor línea”, aquella que minimiza la suma de los cuadrados de las distancias perpendiculares desde los puntos a la línea.
Varianza y Valores Singulares: La importancia de cada componente está determinada por su valor singular \(\sigma_i\). La dirección \(v_1\) asociada al valor singular más grande \(\sigma_1\) es la que explica la mayor cantidad de varianza de los datos.

Ejemplo

Para ilustrar el funcionamiento del PCA, consideramos una matriz de datos \(X \in \mathbb{R}^{n \times d}\) con \(d=2\) variables (por ejemplo, altura y peso) y \(n\) individuos (Armentano 2026 Clase 15).

\[ X = \begin{pmatrix} X_{11} & X_{12} \\ X_{21} & X_{22} \\ \vdots & \vdots \\ X_{n1} & X_{n2} \end{pmatrix} \]

Tras centrar los datos, aplicamos la Descomposición en Valores Singulares (SVD), lo que nos permite descomponer la matriz original en una suma de matrices de rango 1:

\[X = \tilde{X}_1 + \tilde{X}_2 = \sigma_1 u_1 v_1^\top + \sigma_2 u_2 v_2^\top\]

Cada una de estas matrices \(\tilde{X}_i\) representa una “capa” de la información total del conjunto de datos, organizada por orden de importancia según la magnitud de sus valores singulares (\(\sigma_1 \ge \sigma_2\)).

\(\tilde{X}_1\) (Componente Principal 1) Es la matriz que captura la mayor varianza. Geométricamente, todos los puntos (filas) de \(\tilde{X}_1\) se encuentran perfectamente alineados sobre la recta definida por el primer vector singular derecho \(v_1\).

\(\tilde{X}_2\) (Componente Principal 2) Captura la varianza remanente en la dirección ortogonal a \(v_1\), definida por \(v_2\).

La relación entre la matriz original \(X\) y su aproximación \(\tilde{X}_1\) se define mediante la proyección ortogonal. Si denotamos como \(X_i\) a la fila \(i\)-ésima de la matriz de datos, su proyección sobre la dirección del vector \(v_1\) es:

\[\tilde{X}_{i,1} = \text{P}_{v_1}(X_i) = (X_i \cdot v_1) v_1^\top\] Dado que \(v_1\) es un vector singular, esta expresion vale \(\sigma_1 u_{i,1} v_1^\top\) que a su vez corresponde a \(\tilde{X_i}\)

Donde \(u_{i,1}\) es la coordenada del \(i\)-ésimo individuo en la escala del primer componente principal.

Esto significa que cada fila de \(\tilde{X}_1\) es el punto más cercano sobre la “mejor línea” (\(v_1\)) al dato original \(X_i\). En otras palabras, \(\tilde{X}_1\) no es simplemente una versión “reducida” de los datos, sino la sombra geométrica más fiel de la nube de puntos sobre su dirección principal.