15 Teorema de Eckart-Young - Aproximación de Bajo Rango

El Teorema de Eckart-Young es uno de los resultados más potentes del álgebra lineal numérica. Establece que la mejor aproximación de una matriz \(A\) por otra matriz de menor rango se obtiene simplemente truncando su Descomposición en Valores Singulares (SVD). (Strang 2018 Lec. 7 ’03; Strang 2019, I.7) En otras palabras, si \(B\) es cualquier matriz de rango a lo sumo \(k\), entonces la distancia a la matriz original \(A\) en norma de operador (\(\ell_2\)) no puede ser menor que el valor singular \(\sigma_{k+1}\).

Enunciado

Sea \(A\) una matriz de rango \(r\) y sea su SVD completa \(\displaystyle A = \sum_{i=1}^{r} \sigma_i u_i v_i^\top \).

Para cualquier \(k < r\), la matriz de rango \(k\) que minimiza la distancia a \(A\) es \(\displaystyle A_k = \sum_{i=1}^{k} \sigma_i u_i v_i^\top \)

Es decir, para cualquier otra matriz \(B\) con \( \text{rango}(B) \le k\), se cumple que:

\[ \left\| A - B \right\| \ge \left\| A - A_k \right\| \]

La calidad de esta aproximación depende de la norma utilizada para medir el error. El teorema es válido para las normas ortogonalmente invariantes más importantes: (Strang 2018 Lec. 7 ’16; Armentano 2026 Clase 12) ¹

Norma Espectral: El error es exactamente el primer valor singular descartado.
\( \left\| A - A_k \right\| _2 = \sigma_{k+1}\)
Norma de Frobenius: El error es la raíz cuadrada de la suma de los cuadrados de todos los valores singulares descartados.
\( \left\| A - A_k \right\| _F = \sqrt{\sigma_{k+1}^2 + \dots + \sigma_r^2}\)

Argumento de la Demostración para la norma \(\ell_2\)

La prueba para la norma espectral se basa en demostrar que cualquier matriz \(B\) de rango \(k\) “falla” al aproximar al menos una dirección en el subespacio generado por los primeros \(k+1\) vectores singulares. (Armentano 2026 Clase 12)

Comenzamos eligiendo un vector \(x\) que esté en el espacio generado por \(\{v_1, \dots, v_{k+1}\}\) y que simultáneamente esté en el núcleo de \(B\); lo cual es posible ya que \(\dim \mathcal{N}(B) \ge n-k\). Para este vector unitario \(x\), se tiene que \(Bx = 0\), por lo tanto:

\[ \left\| (A-B)x \right\| _2 = \left\| Ax \right\| _2 = \left\| \sum_{i=1}^{k+1} c_i \sigma_i u_i \right\| _2 \ge \sigma_{k+1}\]

Esto garantiza que el error máximo (la norma del operador) no puede ser menor que \(\sigma_{k+1}\).

Intuición geométrica del argumento de la prueba para norma _2

El teorema de Eckart-Young demuestra que la Descomposición en Valores Singulares (SVD) truncada proporciona la mejor aproximación de rango bajo de una matriz bajo la norma espectral o la norma de Frobenius. Para comprender la demostración en la norma espectral (\(\|\cdot\|_2\)), debemos abandonar temporalmente el álgebra matricial y observar cómo operan las transformaciones lineales sobre el espacio.

La anatomía geométrica de los subespacios: Toda matriz \(A\) de dimensión \(m \times n\) actúa sobre una esfera hiperdimensional (de radio 1) en el dominio y la deforma, convirtiéndola en un hiperelipsoide en el codominio.

Los vectores singulares derechos (\(v_i\)) son los ejes ortogonales originales en la esfera.
Los valores singulares (\(\sigma_i\)) dictan la longitud de los semiejes de ese elipsoide.
El subespacio \(V_{k+1} = \text{span}\{v_1, \dots, v_{k+1}\}\) representa las \(k+1\) direcciones donde la matriz \(A\) ejerce su mayor “fuerza” de estiramiento. Cualquier vector unitario contenido en este subespacio será estirado por \(A\) en un factor de, como mínimo, \(\sigma_{k+1}\).

Ahora, supongamos que existe una matriz \(B\) de rango \(k\) que pretende ser una mejor aproximación de \(A\) que la propia SVD truncada.

Al tener rango \(k\), la matriz \(B\) es un operador que aplasta irremediablemente el espacio original de dimensión \(n\) hacia una “lámina” de dimensión \(k\). Esto genera un “punto ciego” estructural: el núcleo o espacio nulo de \(B\), denotado como \( \mathcal{N}(B) \). Por el teorema del rango-nulidad, este núcleo tiene dimensión \(n - k\). Cualquier vector que resida en \( \mathcal{N}(B) \) es aniquilado por completo; la matriz \(B\) lo mapea a cero.

La intersección ineludible y el vector \(x\): Aquí radica el núcleo geométrico de la demostración: el principio de los casilleros (pigeonhole principle) aplicado a dimensiones.

Tienes un subespacio \(V_{k+1}\) de dimensión \(k+1\) (donde \(A\) es muy fuerte). Tienes un subespacio \( \mathcal{N}(B) \) de dimensión \(n-k\) (donde \(B\) es completamente ciega).

Ambos coexisten en un espacio total de dimensión \(n\). Si sumas sus dimensiones, obtienes \((k+1) + (n-k) = n+1\). Puesto que \(n+1 > n\), la fórmula de las dimensiones de Grassmann dicta que estos dos subespacios no pueden ser disjuntos; están obligados a intersecarse en al menos una dimensión.

El vector \(x\) se escoge deliberadamente como un vector unitario situado en esa intersección exacta: \[x \in V_{k+1} \cap \mathcal{N}(B) \]

El rol de \(x\) como materialización del error: El vector \(x\) es la prueba física de que la aproximación de \(B\) está limitada. Evaluemos el error \((A - B)\) aplicando ambos operadores sobre \(x\):

Desde la perspectiva de \(A\): Dado que \(x\) pertenece a \(V_{k+1}\), está compuesto exclusivamente por las direcciones de mayor energía. La matriz original \(A\) lo estirará garantizando que \( \left\| Ax \right\| _2 \ge \sigma_{k+1}\).
Desde la perspectiva de \(B\): Dado que \(x\) también pertenece al núcleo \( \mathcal{N}(B) \), la matriz competidora lo destruye: \(Bx = 0\).

El vector de error resultante es la diferencia entre estas dos acciones: \[(A - B)x = Ax - Bx = Ax - 0 = Ax\]

La norma espectral de una matriz, \(\|A - B\|_2\), se define como la máxima deformación (error) que el operador \((A - B)\) puede infligir a cualquier vector unitario. Como hemos demostrado geométricamente que para el vector específico \(x\), la magnitud del error es \( \left\| Ax \right\| _2\), se deduce directamente que: \[ \left\| A - B \right\| _2 \ge \left\| (A - B)x \right\| _2 = \left\| Ax \right\| _2 \ge \sigma_{k+1}\]

Conclusión objetiva: Ninguna matriz \(B\) de rango \(k\) puede “esquivar” las \(k+1\) direcciones principales de \(A\). Al ignorar forzosamente al menos una dirección donde \(A\) aplica una fuerza \(\sigma_{k+1}\), el error máximo de \(B\) jamás podrá ser menor que \(\sigma_{k+1}\). La SVD truncada logra exactamente \(\sigma_{k+1}\), probando ser el límite inferior absoluto del error.

Observacion: En esta prueba no estamos limitando la evaluación de la matriz \(B\) al espacio \(V_{k+1}\) para forzarla a fracasar en un entorno dimensional desfavorable. Estamos evaluando el error en todo el espacio, y utilizamos \(V_{k+1}\) únicamente para aislar algebraicamente el peor escenario posible para \(B\).

Para comprender la estructura lógica de esta prueba, es necesario disociar la dimensión del operador de la métrica de evaluación.

La métrica del error: La norma espectral: La clave de tu confusión reside en la definición matemática de la norma que estamos intentando minimizar. La norma espectral del error se define como: \[\|A - B\|_2 = \max_{\|v\|_2 = 1} \|(A - B)v\|_2\]

Esta norma busca el vector unitario \(v\) en el espacio original completo de dimensión \(n\) que maximice la discrepancia entre \(A\) y \(B\). Si una matriz \(B\) de rango \(k\) pretende ser una mejor aproximación que la SVD truncada \(A_k\), está obligada a garantizar que el error sea estrictamente menor que \(\sigma_{k+1}\) para absolutamente todos los vectores unitarios del dominio.

El rol de \(V_{k+1}\) como generador de contraejemplos: El objetivo de la demostración no es evaluar el desempeño general de \(B\) en un subespacio específico, sino falsar la afirmación de que el error máximo de \(B\) puede ser menor que \(\sigma_{k+1}\). Para destruir una afirmación universal (el error es bajo en todas partes), basta con exhibir un único contraejemplo (el vector \(x\)).

El subespacio \(V_{k+1}\) se utiliza exclusivamente como el terreno donde se asegura la existencia matemática de ese contraejemplo:

La garantía de \(A\): El operador original \(A\) retiene una magnitud de al menos \(\sigma_{k+1}\) en cualquier vector contenido en \(V_{k+1}\).
El déficit inevitable de \(B\): Dado que \(B\) tiene rango \(k\), su núcleo o “punto ciego” (\( \mathcal{N}(B) \)) tiene dimensión \(n-k\).
La colisión dimensional: Un espacio de dimensión \(n-k\) y otro de dimensión \(k+1\) ubicados en un espacio total de dimensión \(n\) tienen que intersecarse.

La falla estructural: No es injusto que \(B\) fracase en \(V_{k+1}\); es una consecuencia de su propia topología. Al tener solo rango \(k\), \(B\) debe seleccionar \(k\) direcciones para representar a \(A\).

La prueba demuestra que, independientemente de cuáles sean esas \(k\) direcciones que \(B\) decida priorizar, su restricción de rango la obliga matemáticamente a “soltar” o anular al menos un vector (el vector \(x\)) que se encuentra dentro de las \(k+1\) direcciones más críticas de \(A\).

Como el error \((A-B)x\) sobre ese vector específico no puede ser amortiguado por \(B\) (porque \(Bx=0\)), el error residual es puramente la acción de \(A\) sobre \(x\). Como \(x\) pertenece a \(V_{k+1}\), ese error es \(\ge \sigma_{k+1}\). Al existir este vector, el máximo error posible de \(B\) se dispara como mínimo a \(\sigma_{k+1}\), probando que es imposible superar a \(A_k\).

Demostración para la Norma \(\ell_2\)

(Armentano 2026 Clase 12) Sabemos por la definición de la norma \(\ell_2\) que la aproximación truncada \(\displaystyle A_k = \sum_{i=1}^k \sigma_i u_i v_i^\top \) deja un error residual igual al valor singular más grande de la parte descartada:

\[ \left\| A - A_k \right\| _2 = \left\| \sum_{i=k+1}^r \sigma_i u_i v_i^\top \right\| _2 = \sigma_{k+1}\]

Para probar que ninguna otra matriz \(B\) de rango \(k\) es mejor que \(A_k\), consideramos el núcleo de \(B\), que tiene dimensión al menos \(n-k\). Al mismo tiempo, tomamos el subespacio generado por los primeros \(k+1\) vectores singulares derechos de \(A\), denotado como \(\mathcal{V}_{k+1} = \left[ \{v_1, \dots, v_{k+1}\} \right]\), cuya dimensión es \(k+1\).

Existencia de un vector crítico: Dado que la suma de sus dimensiones \((n-k) + (k+1) = n+1\) supera la dimensión total del espacio, debe existir un vector unitario \(x\) que pertenezca a ambos subespacios:

\(Bx = 0\) (por estar en el núcleo de \(B\)).
\(\displaystyle x = \sum_{i=1}^{k+1} c_i v_i\) (por estar en \(\mathcal{V}_{k+1}\)), con \( \left\| x \right\| _2 = 1\).

Cálculo de la cota inferior: Evaluamos la norma del error \((A - B)\) actuando sobre este vector especial \(x\): \[ \left\| (A - B)x \right\| _2^2 = \left\| Ax - Bx \right\| _2^2 = \left\| Ax \right\| _2^2\] Sustituyendo la expansión de \(x = \sum_{i=1}^{k+1} c_i v_i\) y utilizando la relación fundamental de la SVD (\(Av_i = \sigma_i u_i\)), obtenemos: \[ \left\| Ax \right\| _2^2 = \left\| A\sum_{i=1}^{k+1}{Ac_iv_i} \right\| _2^2 = \left\| \sum_{i=1}^{k+1} c_i \sigma_i u_i \right\| _2^2\] Dado que los vectores singulares izquierdos \(\{u_1, \dots, u_{k+1}\}\) son ortonormales (\(\langle u_i, u_j \rangle = \delta_{ij}\)), los términos cruzados en el desarrollo de la norma al cuadrado se anulan (por el teorema de Pitágoras generalizado). Así, la norma de la combinación lineal se reduce a la suma de los cuadrados de los coeficientes: \[ \left\| \sum_{i=1}^{k+1} c_i \sigma_i u_i \right\| _2^2 = \sum_{i=1}^{k+1} c_i^2 \sigma_i^2\] Como los valores singulares están ordenados de mayor a menor (\(\sigma_i \ge \sigma_{k+1}\) para todo \(i \le k+1\)), podemos acotar inferiormente cada término de la suma: \[\sum_{i=1}^{k+1} c_i^2 \sigma_i^2 \ge \sigma_{k+1}^2 \sum_{i=1}^{k+1} c_i^2\] Dado que \(x\) es un vector unitario, la suma de los coeficientes al cuadrado es \(\sum_{i=1}^{k+1} c_i^2 = \left\| x \right\| _2^2 = 1\). Por lo tanto: \[\sum_{i=1}^{k+1} c_i^2 \sigma_i^2 \ge \sigma_{k+1}^2 \left\| x \right\| _2^2 = \sigma_{k+1}^2\]
Conclusión: Puesto que la norma matricial \( \left\| A - B \right\| _2\) se define como el máximo valor que puede alcanzar el cociente \(\frac{ \left\| (A-B)x \right\| _2}{ \left\| x \right\| _2}\), y acabamos de encontrar un vector \(x\) donde ese cociente es al menos \(\sigma_{k+1}\), concluimos que: \[ \left\| A - B \right\| _2 \ge \sigma_{k+1}\] Esto demuestra que ninguna matriz de rango \(k\) puede estar más cerca de \(A\) que la aproximación \(A_k\) proporcionada por la SVD.

Extensión a la Norma de Frobenius

El Teorema de Eckart-Young también es válido para la norma de Frobenius. A diferencia de la norma \(\ell_2\) (que solo considera el valor singular más grande del residuo), la norma de Frobenius depende de todo el espectro de valores singulares descartados. Para la aproximación truncada \(A_k\), el error es: \[ \left\| A - A_k \right\| _F = \sqrt{\sigma_{k+1}^2 + \sigma_{k+2}^2 + \dots + \sigma_r^2}\] Este valor representa la raíz cuadrada de la “energía” de la señal que se pierde al descartar las componentes menos significativas.

Idea de la prueba

Utilizando la SVD de \(A = U\Sigma V^\top \), podemos rotar el problema de aproximación hacia las direcciones principales de la matriz. Comenzamos multiplicando por \( U^\top \) y \(V\), ambas ortogonales, ya que esto no altera la norma.

\[\begin{align} \left\| A - B \right\| _F &= \left\| U^\top (A-B)V \right\| _F = \left\| U^\top AV - U^\top BV \right\| _F \\ &= \left\| U^\top (U\Sigma V^\top )V- U^\top BV \right\| _F \\ &= \left\| \Sigma- U^\top BV \right\| _F \end{align}\]

Por lo tanto, minimizar \( \left\| A - B \right\| _F \) para una matriz \(B\) de rango \(k\) equivale a minimizar \( \left\| \Sigma - U^\top B V \right\| _F \). Dado que \(\Sigma\) es una matriz diagonal con los valores singulares ordenados, la solución óptima es mantener los \(k\) valores más grandes y descartar el resto, lo que nos devuelve exactamente a la definición de \(A_k\).²

En ciencia de datos, la SVD permite comprimir información eliminando los componentes menos significativos (ruido)↩︎
Esta propiedad garantiza que la SVD truncada no solo minimiza el error máximo (norma \(L_2\)), sino que también minimiza el error cuadrático medio total de la aproximación. En aplicaciones como la compresión de imágenes, esto asegura que \(A_k\) sea la representación que mejor preserva la varianza y los detalles visuales globales de la imagen original para un presupuesto de rango \(k\) determinado.↩︎