11 SVD (Descomposición en Valores Singulares)

A diferencia de la diagonalización \(A=X\Lambda X^{-1}\), que requiere que la matriz sea cuadrada y posea suficientes autovectores, y la descomposición espectral \(S = Q \Lambda Q^\top\) que se limita a matrices simétricas, la SVD es una generalizacion universal: existe para cualquier matriz \(A \in \mathbb{R}^{m \times n}\), ya sea cuadrada o rectangular. Armentano (2026)

11.1 Motivación: Limitaciones de los Autovectores

La noción de vectores propios (\(Ax = \lambda x\)) presenta algunos inconvenientes:

Si \(A\) es \(m \times n\), el producto \(Ax\) reside en \(\mathbb{R}^m\), mientras que \(x\) está en \(\mathbb{R}^n\), haciendo imposible la igualdad \(Ax = \lambda x\). Pero, incluso si la matriz es cuadrada, los autovalores pueden ser complejos o los autovectores pueden no ser ortogonales.

La SVD supera estos inconvenientes utilizando dos conjuntos distintos de vectores ortonormales: los vectores singulares a izquierda (\(U\)) y a derecha (\(V\)).

11.2 La Ecuación Fundamental

Toda matriz \(A\) puede factorizarse en el producto de tres matrices: \[A = U \Sigma V^\top\] Donde:

\(U \in \mathbb{R}^{m \times m}\)	Es una matriz ortogonal (unitaria si estamos en \(\mathbb{C}\)) cuyas columnas son los vectores singulares a izquierda y representan una base ortonormal para el codominio.
\(\Sigma \in \mathbb{R}^{m \times n}\)	Es una matriz diagonal (aunque rectangular) que contiene los valores singulares \(\sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_r > 0\)
\(V \in \mathbb{R}^{n \times n}\)	Es una matriz ortogonal cuyas columnas son los vectores singulares a derecha y representan una base ortonormal para el dominio.

11.3 Intuición Geométrica: Rotación y Estiramiento

La acción de multiplicar por una matriz \(A\) puede descomponerse en tres pasos geométricos elementales (Strang 2018 Lec. 3 ’6):

\(V^\top\)	Rotación en el dominio	Cambia el vector de entrada a la base ortonormal de vectores singulares sin cambiar su longitud.
\(\Sigma\)	Escalamiento	Estira o contrae el vector a lo largo de los ejes principales. Aquí, la esfera unitaria se transforma en un elipsoide cuyos semiejes tienen longitudes \(\sigma_i\).
\(U\)	Rotación en el codominio	Orienta el elipsoide resultante en el espacio final.

11.4 Deducción

Para deducir la fórmula de la SVD, buscamos una relación análoga a la de los autovectores (\(Ax = \lambda x\)), pero adaptada a matrices rectangulares donde el dominio y el codominio tienen dimensiones distintas.

El punto de partida es encontrar un conjunto de vectores ortonormales en el dominio \(\{v_1, v_2, \dots, v_r\}\) que, al ser transformados por \(A\), resulten en vectores ortonormales en el codominio \(\{u_1, u_2, \dots, u_r\}\), escalados por un factor \(\sigma_i\):

\[Av_i = \sigma_i u_i \quad i = 1, \dots, r\]

Donde \(r\) es el rango de la matriz. Estas ecuaciones representan la acción de la matriz sobre sus direcciones principales (Strang 2018 - Lecture 6 ’20).

Podemos agrupar estas \(r\) ecuaciones individuales colocando los vectores \(v_i\) como columnas de una matriz \(V\) y los vectores \(u_i\) como columnas de una matriz \(U\):

\[A \underbrace{ \begin{bmatrix} | & | & & | \\ v_1 & v_2 & \dots & v_r \\ | & | & & | \end{bmatrix} }_{V} = \underbrace{ \begin{bmatrix} | & | & & | \\ u_1 & u_2 & \dots & u_r \\ | & | & & | \end{bmatrix} }_{U} \underbrace{ \begin{bmatrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \end{bmatrix} }_{\Sigma}\]

Esta expresión permite compactar las relaciones vectoriales en la ecuación matricial: \[AV = U\Sigma\]

Dado que los vectores \(v_i\) son elegidos para ser ortonormales, la matriz \(V\) cumple la propiedad de las matrices de Stiefel: \(V^\top V = \mathbb{I}\) (Armentano 2026 clase 5). Al multiplicar por \(V^\top\) a la derecha en ambos lados de la ecuación anterior, obtenemos la representación final de la SVD \(A = U\Sigma V^\top \)

\[A = \underbrace{ \begin{bmatrix} | & | & & | \\ u_1 & u_2 & \dots & u_r \\ | & | & & | \\ \end{bmatrix} }_{U \in \mathcal{M}_{m \times r}} \underbrace{ \begin{bmatrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \end{bmatrix} }_{\Sigma \in \mathcal{M}_{r \times r}} \underbrace{ \begin{bmatrix} - & v_1^\top & - \\ - & v_2^\top & - \\ & \vdots & \\ - & v_r^\top & - \\ \end{bmatrix} }_{V^\top \in \mathcal{M}_{r \times n}}\]

En esta estructura, las columnas de \(U\) representan la base ortonormal de la imagen, mientras que las filas de \(V^\top\) (que son los vectores columna \(v_i\) transpuestos) representan la base ortonormal del espacio fila.

Observacion

En la SVD completa las matrices \( V^\top \) y \(U\) son \(n\times n\) y \(m\times m\) en lugar de \(r\times n\) y \(m\times r\). Para ello, se completan con vectores ortogonales del espacio nulo de \(A\) hasta formar una base ortonormal de sus espacios correspondientes \( \mathbb{R} ^n\) y \( \mathbb{R} ^m\).

A su vez, la matriz \(\Sigma\) en vez de ser cuadrada \(r\times r\) es rectangular \(m\times n\) de la misma forma que \(A\). Tiene los \(r\) valores singulares en la diagonal y ceros en el resto.

En este caso, \({v_{r+1} \dots v_n}\) es una base del núcleo de \(A\) y \({u_{r+1} \dots u_m}\) es una base del núcleo de \( A^\top \). Estos vectores simplemente se anulan en la SVD reducida, y corresponden a las ecuaciones \(Av_{r+1} = 0, \dots, Av_n = 0\).

En el producto \( U\Sigma V^\top \), los vectores extra de \(U\) y \( V^\top \) simplemente se anulan al multiplicar por los ceros de \(\Sigma\). Solo se retienen los elementos asociados a los \(r\) valores singulares no nulos.

SVD Completa	SVD Reducida	Descripción en la SVD Reducida
\(U\) (\(m \times m\))	\(U_r\) (\(m \times r\))	Base ortonormal para el espacio columna (Imagen) de \(A\)
\(\Sigma\) (\(m \times n\))	\(\Sigma_r\) (\(r \times r\))	Matriz diagonal de valores singulares no nulos
\(V^\top\) (\(n \times n\))	\(V_r^\top\) (\(r \times n\))	Base ortonormal para el espacio fila de \(A\)
\(A\) (\(m \times n\))	\(A\) (\(m \times n\))	La matriz original se reconstruye exactamente igual en ambos casos

La construcción de la SVD se apoya en las matrices simétricas \(A^\top A\) y \(A A^\top\), las cuales siempre son simétricas y semidefinidas positivas.

\(A^\top A\) es una matriz cuadrada (\(n \times n\)). Sus autovalores son \(\sigma_i^2\). Sus autovectores forman las columnas de \(V\).

\(AA^\top\) es una matriz cuadrada (\(m \times m\)). Tiene los mismos autovalores no nulos que \(A^\top A\). Sus autovectores forman las columnas de \(U\).

Prueba

Algebraicamente, esto se verifica expandiendo el producto: \[A^\top A = (V \Sigma^\top U^\top)(U \Sigma V^\top) = V (\Sigma^\top \Sigma) V^\top\] Dado que \(U^\top U = \mathbb{I}\), se observa que \(V\) diagonaliza a \(A^\top A\), y en esta descomposición se ve que las columnas de \(V\) son los vectores propios de \(A^\top A\)

De manera analoga: \[A A^\top = (U \Sigma V^\top)(V \Sigma^\top U^\top) = U (\Sigma \Sigma^\top) U^\top\] Dado que \(V^\top V = \mathbb{I}\), se observa que \(U\) diagonaliza a \(A A^\top\), y en esta descomposición se ve que las columnas de \(U\) son los vectores propios de \(A A^\top\).

\(V\)	Vectores singulares derechos	Autovectores de la matriz simétrica \(A^\top A\). Se cumple que \((A^\top A)v_i = \sigma_i^2 v_i\)
\(U\)	Vectores singulares izquierdos	Autovectores de la matriz simétrica \(A A^\top\). Se cumple que \((A A^\top)u_i = \sigma_i^2 u_i\)
\(\sigma_i\)	Valores singulares	Raíces cuadradas de los autovalores no nulos de \(A^\top A\) (o \(A A^\top\)). Representan el factor de estiramiento en cada dirección invariante.

11.5 Construcción

Para encontrar la descomposición SVD, buscamos vectores que cumplan la relación \(Av_i = \sigma_i u_i\). El procedimiento es el siguiente:

Se eligen los \(v_i\) como los autovectores de \(A^\top A\).
Se calculan los \(\sigma_i\) como la raíz cuadrada de los autovalores de \(A^\top A\).
Se definen los vectores de salida como \(u_i = \frac{Av_i}{\sigma_i}\).

Prueba de Ortogonalidad: Para demostrar que los \(u_i\) generados son ortogonales entre sí (\(u_i^\top u_j = 0\)), utilizamos la propiedad de los autovectores de \(A^\top A\): \[u_i^\top u_j = \left(\frac{Av_i}{\sigma_i}\right)^\top \left(\frac{Av_j}{\sigma_j}\right) = \frac{v_i^\top (A^\top A v_j)}{\sigma_i \sigma_j} = \frac{v_i^\top (\sigma_j^2 v_j)}{\sigma_i \sigma_j} = \frac{\sigma_j}{\sigma_i} (v_i^\top v_j)\] Como los \(v_i\) son ortonormales, \(v_i^\top v_j = 0\), lo que garantiza la ortogonalidad de los \(u_i\).

11.6 Representación Alternativa

Una de las formas más poderosas de interpretar la Descomposición en Valores Singulares no es como un producto de tres matrices (\(A = U\Sigma V^\top\)), sino como una suma de “bloques de construcción” fundamentales representados por matrices de rango 1 (Strang 2018 Lec. 2; clase11? Clase 11).

Partiendo de la forma matricial y utilizando la regla de multiplicación de columnas por filas, podemos descomponer el producto:

\[A = \begin{bmatrix} | & & | \\ u_1 & \cdots & u_r \\ | & & | \end{bmatrix} \begin{bmatrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \end{bmatrix} \begin{bmatrix} \text{---} & v_1^\top & \text{---} \\ & \vdots & \\ \text{---} & v_r^\top & \text{---} \end{bmatrix}\]

Al expandir esta operación, la matriz \(A\) se expresa como una suma de \(r\) matrices de rango 1:

\[A = \sigma_1 u_1 v_1^\top + \sigma_2 u_2 v_2^\top + \dots + \sigma_r u_r v_r^\top = \sum_{i=1}^r \sigma_i u_i v_i^\top\]

Cada término de la suma, \(\sigma_i u_i v_i^\top\), representa una matriz de rango 1 que aporta una “capa” específica de información a la matriz original:

\(u_i v^\top _i\): Es el bloque estructural (producto exterior de los vectores singulares izquierdo y derecho).
\(\sigma_i\): Es el peso o la “energía” de esa capa.

Como los valores singulares están ordenados (\(\sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r > 0\)), las primeras capas contienen la información más relevante de los datos.

Esta representación es la base del Teorema de Eckart-Young. Si decidimos truncar la suma en el \(k\)-ésimo término, obtenemos la matriz \(A_k\):

\[A_k = \sum_{i=1}^k \sigma_i u_i v_i^\top\]

Esta matriz \(A_k\) es la mejor aproximación de rango \(k\) posible. En procesamiento de imágenes, por ejemplo, los primeros términos de la suma reconstruyen las formas globales (nitidez), mientras que los últimos términos suelen capturar detalles finos o ruido.

11.7 Observaciones

Conteo de Parámetros

La SVD describe cualquier transformación lineal como una secuencia de Rotación (\(V^\top\)) \(\to\) Estiramiento (\(\Sigma\)) \(\to\) Rotación (\(U\)).

El número de grados de libertad en la matriz original debe coincidir con los de su forma SVD:

Caso 2x2 (4 parámetros): 2 valores singulares en \(\Sigma\), 1 ángulo de rotación \(\theta\) para \(V\) y 1 ángulo para \(U\).
Caso 3x3 (9 parámetros): 3 valores singulares en \(\Sigma\), 3 parámetros de rotación en 3D (los tres angulos posibles, conocidos en ingeniería como roll, pitch y yaw) para \(V\), y otros 3 para \(U\).

Igualdad de \(U\) y \(V\)

Los vectores singulares a izquierda y derecha coinciden (\(U=V\)) únicamente cuando la matriz \(A\) es cuadrada, simétrica y definida positiva. (Hernández 2026, 4 Ej 21)

Autovalores Repetidos

Si existe un autovalor doble, los vectores singulares no son únicos, sino que generan un plano singular de direcciones posibles

Determinantes

El determinante de una matriz ortogonal es siempre \(1\) (o \(-1\) si incluye reflexión) (Strang 2018 Lec. 3 ’13). Para una matriz cuadrada, el producto de los valores singulares \(\prod \sigma_i\) es igual al valor absoluto del determinante.