11  SVD(Descomposición en Valores Singulares)

Álgebra Lineal Numérica Para Aprendizaje Estadístico

A diferencia de la diagonalización \(A=X\Lambda X^{-1}\), que requiere que la matriz sea cuadrada y posea suficientes autovectores, y la descomposición espectral \(S = Q \Lambda Q^\top\) que se limita a matrices simétricas, la SVD es una generalizacion universal: existe para cualquier matriz \(A \in \mathbb{R}^{m \times n}\), ya sea cuadrada o rectangular. (Strang 2018 Lec. 6; Strang 2019, I.7)

11.1 Motivación: Limitaciones de los Autovectores

La noción de vectores propios (\(Ax = \lambda x\)) presenta algunos inconvenientes:

Si \(A\) es \(m \times n\), el producto \(Ax\) reside en \(\mathbb{R}^m\), mientras que \(x\) está en \(\mathbb{R}^n\), haciendo imposible la igualdad \(Ax = \lambda x\). Pero, incluso si la matriz es cuadrada, los autovalores pueden ser complejos o los autovectores pueden no ser ortogonales.

La SVD supera estos inconvenientes utilizando dos conjuntos distintos de vectores ortonormales: los vectores singulares a izquierda (\(U\)) y a derecha (\(V\)).

11.2 La Ecuación Fundamental

Toda matriz \(A\) puede factorizarse en el producto de tres matrices: \[A = U \Sigma V^\top\] Donde:

\(U \in \mathbb{R}^{m \times m}\) Es una matriz ortogonal cuyas columnas son los vectores singulares a izquierda y representan una base ortonormal para el codominio.
\(\Sigma \in \mathbb{R}^{m \times n}\) Es una matriz diagonal (aunque rectangular) que contiene los valores singulares \(\sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_r > 0\)
\(V \in \mathbb{R}^{n \times n}\) Es una matriz ortogonal cuyas columnas son los vectores singulares a derecha y representan una base ortonormal para el dominio.

11.3 Intuición Geométrica: Rotación y Estiramiento

La acción de multiplicar por una matriz \(A\) puede descomponerse en tres pasos geométricos elementales (Strang 2018 Lec. 3 ’6):

Rotación en el dominio (\(V^\top\)) Cambia el vector de entrada a la base ortonormal de vectores singulares sin cambiar su longitud].
Escalamiento (\(\Sigma\)) Estira o contrae el vector a lo largo de los ejes principales. Aquí, la esfera unitaria se transforma en un elipsoide cuyos semiejes tienen longitudes \(\sigma_i\).
Rotación en el codominio (\(U\)) Orienta el elipsoide resultante en el espacio final.

11.4 Deducción de la SVD

Para construir la SVD, buscamos una relación análoga a la de los autovectores (\(Ax = \lambda x\)), pero adaptada a matrices rectangulares donde el dominio y el codominio tienen dimensiones distintas.

El punto de partida es encontrar un conjunto de vectores ortonormales en el dominio \(\{v_1, v_2, \dots, v_r\}\) que, al ser transformados por \(A\), resulten en vectores ortonormales en el codominio \(\{u_1, u_2, \dots, u_r\}\), escalados por un factor \(\sigma_i\):

\[Av_i = \sigma_i u_i \quad i = 1, \dots, r\]

Donde \(r\) es el rango de la matriz. Estas ecuaciones representan la acción de la matriz sobre sus direcciones principales (Strang 2018 - Lecture 6 ’20).

Podemos agrupar estas \(r\) ecuaciones individuales colocando los vectores \(v_i\) como columnas de una matriz \(V\) y los vectores \(u_i\) como columnas de una matriz \(U\) (Strang 2018 - Lecture 6 ’30):

\[A \underbrace{ \begin{bmatrix} | & | & & | \\ v_1 & v_2 & \dots & v_r \\ | & | & & | \end{bmatrix} }_{V} = \underbrace{ \begin{bmatrix} | & | & & | \\ u_1 & u_2 & \dots & u_r \\ | & | & & | \end{bmatrix} }_{U} \underbrace{ \begin{bmatrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \end{bmatrix} }_{\Sigma}\]

Esta disposición compacta las relaciones vectoriales en la ecuación: \[AV = U\Sigma\]

Dado que los vectores \(v_i\) son elegidos para ser ortonormales, la matriz \(V\) cumple la propiedad de las matrices de Stiefel: \(V^\top V = \mathbb{I}\) (Strang 2018 Lec. 3 ’02; Armentano 2026 clase 5). Al multiplicar por \(V^\top\) a la derecha en ambos lados de la ecuación anterior, obtenemos la representación final de la SVD \(A = U\Sigma V^\top \)

\[A = \underbrace{ \begin{bmatrix} | & | & & | \\ u_1 & u_2 & \dots & u_r \\ | & | & & | \\ \end{bmatrix} }_{U \in \mathcal{M}_{m \times r}} \underbrace{ \begin{bmatrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \end{bmatrix} }_{\Sigma \in \mathcal{M}_{r \times r}} \underbrace{ \begin{bmatrix} - & v_1^\top & - \\ - & v_2^\top & - \\ & \vdots & \\ - & v_r^\top & - \\ \end{bmatrix} }_{V^\top \in \mathcal{M}_{r \times n}}\]

En esta estructura, las columnas de \(U\) representan la base ortonormal de la imagen, mientras que las filas de \(V^\top\) (que son los vectores columna \(v_i\) transpuestos) representan la base ortonormal del espacio fila.

Entonces, la conexión con la estructura espectral de las matrices simétricas permite identificar la procedencia de estos vectores:

  • Las columnas de \(V\) son los vectores propios de la diagonalización de \(A^\top A\).
  • Las columnas de \(U\) son los vectores propios de la diagonalización de \(AA^\top\).
Nota
Observacion:
En la SVD completa las matrices \( V^\top \) y \(U\) son \(n\times n\) y \(m\times m\) en lugar de \(r\times n\) y \(m\times r\). Para ello, se completan con vectores ortogonales del espacio nulo de \(A\) hasta formar una base ortonormal de sus espacios correspondientes \( \mathbb{R} ^n\) y \( \mathbb{R} ^m\).

A su vez, la matriz \(\Sigma\) en vez de ser cuadrada \(r\times r\) es rectangular \(m\times n\) de la misma forma que \(A\). Tiene los \(r\) valores singulares en la diagonal y ceros en el resto.

En el producto \( U\Sigma V^\top \), los vectores extra de \(U\) y \( V^\top \) simplemente se anulan al multiplicar por los ceros de \(\Sigma\). Solo se retienen los elementos asociados a los \(r\) valores singulares no nulos.

SVD Completa SVD Reducida Descripción en la SVD Reducida
\(U\) (\(m \times m\)) \(U_r\) (\(m \times r\)) Base ortonormal para el espacio columna (Imagen) de \(A\)
\(\Sigma\) (\(m \times n\)) \(\Sigma_r\) (\(r \times r\)) Matriz diagonal de valores singulares no nulos
\(V^\top\) (\(n \times n\)) \(V_r^\top\) (\(r \times n\)) Base ortonormal para el espacio fila de \(A\)
\(A\) (\(m \times n\)) \(A\) (\(m \times n\)) La matriz original se reconstruye exactamente igual en ambos casos

11.5 Relación con la Estructura Espectral

La construcción de la SVD se apoya en las matrices simétricas \(A^\top A\) y \(A A^\top\), las cuales siempre son semidefinidas positivas.

\(A^\top A\) es una matriz cuadrada (\(n \times n\)), simétrica y definida positiva. Sus autovectores forman las columnas de \(V\) y sus autovalores son \(\sigma_i^2\).

\(AA^\top\) es una matriz cuadrada (\(m \times m\)) que posee los mismos autovalores no nulos que \(A^\top A\). Sus autovectores forman las columnas de \(U\).

\(V\)
Vectores singulares a derecha
Son los autovectores de la matriz simétrica \(A^\top A\). Se cumple que \((A^\top A)v_i = \sigma_i^2 v_i\)
\(U\)
Vectores singulares a izquierda
Son los autovectores de la matriz simétrica \(A A^\top\). Se cumple que \((A A^\top)u_i = \sigma_i^2 u_i\)
\(\sigma_i\)
Valores singulares
Son las raíces cuadradas de los autovalores no nulos de \(A^\top A\) (o \(A A^\top\)). Representan el factor de estiramiento en cada dirección invariante.

Algebraicamente, esto se verifica expandiendo el producto: \[A^\top A = (V \Sigma^\top U^\top)(U \Sigma V^\top) = V (\Sigma^\top \Sigma) V^\top\] Dado que \(U^\top U = \mathbb{I}\), se observa que \(V\) diagonaliza a \(A^\top A\), y en esta descomposición se ve que las columnas de \(V\) son los vectores propios de \(A^\top A\)

De manera analoga: \[A A^\top = (U \Sigma V^\top)(V \Sigma^\top U^\top) = U (\Sigma \Sigma^\top) U^\top\] Dado que \(V^\top V = \mathbb{I}\), se observa que \(U\) diagonaliza a \(A A^\top\), y en esta descomposición se ve que las columnas de \(U\) son los vectores propios de \(A A^\top\).

11.6 Construcción y Prueba de Ortogonalidad

Buscamos vectores que cumplan la relación \(Av_i = \sigma_i u_i\).

  1. Se eligen los \(v_i\) como los autovectores de \(A^\top A\).
  2. Se calculan los \(\sigma_i\) como la raíz cuadrada de los autovalores de \(A^\top A\).
  3. Se definen los vectores de salida como \(u_i = \frac{Av_i}{\sigma_i}\).

Para demostrar que los \(u_i\) generados son ortogonales entre sí (\(u_i^\top u_j = 0\)), utilizamos la propiedad de los autovectores de \(A^\top A\): \[u_i^\top u_j = \left(\frac{Av_i}{\sigma_i}\right)^\top \left(\frac{Av_j}{\sigma_j}\right) = \frac{v_i^\top (A^\top A v_j)}{\sigma_i \sigma_j} = \frac{v_i^\top (\sigma_j^2 v_j)}{\sigma_i \sigma_j} = \frac{\sigma_j}{\sigma_i} (v_i^\top v_j)\] Como los \(v_i\) son ortonormales, \(v_i^\top v_j = 0\), lo que garantiza la ortogonalidad de los \(u_i\).

11.7 Observaciones y Propiedades

Conteo de Parámetros

La SVD describe cualquier transformación lineal como una secuencia de Rotación (\(V^\top\)) \(\to\) Estiramiento (\(\Sigma\)) \(\to\) Rotación (\(U\)).

El número de grados de libertad en la matriz original debe coincidir con los de su forma SVD:

  • Caso 2x2 (4 parámetros): 2 valores singulares en \(\Sigma\), 1 ángulo de rotación \(\theta\) para \(V\) y 1 ángulo para \(U\).
  • Caso 3x3 (9 parámetros): 3 valores singulares en \(\Sigma\), 3 parámetros de rotación en 3D (los tres angulos posibles, conocidos en ingeniería como roll, pitch y yaw) para \(V\), y otros 3 para \(U\).

Igualdad de \(U\) y \(V\)

Los vectores singulares a izquierda y derecha coinciden (\(U=V\)) únicamente cuando la matriz \(A\) es cuadrada, simétrica y definida positiva. (Hernández 2026, 4 Ej 21)

Autovalores Repetidos

Si existe un autovalor doble, los vectores singulares no son únicos, sino que generan un plano singular de direcciones posibles

Determinantes

El determinante de una matriz ortogonal es siempre \(1\) (o \(-1\) si incluye reflexión) (Strang 2018 Lec. 3 ’13). Para una matriz cuadrada, el producto de los valores singulares \(\prod \sigma_i\) es igual al valor absoluto del determinante.

11.8 La Pseudo-inversa (\(A^+\))

La SVD proporciona una forma robusta de definir la inversa para matrices no invertibles o rectangulares (Strang 2018 Lec. 9 ’06; Strang 2019, I.7): \[A^+ = V \Sigma^+ U^\top\] Donde \(\Sigma^+\) se obtiene reemplazando cada \(\sigma_i > 0\) por \(1/\sigma_i\).

Si \(A\) tiene columnas independientes, \(A^+ = (A^\top A)^{-1} A^\top\), lo que conecta directamente con la solución de mínimos cuadrados.

Deducción

Cuando una matriz \(A \in \mathbb{R}^{m \times n}\) tiene sus columnas linealmente independientes (\(m \ge n\) y \(\text{rank}(A) = n\)), el sistema \(Ax = b\) es generalmente sobredeterminado y no tiene una solución exacta (Strang 2018 Lec. 9; Armentano 2026 Clase 17). En este escenario, la pseudoinversa \(A^+\) surge naturalmente de la necesidad de encontrar la “mejor solución” posible.

La solución que minimiza el error cuadrático \(\|Ax - b\|_2^2\) debe satisfacer las ecuaciones normales:

\[A^\top A \hat{x} = A^\top b\]

Esta condición geométrica asegura que el residuo \(e = b - A\hat{x}\) sea ortogonal al espacio columna de \(A\).

Si \(A\) tiene columnas independientes, entonces la matriz cuadrada \(A^\top A\) es simétrica y estrictamente definida positiva (Strang 2018 Lec. 5; Armentano 2026 Clase 9; Armentano 2026 Clase 17). Esto garantiza que \(A^\top A\) es invertible, permitiéndonos despejar el vector de coeficientes óptimo \(\hat{x}\):

\[\hat{x} = (A^\top A)^{-1} A^\top b\]

La pseudoinversa se define como el operador lineal que, al actuar sobre el vector de datos \(b\), produce directamente la solución de mínimos cuadrados \(\hat{x}\). Por inspección de la fórmula anterior, identificamos:

\[A^+ = (A^\top A)^{-1} A^\top\]

Propiedades

Esta expresión para \(A^+\) es conocida como la inversa por la izquierda, ya que posee una propiedad fundamental si se premultiplica por \(A\) (Strang 2018 Lec. 9):

\[A^+ A = ((A^\top A)^{-1} A^\top) A = (A^\top A)^{-1} (A^\top A) = I_{n \times n}\]

Esto significa que \(A^+\) deshace la acción de \(A\) perfectamente para cualquier vector que ya se encuentre en el espacio fila. Sin embargo, a diferencia de una inversa verdadera, \(AA^+ \neq I\) (a menos que \(m=n\)), sino que representa la matriz de proyección ortogonal sobre el espacio columna de \(A\).

Observar :Esto solo vale si \( A^\top A\) es invertible, es decir, si \(A\) tiene columnas l.i.. En este caso \(A A^\top \) representa una proyección ortogonal en \(C(A)\) y unicamente cuando \(m=n\) se cumple que \(A A^\top = \mathbb{I} \) (Hernández 2026, 6, ej3)