12 Pseudo-inversa (A^+)

La pseudoinversa de Moore-Penrose (\(A^+\)) extiende el concepto de inversión a matrices no cuadradas o singulares donde la inversa tradicional no existe. Mediante la SVD, \(A^+\) resuelve problemas de mínimos cuadrados hallando siempre la solución de norma mínima. Geométricamente, vincula los subespacios fundamentales, permitiendo revertir la transformación en las direcciones donde la información no se ha perdido.

12.1 Deducción

Cuando una matriz \(A \in \mathbb{R}^{m \times n}\) tiene sus columnas linealmente independientes (\(m \ge n\) y \( \text{rango}(A) = n\)), el sistema \(Ax = b\) es generalmente sobredeterminado y no tiene una solución exacta (Strang 2018 Lec. 9; Armentano 2026 Clase 17). En este escenario, la pseudoinversa \(A^+\) surge naturalmente de la necesidad de encontrar la “mejor solución” posible.

La solución que minimiza el error cuadrático \( \left\| Ax - b \right\| _2^2\) debe satisfacer las ecuaciones normales Ecuación 17.1:

\[ A^\top A \hat{x} = A^\top b\]

Esta condición geométrica asegura que el residuo \(e = b - A\hat{x}\) sea ortogonal al espacio columna de \(A\).

Como estamos en el caso \(m \ge n\), entonces \(A\) es de rango completo, entonces la matriz cuadrada \( A^\top A\) es simétrica y estrictamente definida positiva (Strang 2018 Lec. 5; Armentano 2026 Clase 9; Armentano 2026 Clase 17). Esto garantiza que \( A^\top A\) es invertible, permitiéndonos despejar el vector de coeficientes óptimo \(\hat{x}\):

\[\hat{x} = ( A^\top A)^{-1} A^\top b\]

La pseudoinversa se define como el operador lineal que, al actuar sobre el vector de datos \(b\), produce directamente la solución de mínimos cuadrados \(\hat{x}\). Por inspección de la fórmula anterior, identificamos:

\[A^+ = ( A^\top A)^{-1} A^\top \tag{12.1}\]

12.2 Propiedades

Esta expresión para \(A^+\) es conocida como la inversa por la izquierda, ya que: (Strang 2018 Lec. 9)

\[A^+ A = (( A^\top A)^{-1} A^\top ) A = ( A^\top A)^{-1} ( A^\top A) = \mathbb{I} _{n \times n}\]

Esto significa que \(A^+\) deshace la acción de \(A\) perfectamente para cualquier vector que ya se encuentre en el espacio fila. Sin embargo, a diferencia de una inversa verdadera, \(AA^+ \neq \mathbb{I} \) (a menos que \(m=n\)), sino que representa la matriz de proyección ortogonal sobre el espacio columna de \(A\).

Observar: Esto solo vale si \( A^\top A\) es invertible, es decir, si \(A\) tiene columnas l.i.. En este caso \(A A^\top \) representa una proyección ortogonal en \(C(A)\) y unicamente cuando \(m=n\) se cumple que \(A A^\top = \mathbb{I} \) (Hernández 2026, 6, ej3)

12.3 Deducción mediante SVD

La SVD proporciona una forma robusta de definir la inversa para matrices no invertibles o rectangulares (Strang 2018 Lec. 9 ’06; Strang 2019, I.7): \[A^+ = V \Sigma^+ U^\top\] Donde \(\Sigma^+\) se obtiene reemplazando en \(\Sigma\), cada \(\sigma_i\) por \(1/\sigma_i\).

12.4 Casos SVD Completa vs. Reducida

Sea una matriz \(A \in \mathbb{R}^{m \times n}\) de rango \(r\).

Si utilizamos la SVD Completa (\(A = U \Sigma V^\top \)), las matrices singulares son ortogonales completas (\(U \in \mathbb{R}^{m \times m}\) y \(V \in \mathbb{R}^{n \times n}\)).

En este caso, \(V V^\top = \mathbb{I} _n\) y \(U U^\top = \mathbb{I} _m\) invariablemente, por definición de matriz ortogonal. Sin embargo, \(\Sigma^+ \Sigma\) no arroja la identidad general, sino una matriz diagonal con \(r\) unos y el resto de elementos en cero.

Por lo tanto, en la SVD completa, \(A^+A = V(\Sigma^+\Sigma) V^\top \neq V V^\top \).

Bajo la SVD Reducida: \(A = U_r \Sigma_r V^\top _r\), donde \(U_r \in \mathbb{R}^{m \times r}\), \(\Sigma_r \in \mathbb{R}^{r \times r}\) (diagonal estrictamente positiva y cuadrada) y \(V_r \in \mathbb{R}^{n \times r}\), las columnas son bases ortonormales puras, lo que garantiza que \( U^\top _r U_r = \mathbb{I} _r\) y \( V^\top _r V_r = \mathbb{I} _r\). Además, \(\Sigma_r\Sigma_r^{-1} = \Sigma_r^{-1}\Sigma_r = \mathbb{I} \).

Sin embargo, al operar con la pseudoinversa \(A^+ = V_r \Sigma_r^{-1} U^\top _r\):

\[A^+A = (V_r \Sigma_r^{-1} U^\top _r)(U_r \Sigma_r V^\top _r) = V_r \Sigma_r^{-1} ( \mathbb{I} _r) \Sigma_r V^\top _r = V_r V^\top _r\]

\[AA^+ = (U_r \Sigma_r V^\top _r)(V_r \Sigma_r^{-1} U^\top _r) = U_r \Sigma_r ( \mathbb{I} _r) \Sigma_r^{-1} U^\top _r = U_r U^\top _r\]

\(A^+A = V_r V^\top _r\): Es una matriz simétrica de dimensiones \(n \times n\). Opera como la matriz de proyección ortogonal sobre el espacio \(C( A^\top )\). Solo será igual a la matriz identidad \( \mathbb{I} _n\) si \(r = n\) (la matriz original tiene rango completo). En caso de deficiencia de rango (\(r < n\)), el producto genera una matriz singular que aniquila cualquier componente del vector incidente que pertenezca al espacio nulo de \(A\).
\(AA^+ = U_r U^\top _r\): Es una matriz simétrica de dimensiones \(m \times m\). Opera como la matriz de proyección ortogonal sobre el espacio \(C(A)\). (Este es, por definición geométrica, exactamente el mismo operador de proyección que demostramos algebraicamente como \(A( A^\top A)^{-1} A^\top \), pero generalizado para matrices que no tengan rango columna completo). Solo será igual a la matriz identidad \( \mathbb{I} _m\) si \(r = m\) (la matriz original tiene rango fila completo). Si \(r < m\), su función es aplastar datos sobre un subespacio de menor dimensión.

En definitiva, si, y solo si, la matriz \(A\) es cuadrada y de rango completo (invertible, \(m = n = r\)), entonces la pseudoinversa degenera en la inversa canónica (\(A^+ = A^{-1}\)), y en consecuencia \(A^+A = AA^+ = \mathbb{I} \).

Nota

La matriz original \(A\) se recupera exactamente tanto usando la SVD completa como la reducida, por lo tanto, \(A^+A\) y \(AA^+\) tambien arrojan los mismos resultados respectivos independientemente de cual SVD se utilice. Por lo tanto: \[V\Sigma^+\Sigma V^\top =V_r V^\top _r\]