Ortogonalidad, Isometrías, Matrices de Stiefel, Proyectores

Las matrices ortogonales, representan las transformaciones más estables en el cálculo numérico. Estas preservan la geometría del espacio, lo que garantiza que los errores de redondeo no se amplifiquen durante las factorizaciónes.

Fundamentos de Ortogonalidad

Definición: Vectores Ortonormales

Dos vectores \(x, y \in \mathbb{R}^n\) se definen como ortogonales si su producto escalar es nulo: \[x^\top y = \sum_{i=1}^{n} x_i y_i = 0\]

Para el caso complejo (\(\mathbb{C}^n\)), la definición requiere el uso del conjugado traspuesto (producto hermitiano) para asegurar que la norma sea un número real no negativo: \[x^H y = \overline{x}^\top y = \sum_{i=1}^{n} \overline{x_i} y_i = 0\]

Definición: Conjuntos y Bases Ortonormales

Un conjunto de vectores \(\{q_1, q_2, \dots, q_k\}\) es ortonormal si cumple la condición de la delta de Kronecker: \[q_i^\top q_j = \delta_{ij} = \begin{cases} 1 & \text{si } i = j \\ 0 & \text{si } i \neq j \end{cases}\] Decimos que un conjunto de vectores es una base ortonormal si es un conjunto ortogonal de vectores unitarios ( \(\|q_i\| = 1 \quad i = 1, 2, \dots, k\) ) que genera todo el espacio.

Representacion de Vectores en Bases no Ortonormales

Sea \(\mathcal{B} = \{b_1, b_2, \dots, b_n\}\) una base no ortogonal de \(V\). Para expresar un vector \(v \in V\) como una combinación lineal de los elementos de dicha base, debemos encontrar un conjunto de escalares \(\{c_i\}\) tales que:

\[v = \sum_{i=1}^{n} c_i b_i\]

Este planteamiento requiere resolver el sistema lineal \(Bc = v\), donde \(B\) es la matriz cuyas columnas son los vectores de la base. Esta operación conlleva varias dificultades desde una perspectiva computacional. ¹

Representación de Vectores en Bases Ortonormales

Cualquier vector \(v \in \mathbb{R}^n\) puede expresarse de manera única como una combinación lineal de las columnas \(q_1, \dots, q_n\) de una matriz ortogonal \(Q\): \[v = c_1 q_1 + c_2 q_2 + \dots + c_n q_n\]

Multiplicando la expresión de \(v\) por \(q_1^\top\) a la izquierda: \[q_1^\top v = c_1 (q_1^\top q_1) + c_2 (q_1^\top q_2) + \dots + c_n (q_1^\top q_n)\] Por la propiedad de ortonormalidad, \(q_1^\top q_1 = 1\) y \(q_1^\top q_j = 0\) para todo \(j \neq 1\), resultando en \(c_1 = q_1^\top v\).

Conclusión

Sea \(Q = \{q_1, q_2, \dots, q_n\}\) una base ortonormal de \(\mathbb{R}^n\).

\(\forall v \in \mathbb{R}^n: v = c_1 q_1 + c_2 q_2 + \dots + c_n q_n\)

Los coeficientes \(c_i\) se obtienen mediante productos internos individuales: \(c_i = q_i^\top v\)

En notación matricial, el vector de coeficientes completo se obtiene aplicando la matriz \(Q^\top\) al vector \(v\): \[c = Q^\top v\] \[ \begin{bmatrix} c_1 \\ c_2 \\ \vdots \\ c_n \end{bmatrix} = \begin{bmatrix} - & q_1^\top & - \\ \vdots & \vdots & \vdots \\ - & q_n^\top & - \end{bmatrix} v \]

Matrices de Stiefel

Una matriz \(Q\) de tamaño \(n \times r\) se denomina Matriz de Stiefel si sus columnas son vectores ortonormales en \(\mathbb{R}^n\).

Una consecuencia directa de esta definición es la identidad fundamental: \[Q^\top Q = \mathbb{I}_r\] donde \(\mathbb{I}_r\) es la matriz identidad de tamaño \(r \times r\).

\[ Q^\top Q = \begin{bmatrix} - & q_1^\top & - \\ \vdots & \vdots & \vdots \\ - & q_r^\top & - \end{bmatrix} \begin{bmatrix} | & \cdots & | \\ q_1 & \cdots & q_r \\ | & \cdots & | \end{bmatrix} = \begin{bmatrix} 1 & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 \\ \vdots & & \ddots & 0 \\ 0 & 0 & \dots & 1 \end{bmatrix} = \mathbb{I}_r \]

Importante

Si \(n > r\), la matriz \(Q Q^\top\) no es la identidad, sino un operador de proyección sobre el subespacio generado por las columnas de \(Q\).

Teorema: Preservación de la Norma (Propiedad Isométrica)

La multiplicación por una matriz de Stiefel preserva la norma euclídea de cualquier vector \(x \in \mathbb{R}^r\). (Armentano, 2026 clase 4; Strang, 2018 Lec. 3 ’6)

Demostración:
Sea \(x \in \mathbb{R}^r\). La norma al cuadrado del vector transformado \(Qx\) es: \[\|Qx\|^2 = (Qx)^\top (Qx) = x^\top (Q^\top Q) x = x^\top I_r x = x^\top x = \|x\|^2\]

Por lo tanto, \(\|Qx\| = \|x\|\). Geométricamente, esto significa que \(Q\) actúa como una rotación o reflexión, manteniendo intactas las distancias y los ángulos originales del dominio.

El Operador de Proyección Ortogonal \(QQ^\top\)

Es imperativo distinguir entre las dos combinaciones posibles de una matriz de Stiefel \(Q \in \mathbb{R}^{n \times r}\):

Matriz Identidad \(Q^\top Q = \mathbb{I}_r\): Puede visualizarse como el producto interno de filas por columnas, donde cada entrada de la matriz resultante es el producto punto de una fila de \(Q\) por una columna. Este producto interno produce la identidad de tamaño \(r\), confirmando su ortonormalidad.
Proyección Ortogonal \(Q Q^\top = P\): En este caso, ayuda ver a \(Q\) como un conjunto de columnas \(q_1, q_2, \dots, q_r\), y a \(Q Q^\top\) como el producto de columnas por filas lo que convierte cada término de \(q_iq_i^\top\) en un producto exterior. A diferencia del producto punto (que da un número), el producto exterior de un vector por sí mismo genera una matriz de rango 1 de tamaño \(n \times n\). \[P = q_1q_1^\top + q_2q_2^\top + \dots + q_rq_r^\top\] Si \(r < n\), esta matriz es singular, de rango \(r\) y actúa como un proyector ortogonal sobre el espacio columna \(C(Q)\).

Tip

\[ \begin{aligned} Q^\top Q &= \mathbb{I}_r && \text{Identidad de tamaño r} \\ Q Q^\top &= P \implies Q Q^\top v = Pv = v_Q && \text{Proyección Ortogonal sobre} C(Q) \end{aligned} \]

Prueba Geométrica y Algebraica

Para que un operador lineal sea una proyección ortogonal, debe satisfacer dos condiciones estructurales que garantizan la estabilidad y la geometría del mapeo.

Idempotencia

Aplicar la proyección sucesivamente no debe alterar el vector tras la primera aplicación. \(P^2 = (QQ^\top)(QQ^\top) = Q(Q^\top Q)Q^\top = Q(I_r)Q^\top = QQ^\top = P\) Entonces, \(P^2 = P\).

Si \(v \in C(Q)\), entonces existe un \(x\) tal que \(v = Qx\). Al aplicar el proyector: \(Pv = P(Qx) = (QQ^\top)Qx = Q(Q^\top Q)x = Qx = v\). Por lo tanto, \(P\) deja invariantes a los vectores que ya pertenecen a su imagen.

Simetría

Si estamos proyectando un vector \(x\) sobre \(P\), su proyección es \(Px\) y el error es \(x - Px\). Para que esta proyección sea ortogonal, el error de la proyección debe ser perpendicular al espacio donde se proyecta, es decir, que el error debe ser perpendicular a cualquier vector \(Py\) en la imagen de \(P\). Por lo tanto debe cumplirse \[(Py)^\top(x-Px)=0, \forall y\] Desarrollando esta formula, \(0 = y^\top P^\top(x-Px) = y^\top(P^\top x-P^\top Px) = y^\top(P^\top-P^\top P)x\). Para que esto sea cierto para todo \(x\) e \(y\), debe cumplirse \(P^\top=P^\top P\).

Si además la matriz \(P\) fuese simétrica (\(P = P^\top\)), entonces tendriamos \(P^\top = P^\top P = P P = P\) Por lo tanto, la simetria de \(P\) garantiza que la proyección sea ortogonal y no oblicua. Verifiquemos entonces que \(P\) es simetrica: \(P^\top = (QQ^\top)^\top = (Q^\top)^\top Q^\top = QQ^\top = P\).

Caracterización Geométrica

El operador \(P\) descompone cualquier vector \(w \in \mathbb{R}^n\) en una componente dentro del subespacio y un error ortogonal: \(w = Pw + (\mathbb{I}-P)w\).

Para cualquier vector \(w\), el “vector de error” definido como \(e = w - Pw\) es perpendicular a toda combinación lineal de las columnas de \(Q\), es decir \(w - Pw \perp C(Q)\).

Un vector es perpendicular a \(C(Q)\) si su producto interno con cada columna de \(Q\) es nulo, lo cual equivale a decir que \(Q^\top e = 0\).

\(Q^\top e = Q^\top(w - Pw) = Q^\top(w - QQ^\top w) = Q^\top w - (Q^\top Q) Q^\top w = 0\)

Aplicación: La Proyección como Mejor Aproximación

La proyección ortogonal es la piedra angular del método de Mínimos Cuadrados. Cuando un sistema \(Ax = b\) es incompatible, es decir, \(b \notin C(A)\), la solución numérica óptima no busca resolver la igualdad, sino minimizar el tamaño del error: \(\|b - Ax\|\). En otras palabras, buscamos el vector \(\hat{x}\) en \(C(A)\) más cercano a \(b\) en términos de distancia euclídea.

Si las columnas de \(A\) se transforman en una base ortonormal \(Q\), la “mejor aproximación” de \(b\) en el subespacio es simplemente su proyección ortogonal \(Pb = QQ^\top b\).

Pero estamos interesados en encontrar una solucion para cualquier \(A\). Como vimos antes, para que el error sea mínimo, el vector de error (\(b - A\hat{x}\)) debe ser perpendicular a todas las columnas de \(A\). En lenguaje matricial, esto significa que el producto de \(A^\top\) por el error debe ser cero:

\[A^\top (b - A\hat{x}) = 0\]

Si distribuimos el producto, obtenemos las famosas Ecuaciones Normales: \[ \begin{align} A^\top b - A^\top A\hat{x} &= 0 \\ A^\top A\hat{x} &= A^\top b \end{align} \]

Ahora, para encontrar \(\hat{x}\), multiplicamos por la inversa de \((A^\top A)\) (asumiendo que las columnas de \(A\) son linealmente independientes): \[\hat{x} = (A^\top A)^{-1} A^\top b\]

Sabemos que la proyección de \(b\) sobre el espacio de \(A\) es, por definición, \(Pb\). Pero también sabemos que esa proyección es el resultado de aplicar la matriz \(A\) a nuestra mejor aproximación \(\hat{x}\): \[Pb = A\hat{x}\] Sustituimos el valor de \(\hat{x}\) que acabamos de despejar: \[Pb = A \left( (A^\top A)^{-1} A^\top b \right) = A(A^\top A)^{-1}A^\top b\] Si quitamos la \(b\) de ambos lados, nos queda la estructura de la matriz de proyección: \[P = A(A^\top A)^{-1} A^\top\]

- Complejidad Algorítmica: La resolución mediante métodos directos (como la eliminación gaussiana o la descomposición LU) implica un costo de \(O(n^3)\) operaciones de punto flotante.
- Interdependencia de Coeficientes: El cálculo de cualquier coeficiente \(c_i\) está acoplado al resto del sistema, lo que impide una resolución parcial o asíncrona de las coordenadas. A diferencia de las bases arbitrarias, donde el cálculo de las coordenadas exige resolver un sistema lineal mediante eliminación (\(O(n^3)\)), en una base ortonormal los coeficientes se obtienen mediante productos internos individuales (\(O(n)\)):
↩︎