13 Normas Matriciales

Las normas matriciales extienden el concepto de magnitud a las transformaciones lineales. Al igual que con los vectores, existen diversas formas de medir una matriz \(A\), y muchas de las más importantes dependen exclusivamente de sus valores singulares (\(\sigma_i\)).

13.1 Producto Hilbert-Schmidt

Para extender los conceptos geométricos de ángulos, ortogonalidad y proyecciones al espacio de las matrices, es necesario definir un producto interno. El estándar para matrices reales es el producto interno de Hilbert-Schmidt. (Hernández 2026, Pr5 Ej6; Strang 2019, I.11)

Definición: Dadas dos matrices \(A, B \in \mathbb{R}^{m \times n}\), su producto interno se define como:

\[\langle A, B \rangle_{HS} = \text{tr}(A^\top B)\]

Este producto equivale a realizar el producto punto de todos los elementos correspondientes de ambas matrices y sumarlos, tratándolas como si fueran vectores de dimensión \(mn\).

Para comprender por qué, analizamos la sumatoria de sus componentes: (Strang 2019, I.11; Hernández 2026, Pr5 Ej6)

En el producto matricial \(M = A^\top B\), cada entrada en la diagonal principal \(M_{jj}\) es el resultado de multiplicar la fila \(j\) de \(A^\top\) (que es la columna \(j\) de \(A\)) por la columna \(j\) de \(B\). Esto es el producto punto de las dos columnas \(j\)-ésimas (Strang 2018 Lec. 2 ’39): \(M_{jj} = \sum_{i=1}^m a_{ij}b_{ij}\).

La traza de la matriz resultante es la suma de estos elementos diagonales. Al expandir la sumatoria sobre todas las columnas \(j = 1, \dots, n\), el producto interno se transforma en una suma doble que abarca cada entrada de ambas matrices: \[\langle A, B \rangle_{HS} = \text{tr}(A^\top B) = \sum_{j=1}^n \sum_{i=1}^m a_{ij}b_{ij}\]

Si definimos la operación \(\text{vec}(A)\) como el proceso de “estirar” la matriz para convertirla en un vector largo de dimensión \(mn\), la sumatoria anterior coincide exactamente con el producto punto estándar entre vectores: \[\langle A, B \rangle_{HS} = \text{vec}(A) \cdot \text{vec}(B)\]

El producto interno Hilbert-Schmidt cumple con las propiedades fundamentales:

Simetría: \(\langle A, B \rangle = \langle B, A \rangle\).
Linealidad: \(\langle cA, B \rangle = c \langle A, B \rangle\).
Definición Positiva: \(\langle A, A \rangle \ge 0, \quad A \neq \mathbb{0}\).

El uso de este producto interno convierte al espacio de las matrices \(\mathbb{R}^{m \times n}\) en un espacio de Hilbert, lo que permite aplicar resultados potentes del análisis funcional a problemas matriciales.

13.2 Norma Nuclear \( \left\| A \right\| _N\)

También conocida como norma de traza, se define como: \[ \left\| A \right\| _N = \sigma_1 + \dots + \sigma_r\]

Esta medida representa la extensión natural de la norma vectorial \(\ell_1\) al espacio de las matrices, operando sobre el espectro de valores singulares en lugar de los componentes individuales. ¹

Caracterización Variacional

La norma nuclear posee una propiedad fundamental de caracterización variacional que permite su optimización sin necesidad de calcular explícitamente la SVD en cada iteración: Strang (2019)

\[ \left\| A \right\| _N = \min_{A=UV} \left\| U \right\| _F \left\| V \right\| _F\]

Donde la minimización se realiza sobre todas las posibles factorizaciones de \(A\) en dos matrices \(U \in \mathbb{R}^{m \times k}\) y \(V \in \mathbb{R}^{k \times n}\).

Demostración de alcanzabilidad mediante SVD

Para probar que el valor mínimo es efectivamente \( \left\| A \right\| _N\), podemos proponer una factorización basada en la SVD de \(A = P \Sigma Q^\top\). Definimos: * \(U = P \Sigma^{ ½ }\) * \(V = \Sigma^{ ½ } Q^\top\)

Es inmediato verificar que \(UV = P \Sigma^{ ½ } \Sigma^{ ½ } Q^\top = P \Sigma Q^\top = A\). Calculando el cuadrado de la norma de Frobenius para \(U\) (Hernández 2026, Pr5 Ej6): \[ \left\| U \right\| _F^2 = \text{tr}(U^\top U) = \text{tr}(\Sigma^{ ½ } P^\top P \Sigma^{ ½ }) = \text{tr}(\Sigma) = \sum_{i=1}^r \sigma_i = \left\| A \right\| _N\] Siguiendo el mismo procedimiento para \(V\), obtenemos que \( \left\| V \right\| _F^2 = \left\| A \right\| _N\). Por lo tanto, para esta elección: \[ \left\| U \right\| _F \left\| V \right\| _F = \sqrt{ \left\| A \right\| _N} \cdot \sqrt{ \left\| A \right\| _N} = \left\| A \right\| _N\]

Esta identidad es la base de los algoritmos que resolvieron el concurso de Netflix (Strang 2018 Lec. 7). ²

13.3 Norma Operador \( \left\| A \right\| \)

La norma de operador mide el factor máximo de “estiramiento” que una matriz aplica a un vector.

\[ \left\| A \right\| = \max_{x \neq 0}\left( \frac{ \left\| Ax \right\| }{ \left\| x \right\| } \right)\]

Existen otra definicion estándar para esta medida:

\[ \left\| A \right\| = \max_{ \left\| x \right\| =1}{ \left\| Ax \right\| }\]

En esta expresión es facil ver que \( \left\| A \right\| \) representa la máxima elongación que sufre la “bola unitaria” bajo la transformación definida por \(A\). ³

Puede probarse facilmente que estas dos definiciones representan el mismo valor.

Consideremos un vector \(x\) cualquiera tal que \(x \neq 0\). Este vector se puede normalizar para obtener un vector unitario \(u\) definiéndolo como \(u = \frac{x}{ \left\| x \right\| }\), de modo que \( \left\| u \right\| = 1\).

Si analizamos la expresión de la primera definición, podemos aplicar la propiedad de homogeneidad escalar de las normas (\( \left\| cv \right\| = |c| \cdot \left\| v \right\| \)):

\[\frac{ \left\| Ax \right\| }{ \left\| x \right\| } = \frac{ \left\| A\left( \left\| x \right\| \frac{x}{ \left\| x \right\| }\right) \right\| }{ \left\| x \right\| } = \frac{ \left\| x \right\| \cdot \left\| A\left(\frac{x}{ \left\| x \right\| }\right) \right\| }{ \left\| x \right\| } = \left\| A u \right\| \]

Este desarrollo muestra que el valor del cociente para cualquier vector \(x\) no nulo es idéntico al valor de la norma de \(Au\) para algún vector unitario \(u\).

Esta norma es inducida por una norma vectorial en \( \mathbb{R}^n \), por lo tanto la norma operador de una matriz cambia segun la norma elegida en el subespacio.

Norma Operador Inducida por \(\ell_1\): \[ \left\| A \right\| _1=\max_{1 \leq j \leq n}{ \sum_{i=1}^m{ |a_{ij}| } }\]
Norma Operador Inducida por \(\ell_\infty\): \[ \left\| A \right\| _\infty=\max_{1 \leq i \leq m}{ \sum_{j=1}^n{ |a_{ij}| } }\]
Norma Operador Inducida por \(\ell_2\) (tambien llamada Norma Espectral): \[ \left\| A \right\| _2 = \max_{x \neq 0} \frac{ \left\| Ax \right\| _2}{ \left\| x \right\| _2}\]

13.4 Norma de Frobenius \( \left\| A \right\| _F\)

Es la norma más intuitiva y utilizada en algoritmos de optimización para redes neuronales.

Su definicion es equivalente a la norma \(\ell_2\) (norma Euclídea) de la matriz vista como un vector de \(mn\) componentes. \[ \left\| A \right\| _F = \left( \sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^2 \right)^{ ½ } \]

Relación con el producto Hilbert-Schmidt

La norma de Frobenius es la norma inducida directamente por el producto interno Hilbert-Schmidt (Hernández 2026, Pr5 Ej6):

Teorema: Sea \(A \in \mathbb{R}^{m \times n} \implies \left\| A \right\| _F = \sqrt{\langle A, A \rangle_{HS}} = \sqrt{\text{tr}(A^\top A)}\) (Strang 2018 Lec. 8 ’39; Hernández 2026, Pr5 Ej6)

Demostración: Consideremos el producto \(M = A^\top A\). Por definición de multiplicación, la entrada en la fila \(j\) y columna \(j\) de \(M\) se obtiene multiplicando la fila \(j\) de \(A^\top\) (que es la columna \(j\) de \(A\)) por la columna \(j\) de \(A\), es decir, el producto punto de la columna \(j\) de \(A\) con ella misma: \[M_{jj} = (A^\top A)_{jj} = \sum_{i=1}^m a_{ij}^2\]

La cantidad \(M_{jj}\) representa la suma de los cuadrados de todos los elementos presentes en la columna \(j\) de la matriz original \(A\).

La traza de una matriz es la suma de sus elementos en la diagonal principal. Al sumar sobre todas las columnas \(j = 1, \dots, n\), obtenemos (Strang 2018 Lec. 8 ’808): \[\text{tr}(A^\top A) = \sum_{j=1}^n M_{jj} = \sum_{j=1}^n \sum_{i=1}^m a_{ij}^2\]

La expresión resultante es una sumatoria doble que recorre cada entrada \(a_{ij}\) de la matriz, elevándola al cuadrado. Esto coincide exactamente con el cuadrado de la definición por componentes de la norma: \[\text{tr}(A^\top A) = \sum_{i,j} a_{ij}^2 = \left\| A \right\| _F^2\]

Esta identidad permite transitar libremente entre el cálculo algorítmico (suma de entradas) y el análisis geométrico (traza), facilitando las pruebas de invarianza ortogonal necesarias para resultados avanzados como el Teorema de Eckart-Young.

Esta conexión es la que dota a la norma de Frobenius de su invarianza ortogonal y permite que el error en aproximaciones de bajo rango se calcule con la misma lógica que una distancia euclidiana.

La estructura de espacio de Hilbert es la que permite que la norma de Frobenius herede la fórmula de magnitud habitual de los vectores en \(\mathbb{R}^n\), calculándose como la raíz cuadrada de la suma de los cuadrados de todas sus entradas (Strang 2018 Lec. 8 ’39; Hernández 2026, Pr5 Ej7):

Esta identidad no es solo una curiosidad algebraica; es la razón por la cual la norma de Frobenius hereda todas las propiedades geométricas de los espacios euclidianos, incluyendo la noción de ángulo entre matrices y la proyección ortogonal.

Gracias a esta equivalencia, podemos definir formalmente la ortogonalidad entre matrices: decimos que \(A\) y \(B\) son ortogonales si su producto interno es nulo, es decir, si \(\text{tr}(A^\top B) = 0\) (Hernández 2026, Pr5 Ej6).

13.5 Propiedades de las normas matriciales

Regla de Submultiplicatividad para Normas de Matrices

Ademas de las propiedades derivadas de la definicion de norma para vectores, las normas matriciales deben cumplir una propiedad extra: la submultiplicatividad. Ésta permite estimar el tamaño del producto de dos matrices a partir de las magnitudes de sus factores. Se expresa mediante la desigualdad (Hernández 2026, Pr5 Ej9c) ⁴:

Prueba para Normas Inducidas (Normas de Operador)

Para cualquier norma matricial inducida por una norma vectorial (como la norma espectral \(\ell_2\)), la demostración es una consecuencia directa de la definición de norma de operador (Hernández 2026, Pr5 Ej9d):

Por definición, para cualquier vector \(x\), se cumple que \( \left\| Ax \right\| \le \left\| A \right\| \cdot \left\| x \right\| \). Consideremos el vector resultante de aplicar el producto \(AB\) a un vector \(x\). Podemos agrupar los factores como \(A(Bx)\): \[ \left\| ABx \right\| \le \left\| A \right\| \cdot \left\| Bx \right\| \] Aplicando nuevamente la propiedad al término \( \left\| Bx \right\| \): \[ \left\| ABx \right\| \le \left\| A \right\| \cdot ( \left\| B \right\| \cdot \left\| x \right\| ) = ( \left\| A \right\| \cdot \left\| B \right\| ) \cdot \left\| x \right\| \] Tomando el supremo sobre todos los vectores unitarios (\( \left\| x \right\| = 1\)), obtenemos la norma del producto: \[ \left\| AB \right\| = \sup_{ \left\| x \right\| =1} \left\| ABx \right\| \le \left\| A \right\| \cdot \left\| B \right\| \]

Prueba para la Norma de Frobenius

La norma de Frobenius también es submultiplicativa, aunque no sea una norma inducida. La demostración utiliza la desigualdad de Cauchy-Schwarz sobre las entradas de la matriz producto (Hernández 2026, Pr5 Ej5):

Sea \(C = AB\). La entrada \(c_{ij}\) es el producto punto de la fila \(i\) de \(A\) por la columna \(j\) de \(B\). Por Cauchy-Schwarz: \[|c_{ij}|^2 = \left| \sum_{k} a_{ik}b_{kj} \right|^2 \le \left( \sum_{k} |a_{ik}|^2 \right) \left( \sum_{k} |b_{kj}|^2 \right)\] Observamos que el primer paréntesis es el cuadrado de la norma \(\ell_2\) de la fila \(i\) de \(A\) (\( \left\| a_{i*} \right\| _2^2\)) y el segundo es el de la columna \(j\) de \(B\) (\( \left\| b_{*j} \right\| _2^2\)).

Sumando sobre todas las entradas \(i, j\) para obtener \( \left\| AB \right\| _F^2\): \[\sum_{i,j} |c_{ij}|^2 \le \sum_{i} \left\| a_{i*} \right\| _2^2 \sum_{j} \left\| b_{*j} \right\| _2^2\]

Prueba alternativa para la Norma de Frobenius

(Strang 2019, I.11)

En el caso particular donde \(A\) y \(B\) son vectores (en otras palabras, \(AB\) es una matriz de rango uno \(a b^\top \)), la desigualdad en norma es justamente una igualdad:

\[ \left\| a b^\top \right\| _F ^2 = |a_1|^2 ( |b_1|^2 + \dots + |b_p|^2 ) + \dots + |a_m|^2 ( |b_1|^2 + \dots + |b_p|^2 ) = \left\| a \right\| _F ^2 \left\| b \right\| _F ^2\]

En el caso generico, donde \(AB\) es una suma de matrices de rango 1 obtenida multiplicando las filas de \(A\) por las columnas de \(B\):

\[ \left\| AB \right\| _F = \left\| a_1 b_1^\top + \dots + a_n b_n^\top \right\| _F \]

Aqui podemos aplicar la desigualdad triangular:

Esto es una suma de normas de matrices de rango 1, que ahora sabemos que cumplen la submultiplicatividad:

Y aqui podemos aplicar Cauchy-Schwarz

Y esta es la definicion de norma de Frobenius, asi que

Invarianza Ortogonal

No todas las medidas de magnitud se comportan igual ante transformaciones geométricas. Entender qué hace “especial” a una norma requiere analizar su relación con los productos internos y las rotaciones.

Una norma matricial es ortogonalmente invariante si multiplicar una matriz \(A\) por una matriz ortogonal \(Q\) (una rotación o reflexión) no altera su norma (Hernández 2026, Pr5 Ej8). Algebraicamente: \(||QA|| = ||A|| = ||AQ||\)

Como las matrices ortogonales no cambian los valores singulares de \(A\) (solo rotan los ejes de la elipse de transformación sin alterar sus semiejes), las normas que dependen exclusivamente de los valores singulares (Frobenius, Operador y Nuclear) son invariantes. ⁵

Las normas inducidas por \(\ell_1\) o \(\ell_\infty\) en cambio, NO son invariantes. Geométricamente, esto se debe a que estas normas dependen de la orientación de los ejes coordenados (la “bola unitaria” es un diamante o un cuadrado); al rotar la matriz, los vértices dejan de estar alineados con los ejes, cambiando la suma de los componentes.

La norma Frobenuis es invariante ante rotaciones (multiplicación por matrices ortogonales \(Q\)), lo que simplifica enormemente los cálculos en el álgebra lineal numérica.

\[ \left\| AQ \right\| _F = \left\| A \right\| _F \]

Prueba: Para una matriz ortogonal \(Q\), donde \(Q Q^\top = I\): \( \left\| AQ \right\| _F^2 = \text{tr}((AQ)^\top(AQ)) = \text{tr}(Q^\top A^\top A Q)\)

Usando la propiedad cíclica de la traza (\(\text{tr}(ABC) = \text{tr}(BCA)\)): \(\text{tr}(A^\top A Q Q^\top) = \text{tr}(A^\top A I) = \text{tr}(A^\top A) = \left\| A \right\| _F ^2\)

Vinculación con la SVD

La Descomposición en Valores Singulares (SVD) proporciona un marco unificado para calcular y comparar las normas matriciales más importantes. Dado que las normas ortogonalmente invariantes dependen exclusivamente del espectro de valores singulares (\(\sigma_1, \sigma_2, \dots, \sigma_r\)), la SVD transforma problemas matriciales complejos en cálculos vectoriales simples sobre el vector \(\sigma\) (Strang 2018 Lec. 8; Hernández 2026, Pr5 Ej9).

Sean \(\sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r > 0\) los valores singulares de una matriz \(A\). Las tres normas fundamentales se expresan en funcion de estos.

Norma Operador/Espectral: Es el valor singular más grande. Representa el factor de amplificación máximo que la matriz puede aplicar a cualquier vector: \[ \left\| A \right\| _2 = \sigma_1\]

Ver prueba

Probaremos que el limite superior es el mayor valor singular, y que el limite es alcanzable.

El límite superior: Por definición, la norma espectral es el máximo del cociente de Rayleigh para la magnitud de la salida: \[ \left\| A \right\| _2 = \max_{x \neq 0} \frac{ \left\| Ax \right\| _2}{ \left\| x \right\| _2}\]

Si analizamos el cuadrado del cociente utilizando la matriz de Gram \(A^\top A\): \[\frac{ \left\| Ax \right\| _2^2}{ \left\| x \right\| _2^2} = \frac{(Ax)^\top (Ax)}{x^\top x} = \frac{x^\top (A^\top A) x}{x^\top x}\]

Dado que \(A^\top A\) es una matriz simétrica y semidefinida positiva, sus valores propios son los cuadrados de los valores singulares (\(\sigma_i^2\)). El cociente de Rayleigh garantiza que este valor no puede superar al valor propio más grande de la matriz de Gram [3, 4]: \[\frac{x^\top (A^\top A) x}{x^\top x} \le \sigma_1^2 \implies \frac{ \left\| Ax \right\| _2}{ \left\| x \right\| _2} \le \sigma_1\]

El máximo: Para probar que este límite es alcanzable, seleccionamos como entrada el primer vector singular derecho \(v_1\) de la SVD de \(A\). Por las propiedades de la descomposición, sabemos que \(Av_1 = \sigma_1 u_1\), donde \(u_1\) es un vector unitario. Al calcular el cociente para este vector específico:

\[\frac{ \left\| Av_1 \right\| _2}{ \left\| v_1 \right\| _2} = \frac{ \left\| \sigma_1 u_1 \right\| _2}{ \left\| v_1 \right\| _2} = \sigma_1 \frac{ \left\| u_1 \right\| _2}{ \left\| v_1 \right\| _2}\]

Como tanto \(u_1\) como \(v_1\) tienen norma igual a 1 por construcción, el resultado es exactamente \(\sigma_1\). Esto demuestra que el valor singular máximo es el valor exacto de la norma de operador.

Norma de Frobenius: Es la raíz cuadrada de la suma de los cuadrados de todos los valores singulares. Equivale a la “energía” total de la matriz y es la norma inducida por el producto interno de Hilbert-Schmidt \[ \left\| A \right\| _F = \sqrt{\sigma_1^2 + \sigma_2^2 + \dots + \sigma_r^2}\]

Ver prueba

(Strang 2018 Lec. 8 ’40) Expresando \(A\) en su descomposicion SVD, tenemos que: \( \left\| A \right\| _F = \left\| U \Sigma V^\top \right\| _F\)

Gracias a la invarianza ortogonal de la norma Frobenius, y dado que \(U\) y \(V^\top\) son ortogonales, llegamos a: \( \left\| A \right\| _F = \left\| U \Sigma V^\top \right\| _F = \left\| \Sigma \right\| _F = \sqrt{\sigma_1^2 + \sigma_2^2 + \dots + \sigma_r^2}\)

Ver prueba alternativa

(Strang 2019, I.11) \[ \left\| A \right\| _F ^2 = \text{traza}( A^\top A) = \sum \lambda_i = \sum \sigma_i^2 \]

Norma Nuclear: Es la suma de todos los valores singulares. Es el análogo matricial de la norma \(\ell_1\) vectorial y se utiliza para promover soluciones de bajo rango en problemas de optimización: \[ \left\| A \right\| _N = \sum_{i=1}^r \sigma_i\]

A partir de estas definiciones, se puede establecer una jerarquía clara basada en cómo cada norma acumula la información de los valores singulares. Para cualquier matriz \(A\), se cumple que:

Ha ganado gran relevancia en problemas de “completitud de matrices” (como el famoso concurso de Netflix) y en la obtención de soluciones de bajo rango en sistemas ruidosos como las imágenes por resonancia magnética (MRI) (Strang 2018 Lec. 8 ’47).

La utilidad de la norma nuclear en la ciencia de datos radica en su relación con el concepto de bajo rango y dispersión (sparsity):

Al igual que minimizar la norma \(\ell_1\) en vectores tiende a producir soluciones con muchos ceros, minimizar la norma nuclear en matrices tiende a producir soluciones donde muchos valores singulares son cero, resultando en una matriz de bajo rango.

Esta propiedad es el motor de los algoritmos de “completitud de matrices”, donde el objetivo es adivinar entradas faltantes en una matriz gigante basándose en la premisa de que los datos tienen una estructura subyacente simple.

Fue la técnica clave para resolver el concurso de Netflix, prediciendo las calificaciones de usuarios para películas que aún no habían visto.

En las resonancias magnéticas (MRI), permite reconstruir imágenes nítidas a partir de muestreos rápidos e incompletos, reduciendo el tiempo que el paciente debe permanecer en el escáner.

Ayuda a separar la señal estructural importante del ruido aleatorio, ya que el ruido tiende a dispersarse por todos los valores singulares, mientras que la información real se concentra en unos pocos.

Al ser una norma ortogonalmente invariante, la magnitud que mide no cambia si la matriz es rotada, lo que asegura que la recuperación de datos se base exclusivamente en la “energía” intrínseca de la información y no en su orientación en el sistema de coordenadas.↩︎
En lugar de resolver un problema de optimización sobre la matriz completa \(A\), se optimizan directamente los factores \(U\) y \(V\):

El término de penalización nuclear \( \left\| A \right\| _N\) se sustituye por \(\frac{1}{2}( \left\| U \right\| _F^2 + \left\| V \right\| _F^2)\). Minimizar la norma de Frobenius de los factores es mucho más sencillo mediante métodos de descenso de gradiente estocástico (SGD) o mínimos cuadrados alternados, permitiendo procesar matrices con millones de entradas.

Esta propiedad vincula la “energía” de las matrices factorizadas con la estructura de bajo rango de la matriz original, siendo la herramienta clave para la recuperación de datos faltantes (Strang 2019, I.11).↩︎
Esta equivalencia es la que permite simplificar problemas de optimización, restringiendo la búsqueda del máximo únicamente a la superficie de la bola unitaria en lugar de todo el espacio vectorial (Strang 2018 Lec. 8 ’802; Hernández 2026, Pr5 Ej9).↩︎
Esta propiedad es vital en el análisis numérico, ya que garantiza que el error en una cadena de transformaciones lineales no crezca de manera incontrolada si las normas de las matrices involucradas están acotadas (Strang 2018 Lec. 8).↩︎
Las tres normas son invariantes ante multiplicaciones por matrices ortogonales (\(Q\) y \(P\)), ya que \( \left\| QAP \right\| = \left\| A \right\| \). Esto sucede porque las transformaciones ortogonales no alteran los valores singulares de la matriz original (Hernández 2026, Pr5 Ej8).

Esta perspectiva permite elegir la norma adecuada según el problema: la norma espectral para el análisis de estabilidad, la de Frobenius para medir distancias euclidianas entre matrices, y la nuclear para la recuperación de datos faltantes.↩︎