14 Normas Matriciales

Las normas matriciales extienden el concepto de magnitud a las transformaciones lineales. Al igual que con los vectores, existen diversas formas de medir una matriz \(A\), y muchas de las más importantes dependen exclusivamente de sus valores singulares (\(\sigma_i\)).

14.1 Producto Hilbert-Schmidt

Para extender los conceptos geométricos de ángulos, ortogonalidad y proyecciones al espacio de las matrices, es necesario definir un producto interno. El estándar para matrices reales es el producto interno de Hilbert-Schmidt. (Hernández 2026, Pr5 Ej6; Strang 2019, I.11)

Definición: Dadas dos matrices \(A, B \in \mathbb{R}^{m \times n}\), su producto interno se define como:

\[\langle A, B \rangle_{HS} = \text{tr}(A^\top B)\]

Este producto equivale a realizar el producto punto de todas las entradas correspondientes de ambas matrices, tratándolas como si fueran vectores de dimensión \(mn\).

Para comprender por qué, analizamos la sumatoria de sus componentes: (Strang 2019, I.11; Hernández 2026, Pr5 Ej6)

En el producto matricial \(M = A^\top B\), cada entrada en la diagonal principal \(M_{jj}\) es el resultado de multiplicar la fila \(j\) de \(A^\top\) (que es la columna \(j\) de \(A\)) por la columna \(j\) de \(B\). Esto es el producto punto de las dos columnas \(j\)-ésimas (Strang 2018 Lec. 2 ’39): \(M_{jj} = \sum_{i=1}^m a_{ij}b_{ij}\).

La traza de la matriz resultante es la suma de estos elementos diagonales. Al expandir la sumatoria sobre todas las columnas \(j = 1, \dots, n\), el producto interno se transforma en una suma doble que abarca cada entrada de ambas matrices: \[\langle A, B \rangle_{HS} = \text{tr}(A^\top B) = \sum_{j=1}^n \sum_{i=1}^m a_{ij}b_{ij}\]

Si definimos la operación \(\text{vec}(A)\) como el proceso de “estirar” la matriz para convertirla en un vector largo de dimensión \(mn\), la sumatoria anterior coincide exactamente con el producto punto estándar entre vectores: \[\langle A, B \rangle_{HS} = \text{vec}(A) \cdot \text{vec}(B)\]

El producto interno Hilbert-Schmidt cumple con las propiedades fundamentales:

Simetría: \(\langle A, B \rangle = \langle B, A \rangle\).
Linealidad: \(\langle cA, B \rangle = c \langle A, B \rangle\).
Definición Positiva: \(\langle A, A \rangle \ge 0, \quad A \neq \mathbb{0}\).

El uso de este producto interno convierte al espacio de las matrices \(\mathbb{R}^{m \times n}\) en un espacio de Hilbert, lo que permite aplicar resultados potentes del análisis funcional a problemas matriciales.

14.2 Norma Nuclear \( \left\| A \right\| _N\)

También conocida como norma de traza, se define como: \[ \left\| A \right\| _N = \sigma_1 + \dots + \sigma_r\]

Esta medida representa la extensión natural de la norma vectorial \(\ell_1\) al espacio de las matrices, operando sobre el espectro de valores singulares en lugar de los componentes individuales. ¹

Propiedad

La norma nuclear posee una propiedad que permite su optimización sin necesidad de calcular explícitamente la SVD en cada iteración: Strang (2019)

\[ \left\| A \right\| _N = \min_{A=UV} \left\| U \right\| _F \left\| V \right\| _F\]

Donde la minimización se realiza sobre todas las posibles factorizaciones de \(A\) en dos matrices \(U \in \mathbb{R}^{m \times k}\) y \(V \in \mathbb{R}^{k \times n}\).

Demostración de alcanzabilidad mediante SVD

Para probar que el valor mínimo es efectivamente \( \left\| A \right\| _N\), podemos proponer una factorización basada en la SVD de \(A = P \Sigma Q^\top\). Definimos: * \(U = P \Sigma^{ ½ }\) * \(V = \Sigma^{ ½ } Q^\top\)

Es inmediato verificar que \(UV = P \Sigma^{ ½ } \Sigma^{ ½ } Q^\top = P \Sigma Q^\top = A\). Calculando el cuadrado de la norma de Frobenius para \(U\) (Hernández 2026, Pr5 Ej6): \[ \left\| U \right\| _F^2 = \text{tr}(U^\top U) = \text{tr}(\Sigma^{ ½ } P^\top P \Sigma^{ ½ }) = \text{tr}(\Sigma) = \sum_{i=1}^r \sigma_i = \left\| A \right\| _N\] Siguiendo el mismo procedimiento para \(V\), obtenemos que \( \left\| V \right\| _F^2 = \left\| A \right\| _N\). Por lo tanto, para esta elección: \[ \left\| U \right\| _F \left\| V \right\| _F = \sqrt{ \left\| A \right\| _N} \cdot \sqrt{ \left\| A \right\| _N} = \left\| A \right\| _N\]

Esta identidad es la base de los algoritmos que resolvieron el concurso de Netflix (Strang 2018 Lec. 7). ²

14.3 Norma Operador \( \left\| A \right\| \)

La norma de operador mide el factor máximo de “estiramiento” que una matriz aplica a un vector no nulo.

\[ \left\| A \right\| = \max_{x \neq 0}\left( \frac{ \left\| Ax \right\| }{ \left\| x \right\| } \right)\]

Existe otra definicion equivalente para esta medida:

\(\displaystyle \left\| A \right\| = \max_{ \left\| x \right\| =1}{ \left\| Ax \right\| }\)

Puede probarse facilmente que estas dos definiciones representan el mismo valor. Consideremos un vector \(x\) cualquiera tal que \(x \neq 0\). Este vector se puede normalizar para obtener un vector unitario \(u\) definiéndolo como \(u = \frac{x}{ \left\| x \right\| }\), de modo que \( \left\| u \right\| = 1\).

Si analizamos la expresión de la primera definición, podemos aplicar la propiedad de homogeneidad escalar de las normas (\( \left\| cv \right\| = |c| \cdot \left\| v \right\| \)):

\[\frac{ \left\| Ax \right\| }{ \left\| x \right\| } = \frac{ \left\| A\left( \left\| x \right\| \frac{x}{ \left\| x \right\| }\right) \right\| }{ \left\| x \right\| } = \frac{ \left\| x \right\| \cdot \left\| A\left(\frac{x}{ \left\| x \right\| }\right) \right\| }{ \left\| x \right\| } = \left\| A u \right\| \]

Este desarrollo muestra que el valor del cociente para cualquier vector \(x\) no nulo es idéntico al valor de la norma de \(Au\) para algún vector unitario \(u\).

En esta expresión es facil ver que \( \left\| A \right\| \) representa la máxima elongación que sufre la “bola unitaria” bajo la transformación definida por \(A\). ³

Esta norma es inducida por una norma vectorial en \( \mathbb{R} ^n\), por lo tanto la norma operador de una matriz cambia segun la norma elegida en el subespacio.

La Norma de Operador inducida por \(\ell_1\) representa la máxima suma por columna:

\(\displaystyle \left\| A \right\| _1 = \max_{1 \leq j \leq n} \sum_{i=1}^m |a_{ij}|\)

La norma de operador de una matriz \(A \in \mathbb{R}^{m \times n}\) inducida por la norma vectorial \(\ell_1\) se define como el factor máximo de amplificación de la longitud \(\ell_1\) de un vector (Strang 2018 Lec. 8; clase14? Clase 14):

\[ \left\| A \right\| _1 = \max_{ \left\| x \right\| _1 = 1} \left\| Ax \right\| _1\]

Acotación Superior: Para cualquier vector \(x\), expandimos la definición de la norma \(\ell_1\) del producto \(Ax\) (clase14? Clase 14; Hernández 2026, Pr5 Ej9): \[ \left\| Ax \right\| _1 = \sum_{i=1}^m \left| \sum_{j=1}^n a_{ij} x_j \right|\]

Aplicando la desigualdad triangular y reordenando las sumas (Hernández 2026, Pr5 Ej9): \[ \left\| Ax \right\| _1 \le \sum_{i=1}^m \sum_{j=1}^n |a_{ij}| |x_j| = \sum_{j=1}^n |x_j| \left( \sum_{i=1}^m |a_{ij}| \right)\]

Si definimos \(C = \max_{1 \leq j \leq n} \sum_{i=1}^m |a_{ij}|\) como la suma absoluta máxima de las columnas, podemos acotar la expresión (clase14? Clase 14): \[ \left\| Ax \right\| _1 \le \sum_{j=1}^n |x_j| \cdot C = C \left\| x \right\| _1\] Esto demuestra que \( \left\| A \right\| _1 \le \max_{j} \sum_{i} |a_{ij}|\).

Alcanzando el Máximo: Para demostrar la igualdad, elegimos un vector \(x = e_k\) (vector de la base canónica), donde \(k\) es el índice de la columna que alcanza la suma máxima \(C\) (Strang 2018 Lec. 8). Dado que \( \left\| e_k \right\| _1 = 1\): \[ \left\| Ae_k \right\| _1 = \left\| \text{columna } k \text{ de } A \right\| _1 = \sum_{i=1}^m |a_{ik}| = C\]

En conclusión, puesto que hemos encontrado un vector con norma unitaria que alcanza el valor \(C\), la norma de operador inducida por \(\ell_1\) es exactamente la máxima suma de los valores absolutos de las columnas (clase14? Clase 14; Hernández 2026, Pr5 Ej9).

La Norma de Operador inducida por \(\ell_\infty\) representa la máxima suma por fila:

\(\displaystyle \left\| A \right\| _\infty = \max_{1 \leq i \leq m} \sum_{j=1}^n |a_{ij}|\)

La norma de operador de una matriz \(A \in \mathbb{R}^{m \times n}\) inducida por la norma vectorial \(\ell_\infty\) cuantifica el factor máximo de amplificación de la componente más grande de un vector (Strang 2018 Lec. 8; clase14? Clase 14):

\[ \left\| A \right\| _\infty = \max_{ \left\| x \right\| _\infty = 1} \left\| Ax \right\| _\infty\]

Donde \( \left\| x \right\| _\infty = \max_{1 \leq j \leq n} |x_j|\) (Hernández 2026, Pr5 Ej1).

Acotación Superior: Para cualquier vector \(x\), evaluamos una componente genérica \(i\) del producto \(Ax\) (clase14? Clase 14): \(|(Ax)_i| = \left| \sum_{j=1}^n a_{ij} x_j \right|\)

Aplicando la desigualdad triangular: \(|(Ax)_i| \le \sum_{j=1}^n |a_{ij}| |x_j|\)

Dado que por definición \(|x_j| \le \left\| x \right\| _\infty\) para todo \(j\), podemos extraer la norma del vector de la sumatoria (Hernández 2026, Pr5 Ej9): \(|(Ax)_i| \le \left( \sum_{j=1}^n |a_{ij}| \right) \left\| x \right\| _\infty\)

Al tomar el máximo sobre todas las filas \(i\), obtenemos (clase14? Clase 14): \( \left\| Ax \right\| _\infty \le \left( \max_{1 \leq i \leq m} \sum_{j=1}^n |a_{ij}| \right) \left\| x \right\| _\infty\) Esto demuestra que \( \left\| A \right\| _\infty \le \max_{i} \sum_{j} |a_{ij}|\).

Alcanzando el Máximo: Para demostrar que el límite superior es alcanzable, seleccionamos la fila \(k\) que produce la suma absoluta máxima. Construimos un vector \(x^*\) cuyas componentes dependen del signo de las entradas de dicha fila (Strang 2018 Lec. 8): \[x^*_j = \text{signo}(a_{kj}) = \begin{cases} 1 & \text{si } a_{kj} \ge 0 \\ -1 & \text{si } a_{kj} < 0 \end{cases}\]

Este vector cumple que \( \left\| x^* \right\| _\infty = 1\). Al calcular la componente \(k\) del resultado: \(|(Ax^*)_k| = \sum_{j=1}^n a_{kj} x^*_j = \sum_{j=1}^n |a_{kj}|\)

Puesto que esta componente es igual a la suma máxima de la fila \(k\), se deduce que \( \left\| Ax^* \right\| _\infty = \sum_{j=1}^n |a_{kj}|\).

En conclusión: la norma de operador inducida por \(\ell_\infty\) es exactamente la máxima suma de los valores absolutos de las filas de la matriz (clase14? Clase 14; Hernández 2026, Pr5 Ej9)

La siguiente tabla sumariza estos resultados:

Norma Operador	Inducida por	a.k.a.
\(\displaystyle \left\\| A \right\\| _1=\max_{1 \leq j \leq n}{ \sum_{i=1}^m{ \|a_{ij}\| } }\)	\(\ell_1\)	max por columnas
\(\displaystyle \left\\| A \right\\| _2=\max_{x \neq 0} \frac{ \left\\| Ax \right\\| _2}{ \left\\| x \right\\| _2} = \max_{ \left\\| x \right\\| =1}{ \left\\| Ax \right\\| }\)	\(\ell_2\)	Norma Espectral
\(\displaystyle \left\\| A \right\\| _\infty=\max_{1 \leq i \leq m}{\sum_{j=1}^n{ \|a_{ij}\| }}\)	\(\ell_\infty\)	max por filas

14.4 Norma de Frobenius \( \left\| A \right\| _F\)

Es la norma más intuitiva y utilizada en algoritmos de optimización para redes neuronales.

Su definicion es equivalente a la norma \(\ell_2\) (norma Euclídea) de la matriz vista como un vector de \(mn\) componentes. \[ \left\| A \right\| _F = \left( \sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^2 \right)^{ ½ } \]

Relación con el producto Hilbert-Schmidt

La norma de Frobenius es la norma inducida directamente por el producto interno Hilbert-Schmidt (Strang 2018 Lec. 8 ’39; Hernández 2026, Pr5 Ej6):

Teorema: Sea \(A \in \mathbb{R}^{m \times n} \implies \left\| A \right\| _F = \sqrt{\langle A, A \rangle_{HS}} = \sqrt{\text{tr}(A^\top A)}\)

Demostración: Consideremos el producto \(M = A^\top A\). Por definición de multiplicación, la entrada en la fila \(j\) y columna \(j\) de \(M\) se obtiene multiplicando la fila \(j\) de \(A^\top\) (que es la columna \(j\) de \(A\)) por la columna \(j\) de \(A\), es decir, el producto punto de la columna \(j\) de \(A\) con ella misma: \[M_{jj} = (A^\top A)_{jj} = \sum_{i=1}^m a_{ij}^2\]

La cantidad \(M_{jj}\) representa la suma de los cuadrados de todos los elementos presentes en la columna \(j\) de la matriz original \(A\).

La traza de una matriz es la suma de sus elementos en la diagonal principal. Al sumar sobre todas las columnas \(j = 1, \dots, n\), obtenemos (Strang 2018 Lec. 8 ’808): \[\text{tr}(A^\top A) = \sum_{j=1}^n M_{jj} = \sum_{j=1}^n \sum_{i=1}^m a_{ij}^2\]

La expresión resultante es una sumatoria doble que recorre cada entrada \(a_{ij}\) de la matriz, elevándola al cuadrado. Esto coincide exactamente con el cuadrado de la definición por componentes de la norma: \[\text{tr}(A^\top A) = \sum_{i,j} a_{ij}^2 = \left\| A \right\| _F^2\]

Esta conexión es la que dota a la norma de Frobenius de su invarianza ortogonal y permite que el error en aproximaciones de bajo rango se calcule con la misma lógica que una distancia euclidiana.

La estructura de espacio de Hilbert es la que permite que la norma de Frobenius herede la fórmula de magnitud habitual de los vectores en \(\mathbb{R}^n\), calculándose como la raíz cuadrada de la suma de los cuadrados de todas sus entradas (Strang 2018 Lec. 8 ’39; Hernández 2026, Pr5 Ej7):

Esta identidad no es solo una curiosidad algebraica; es la razón por la cual la norma de Frobenius hereda todas las propiedades geométricas de los espacios euclidianos, incluyendo la noción de ángulo entre matrices y la proyección ortogonal.

Gracias a esta equivalencia, podemos definir formalmente la ortogonalidad entre matrices: decimos que \(A\) y \(B\) son ortogonales si su producto interno es nulo, es decir, si \(\text{tr}(A^\top B) = 0\) (Hernández 2026, Pr5 Ej6).

14.5 Propiedades de las normas matriciales

Regla de Submultiplicatividad

Ademas de las propiedades derivadas de la definicion de norma para vectores, las normas matriciales deben cumplir una propiedad extra: la submultiplicatividad. Ésta permite estimar el tamaño del producto de dos matrices a partir de las magnitudes de sus factores. Se expresa mediante la desigualdad (Hernández 2026, Pr5 Ej9c) ⁴:

Prueba para Normas Inducidas (Normas de Operador)

Para cualquier norma matricial inducida por una norma vectorial (como la norma espectral \(\ell_2\)), la demostración es una consecuencia directa de la definición de norma de operador (Hernández 2026, Pr5 Ej9d):

Por definición, para cualquier vector \(x\), se cumple que \( \left\| Ax \right\| \le \left\| A \right\| \cdot \left\| x \right\| \). Consideremos el vector resultante de aplicar el producto \(AB\) a un vector \(x\). Podemos agrupar los factores como \(A(Bx)\): \[ \left\| ABx \right\| \le \left\| A \right\| \cdot \left\| Bx \right\| \] Aplicando nuevamente la propiedad al término \( \left\| Bx \right\| \): \[ \left\| ABx \right\| \le \left\| A \right\| \cdot ( \left\| B \right\| \cdot \left\| x \right\| ) = ( \left\| A \right\| \cdot \left\| B \right\| ) \cdot \left\| x \right\| \] Tomando el supremo sobre todos los vectores unitarios (\( \left\| x \right\| = 1\)), obtenemos la norma del producto: \[ \left\| AB \right\| = \sup_{ \left\| x \right\| =1} \left\| ABx \right\| \le \left\| A \right\| \cdot \left\| B \right\| \]

Prueba para la Norma de Frobenius

La norma de Frobenius también es submultiplicativa, aunque no sea una norma inducida. La demostración utiliza la desigualdad de Cauchy-Schwarz sobre las entradas de la matriz producto (Hernández 2026, Pr5 Ej5):

Sea \(C = AB\). La entrada \(c_{ij}\) es el producto punto de la fila \(i\) de \(A\) por la columna \(j\) de \(B\). Por Cauchy-Schwarz: \[|c_{ij}|^2 = \left| \sum_{k} a_{ik}b_{kj} \right|^2 \le \left( \sum_{k} |a_{ik}|^2 \right) \left( \sum_{k} |b_{kj}|^2 \right)\] Observamos que el primer paréntesis es el cuadrado de la norma \(\ell_2\) de la fila \(i\) de \(A\) (\( \left\| a_{i*} \right\| _2^2\)) y el segundo es el de la columna \(j\) de \(B\) (\( \left\| b_{*j} \right\| _2^2\)).

Sumando sobre todas las entradas \(i, j\) para obtener \( \left\| AB \right\| _F^2\): \[\sum_{i,j} |c_{ij}|^2 \le \sum_{i} \left\| a_{i*} \right\| _2^2 \sum_{j} \left\| b_{*j} \right\| _2^2\]

Prueba alternativa para la Norma de Frobenius

(Strang 2019, I.11)

En el caso particular donde \(A\) y \(B\) son vectores (en otras palabras, \(AB\) es una matriz de rango uno \(a b^\top \)), la desigualdad en norma es justamente una igualdad:

\[ \left\| a b^\top \right\| _F ^2 = |a_1|^2 ( |b_1|^2 + \dots + |b_p|^2 ) + \dots + |a_m|^2 ( |b_1|^2 + \dots + |b_p|^2 ) = \left\| a \right\| _F ^2 \left\| b \right\| _F ^2\]

En el caso generico, donde \(AB\) es una suma de matrices de rango 1 obtenida multiplicando las columnas de \(A\) (\(a_i\)) por las filas de \(B\) (\( b^\top _i\)):

\[ \left\| AB \right\| _F = \left\| a_1 b_1^\top + \dots + a_n b_n^\top \right\| _F \]

Aqui podemos aplicar la desigualdad triangular (Ecuación 13.5):

Esto es una suma de normas de matrices de rango 1, que ahora sabemos que cumplen la submultiplicatividad:

Y esta es la definicion de norma de Frobenius, asi que

Demostración para la Norma Nuclear

Para una matriz \(A\), \(m \times n\), la norma nuclear, denotada como \(\|A\|_*\), se define como la suma de sus valores singulares:

\[\|A\|_* = \sum_{i=1}^{\min(m,n)} \sigma_i(A)\]

Paso 1 - Representación de las matrices mediante SVD: Sean las descomposiciones en valores singulares (SVD) de las matrices \(A (m \times p)\) y \(B (p \times n)\):

\[A = \sum_{i=1}^r \sigma_i(A) u_i v_i^\top\]

\[B = \sum_{j=1}^s \sigma_j(B) w_j x_j^\top\]

Donde:

\(r = \text{rango}(A)\) y \(s = \text{rango}(B)\).
\(\{u_i\}\) y \(\{v_i\}\) son conjuntos de vectores singulares ortonormales para \(A\).
\(\{w_j\}\) y \(\{x_j\}\) son conjuntos de vectores singulares ortonormales para \(B\).
\(\sigma_i(A) > 0\) y \(\sigma_j(B) > 0\) son los valores singulares no nulos correspondientes.

Paso 2 - Expansión algebraica del producto matricial: Multiplicando \(A\) y \(B\), obtenemos:

\[AB = \left( \sum_{i=1}^r \sigma_i(A) u_i v_i^\top \right) \left( \sum_{j=1}^s \sigma_j(B) w_j x_j^\top \right)\]

Por la linealidad del producto y distribuyendo las sumatorias, el producto interno de los vectores internos colapsa en el escalar \(v_i^\top w_j\):

\[AB = \sum_{i=1}^r \sum_{j=1}^s \sigma_i(A) \sigma_j(B) (v_i^\top w_j) u_i x_j^\top\]

Paso 3 - Aplicación de la desigualdad triangular: Al aplicar la norma nuclear a ambos lados y emplear la propiedad de subaditividad (desigualdad triangular) de las normas matriciales, se establece la siguiente inecuación:

\[\|AB\|_* \le \sum_{i=1}^r \sum_{j=1}^s \| \sigma_i(A) \sigma_j(B) (v_i^\top w_j) u_i x_j^\top \|_*\]

Dado que \(\sigma_i(A)\), \(\sigma_j(B)\) y el producto escalar \(v_i^* w_j\) son valores escalares, se extraen de la norma bajo valor absoluto:

\[\|AB\|_* \le \sum_{i=1}^r \sum_{j=1}^s \sigma_i(A) \sigma_j(B) |v_i^\top w_j| \| u_i x_j^\top \|_*\]

Paso 4 - Acotación geométrica de los términos de rango 1: Analizamos las propiedades de los operadores resultantes:

Norma nuclear de una matriz de rango 1: La matriz definida por el producto externo \(u_i x_j^\top\) posee un único valor singular no nulo, el cual equivale al producto de las normas euclidianas de sus vectores componentes. Debido a la ortonormalidad de las bases de la SVD (\(\|u_i\|_2 = 1\) y \(\|x_j\|_2 = 1\)): \[\| u_i x_j^\top \|_* = \|u_i\|_2 \|x_j\|_2 = 1 \cdot 1 = 1\]
Desigualdad de Cauchy-Schwarz: El valor absoluto del producto interno de dos vectores unitarios está acotado superiormente por la unidad: \[|v_i^\top w_j| \le \|v_i\|_2 \|w_j\|_2 = 1 \cdot 1 = 1\]

Paso 5 - Factorización y conclusión: Sustituyendo los límites superiores algebraicos obtenidos en el Paso 4 dentro de la inecuación del Paso 3, la expresión se reduce a:

\[\|AB\|_* \le \sum_{i=1}^r \sum_{j=1}^s \sigma_i(A) \sigma_j(B) \cdot 1 \cdot 1\]

Debido a que las sumatorias actúan sobre índices independientes, la expresión se factoriza estrictamente como el producto de dos sumas independientes:

\[\|AB\|_* \le \left( \sum_{i=1}^r \sigma_i(A) \right) \left( \sum_{j=1}^s \sigma_j(B) \right)\]

Por definición explícita de la norma nuclear para cada operador individual, se concluye la demostración de submultiplicatividad:

\[\|AB\|_* \le \|A\|_* \|B\|_*\]

Invarianza Ortogonal

No todas las medidas de magnitud se comportan igual ante transformaciones geométricas. Entender qué hace “especial” a una norma requiere analizar su relación con los productos internos y las rotaciones.

Una norma matricial es ortogonalmente invariante si multiplicar una matriz \(A\) por una matriz ortogonal \(Q\) (una rotación o reflexión) no altera su norma (Hernández 2026, Pr5 Ej8). Algebraicamente: \(||QA|| = ||A|| = ||AQ||\)

Como las matrices ortogonales no cambian los valores singulares de \(A\) (solo rotan los ejes de la elipse de transformación sin alterar sus semiejes), las normas que dependen exclusivamente de los valores singulares (Frobenius, Operador y Nuclear) son invariantes. ⁵

Las normas inducidas por \(\ell_1\) o \(\ell_\infty\) en cambio, NO son invariantes. Geométricamente, esto se debe a que estas normas dependen de la orientación de los ejes coordenados (la “bola unitaria” es un diamante o un cuadrado); al rotar la matriz, los vértices dejan de estar alineados con los ejes, cambiando la suma de los componentes.

La norma Frobenuis es invariante ante rotaciones (multiplicación por matrices ortogonales \(Q\)), lo que simplifica enormemente los cálculos en el álgebra lineal numérica.

Prueba: Para una matriz ortogonal \(Q\), donde \(Q Q^\top = \mathbb{I} \): \( \left\| AQ \right\| _F^2 = \text{tr}((AQ)^\top(AQ)) = \text{tr}(Q^\top A^\top A Q)\)

Usando la propiedad cíclica de la traza (\(\text{tr}(ABC) = \text{tr}(BCA)\)): \(\text{tr}(A^\top A Q Q^\top) = \text{tr}(A^\top A \mathbb{I} ) = \text{tr}(A^\top A) = \left\| A \right\| _F ^2\)

La segunda igualdad es más directa: \( \left\| QA \right\| = \text{traza}( (QA)^\top (QA)) = \text{traza}( A^\top Q^\top QA) = \text{traza}( A^\top A) = \left\| A \right\| _F\)

Vinculación con la SVD

La Descomposición en Valores Singulares (SVD) proporciona un marco unificado para calcular y comparar las normas matriciales más importantes. Dado que las normas ortogonalmente invariantes dependen exclusivamente del espectro de valores singulares (\(\sigma_1, \sigma_2, \dots, \sigma_r\)), la SVD transforma problemas matriciales complejos en cálculos vectoriales simples sobre el vector \(\sigma\) (Strang 2018 Lec. 8; Hernández 2026, Pr5 Ej9).

Sean \(\sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r > 0\) los valores singulares de una matriz \(A\). Las tres normas fundamentales se expresan en funcion de estos.

Norma Operador/Espectral: Es el valor singular más grande. Representa el factor de amplificación máximo que la matriz puede aplicar a cualquier vector: \[ \left\| A \right\| _2 = \sigma_1\]

Ver prueba

Probaremos que el limite superior es el mayor valor singular, y que el limite es alcanzable.

El límite superior: Por definición, la norma espectral es el máximo del cociente de Rayleigh para la magnitud de la salida: \[ \left\| A \right\| _2 = \max_{x \neq 0} \frac{ \left\| Ax \right\| _2}{ \left\| x \right\| _2}\]

Si analizamos el cuadrado del cociente utilizando la matriz de Gram \(A^\top A\): \[\frac{ \left\| Ax \right\| _2^2}{ \left\| x \right\| _2^2} = \frac{(Ax)^\top (Ax)}{x^\top x} = \frac{x^\top (A^\top A) x}{x^\top x}\]

Dado que \(A^\top A\) es una matriz simétrica y semidefinida positiva, sus valores propios son los cuadrados de los valores singulares (\(\sigma_i^2\)). El cociente de Rayleigh garantiza que este valor no puede superar al valor propio más grande de la matriz de Gram: \[\frac{x^\top (A^\top A) x}{x^\top x} \le \sigma_1^2 \implies \frac{ \left\| Ax \right\| _2}{ \left\| x \right\| _2} \le \sigma_1\]

El máximo: Para probar que este límite es alcanzable, seleccionamos como entrada el primer vector singular derecho \(v_1\) de la SVD de \(A\). Por las propiedades de la descomposición, sabemos que \(Av_1 = \sigma_1 u_1\), donde \(u_1\) es un vector unitario. Al calcular el cociente para este vector específico:

\[\frac{ \left\| Av_1 \right\| _2}{ \left\| v_1 \right\| _2} = \frac{ \left\| \sigma_1 u_1 \right\| _2}{ \left\| v_1 \right\| _2} = \sigma_1 \frac{ \left\| u_1 \right\| _2}{ \left\| v_1 \right\| _2}\]

Como tanto \(u_1\) como \(v_1\) tienen norma igual a 1 por construcción, el resultado es exactamente \(\sigma_1\). Esto demuestra que el valor singular máximo es el valor exacto de la norma de operador.

Norma de Frobenius: Es la raíz cuadrada de la suma de los cuadrados de todos los valores singulares. Equivale a la “energía” total de la matriz y es la norma inducida por el producto interno de Hilbert-Schmidt \[ \left\| A \right\| _F = \sqrt{\sigma_1^2 + \sigma_2^2 + \dots + \sigma_r^2}\]

Ver prueba

(Strang 2018 Lec. 8 ’40) Expresando \(A\) en su descomposicion SVD, tenemos que: \( \left\| A \right\| _F = \left\| U \Sigma V^\top \right\| _F\)

Gracias a la invarianza ortogonal de la norma Frobenius (Sección 14.5.2), y dado que \(U\) y \(V^\top\) son ortogonales, llegamos a: \( \left\| A \right\| _F = \left\| U \Sigma V^\top \right\| _F = \left\| \Sigma \right\| _F = \sqrt{\sigma_1^2 + \sigma_2^2 + \dots + \sigma_r^2}\)

Ver prueba alternativa

(Strang 2019, I.11) \[ \left\| A \right\| _F ^2 = \text{traza}( A^\top A) = \sum \lambda_i = \sum \sigma_i^2 \]

Norma Nuclear: Es la suma de todos los valores singulares. Es el análogo matricial de la norma \(\ell_1\) vectorial y se utiliza para promover soluciones de bajo rango en problemas de optimización: \[ \left\| A \right\| _N = \sum_{i=1}^r \sigma_i\]

A partir de estas definiciones, se puede establecer una jerarquía clara basada en cómo cada norma acumula la información de los valores singulares. Para cualquier matriz \(A\), se cumple que:

Ha ganado gran relevancia en problemas de “completitud de matrices” (como el famoso concurso de Netflix) y en la obtención de soluciones de bajo rango en sistemas ruidosos como las imágenes por resonancia magnética (MRI) (Strang 2018 Lec. 8 ’47).

La utilidad de la norma nuclear en la ciencia de datos radica en su relación con el concepto de bajo rango y dispersión (sparsity):

Al igual que minimizar la norma \(\ell_1\) en vectores tiende a producir soluciones con muchos ceros, minimizar la norma nuclear en matrices tiende a producir soluciones donde muchos valores singulares son cero, resultando en una matriz de bajo rango.

Esta propiedad es el motor de los algoritmos de “completitud de matrices”, donde el objetivo es adivinar entradas faltantes en una matriz gigante basándose en la premisa de que los datos tienen una estructura subyacente simple.

Fue la técnica clave para resolver el concurso de Netflix, prediciendo las calificaciones de usuarios para películas que aún no habían visto.

En las resonancias magnéticas (MRI), permite reconstruir imágenes nítidas a partir de muestreos rápidos e incompletos, reduciendo el tiempo que el paciente debe permanecer en el escáner.

Ayuda a separar la señal estructural importante del ruido aleatorio, ya que el ruido tiende a dispersarse por todos los valores singulares, mientras que la información real se concentra en unos pocos.

Al ser una norma ortogonalmente invariante, la magnitud que mide no cambia si la matriz es rotada, lo que asegura que la recuperación de datos se base exclusivamente en la “energía” intrínseca de la información y no en su orientación en el sistema de coordenadas.↩︎
En lugar de resolver un problema de optimización sobre la matriz completa \(A\), se optimizan directamente los factores \(U\) y \(V\):

El término de penalización nuclear \( \left\| A \right\| _N\) se sustituye por \(\frac{1}{2}( \left\| U \right\| _F^2 + \left\| V \right\| _F^2)\). Minimizar la norma de Frobenius de los factores es mucho más sencillo mediante métodos de descenso de gradiente estocástico (SGD) o mínimos cuadrados alternados, permitiendo procesar matrices con millones de entradas.

Esta propiedad vincula la “energía” de las matrices factorizadas con la estructura de bajo rango de la matriz original, siendo la herramienta clave para la recuperación de datos faltantes (Strang 2019, I.11).↩︎
Esta equivalencia es la que permite simplificar problemas de optimización, restringiendo la búsqueda del máximo únicamente a la superficie de la bola unitaria en lugar de todo el espacio vectorial (Strang 2018 Lec. 8 ’802; Hernández 2026, Pr5 Ej9).↩︎
Esta propiedad es vital en el análisis numérico, ya que garantiza que el error en una cadena de transformaciones lineales no crezca de manera incontrolada si las normas de las matrices involucradas están acotadas (Strang 2018 Lec. 8).↩︎
Las tres normas son invariantes ante multiplicaciones por matrices ortogonales (\(Q\) y \(P\)), ya que \( \left\| QAP \right\| = \left\| A \right\| \). Esto sucede porque las transformaciones ortogonales no alteran los valores singulares de la matriz original (Hernández 2026, Pr5 Ej8).

Esta perspectiva permite elegir la norma adecuada según el problema: la norma espectral para el análisis de estabilidad, la de Frobenius para medir distancias euclidianas entre matrices, y la nuclear para la recuperación de datos faltantes.↩︎