$
$
En problemas de gran escala o con datos ruidosos, la matriz \(A\) puede estar mal condicionada o ser casi singular, lo que provoca que las soluciones de mínimos cuadrados convencionales sean inestables o demasiado complejas. La regularización introduce una penalización por la magnitud de los coeficientes para obtener modelos más robustos y parsimoniosos.
En el análisis de datos, a menudo buscamos soluciones a sistemas \(Ax = b\) que no solo minimicen el error, sino que posean estructuras específicas como la dispersión (sparsity). Aquí es donde la elección de la norma en el problema de optimización redefine el resultado (Strang 2018 Lec. 7; Strang 2018 Lec. 8; Strang 2018 Lec. 11).
La ventaja fundamental de estos métodos sobre los mínimos cuadrados de Gauss es la interpretabilidad. Mientras que una solución con muchos valores pequeños es difícil de explicar, una solución con pocos valores distintos de cero identifica directamente los factores clave que explican el fenómeno.
Basis Pursuit
El problema de Basis Pursuit busca encontrar el vector con la menor norma \(\ell_1\) que satisfaga exactamente el sistema de ecuaciones lineales:
\[\min \left\| x \right\| _1 \quad \text{sujeto a} \quad Ax = b\]
A diferencia de la solución de norma mínima \(\ell_2\) (producida por la pseudo-inversa), que tiende a distribuir el “peso” entre todas las componentes, Basis Pursuit “empuja” la solución hacia los ejes coordenados. Geométricamente, esto ocurre porque la bola unitaria de \(\ell_1\) es un diamante; al expandirse, es mucho más probable que toque el hiperplano de restricción \(Ax = b\) en un vértice (donde muchas componentes son cero).
Lasso
En situaciones con ruido donde \(Ax = b\) no puede cumplirse exactamente, se utiliza el Lasso (Least Absolute Shrinkage and Selection Operator). Este método añade una penalización \(\ell_1\) al problema clásico de mínimos cuadrados:
\[\min \left\| Ax - b \right\| _2^2 + \lambda \left\| x \right\| _1\] En esta expresión: * \( \left\| Ax - b \right\| _2^2\) Mide el ajuste a los datos (fidelidad). * \(\lambda \left\| x \right\| _1\): Promueve la simplicidad del modelo (dispersión).
El parámetro \(\lambda\) controla el equilibrio entre el ajuste y la cantidad de ceros en la solución. Al aumentar \(\lambda\), el modelo se vuelve más “parsimonioso”, seleccionando solo las variables (columnas de \(A\)) más significativas.
- Promoción de la Dispersión (Sparsity): A diferencia de la bola \(\ell_2\), que es redonda, la geometría de la norma \(L_1\) es la de un diamante con vértices sobre los ejes. Geométricamente, al expandir esta bola de penalización, es mucho más probable que toque el espacio de soluciones en un vértice, lo que fuerza a que muchos coeficientes sean exactamente cero.
- Interpretabilidad: Al producir vectores con pocos componentes no nulos, Lasso actúa como un selector de variables automático. Esto es crucial en ciencia de datos, ya que permite identificar los factores clave que explican un fenómeno en lugar de tener una mezcla ininteligible de miles de pequeños coeficientes.
Ridge Regression
Este método, también conocido como regresión de cresta o penalización de Tikhonov, añade el cuadrado de la norma \(L_2\) al error residual:
\[\min \left\| Ax - b \right\| _2^2 + \delta^2 \left\| x \right\| _2^2\]
- Estabilidad Numérica: El término \(\delta^2 I\) asegura que la matriz del sistema (\(A^\top A + \delta^2 I\)) sea estrictamente definida positiva e invertible, incluso si \(A^\top A\) es singular. Esto protege el cálculo contra errores de redondeo masivos cuando los valores singulares de \(A\) son cercanos a cero.
- Relación con la Pseudoinversa: Un resultado matemático profundo establece que, a medida que el parámetro de penalización \(\delta\) tiende a cero, la solución de Ridge converge exactamente a la solución de norma mínima proporcionada por la pseudoinversa Moore-Penrose: \(x^+ = A^+ b\).