Soit \(A\) une matrice de taille \(m\times n\) dont une décomposition en valeurs
singulières est donnée:
\[
A=U\Sigma V^T\,.
\]
Comme nous avons fait avec la décomposition spectrale,
nous allons profiter de la décomposition en valeurs singulières pour
écrire \(A\) comme une combinaison linéaire de matrices plus
simples.
On rappelle que l'on impose dans une décomposition en valeurs singulières que les valeurs apparaissent sur la diagonale de \(\Sigma\) en ordre décroissant:
\[
\sigma_1\geqslant \sigma_2 \geqslant \dots \geqslant \sigma_{\min(m,n)}\,.
\]
En nommant les colonnes de \(U\) et de \(V\):
\[
U=\bigl[\boldsymbol{u}_1\cdots \boldsymbol{u}_m\bigr]\,,\qquad
V=\bigl[\boldsymbol{v}_1\cdots \boldsymbol{v}_n\bigr]\,.
\]
Définissons alors l'indice de la plus petite valeur singulière strictement
positive,
\[ \ell := \max\{1\leqslant k\leqslant \min(m,n)\colon \sigma_k\gt 0\}\,.
\]
et procédons comme on l'a fait pour la décomposition spectrale en écrivant,
pour tout \(\boldsymbol{x}\in\mathbb{R}^n\),
\[\begin{aligned}
A\boldsymbol{x}=U\Sigma V^T\boldsymbol{x}&=
\bigl[\boldsymbol{u}_1\cdots \,\boldsymbol{u}_m\bigr]\Sigma
\begin{pmatrix}
\boldsymbol{v}_1^T\boldsymbol{x}\\
\vdots\\
\boldsymbol{v}_n^T\boldsymbol{x}
\end{pmatrix}\\
&=
\bigl[\sigma_1\boldsymbol{u}_1\cdots \,\sigma_\ell\boldsymbol{u}_\ell\,\boldsymbol{0}\cdots\boldsymbol{0}\bigr]
\begin{pmatrix}
\boldsymbol{v}_1^T\boldsymbol{x}\\
\vdots\\
\boldsymbol{v}_n^T\boldsymbol{x}
\end{pmatrix}\\
&=\sum_{k=1}^\ell \sigma_k\boldsymbol{u}_k\boldsymbol{v}_k^T\boldsymbol{x}\\
&=\left(\sum_{k=1}^\ell \sigma_k\boldsymbol{u}_k\boldsymbol{v}_k^T\right)\boldsymbol{x}\,.
\end{aligned}\]
On a donc pu écrire \(A\) comme une somme:
\[
\boxed{
A=
\sum_{k=1}^\ell \sigma_k\boldsymbol{u}_k\boldsymbol{v}_k^T\,,
}
\]
On retrouve bien, pour tout \(j\),
\[\begin{aligned}
A\boldsymbol{v}_j
&=\sum_{k=1}^\ell \sigma_k\boldsymbol{u}_k\underbrace{\boldsymbol{v}_k^T\boldsymbol{v}_j}_{=\delta_{k,j}}\\
&=\sigma_j\boldsymbol{u}_j\,.
\end{aligned}\]
Remarquons qu'à l'inverse de la décomposition spectrale, une matrice
\(\boldsymbol{u}_k\boldsymbol{v}_k^T\) ne représente pas une projection puisqu'elle
transforme un vecteur de \(\mathbb{R}^n\) en un vecteur de \(\mathbb{R}^m\).
Son seul point commun avec une projection est que
\[
\mathrm{rang}(\boldsymbol{u}_k\boldsymbol{v}_k^T)=1\,.
\]
La décomposition en valeurs singulières fournit donc une représentation d'une matrice comme une somme de matrices de
rang égal à \(1\).
Définissons, pour tout \(k\leqslant \ell\), \[ A(k):=\sum_{j=1}^k \sigma_j\boldsymbol{u}_j\boldsymbol{v}_j^T\,. \] Alors \(A(k)\) est la matrice de rang \(k\) qui approxime le mieux \(A\), dans le sens suivant:
Théorème:[Théorème d'Eckart-Young] Soit \(A\) une matrice de taille \(m\times n\) de rang \(\ell\leqslant n\). Pour tout \(1\leqslant k\leqslant \ell\), \(A(k)\) est la matrice de rang \(k\) qui approxime le mieux \(A\): \[ \min_B\|A-B\|=\Big\|A-A(k)\Big\|\,, \] où le minimum est pris sur toutes les matrices \(m\times n\) de rang au plus égal à \(k\).
D'une part, comme \(A(k)\) est de rang \(k\), on a bien \[ \min_B\|A-B\|\leqslant \big\|A-A(k)\big\|\,. \] Remarquons ensuite que \[ \big\|A-A(k)\big\|=\sigma_{k+1}\,. \] Il reste à vérifier que si \(\mathrm{rang}(B)\leqslant k\), alors \(\|A-B\|\geqslant \sigma_{k+1}\). En effet, par le théorème du rang, on sait que le noyau de \(B\) a dimension au moins \(n-k\). Les vecteurs \(\boldsymbol{v}_1\) à \(\boldsymbol{v}_{k+1}\) engendrent un sous-espace de dimension \(k+1\), donc ces espaces doivent s'intersecter. On prend un \(\boldsymbol{x}\) qui est dans les deux à la fois, et on calcule \[ \big\|(A-B)\boldsymbol{x}\big\|^2=\|A\boldsymbol{x}\|^2=\sum_{j=1}^{k+1}c_j^2\sigma_j^2 \geqslant (\sum_jc_j^2)\sigma_{k+1}^2=\sigma_{k+1}^2\|\boldsymbol{x}\|^2\,. \]