15.5 Élongations et ellipsoïdes

Dans cette section nous utiliserons SVD pour répondre à deux questions géométrique naturelles à propos d'une application linéaire \(T:\mathbb{R}^n\to\mathbb{R}^m\) définie par une matrice \(A\), \(T(\boldsymbol{x})=A\boldsymbol{x}\):

  1. Comment se transforme la sphère unité, définie par \[\begin{aligned} \mathcal{S} &:=\{\boldsymbol{x}\in\mathbb{R}^n\,:\,\|\boldsymbol{x}\|=1\}\\ &=\{\boldsymbol{x}\in\mathbb{R}^n\,:\,x_1^2+\cdots+x_n^2=1\}\,, \end{aligned}\] sous l'action de \(T\)? (En \(d=2\), \(\mathcal{S}\) est le cercle de rayon \(1\) centré à l'origine.)
  2. Parmi les vecteurs \(\boldsymbol{x}\) situés sur cette sphère, quels sont ceux qui subissent une élongation maximale/minimale, à savoir ceux pour lesquels \(\|A\boldsymbol{x}\|\) est maximal/minimal?

Ces deux questions pourront être étudiées simultanément.

Exemple: Sur l'animation suivante, on observe que l'application linéaire \(T:\mathbb{R}^2\to\mathbb{R}^2\) donnée transforme le cercle \(\mathcal{S}\) en ellipse. Les axes de cette ellipse doivent donner les directions d'élongation maximale (grand axe) et minimale (petit axe):

Soit \(A=U\Sigma V^T\) une décomposition en valeurs singulières de \(A\), dans laquelle on suppose, comme précédemment, que les valeurs singulières sur la diagonale de \(\Sigma\) sont arrangées en ordre décroissant: \[ \sigma_1\geqslant \sigma_2\geqslant\dots \] On rappelle qu'avec cet ordre, \(\sigma_j=\sqrt{\lambda_j}\), où \(\lambda_j\gt 0\) est la \(j\)-ème plus grande valeur propre de \(A^TA\).

L'élongation maximale d'un vecteur sur la sphère unité est donnée par \[ \max_{\boldsymbol{x}\in \mathcal{S}}\|A\boldsymbol{x}\|=\max_{k}\sigma_k=\sigma_1\,. \] L'élongation minimale d'un vecteur sur la sphère unité est donnée par \(0\) si \(\mathrm{Ker}(A)\neq \{\boldsymbol{0}\}\), et sinon par \[ \min_{\boldsymbol{x}\in \mathcal{S}}\|A\boldsymbol{x}\|=\min_{k}\sigma_k\,. \] De plus,

Nous utiliserons l'entier \(r=\mathrm{rang}(A)\), qui implique comme on sait que \(\sigma_r\gt 0\), \(\sigma_{r+1}=0\).

Par l'orthogonalité de \(U\) (qui implique \(\|U\boldsymbol{z}\|=\|\boldsymbol{z}\|\) pour tout \(\boldsymbol{z}\in\mathbb{R}^m\)), on peut écrire \[ \|A\boldsymbol{x}\|=\|U\Sigma V^T\boldsymbol{x}\|=\|\Sigma V^T\boldsymbol{x}\|\,\qquad \forall \boldsymbol{x}\in \mathbb{R}^n\,. \] On a donc \[\begin{aligned} \max_{\boldsymbol{x}\in\mathcal{S}} \|A\boldsymbol{x}\| &=\max_{\boldsymbol{x}\in\mathcal{S}} \|\Sigma V^T\boldsymbol{x}\|\\ &=\max_{\boldsymbol{y}\in\mathcal{S}} \|\Sigma\boldsymbol{y}\|\\ &=\max_{\boldsymbol{y}\in\mathcal{S}} \sqrt{\sigma_1^2y_1^2+\cdots +\sigma_r^2 y_r^2}\,. \end{aligned}\] Dans la deuxième égalité, on a effectué le changement de variable \(\boldsymbol{y}:= V^T\boldsymbol{x}\) (l'orthogonalité de \(V^T\) implique que cette transformation est bijective, et que la condition \(\|\boldsymbol{x}\|=1\) est préservée puisque \(\|V^T\boldsymbol{x}\|=\|\boldsymbol{x}\|\)). Ensuite, remarquons que si \(\boldsymbol{y}\in\mathcal{S}\), alors \[\begin{aligned} \sigma_1^2y_1^2+\cdots +\sigma_r^2 y_r^2 &\leqslant \sigma_1^2y_1^2+\cdots+\sigma_1^2y_r^2\\ &= \sigma_1^2(y_1^2+\cdots+y_r^2)\\ &\leqslant \sigma_1^2\|\boldsymbol{y}\|^2\\ &= \sigma_1^2\,. \end{aligned}\] Ensuite, soit \(\boldsymbol{z}\in\mathbb{R}^n\) le vecteur qui a toutes ses composantes nulles sauf la première, qui vaut \(1\). Alors \(\boldsymbol{z}\in\mathcal{S}\), et donc \[\begin{aligned} \max_{\boldsymbol{y}\in\mathcal{S}} (\sigma_1^2y_1^2+\cdots +\sigma_r^2 y_r^2) &\geqslant (\sigma_1^2z_1^2+\cdots +\sigma_r^2 z_r^2)\\ &=\sigma_1^2\|\boldsymbol{z}\|^2\\ &=\sigma_1^2\,. \end{aligned}\] Ceci montre que \(\max_{\boldsymbol{x}\in\mathcal{S}}\|A\boldsymbol{x}\|=\sigma_1\). Ensuite, on a déjà fait plusieurs fois ce calcul: si \(\boldsymbol{v}_1\) est le vecteur propre unitaire de \(A^TA\) associé à \(\lambda_1\), alors \[\begin{aligned} \|A\boldsymbol{v}_1\|^2 &=(A\boldsymbol{v}_1)\cdotp(A\boldsymbol{v}_1)\\ &=\boldsymbol{v}_1\cdotp(A^TA\boldsymbol{v}_1)\\ &=\boldsymbol{v}_1\cdotp(\lambda_1\boldsymbol{v}_1)\\ &=\lambda_1\|\boldsymbol{v}_1\|^2\\ &=\lambda_1\,, \end{aligned}\] ce qui montre que \[ \max_{\boldsymbol{x}\in\mathcal{S}}\|A\boldsymbol{x}\|=\sigma_1=\sqrt{\lambda_1}=\|A\boldsymbol{v}_1\|\,. \] Pour l'élongation minimale, le cas où \(\mathrm{Ker}(A)\neq \{\boldsymbol{0}\}\) est immédiat puisque dans ce cas il existe \(\boldsymbol{x}_*\in \mathcal{S}\) tel que \(A\boldsymbol{x}_*=\boldsymbol{0}\)Dans le cas contraire, on commence de la même façon, en utilisant SVD pour écrire \[\begin{aligned} \min_{\boldsymbol{x}\in\mathcal{S}} \|A\boldsymbol{x}\| = \min_{\boldsymbol{x}\in\mathcal{S}} \sqrt{\sigma_1^2y_1^2+\cdots +\sigma_r^2 y_r^2}=\min_k\sigma_k\,. \end{aligned}\]

Exemple: On a déjà rencontré la matrice \[ A= \begin{pmatrix} \frac{3}{2\sqrt{2}}&\frac{1}{2\sqrt{2}}\\ \frac{9}{10\sqrt{2}}&\frac{13}{10\sqrt{2}} \end{pmatrix}\,, \] qui possède comme valeurs singulières \(\sigma_1=\frac{3}{2}\) et \(\sigma_2=\frac12\). Par le théorème ci-dessus, les vecteur du cercle unité qui subissent l'élongation maximale (d'amplitude \(\frac32\)) sous l'action de \(A\) sont \[ \pm\boldsymbol{v}_1= \pm\begin{pmatrix} 4/5\\ 3/5 \end{pmatrix}\,, \] dont l'image est \[ \pm A\boldsymbol{v}_1=\pm\sigma_1\boldsymbol{u}_1= \pm\frac32 \begin{pmatrix} 1/\sqrt{2}\\ 1/\sqrt{2} \end{pmatrix}\,, \] et les vecteur du cercle unité qui subissent l'élongation minimale (d'amplitude \(\frac12\)) sous l'action de \(A\) sont \[ \pm\boldsymbol{v}_2= \pm\begin{pmatrix} -3/5 \\ 4/5 \end{pmatrix}\,, \] dont l'image est \[ \pm A\boldsymbol{v}_2=\pm\sigma_2\boldsymbol{u}_2= \pm\frac12 \begin{pmatrix} -1/\sqrt{2}\\ 1/\sqrt{2} \end{pmatrix}\,, \]