La décomposition \(QR\) est une méthode qui permet de factoriser une
matrice, c'est-à-dire
de l'écrire comme un produit de deux autres matrices particulières (un peu comme
une matrice carrée inversible peut être factorisée en un produit de matrices
élémentaires).
On le verra, pouvoir écrire une matrice comme un produit de matrices plus
simples possédera de nombreux avantages.
Soit \(A\) une matrice non nulle de taille \(m\times n\), que l'on écrit à l'aide de ses colonnes: \[ A=[\boldsymbol{a}_1\cdots \boldsymbol{a}_n]\,, \] où chaque \(\boldsymbol{a}_j\in \mathbb{R}^m\). On note \(\{ \boldsymbol{a}_{i_1}, \dots, \boldsymbol{a}_{i_r}\} \) l'ensemble des colonnes-pivot de \(A\), qui donne une base de \(\mathrm{Im} (A)\), et, en particulier, \(r = \mathrm{rang}(A)\). Cette base n'est a priori pas orthogonale, on peut donc lui appliquer le procédé de Gram-Schmidt: \[\begin{aligned} \boldsymbol{v}_1&:= \boldsymbol{a}_{i_1}\,,\\ \boldsymbol{v}_2&:= \boldsymbol{a}_{i_2}-\frac{\boldsymbol{a}_{i_2}\cdotp\boldsymbol{v}_1}{\|\boldsymbol{v}_1\|^2}\boldsymbol{v}_1\,,\\ \boldsymbol{v}_3&:= \boldsymbol{a}_{i_3}-\sum_{i=1}^2 \frac{\boldsymbol{a}_{i_3}\cdotp\boldsymbol{v}_i}{\|\boldsymbol{v}_i\|^2}\boldsymbol{v}_i\,,\\ \vdots&\\ \boldsymbol{v}_r&:= \boldsymbol{a}_{i_r}-\sum_{i=1}^{r-1} \frac{\boldsymbol{a}_{i_r}\cdotp\boldsymbol{v}_i}{\|\boldsymbol{v}_i\|^2}\boldsymbol{v}_i\,. \end{aligned}\] Normalisons chacun des \(\boldsymbol{v}_j\), en définissant \[ \boldsymbol{u}_1:= \frac{\boldsymbol{v}_1}{\|\boldsymbol{v}_1\|}\,,\quad\dots \quad,\, \boldsymbol{u}_:= \frac{\boldsymbol{v}_r}{\|\boldsymbol{v}_r\|}\,, \] et on définit les matrices \[ Q := [\boldsymbol{u}_1 \hskip 0.6mm \cdots \hskip 0.6mm \boldsymbol{u}_r] \in \mathbb{M}_{m \times r}(\mathbb{R}) \hskip 2mm \text{ et } \hskip 2mm R := Q^T A \in \mathbb{M}_{r \times n}(\mathbb{R})\,. \]
Théorème: Soit \(A\) une matrice non nulle de taille \(m\times n\) de rang \(\mathrm{rang}(A)=r\). Alors, les matrices \(Q \in \mathbb{M}_{m \times r}(\mathbb{R})\) et \(R \in \mathbb{M}_{r \times n}(\mathbb{R})\) définies précédemment satisfont aux propriétés
\(^{{\color{red}\star}}\) On va démontrer d'abord que les matrices \(Q\) et \(R\) définies ci-dessus satisfont aux propriétés (Q), (R) et (QR). Comme la famille \(\{\boldsymbol{u}_1,\dots,\boldsymbol{u}_r\}\) est orthonormée, par construction, la matrice \(Q\) définie ci-dessus est orthogonale, ce qui nous donne (Q). On va démontrer que \(R\) est échelonnée. Pour le faire, on va montrer le résultat intermédiaire suivant : \( \boldsymbol{u}_j \cdotp \boldsymbol{a}_k = 0\) pour tous \(1 \leqslant k \leqslant i_j - 1\) et \(1 \leqslant j \leqslant r\). En effet, par le Corollaire de la Section (cliquer), \(\mathrm{Vect}{\{\boldsymbol{a}_1, \dots, \boldsymbol{a}_{i_j-1}\}} = \mathrm{Vect}{\{\boldsymbol{a}_1, \dots, \boldsymbol{a}_{i_{j-1}}\}} \) et, comme \( \boldsymbol{u}_j\cdotp\boldsymbol{a}_{i_1} = \dots = \boldsymbol{u}_j\cdotp\boldsymbol{a}_{i_{j-1}} = 0\) par définition de \(\boldsymbol{u}_j\), on conclut que \(\boldsymbol{u}_j \in \mathrm{Vect}{\{\boldsymbol{a}_1, \dots, \boldsymbol{a}_{i_{j-1}}\}}^{\perp} = \mathrm{Vect}{\{\boldsymbol{a}_1, \dots, \boldsymbol{a}_{i_j-1}\}}^{\perp}\), comme on voulait démontrer. Or, par définition de \(R\) on a \[\begin{aligned} R := Q^T A = Q^T [\boldsymbol{a}_1 \hskip 0.6mm \cdots \hskip 0.6mm \boldsymbol{a}_n] = \begin{pmatrix} \boldsymbol{u}_1 \cdotp \boldsymbol{a}_1 & \cdots & \boldsymbol{u}_1 \cdotp \boldsymbol{a}_n \\ \vdots & \ddots & \vdots \\ \boldsymbol{u}_r \cdotp \boldsymbol{a}_1 & \cdots & \boldsymbol{u}_r \cdotp \boldsymbol{a}_n \end{pmatrix}\,, \end{aligned}\] i.e. \(R_{j,k} = \boldsymbol{u}_j \cdotp \boldsymbol{a}_k\). Alors, \( \boldsymbol{u}_j \cdotp \boldsymbol{a}_k = 0\) pour tous \(1 \leqslant k \leqslant i_j - 1\) et \(1 \leqslant j \leqslant r\). Comme \(i_1 < \cdots < i_r\), on conclut que \(R\) est échelonnée. On montre maintenant que le premier coefficient non nul de chaque ligne de \(R\) est positif. On note d'abord que, par définition le premier coefficient non nul de la \(j\)-ème ligne de \(R\) est \[ R_{j,i_j} = \boldsymbol{u}_j \cdotp \boldsymbol{a}_{i_j}\,. \] Or, on remarque que le procédé de Gram-Schmidt pour obtenir les colonnes de \(Q\) nous dit que \[\begin{aligned} \boldsymbol{a}_{i_1}&=\|\boldsymbol{v}_1\| \boldsymbol{u}_1\,,\\ \boldsymbol{a}_{i_2}&=(\boldsymbol{a}_{i_2}\cdotp\boldsymbol{u}_1)\boldsymbol{u}_1+ \|\boldsymbol{v}_2\|\boldsymbol{u}_2\,,\\ \boldsymbol{a}_{i_3}&=\left(\sum_{i=1}^2 (\boldsymbol{a}_{i_3}\cdotp\boldsymbol{u}_i)\boldsymbol{u}_i\right)+\|\boldsymbol{v}_3\| \boldsymbol{u}_3\,,\\ \vdots&\\ \boldsymbol{a}_{i_r}&= \left(\sum_{i=1}^{r-1} (\boldsymbol{a}_{i_r}\cdotp\boldsymbol{u}_i)\boldsymbol{u}_i\right)+\|\boldsymbol{v}_n\|\boldsymbol{u}_n\,. \end{aligned}\] En conséquence, \[ R_{j,i_j} = \boldsymbol{u}_j \cdotp \boldsymbol{a}_{i_j} = \boldsymbol{u}_j \cdotp \Big(\sum_{p=1}^{j-1} (\boldsymbol{a}_{i_j}\cdotp\boldsymbol{u}_p)\boldsymbol{u}_p \Big)+ \|\boldsymbol{v}_{i_j}\|\boldsymbol{u}_j = \|\boldsymbol{v}_j\| \boldsymbol{u}_j \cdotp \boldsymbol{u}_j = \|\boldsymbol{v}_j\| \gt 0\,, \] où l'on a utilisé dans la troisième égalité que \(\{ \boldsymbol{u}_1, \dots, \boldsymbol{u}_r\}\) est une famille orthogonale. On conclut que le premier coefficient non nul de chaque ligne de \(R\) est positif. Cela montre que la matrice \(R\) satisfait à la propriété (R). On montre maintenant que la propriété (QR) est aussi vérifiée. Comme \(\{ \boldsymbol{u}_1, \dots, \boldsymbol{u}_r\}\) est une base orthonormée de \(\mathrm{Im} (A)\), la matrice \(Q Q^T\) est la matrice canonique de la projection orthogonale sur \(\mathrm{Im} (A)\), d'après la proposition de la Section (cliquer). En particulier, \(QQ^TA\boldsymbol{x} = A\boldsymbol{x}\) pour tout \(\boldsymbol{x} \in \mathbb{R}^n\), ce qui implique que \(QQ^TA = A\). L'identité \(R = Q^T A\) implique ainsi \(Q R = Q Q^T A = A\), ce qui montre (QR). Finalement, on va démontrer qu'il existe une unique paire de matrices \(Q\) et \(R\) qui satisfont aux propriétés (Q), (R) et (QR). On montre d'abord que, si \(Q'\) et \(R'\) deux matrices qui satisfont aussi aux propriétés (Q), (R) et (QR), alors le rang de \(Q'\) et \(R'\) est \(r\). En effet, que le rang de \(Q'\) est \(r\) suit du fait que le noyau de \(Q'\) est trivial et le Théorème du Rang. Pour \(R'\), on note que la taille de \(R\) nous dit que \(\mathrm{rang}(R') \leqslant r\). En outre, comme \(A = Q'R'\), le Théorème de la Section (cliquer) nous dit que \(\mathrm{rang}(R') \geqslant \mathrm{rang}(A) = r\), ce qui implique que \(\mathrm{rang}(R') = r\), comme on voulait démontrer. Les propriétés (Q) et (QR) nous disent que \[ R^T R = R^T I_n R = R^T Q^T Q R = (RQ)^T (Q R) = A^T A = (R'Q')^T (Q'R') = R^{\prime T} Q^{\prime T} Q' R' = R^{\prime T} I_n R' = R^{\prime T} R'\,. \] Si l'on écrit \(R = [\boldsymbol{r}_1 \hskip 0.6mm \cdots \hskip 0.6mm \boldsymbol{r}_n]\) et \(R' = [\boldsymbol{r}'_1 \hskip 0.6mm \cdots \hskip 0.6mm \boldsymbol{r}'_n]\), \(R^TR = R^{\prime T} R'\) équivaut à \[ \tag{EQ-1} \hypertarget{(EQ-1)} {\boldsymbol{r}_j} \cdotp \boldsymbol{r}_k = \boldsymbol{r}'_j \cdotp \boldsymbol{r}'_k \] pour tous \(1 \leqslant j \leqslant k \leqslant n\). On va aussi écrire \(r_{k,p}\) et \(r'_{k,p}\) les \(p\)-ème coordonnées de \(\boldsymbol{r}_k\) et de \(\boldsymbol{r}'_k\), respectivement. Soient \(\hat{R} = [\boldsymbol{r}_{p_1} \hskip 0.6mm \cdots \hskip 0.6mm \boldsymbol{r}_{p_r}]\) et \(\hat{R}' = [\boldsymbol{r}'_{p'_1} \hskip 0.6mm \cdots \hskip 0.6mm \boldsymbol{r}'_{p'_r}]\) les matrices formées des colonnes-pivots de \(R\) et de \(R'\), respectivement. On affirme que \(\{ p_1 < \cdots < p_r \} = \{ p'_1 < \cdots < p'_r \}\) et \(\boldsymbol{r}_{p_j} = \boldsymbol{r}'_{p'_j}\) pour tout \(1 \leqslant j \leqslant r\). Si ce n'est pas le cas, soit $1\leqslant \ell \leqslant r$ le premier entier positif tel que \(p_\ell \neq p'_\ell\), ou \(p_\ell = p'_\ell\) et \(\boldsymbol{r}_{p_\ell} \neq \boldsymbol{r}'_{p'_\ell}\). Si \(p_\ell \neq p'_\ell\), on peut supposer sans perte de généralité que \(p_\ell < p'_\ell\). Or, (EQ-1)} %\eqref{eq:rtr pour \(j=p_s\) et \(k=p_\ell\) avec \(1 \leqslant s < \ell\) nous dit que \[ \boldsymbol{r}_{p_{s}} \cdotp \boldsymbol{r}_{p_\ell} = \boldsymbol{r}'_{p_{s}} \cdotp \boldsymbol{r}'_{p_\ell} = \boldsymbol{r}_{p_{s}} \cdotp \boldsymbol{r}'_{p_\ell} \,, \] vu que \(\boldsymbol{r}_{p_{s}} = \boldsymbol{r}'_{p_{s}}\), ce qui implique que \[ \boldsymbol{r}_{p_{s}} \cdotp (\boldsymbol{r}_{p_\ell} - \boldsymbol{r}'_{p_\ell}) = 0\, \] et, en conséquence, la $s$-ème coordonnée de \(\boldsymbol{r}_{p_\ell} - \boldsymbol{r}'_{p_\ell}\) est nulle pour tout \(1 \leqslant s < \ell\), i.e. \(r_{p_\ell,s} = r'_{p_\ell,s}\) pour tout \(1 \leqslant s < \ell\). En outre, (EQ-1)} %\eqref{eq:rtr pour \(j=k=p_\ell\) nous dit que \[ \sum_{s=1}^{\ell} r_{p_\ell,s}^2 = \|\boldsymbol{r}_{p_\ell}\|^2 =\|\boldsymbol{r}'_{p_\ell}\|^2= \sum_{s=1}^{\ell} r_{p_\ell,s}^{\prime 2}\,, \] où l'on a utilisé que \(r_{p_\ell,s} = r_{p_\ell,s}' = 0\) pour \(s > \ell\), vu que \(R\) et \(R'\) sont échelonnées. Comme \(r_{p_\ell,s} = r'_{p_\ell,s}\) pour tout \(1 \leqslant s < \ell\), on conclut que \[ \tag{EQ-2} \hypertarget{(EQ-2)} {0} < r_{p_\ell,p_\ell}^2 = r_{p_\ell,p_\ell}^{\prime 2}\,, \] vu que \(\boldsymbol{r}_{p_\ell}\) est le \(\ell\)-ème vecteur de \(R\), qui satisfait à la propriété (R). Or, si \(p_\ell < p'_\ell\), alors \(r'_{p_\ell,p_\ell} = 0\), ce qui implique \(r'_{p_\ell,p_\ell} = 0\), ce qui est absurde d'après (EQ-2). En outre, si \(p_\ell = p'_\ell\), la propriété (R) pour \(R\) et \(R'\) nous dit que \(r_{p_\ell,p_\ell} = r_{p_\ell,p_\ell}\), et donc \(\boldsymbol{r}_{p_\ell} = \boldsymbol{r}'_{p'_\ell}\), qui contredit la définition de \(\ell\). En conséquence, \[ \hat{R} = \hat{R}'\,, \] comme on voulait démontrer. Or, l'identité \(QR = A = Q'R'\) nous donne \(Q\hat{R} = Q'\hat{R}'\), et comme \(\hat{R} = \hat{R}'\), on conclut que \(Q\hat{R} = Q'\hat{R}\). En outre, par définition la matrice carrée \(\hat{R} = \hat{R}'\) de taille \(r\) a rang \(r\), et elle est donc inversible. En conséquence, \[ Q = Q I_r = Q\hat{R} \hat{R}^{-1} = Q'\hat{R} \hat{R}^{-1} = Q' I_r = Q', \] ce qui implique aussi \[ R = I_r R = Q^T QR = Q^{T} A = Q^{\prime T} A = Q^{\prime T} Q' R' = I_r R' = R'\,, \] ce qui montre l'unicité affirmée.
En conséquence, la factorisation \(QR\) d'une matrice \(A\) peut s'obtenir comme suit:
Calcul de la décomposition QR d'une matrice non nulle
\(A=[\boldsymbol{a}_1\cdots\boldsymbol{a}_n]\) de rang \(r\).
Le théorème précédent est d'habitude trop général. On va utiliser souvent la version particulière suivante, qui suffit largement pour les cas que l'on va considérer.
Théorème: Soit \(A\) une matrice non nulle de taille \(m\times n\) de rang \(\mathrm{rang}(A)=n\). Alors, les matrices \(Q \in \mathbb{M}_{m \times n}(\mathbb{R})\) et \(R \in \mathbb{M}_{n \times n}(\mathbb{R})\) définies précédemment satisfont aux propriétés
On remarque que la matrice \(R\) est dans ce cas carrée de taille \(n\) de rang \(n\). Cela implique que le premier coefficient non nul de chaque ligne, qui est positif, est dans la diagonale de \(R\). En plus, comme \(R\) est échelonnée, elle est triangulaire supérieure.
Remarque: Dans le cas du dernier théorème, on peut donner une preuve plus directe de la decomposition \(QR\). En effet, on remarque que le procédé de Gram-Schmidt pour obtenir les colonnes de \(Q\) nous dit que \[\begin{aligned} \boldsymbol{a}_{1}&=\|\boldsymbol{v}_1\| \boldsymbol{u}_1\,,\\ \boldsymbol{a}_{2}&=(\boldsymbol{a}_{2}\cdotp\boldsymbol{u}_1)\boldsymbol{u}_1+ \|\boldsymbol{v}_2\|\boldsymbol{u}_2\,,\\ \boldsymbol{a}_{3}&=\left(\sum_{i=1}^2 (\boldsymbol{a}_{3}\cdotp\boldsymbol{u}_i)\boldsymbol{u}_i\right)+\|\boldsymbol{v}_3\| \boldsymbol{u}_3\,,\\ \vdots&\\ \boldsymbol{a}_{i_r}&= \left(\sum_{i=1}^{r-1} (\boldsymbol{a}_{r}\cdotp\boldsymbol{u}_i)\boldsymbol{u}_i\right)+\|\boldsymbol{v}_n\|\boldsymbol{u}_n\,. \end{aligned}\] Ensuite, considérons la matrice triangulaire supérieure \(R\) de taille \(n\times n\) formée à partir des coefficients apparaissant dans les combinaisons linéaires ci-dessus: \[ R:= \begin{pmatrix} \|\boldsymbol{v}_1\|&\boldsymbol{a}_2\cdotp\boldsymbol{u}_1&\boldsymbol{a}_3\cdotp\boldsymbol{u}_1&\cdots&\boldsymbol{a}_{n-1}\cdotp\boldsymbol{u}_1&\boldsymbol{a}_n\cdotp\boldsymbol{u}_1 \\ 0&\|\boldsymbol{v}_2\|&\boldsymbol{a}_3\cdotp\boldsymbol{u}_2&\cdots&\boldsymbol{a}_{n-1}\cdotp\boldsymbol{u}_2&\boldsymbol{a}_n\cdotp\boldsymbol{u}_2 \\ 0&0&\|\boldsymbol{v}_3\|&\cdots&\boldsymbol{a}_{n-1}\cdotp\boldsymbol{u}_2&\boldsymbol{a}_n\cdotp\boldsymbol{u}_3 \\ \vdots&\vdots&\vdots&\ddots&\vdots&\vdots \\ 0&0&0& \cdots&\|\boldsymbol{v}_{n-1}\|&\boldsymbol{a}_n\cdotp\boldsymbol{u}_{n-1} \\ 0&0&0& \cdots&0&\|\boldsymbol{v}_n\| \end{pmatrix}\,. \] En d'autres termes, les coefficients apparaissant dans la \(k\)-ème colonne de \(R\) sont les coefficients de la combinaison linéaire donnant \(\boldsymbol{a}_k\). On affirme que \(QR=A\). Pour le voir explicitement, on peut écrire \[ R=[\boldsymbol{r}_1\cdots \boldsymbol{r}_n]\,, \] où \[\begin{aligned} \boldsymbol{r}_1&=\|\boldsymbol{v}_1\|\boldsymbol{e}_1\,,\\ \boldsymbol{r}_2&=(\boldsymbol{a}_1\cdotp\boldsymbol{u}_1)\boldsymbol{e}_1+\|\boldsymbol{v}_2\|\boldsymbol{e}_2\,,\\ \vdots&\\ \boldsymbol{r}_n&=\left(\sum_{i=1}^{n-1}(\boldsymbol{a}_i\cdotp \boldsymbol{u}_i)\boldsymbol{e}_i\right) +\|\boldsymbol{v}_n\|\boldsymbol{e}_n\,. \end{aligned}\] Ainsi, la \(k\)-ème colonne de \(QR=[Q\boldsymbol{r}_1\cdots Q\boldsymbol{r}_n]\) est donnée par \[\begin{aligned} Q\boldsymbol{r}_k &=Q \left( \sum_{i=1}^{k-1}(\boldsymbol{a}_i\cdotp \boldsymbol{u}_i)\boldsymbol{e}_i +\|\boldsymbol{v}_k\|\boldsymbol{e}_k \right)\\ &= \sum_{i=1}^{k-1}(\boldsymbol{a}_i\cdotp \boldsymbol{u}_i)(Q\boldsymbol{e}_i) +\|\boldsymbol{v}_k\|Q\boldsymbol{e}_k\\ &= \sum_{i=1}^{k-1}(\boldsymbol{a}_i\cdotp \boldsymbol{u}_i)\boldsymbol{u}_i +\|\boldsymbol{v}_k\|\boldsymbol{u}_k\\ &=\boldsymbol{a}_k\,. \end{aligned}\] On remarque que l'expression de \(R\) ci-dessus, pleine de produits scalaires, coïncide avec l'expression au début de cette section. En effet, remarquons que si l'on multiplie (à gauche) les deux côtés de l'identité \(A=QR\) par \(Q^T\) on trouve \[ Q^TA=Q^T(QR)=(Q^TQ)R=I_nR=R\,. \]
La factorisation \(QR\) d'une matrice \(A \in \mathbb{M}_{m \times n}(\mathbb{R})\) dont les colonnes sont linéairement indépendantes peut s'obtenir comme suit:
Calcul de la décomposition QR d'une matrice \(A=[\boldsymbol{a}_1\cdots\boldsymbol{a}_n]\) dont les colonnes sont linéairement indépendantes:
Exemple: Calculons une factorisation \(QR\) de \[ A= \begin{pmatrix} 1&1\\ 1&2\\ 0&2 \end{pmatrix}\,. \] Ici, \(A=[\boldsymbol{a}_1\,\boldsymbol{a}_2]\), où \(\boldsymbol{a}_1\) et \(\boldsymbol{a}_2\) sont indépendants, donc le théorème s'applique. Le procédé de Gram-Schmidt donne \[ \boldsymbol{v}_1:= \boldsymbol{a}_1= \begin{pmatrix} 1\\ 1\\ 0 \end{pmatrix}\,,\qquad \boldsymbol{v}_2:= \boldsymbol{a}_2-\frac{\boldsymbol{a}_2\cdotp\boldsymbol{a}_1}{\|\boldsymbol{a}_1\|^2}\boldsymbol{a}_1= \begin{pmatrix} -1/2\\ 1/2\\ 2 \end{pmatrix}\,. \] On a donc, après normalisation, \[ Q= \begin{pmatrix} \sqrt{2}/2&-\sqrt{2}/6\\ \sqrt{2}/2&\sqrt{2}/6\\ 0&2\sqrt{2}/3 \end{pmatrix}\,. \] Ensuite, \[\begin{aligned} R=Q^TA &= \begin{pmatrix} \sqrt{2}/2&\sqrt{2}/2&0\\ -\sqrt{2}/6&\sqrt{2}/6&2\sqrt{2}/3 \end{pmatrix} \begin{pmatrix} 1&1\\ 1&2\\ 0&2 \end{pmatrix}\\ &= \begin{pmatrix} \sqrt{2}&3\sqrt{2}/2\\ 0&3\sqrt{2}/2 \end{pmatrix}\,. \end{aligned}\] Remarquons que cette dernière est bien \[ R= \begin{pmatrix} \|\boldsymbol{v}_1\|&\boldsymbol{a}_2\cdotp \boldsymbol{u}_1\\ 0&\|\boldsymbol{v}_2\| \end{pmatrix}\,, \] où \(\boldsymbol{u}_1=\frac{\boldsymbol{v}_1}{\|\boldsymbol{v}_1\|}\).