Commençons par introduire la généralisation abstraite de la notion de vecteur
rencontrée dans les chapitres précédents:
Un espace vectoriel est un ensemble non-vide, noté souvent
\(V\), dont les éléments sont appelés vecteurs, notés souvent
\(u,v,w,\dots\)
,
muni d'une addition et
d'une
multiplication par un scalaire, satisfaisant aux propriétés suivantes:
(EV.1) \(u+v=v+u\) pour tous \(u,v\in V\) (commutativité);
(EV.2) \(u+(v+w)=(u+v)+w\) pour tous \(u,v,w\in V\) (associativité);
(EV.3) il existe
un élément \(\mathbf{0}_{V}\in V\), appelé vecteur nul
et souvent écrit simplement \(\mathbf{0}\), tel que
pour tout \(v\in V\),
\[v+\mathbf{0}_{V}=\mathbf{0}_{V}+v=v\]
(EV.4) pour tout \(v\in V\), il existe un vecteur \(-v\), appelé vecteur opposé de \(v\), tel
que
\[v+(-v)=(-v)+v=\mathbf{0}_{V}\,;\]
(EV.5) \(\lambda(u+v)=\lambda u+\lambda v\) pour tous \(\lambda\in \mathbb{R}\),
\(u,v\in V\) (distributivité I);
(EV.6) \((\lambda+\mu)v=\lambda v+\mu v\) pour tous \(\lambda,\mu\in \mathbb{R}\),
\(v\in V\) (distributivité II);
(EV.7) \(\lambda(\mu v)=(\lambda \mu)v=\mu(\lambda v)\) pour tous
\(\lambda,\mu\in \mathbb{R}\), \(v\in V\) (associativité mixte);
(EV.8) \(1v=v\) pour tout \(v\in V\).
Remarque:
Ce que l'on vient de définir est généralement appelé
espace vectoriel réel, car les scalaires utilisés pour
multiplier les vecteurs sont des nombres réels.
Par la commutativité
(EV.1) on voit que les axiomes
(EV.3) et
(EV.4) peuvent se simplifier:
il suffit de les remplacer par les
conditions \(v+\boldsymbol{0}_V=v\) et
\(v + (-v)) = \boldsymbol{0}_V\) pour tout \(v \in V\), respectivement.
Donc un espace vectoriel est simplement un ensemble d'objets abstraits appelés
vecteurs, dans lequel un ''\(+\)'' permet d'additionner ces vecteurs,
et dans lequel on peut multiplier les vecteurs par des scalaires.
Cela peut prendre du temps de s'habituer à ce niveau d'abstraction, et
d'imaginer que ce genre de structure existe ailleurs que dans le cadre des
''flèches de \(\mathbb{R}^n\)''. C'est surtout à la fin du cours qu'on se rendra
compte de l'utilité de cette généralisation, lorsqu'on pourra résoudre des
problèmes concrets en appliquant des méthodes algébriques/géométriques
(par exemple: la méthode des moindres carrés) dans un espace vectoriel abstrait.
Voyons quelques-uns des principaux exemples d'espaces vectoriels.
Espaces \(\mathbb{R}^n\)
Le premier exemple d'espace vectoriel que nous avons rencontré est bien-sûr
celui où \(V\) est formé de tous les vecteurs de \(\mathbb{R}^n\).
Dans ce cas l'addition et la multiplication par un scalaire avaient été définis
de façon naturelle, à savoir composante par composante (voir
la Proposition
dans la Section (cliquer)).
C'est souvent le même procédé qui est utilisé dans des cas plus généraux.
Espaces de fonctions
Dans ce premier exemple, nous allons voir comment des ensembles de
fonctions peuvent aussi être vus comme des espaces vectoriels.
Soit \(I \subseteq \mathbb{R}\) un intervalle (borné ou non, \(I\) peut même être la
droite toute entière), et
soit \(V\) l'ensemble de toutes les fonctions définies sur
\(I\), à valeurs réelles:
\[
V=\bigl\{\text{fonctions }f:I\to\mathbb{R}\bigr\}\,.
\]
Remarque:
Une fonction \(f\in V\) est définie une fois que l'on a
défini la valeur du réel \(f(t)\) pour chaque \(t\in I\).
Ainsi, deux fonctions \(f,g\in V\) sont égales, ce qu'on écrit
\(f=g\), si et seulement si
elles prennent la même valeur en tout point, c'est-à-dire si
\[ f(t)=g(t)\,,\quad \forall t\in I\,.
\]
Définissons une addition sur \(V\). Pour ce faire,
nous devons associer à toute paire
\(f,g\in V\) une nouvelle fonction \(f+g\in V\). On doit donc définir le réel
\((f+g)(t)\) pour tout \(t\in I\), ce que l'on fait naturellement en posant
\[
(f+g)(t):= f(t)+g(t)\,,\qquad \forall t\in I\,.
\]
Définissons la multiplication par un scalaire:
si \(f\in V\) et \(\lambda\in \mathbb{R}\), alors \(\lambda f \in V\)
est la fonction \(\lambda f:I\to \mathbb{R}\) définie comme suit:
\[ (\lambda f)(t):= \lambda f(t)\,,\qquad \forall t\in I\,.
\]
Nous devons maintenant vérifier que \(V\) est bien un espace vectoriel. Pour
cela, nous aurons besoin de
la fonction nulle \( \mathbf{0} : I \rightarrow \mathbb{R} \), comme étant
la fonction qui vaut zéro en tout point,
\[
\mathbf{0}(t):= 0\,,\quad\forall t\in I\,,
\]
et l'opposé d'une fonction \(f\in V\), notée \(-f\in V\), est la fonction
\[
(-f)(t):= -f(t)\,,\quad\forall t\in I\,.
\]
Muni de l'addition et de la multiplication par un
scalaire (définies ci-dessus),
\(V\) est un espace vectoriel.
On vérifie une à une chacune des propriétés qui définissent un espace vectoriel.
(On remarquera qu'à chaque fois, c'est une propriété des réels qui fait le
travail!)
(EV.1) Soient \(f,g\in V\). Si on fixe \(t\in I\),
on peut écrire
\[
(f+g)(t)=f(t)+g(t)=g(t)+f(t)=(g+f)(t)\,.
\]
Comme cette identité est vraie pour tout \(t\in I\), cela implique bien que
\(f+g=g+f\).
(EV.2)
Soient \(f,g,h\in V\). Si on fixe \(t\in I\), alors
\[\begin{aligned}
\big(f+(g+h)\big)(t)&=f(t)+(g+h)(t)\\
&=f(t)+\big(g(t)+h(t)\big)\\
&=\big(f(t)+g(t)\big)+h(t)\\
&=(f+g)(t)+h(t)=\big((f+g)+h\big)(t)\,.
\end{aligned}\]
Comme cette identité est vraie pour tout \(t\in I\), cela implique bien que
\(f+(g+h)=(f+g)+h\).
(EV.3)
Par la définition de la fonction nulle,
on a bien-sûr que \(f+\mathbf{0}=f\) pour toute \(f\in V\), puisque
\[ (f+\mathbf{0})(t)=f(t)+\mathbf{0}(t)=f(t)\,,\qquad \forall t\in I\,.
\]
(EV.4) Avec l'opposé \(-f\) défini plus haut, pour tout \(t\in I\),
\[
\big(f+(-f)\big)(t)=f(t)+(-f)(t)=f(t)-f(t)=0=\mathbf{0}(t)\,,
\]
ce qui implique que \(f+(-f)=\mathbf{0}\).
(EV.5) Soient \(f,g\in V\), et soit \(\lambda\in \mathbb{R}\).
Pour tout \(t\in I\), on a
\[\begin{aligned}
\big(\lambda(f+g)\big)(t)
&=\lambda\big((f+g)(t)\big)\\
&=\lambda(f(t)+g(t))\\
&=\lambda f(t)+\lambda g(t)\\
&=(\lambda f)(t)+(\lambda g)(t)\\
&=(\lambda f+\lambda g)(t)\,,
\end{aligned}\]
ce qui implique \(\lambda(f+g)=\lambda f+\lambda g\).
(EV.6) Soient \(\lambda,\mu\in \mathbb{R}\), et \(f\in V\). On a, pour tout \(t\in I\),
\[\begin{aligned}
\big((\lambda+\mu)f\big)(t)&=(\lambda+\mu)f(t)\\
&=\lambda f(t)+\mu f(t)\\
&=(\lambda f)(t)+(\mu f)(t)\\
&=(\lambda f+\mu f)(t)\,,
\end{aligned}\]
ce qui implique bien que
\((\lambda+\mu)f=\lambda f+\mu f\).
(EV.7)
Soient \(\lambda,\mu\in \mathbb{R}\), \(f\in V\). On a, pour tout \(t\in I\),
\[\begin{aligned}
\big(\lambda(\mu f)\big)(t)&=\lambda\big((\mu f)(t)\big)
\\
&= \lambda\big(\mu f(t)\big)\\
&=(\lambda\mu)f(t)\\
&=(\mu\lambda)f(t)\\
&=\mu\big(\lambda f(t)\big)\\
&=\mu\big((\lambda f)(t)\big)\\
&=\big(\mu(\lambda f)\big)(t)\,,
\end{aligned}\]
ce qui implique bien que \(\lambda(\mu f)=(\lambda\mu)f=\mu(\lambda f)\).
(EV.8) Soit \(f\in V\). On a, pour tout \(t\in I\),
\[
(1f)(t)=1\cdot f(t)=f(t)\,,
\]
ce qui implique bien \(1f=f\).
La preuve est étonnamment longue, mais ne présente
aucune subtilité!
(La seule difficulté, peut-être, est de comprendre
pourquoi il est nécessaire de faire tout ça!)
Espaces de polynômes
Les fonctions polynomiales (que l'on appelle aussi polynômes) sont des fonctions très particulières mais fournissent un cas
important d'espace vectoriel, jouant un rôle important
dans de nombreuses applications.
On rappelle qu'une fonction polynomiale (à coefficients réels) est une application \(p : \mathbb{R} \rightarrow \mathbb{R}\) pour laquelle il existe \(a_0, \dots, a_n \in \mathbb{R}\) tels que
\[
p(t)=a_0+a_1t+a_2t^2+\dots+a_nt^n\,,\qquad t\in \mathbb{R}\,.
\]
On appelle \(a_0, \dots, a_n \in \mathbb{R}\) les coefficients de \(p\).
Comme d'habitude, pour le polynôme \(p\) précédent on peut définir aussi les coefficients \(a_m = 0\) pour tout entier \(m > n\).
Par exemple, la fonction nulle \(\mathbf{0}\) est ainsi une fonction polynomiale avec tous les coefficients zéro.
On rappelle le résultat fondamental suivant.
Théorème:
Soient \(p\) et \( q \) deux polynôme à coefficients réels:
\[ p(t)=a_0+a_1t+a_2t^2+\cdots +a_pt^p\,
\text{ et }
q(t)=b_0+b_1t+b_2t^2+\cdots +b_qt^q\,.
\]
Alors, \(p(t)=q(t)\) pour tout \(t\in I\) (où \(I\) est un intervalle ouvert non vide) si et seulement si
\(a_i=b_i\) pour tout \(i\).
On dit que le polynôme \(p(t)=a_0+a_1t+a_2t^2+\dots+a_nt^n\) avec \(a_n \neq 0\) pour un entier non négatif \(n\) a degré \(n\).
On définit que le degré du polynôme nul est \( -\infty\), et donc inférieur à tout entier \(n \geqslant 0\).
On définit \(\mathbb{P}\)
l'ensemble de tous les polynômes à coefficients réels.
Pour \(n\geqslant 0\) entier, on définit \(\mathbb{P}_n\)
l'ensemble de tous les polynômes à coefficients réels de degré au plus égal à \(n\).
On additionne et multiplie (par des scalaires) des polynômes de degré au plus égal à \(n\) comme on l'a fait pour les
fonctions.
Munis de l'addition et de la multiplication par un scalaire, \( \mathbb{P}\) et \(\mathbb{P}_n\) sont des espaces vectoriels.
On rappelle qu'une matrice de taille \(m\times n\) à coefficients réels est un tableau rectangulaire formé de \( m\) lignes et \(n\) colonnes de la forme
\[
A=\begin{pmatrix}
A_{1,1} & \cdots & A_{1,n}
\\
\vdots & \ddots & \vdots
\\
A_{m,1} & \cdots & A_{m,n}
\end{pmatrix}
\]
avec \(A_{i,j} \in \mathbb{R}\) pour tous \(1 \leqslant i \leqslant m\) et \(1 \leqslant j \leqslant n\).
Les éléments \(a_{i,j}\) sont appelés les coefficients de la matrice \(A\).
On note
\(\mathbb{M}_{m\times n}(\mathbb{R})\) l'ensemble formé de toutes les matrices de taille \(m \times n\) à coefficients réels.
Pour réduire l'écriture,
si une matrice \(A\in \mathbb{M}_{m\times n}(\mathbb{R})\) a des coefficients
\(A_{i,j}\) (\(i=1,\dots,m\), \(j=1,\dots,n\)), on écrira souvent tout simplement
\[
A=(A_{i,j})_{\substack{i=1,\dots,m\\ j=1,\dots,n}}, \qquad \text{ ou même } \qquad A=(A_{i,j})
\]
si le rang des indices \(i\) et \( j \) est clair.
Pour simplifier, on omettra souvent la virgule dans les indices des coefficients, i.e. on écrira souvent \(A_{ij}\) au lieu de \(A_{i,j}\).
Une matrice de taille \(n \times n\) est dite carrée de taille \(n\).
On écrira souvent
\(\mathbb{M}_{n}(\mathbb{R})\) au lieu de \(\mathbb{M}_{n \times n}(\mathbb{R})\) l'ensemble formé de toutes les matrices carrées de taille \(n\) à coefficients réels.
On rappelle les définitions d'addition et de
multiplication par un scalaire, introduites précédemment:
Si \(A,B\in \mathbb{M}_{m\times n}(\mathbb{R})\),
\[
A=\begin{pmatrix}
A_{1,1} & \cdots & A_{1,n}
\\
\vdots & \ddots & \vdots
\\
A_{m,1} & \cdots & A_{m,n}
\end{pmatrix}\,,\qquad
B=\begin{pmatrix}
B_{1,1} & \cdots & B_{1,n}
\\
\vdots & \ddots & \vdots
\\
B_{m,1} & \cdots & B_{m,n}
\end{pmatrix}\,,
\]
on définit
\(A+B\in \mathbb{M}_{m\times n}(\mathbb{R})\) comme la matrice dont les coefficients sont les
nombres \(A_{i,j}+B_{i,j}\):
\[
A+B:=\begin{pmatrix}
A_{1,1}+B_{1,1} & \cdots & A_{1,n}+B_{1,n}
\\
\vdots & \ddots & \vdots
\\
A_{m,1}+B_{m,1} & \cdots & A_{m,n}+B_{m,n}
\end{pmatrix}\,.
\]
Pour un scalaire \(\lambda\in
\mathbb{R}\), on définit \(\lambda A\in \mathbb{M}_{m\times n}(\mathbb{R})\)
comme la matrice
dont les coefficients sont les nombres \(\lambda A_{i,j}\):
\[
\lambda A:=
\begin{pmatrix}
\lambda A_{1,1} & \cdots & \lambda A_{1,n}
\\
\vdots & \ddots & \vdots
\\
\lambda A_{m,1} & \cdots & \lambda A_{m,n}
\end{pmatrix}\,.
\]
Muni de l'addition et de la multiplication par un
scalaire (définies ci-dessus),
\(\mathbb{M}_{m\times n}(\mathbb{R})\) est un espace vectoriel.
En exercice! L'élément nul ''\(\mathbf{0}\)''
est la matrice de taille \(m\times n\) dont tous les éléments sont égaux
à zéro, et l'opposé d'une matrice \(A\) est la matrice dont tous les éléments
sont les opposés de ceux de \(A\).
Autres exemples
La structure d'espace vectoriel apparaît dans de nombreuses situations.
Exemple:
Soit \(V\) l'ensemble des suites de réels, dans lequel une suite est
notée simplement \(\boldsymbol{x}=(x_n)_{n\geqslant 0}\). En définissant une multiplication
par un scalaire \(\lambda\in\mathbb{R}\),
\[ \lambda \boldsymbol{x}:= (\lambda x_n)_{n\geqslant 0}\,,
\]
et l'addition
\[ \boldsymbol{x}+\boldsymbol{y}:= (x_n+y_n)_{n\geqslant 0}\,,
\]
on peut vérifier (en exercice) que \(V\) a une structure d'espace vectoriel.
Quiz 4.2-1 :
Parmi les ensembles de vecteurs suivants, lesquels sont des espaces vectoriels?
\(V=\{\boldsymbol{0}\}\) (ne contient que le vecteur nul de \(\mathbb{R}^n\)).
\(V\) est l'ensemble des vecteurs de \(\mathbb{R}^2\) dont la norme
est égale à \(1\).
\(V\) est l'ensemble des vecteurs de \(\mathbb{R}^n\) colinéaires à
\[\boldsymbol{x}= \begin{pmatrix} 1\\ 1\\ \vdots\\ 1 \end{pmatrix} \]
Quiz 4.2-2 :
Parmi les ensembles de fonctions suivants, lesquels sont des espaces vectoriels?
\(V\) est l'ensemble des fonctions \(f:[a,b]\to\mathbb{R}\) telles que \(f(a)=0\).
\(V\) est l'ensemble des fonctions \(f:[a,b]\to\mathbb{R}\) telles que \(f(a)=-1\).
\(V\) est l'ensemble des fonctions \(f:[a,b]\to\mathbb{R}\) telles que \(f(a)=-f(b)\).
\(V\) est l'ensemble des fonctions \(f:[a,b]\to\mathbb{R}\) telles que \(f(a)f(b)=0\).
Quiz 4.2-3 :
Vrai ou faux?
Si \(V\) est un espace vectoriel dont les éléments sont des fonctions
\(f:\mathbb{R}\to \mathbb{R}\), alors pour tout \(f\in V\) on a que
\[
f(\alpha s+\beta t)=\alpha f(s)+\beta f(t)\qquad \forall \alpha,\beta,s,t\in
\mathbb{R}\,.
\]