Matrices diagonalisables

Toutes les matrices considérées sont des matrices carrées à $ n$ lignes et $ n$ colonnes, à coefficients dans $ \mathbb{R}$ ou $ \mathbb{C}$. Les vecteurs sont identifiés à des matrices à $ n$ lignes et $ 1$ colonne.

Une matrice $ A=(a_{i,j})_{i,j=1,\ldots,n}$ est diagonale si tous ses coefficients en dehors de la diagonale sont nuls.

$\displaystyle \forall i\neq j\;,\quad a_{i,j}=0\;.
$

Elle est donc de la forme :

\begin{displaymath}
A=
\left(
\begin{array}{ccccccc}
\lambda_1&0&\ldots&&\ldots&...
...a_{n-1}&0&\\
0&\ldots& &\ldots&0&\lambda_n
\end{array}\right)
\end{displaymath}

Pour comprendre le rôle des coefficients diagonaux, supposons tout d'abord qu'ils sont tous égaux à $ \lambda$. Dans ce cas, $ A$ est proportionnelle à la matrice identité : $ A=\lambda
I$. Pour tout vecteur $ x$ de $ \mathbb{R}^n$, le vecteur $ A x$ est proportionnel à $ x$ : $ Ax = \lambda x$. Multiplier le vecteur $ x$ par la matrice $ A$ revient à le multiplier par le facteur $ \lambda$. Géométriquement, c'est effectuer une homothétie de rapport $ \lambda$. Supposons maintenant que les coefficients diagonaux soient quelconques. Considérons une base $ (e_1,\ldots,e_n)$ de $ \mathbb{R}^n$, et examinons l'endomorphisme $ f$ de $ \mathbb{R}^n$, de matrice $ A$ dans cette base. Dire que $ A$ est diagonale, c'est dire que l'image du vecteur $ e_i$ de la base est $ \lambda_i e_i$. Si on restreint $ f$ à la direction $ e_i$, $ f$ est une homothétie de rapport $ \lambda_i$. Si $ x$ est un vecteur quelconque de $ \mathbb{R}^n$, $ x$ s'écrit $ \sum x_i e_i$. Son image par $ f$ est :

$\displaystyle f(x) = \sum_{i=1}^n x_i f(e_i) = \sum_{i=1}^n x_i \lambda_i e_i\;.
$

Les matrices diagonales sont particulièrement simples à manipuler. Voici les propriétés principales :
$ \bullet$
Le déterminant d'une matrice diagonale est le produit des coefficients diagonaux.

$\displaystyle \vert A\vert = \lambda_1\ldots\lambda_n\;.
$

$ \bullet$
Multiplier à gauche par une matrice diagonale revient à multiplier la $ i$-ième ligne par $ \lambda_i$ : si $ B=(b_{i,j})$ est une matrice quelconque, alors

$\displaystyle AB = (\lambda_i   b_{i,j})_{i,j=1,\ldots,d}\;.
$

$ \bullet$
Multiplier à droite par une matrice diagonale revient à multiplier la $ j$-ième colonne par $ \lambda_j$ : si $ B=(b_{i,j})$ est une matrice quelconque, alors

$\displaystyle BA = (b_{i,j} \lambda_j)_{i,j=1,\ldots,d}\;.
$

$ \bullet$
Le produit de deux matrices diagonales est une matrice diagonale.

\begin{displaymath}
\left(
\begin{array}{cccc}
\lambda_1&0&\ldots&0\\
0&\ddots&...
...ddots&\ddots&0\\
0&\ldots&0&\lambda_n\mu_n
\end{array}\right)
\end{displaymath}

$ \bullet$
Si tous les coefficients diagonaux sont non nuls, la matrice est inversible :

\begin{displaymath}
\left(
\begin{array}{cccc}
\lambda_1&0&\ldots&0\\
0&\ddots&...
...&\ddots&0\\
0&\ldots&0&\frac{1}{\lambda_n}
\end{array}\right)
\end{displaymath}

$ \bullet$
La puissance $ k$-ième d'une matrice diagonale est :

\begin{displaymath}
\left(
\begin{array}{cccc}
\lambda_1&0&\ldots&0\\
0&\ddots&...
...s&\ddots&\ddots&0\\
0&\ldots&0&\lambda_n^k
\end{array}\right)
\end{displaymath}

Pour une matrice $ A$ quelconque, les calculs se simplifient à partir du moment où elle est semblable à une matrice diagonale. Deux matrices $ A$ et $ D$ sont semblables, lorsqu'elles représentent le même endomorphisme dans deux bases différentes, ou encore, quand il existe une matrice de passage $ P$ telle que $ P^{-1}AP = D$. Par exemple :

\begin{displaymath}
\stackrel{
\underbrace{
\left(
\begin{array}{rrr}
\frac{1}{2...
...&  0 [2ex]
0&-1&  0 [2ex]
0&0&  2
\end{array}\right)
}}{D}
\end{displaymath}

Définition 1   Une matrice $ A$ est dite diagonalisable si elle est semblable à une matrice diagonale.

L'objectif des deux premières sections de ce chapitre est d'apprendre à diagonaliser une matrice, quand c'est possible.

Définition 2   Diagonaliser une matrice $ A$, c'est trouver une matrice de passage $ P$ et une matrice diagonale $ D$ telles que :

$\displaystyle P^{-1}A P = D\; \Longleftrightarrow\; A = PDP^{-1}\;.
$

Si $ D=P^{-1}AP$, alors $ AP=PD$. Mais si $ D$ est une matrice diagonale, multiplier $ P$ à droite par $ D$ revient à multiplier les vecteurs colonnes de $ P$ par les coefficients diagonaux de $ D$. Notons $ v_i$ le $ i$-ième vecteur colonne de la matrice $ P$ et $ \lambda_i$ le $ i$-ième coefficient diagonal de $ D$. Pour tout $ i=1,\ldots,d$, on doit avoir :

$\displaystyle Av_i = \lambda_iv_i \Longleftrightarrow (A-\lambda_i I)v_i = 0\;,
$

en notant $ I$ la matrice identité de dimension $ n$. On dit que $ v_i$ est un vecteur propre de $ A$ associé à la valeur propre $ \lambda_i$.

Définition 3   On dit que $ v$ est un vecteur propre de $ A$ associé à la valeur propre $ \lambda$ si $ v$ est un vecteur non nul et :

$\displaystyle Av = \lambda v \;\Longleftrightarrow\; (A-\lambda I)v = 0\;.
$

Observons que $ \lambda$ est une valeur propre de $ A$ si et seulement si le système $ (A-\lambda I) v=0$ a une solution non nulle. Voici deux manières équivalentes de l'exprimer.

Proposition 1   Un nombre complexe $ \lambda$ est valeur propre de la matrice $ A$ si et seulement si l'une des conditions équivalentes suivantes est vérifiée.
  1. Le rang de la matrice $ A-\lambda I$ est strictement inférieur à $ n$.
  2. Le déterminant de la matrice $ A-\lambda I$ est nul :

    $\displaystyle \vert A-\lambda I\vert = 0\;.
$

Définition 4   On appelle polynôme caractéristique de la matrice $ A$, et on note $ P_A(X)$ le déterminant de la matrice $ A-X I$.

\begin{displaymath}
P_A(X)=\vert A-X I\vert
=
\left\vert
\begin{array}{ccccccc}
...
...,1}&\ldots& &\ldots&a_{n,n-1}&a_{n,n}-X
\end{array}\right\vert
\end{displaymath}

D'après la forme développée d'un déterminant, $ P_A(X)$ est une somme de produits des termes de la matrice. Chaque produit est constitué de $ n$ facteurs qui sont des termes pris dans des lignes et des colonnes différentes. Le terme de plus haut degré en $ X$ dans le déterminant $ \vert A-X I\vert$ provient du produit des termes qui contiennent tous $ X$, à savoir les coefficients diagonaux : $ \prod_{i=1}^n (a_{i,i}-X)$. Le polynôme caractéristique $ P_A(X)$ est donc de degré $ n$ : son terme de plus haut degré est $ (-1)^nX^n$. Tant que nous y sommes, observons que le terme constant de $ P_A(X)$ est le déterminant de $ A$ ; c'est aussi le produit des valeurs propres (comptées avec leurs multiplicités). Le coefficient du terme de degré $ X^{n-1}$ dans $ P_A(X)$ est la somme des termes diagonaux, que l'on appelle la trace de la matrice $ A$ ; c'est aussi la somme des valeurs propres (toujours comptées avec leurs multiplicités). Comme les valeurs propres sont racines du polynôme caractéristique, une matrice de dimensions $ n\times n$ admet au plus $ n$ valeurs propres distinctes. Pour qu'une matrice soit diagonalisable, il faut déjà que son polynôme caractéristique admette effectivement $ n$ racines (comptées avec leurs ordres de multiplicité), donc qu'il soit scindé. C'est toujours le cas dans $ \mathbb{C}$, pas toujours dans $ \mathbb{R}$. Si $ \lambda$ est une valeur propre, l'ensemble des vecteurs $ v$ tels que $ (A-\lambda I) v=0$, est un sous-espace vectoriel. Par définition, il contient le vecteur nul, et tous les vecteurs propres de $ A$ associés à $ \lambda$. On l'appelle le «sous-espace propre» associé à $ \lambda$.

Définition 5   Soit $ \lambda$ une valeur propre, on appelle sous-espace propre associé à $ \lambda$ l'espace vectoriel

$\displaystyle \{  v\in\mathbb{R}^n ,\; Av=\lambda v \}=\mathrm{Ker}(A-\lambda I)\;.
$

Théorème 1   Soit $ A$ une matrice, dont le polynôme caractéristique $ P_A(\lambda)$ est scindé. Soient $ \lambda_1,
\ldots,\lambda_k$ les racines de $ P_A(X)$ et $ m_1,\ldots, m_k$ leurs multiplicités respectives ( $ m_1+\cdots+m_k=n$). La matrice $ A$ est diagonalisable si et seulement si pour tout $ i=1,\ldots,k$, le sous-espace propre associé à la valeur propre $ \lambda_i$ est de dimension $ m_i$.

$\displaystyle \forall i=1,\ldots,k\;,\quad \mathrm{dim}(\mathrm{Ker}(A-\lambda_i I))=m_i\;.
$

Démonstration : Remarquons qu'un même vecteur propre ne peut être associé qu'à une seule valeur propre. Par conséquent, deux sous-espaces propres associés à deux valeurs propres distinctes ont une intersection réduite au vecteur nul : les sous-espaces propres sont en somme directe.

Supposons que $ A$ soit diagonalisable : $ P^{-1}AP = D$, mais aussi $ P^{-1}(A-X I)P=(D-X I)$. Les propriétés générales des déterminants font que $ \vert A-X I\vert=\vert D-XI\vert$ : le polynôme caractéristique de $ A$ et celui de $ D$ sont les mêmes :

$\displaystyle P_A(X)=P_D(X)=(-1)^n\prod_{i=1}^k (X-\lambda_i)^{m_i}\;.
$

Or le polynôme caractéristique de $ D$ est le produit des termes diagonaux. Cela signifie que pour tout $ i=1,\ldots,k$, exactement $ m_i$ termes diagonaux de $ D$ sont égaux à $ \lambda_i$. Il existe donc $ m_i$ vecteurs colonnes de $ P$ qui sont des vecteurs propres de $ A$, associés à la valeur propre $ \lambda_i$. Comme ces vecteurs forment une famille libre, la dimension du sous-espace propre associé est au moins égale à $ m_i$. Comme $ m_1+\cdots+m_k=n$, et que les sous-espaces propres sont en somme directe, chacun est de dimension exactement $ m_i$ et leur somme directe est $ \mathbb{R}^n$. Réciproquement, si pour tout $ i$ le sous-espace propre associé à $ \lambda_i$ est de dimension $ m_i$, alors leur somme directe est $ \mathbb{R}^n$ : on peut constituer une base de $ \mathbb{R}^n$ en choisissant une base de vecteurs dans chaque sous-espace propre.$ \square$ La mauvaise nouvelle est que toutes les matrices ne sont pas diagonalisables. La bonne nouvelle est que celles que vous rencontrerez, entreront souvent dans l'une des catégories couvertes par les deux théorèmes suivants : valeurs propres toutes distinctes, ou bien matrices symétriques.

Théorème 2   Soit $ A$ une matrice admettant $ n$ valeurs propres toutes distinctes. Alors $ A$ est diagonalisable.

Démonstration : Nous allons montrer par récurrence sur $ k$ que si $ v_1,\ldots,v_k$ sont des vecteurs propres associés à des valeurs propres $ \lambda_1,
\ldots,\lambda_k$ toutes distinctes, alors $ (v_1,\ldots,v_k)$ est une famille libre :

$\displaystyle \sum_{i=1}^k \alpha_i v_i = 0 \Longrightarrow
\alpha_i=0\;,\;\forall i=1,\ldots,k\;.
$

C'est vrai pour $ k=1$, puisque par définition un vecteur propre est non nul. Supposons la propriété vraie à l'ordre $ k\!-\!1$. Soient $ \lambda_1,
\ldots,\lambda_k$ des valeurs propres distinctes deux à deux et $ v_1,\ldots,v_k$ des vecteurs propres associés. Supposons :

$\displaystyle \sum_{i=1}^k \alpha_i v_i = 0 \Longleftrightarrow
\sum_{i=1}^{k-1} \alpha_i v_i = -\alpha_k v_k\;.
$

En multipliant à gauche par la matrice $ A$, on obtient :

$\displaystyle \sum_{i=1}^{k-1} \alpha_i \lambda_i v_i = -\alpha_k \lambda_k v_k\;.
$

Mais aussi :

$\displaystyle \sum_{i=1}^{k-1} \alpha_i \lambda_k v_i = -\alpha_k \lambda_k v_k\;.
$

Soit en soustrayant les deux équations :

$\displaystyle \sum_{i=1}^{k-1} \alpha_i (\lambda_i-\lambda_k) v_i = 0\;.
$

D'après l'hypothèse de récurrence à l'ordre $ k\!-\!1$, ceci entraîne que pour tout $ i=1,\ldots,k\!-\!1$, $ \alpha_i(\lambda_i-\lambda_k)=0$, donc $ \alpha_i=0$, puisque $ \lambda_i\neq \lambda_k$. Mais alors nécessairement $ \alpha_k v_k$ est nul, donc $ \alpha_k=0$ puisque le vecteur propre $ v_k$ est non nul. Supposons qu'une matrice $ A$ admette $ n$ valeurs propres toutes distinctes $ \lambda_1,\ldots,\lambda_n$. Pour $ i=1,\ldots,n$, choisissons un vecteur propre $ v_i$ associé à $ \lambda_i$. D'après ce qui précède $ (v_1,\ldots,v_n)$ est une famille libre de $ \mathbb{R}^n$, donc une base.$ \square$

Théorème 3   Soit $ A=(a_{i,j})_{i,j=1,\ldots,d}\in {\cal M}_{n\times n}(\mathbb{R})$ une matrice symétrique : $ A={^t\!A}$. Alors :
  1. toutes les valeurs propres de $ A$ sont réelles ;
  2. $ A$ est diagonalisable ;
  3. on peut choisir comme base de vecteurs propres une base telle que la matrice de passage $ P$ vérifie $ P^{-1} = {^t\!P}$ (une telle base est dite orthonormée).

Le fait d'avoir une base orthonormée permet d'écrire l'inverse de la matrice de passage sans calcul supplémentaire (car $ P^{-1} = {^t\!P}$). Ce théorème est un cas particulier d'un résultat plus général, pour une matrice $ A$ à valeurs complexes qui est hermitienne, c'est-à-dire telle que $ A={^t\!\overline{A}}$, soit $ \overline{a_{j,i}} =
a_{i,j}$, où $ \overline{z}$ désigne le conjugué du nombre complexe $ z$. Les valeurs propres d'une matrice hermitienne sont réelles, la matrice est diagonalisable et il existe une matrice de vecteurs propres unitaire, à savoir telle que $ P^{-1} = {^t\!\overline{P}}$. Démonstration : Soit $ v$ un vecteur non nul de $ \mathbb{C}^n$. Considérons le produit : $ {^t\overline{v}}v$. C'est la somme des modules des coordonnées de $ v$, à savoir un réel strictement positif. Soit $ \lambda$ une racine (dans $ \mathbb{C}$) de $ P_A(X)$, et soit $ v$ un vecteur propre associé à la valeur propre $ \lambda$. Donc :

$\displaystyle {^t\overline{v}}Av = \lambda {^t\overline{v}}v
$

Prenons le conjugué de la transposée de ce même produit (rappelons que $ {^t\!(AB)}={^t\!B} {^t\!A}$).

$\displaystyle \overline{\lambda} ({^t\overline{v}}v)={^t(\overline{{^t\overline...
... {^t\!\overline{A}} v= {^t\overline{v}} A 
v=\lambda({^t\overline{v}}v)\;,
$

puisque $ A$ est symétrique. Donc $ \lambda=\overline{\lambda}$ : la valeur propre $ \lambda$ est réelle. Considérons l'ensemble des vecteurs orthogonaux à $ v$ :

$\displaystyle E=\{ u\in\mathbb{R}^n ,\; {^tu}v={^tv}u=0 \}\;.
$

L'ensemble $ E$ est le noyau d'une application linéaire de rang $ 1$ (car $ v$ est non nul). C'est donc un sous-espace vectoriel de $ \mathbb{R}^n$, de dimension $ n\!-\!1$. Soit $ u$ un vecteur de $ E$ :

$\displaystyle {^tv}Au={^t({^tv}Au)}={^tu} {^t\!A} v={^tu}Av=\lambda{^tu}v=0\;.
$

Donc $ Au\in E$ (on dit que $ E$ est stable par $ A$). Nous admettrons ici que dans tout espace vectoriel de dimension finie, il est possible de choisir une base orthormale (par exemple grâce au procédé d'orthogonalisation de Gram-Schmidt, vu dans un autre chapitre). Soit $ u_1,\ldots,u_{n-1}$ une base orthonormale de $ E$. Quitte à diviser $ v$ par $ \sqrt{{^t v}v}$, on peut supposer que $ {^tv} v=1$. Par construction, $ (v,u_1,\ldots,u_{n-1})$ est donc une base orthonormale de $ \mathbb{R}^n$. Notons $ P$ la matrice de ses vecteurs colonnes : $ P^{-1} = {^t\!P}$. Au travers du changement de base de matrice de passage $ P$, $ A$ est transformée en une matrice diagonale par blocs :

$\displaystyle P^{-1} A P=\left(\begin{array}{cc} \lambda&0 0&B\end{array}\right)\;.
$

En effet, la première colonne est nulle après le premier terme car $ v$ est un vecteur propre associé à $ \lambda$. La première ligne est nulle après le premier terme car $ E$ est stable par $ A$ : les images de $ u_1,\ldots,u_{n-1}$ appartiennent à $ E$. De plus :

$\displaystyle {^t(P^{-1}A P)} = {^t\!P} {^t\!A} {^t\!P^{-1}}=P^{-1} A P\;,
$

de sorte que $ P^{-1} A P$ est symétrique, donc $ B$ l'est aussi. D'où le résultat, par récurrence sur $ n$.$ \square$


         © UJF Grenoble, 2011                              Mentions légales