Extrema

Le but de cette section est d'étudier les variations d'une fonction $ f$ de $ \mathbb{R}^n$ dans $ \mathbb{R}$, et en particulier de déterminer les points de l'espace où elle atteint son maximum et son minimum. Afin de mieux visualiser les notions introduites, nous nous plaçons en dimension $ 2$. La fonction $ f :\;(x,y)\mapsto f(x,y)$ se représente par la surface d'équation $ z=f(x,y)$ dans l'espace. Nous commençons par la notion de dérivée directionnelle.

Définition 8   Soit $ D$ un domaine ouvert de $ \mathbb{R}^2$ et $ f$ une fonction continûment différentiable sur $ D$. Soit $ (a,b)$ un point de $ D$ et $ (u,v)$ un vecteur non nul de $ \mathbb{R}^2$. On appelle dérivée directionnelle de $ f$ en $ (a,b)$ dans la direction de $ (u,v)$ la quantité :

$\displaystyle \frac{\partial f}{\partial x}(a,b) u+
\frac{\partial f}{\partial y}(a,b) v\;.
$

Pour comprendre cette définition, considérons la fonction $ g$ de $ \mathbb{R}$ dans $ \mathbb{R}$, qui à $ t$ associe :

$\displaystyle g(t)=f(a+tu,b+tv)\;.
$

Elle définit une courbe sur la surface d'équation $ z=f(x,y)$, au-dessus de la droite $ \{(a+tu,b+tv) ,\;t\in\mathbb{R}\}$ (voir figure 6). On dérive cette fonction par rapport à $ t$ comme une fonction composée :
$\displaystyle g'(t)$ $\displaystyle =$ $\displaystyle \frac{\mathrm{d}}{\mathrm{d}t}f(a+tu,b+tv)$  
  $\displaystyle =$ $\displaystyle \frac{\partial f}{\partial x}(a+tu,b+tv)  \frac{\mathrm{d}(a+tu)...
...ac{\partial f}{\partial y}(a+tu,b+tv)  \frac{\mathrm{d}(b+tv)}{\mathrm{d}t}\;.$  

Soit en $ t=0$ :

$\displaystyle g'(0)=
\frac{\partial f}{\partial x}(a,b) u+
\frac{\partial f}{\partial y}(a,b) v\;.
$

La dérivée directionnelle décrit les variations de $ f(a+tu,b+tv)$ autour de $ (a,b)$, dans la direction du vecteur $ (u,v)$.
Figure 6: Dérivée directionnelle.
\includegraphics[width=7cm]{derdirect}
La direction selon laquelle la croissance de la surface est la plus forte est celle du gradient de la fonction. À titre d'exemple, nous avons représenté sur la figure 7 quelques valeurs du gradient de la fonction $ \sin(xy)$. Pour comparaison, nous avons mis à côté une représentation de la fonction par niveaux de gris : au lieu de la surface $ z=\sin(xy)$ (figure 4), les valeurs de la fonction sont symbolisées par des niveaux de gris, d'autant plus clairs que les valeurs sont plus fortes. Les points blancs sont des maxima de la fonction, et les points noirs des minima. On constate que le gradient, s'il est non nul, est toujours orienté vers le haut, dans la direction de la «ligne de plus grande pente».
Figure: Représentation par niveaux de gris de $ z=\sin(xy)$ et champ de gradient correspondant.
\includegraphics[width=7cm]{sinxy_gris} \includegraphics[width=7cm]{gradsinxy}
Sur la figure 7, on observe que le gradient est nul pour les maxima et les minima. Définissons d'abord la notion de maximum et minimum local.

Définition 9   Soit $ D$ un domaine ouvert de $ \mathbb{R}^2$, $ f$ une fonction définie sur $ D$, et $ (a,b)$ un point de $ D$. On dit que $ f$ admet un maximum (respectivement un minimum) local en $ (a,b)$, s'il existe $ \epsilon>0$ tel que $ f(a,b)\geqslant
f(x,y)$ (respectivement $ f(a,b)\leqslant f(x,y)$), pour tout $ (x,y)$ tel que $ \vert x-a\vert<\epsilon$ et $ \vert y-b\vert<\epsilon$.

Théorème 5   Soit $ D$ un domaine ouvert de $ \mathbb{R}^2$ et $ f$ une fonction continûment différentiable sur $ D$. Soit $ (a,b)$ un point de $ D$. Si $ f$ admet un maximum local ou un minimum local en $ (a,b)$ alors le gradient de $ f$ au point $ (a,b)$ est nul :

$\displaystyle \frac{\partial f}{\partial x}(a,b) = \frac{\partial f}{\partial y}(a,b)=0\;.
$

Démonstration : Si $ f$ admet un extremum (maximum ou minimum) local en $ (a,b)$ alors il en est de même si on restreint $ f$ à la direction $ (u,v)$ autour de $ (a,b)$. La dérivée de la fonction (de $ t$) $ f(a+tu,b+tv)$ doit donc être nulle en $ t=0$. Donc :

$\displaystyle \frac{\mathrm{d}}{\mathrm{d}t}f(a,b)=
\frac{\partial f}{\partial x}(a,b) u+
\frac{\partial f}{\partial y}(a,b) v=0\;.
$

Mais les dérivées directionnelles ne peuvent être nulles dans toutes les directions que si le gradient lui même est nul.$ \square$ Les points du plan où le gradient de $ f$ s'annule sont les points critiques de $ f$. La nullité du gradient n'est qu'une condition nécessaire pour qu'un point soit un extremum. Rappelons tout d'abord quelle est la situation pour les fonctions d'une variable, deux fois continûment dérivable. Si la fonction $ t\mapsto g(t)$ admet un maximum ou un minimum local en $ t=0$ alors $ g'(0)=0$. Réciproquement :
$ \bullet$
Si $ g'(0)=0$ et si $ g''(0)<0$, alors 0 est un maximum local pour $ g$.
$ \bullet$
Si $ g'(0)=0$ et si $ g''(0)>0$, alors 0 est un minimum local pour $ g$.
Revenons alors à une fonction de $ 2$ variables, que nous supposons deux fois continûment différentiable. Examinons cette fonction dans la direction $ (u,v)$ autour de $ (a,b)$.

$\displaystyle g(t)=f(a+tu,b+tv)\;.
$

Le point $ (a,b)$ sera un maximum de $ f$ si 0 est un maximum pour $ g$, quelle que soit la direction $ (u,v)$. Calculons la dérivée seconde de $ g$ :

\begin{displaymath}
\begin{array}{rcl}
\displaystyle{
\frac{\mathrm{d}^2}{\mathr...
...c{\partial^2 f}{\partial y^2}(a+tu,b+tv) v^2} \;.
\end{array}\end{displaymath}

Donc en $ t=0$ :

$\displaystyle g''(0)=
\frac{\partial^2 f}{\partial x^2}(a,b) u^2+
2\frac{\part...
...artial x\partial y}(a,b) uv+
\frac{\partial^2 f}{\partial y^2}(a,b) v^2 \;.
$

Cette expression peut s'écrire sous la forme matricielle suivante, qui fait intervenir la matrice hessienne de $ f$.

\begin{displaymath}
(u,v)
\left(
\begin{array}{cc}
\frac{\partial^2 f}{\partial...
...) H
\left(
\begin{array}{c}
u [2ex]
v
\end{array}\right)\;.
\end{displaymath}

Il se trouve que, comme pour toute matrice symétrique réelle, il existe une matrice orthogonale $ P\in {\cal M}_{2,2}(\mathbb{R})$ (vérifiant $ P^{-1}={^tP}$) et deux réels $ \lambda$ et $ \mu$ tels que :

\begin{displaymath}
H
= P
\left(
\begin{array}{cc}
\lambda&0 [2ex]
0&\mu
\end{array}\right)
P^{-1}\;.
\end{displaymath}

Les réels $ \lambda$ et $ \mu$ sont les valeurs propres de la matrice hessienne. Pour les calculer, il suffit de connaître leur somme, qui est la trace de la matrice hessienne, et leur produit, qui est son déterminant.

$\displaystyle \lambda+\mu =
\frac{\partial^2 f}{\partial x^2}(a,b)+
\frac{\partial^2 f}{\partial y^2}(a,b)$   et$\displaystyle \quad
\lambda\mu=
\left(\frac{\partial^2 f}{\partial x^2}(a,b)
\f...
...^2}(a,b)\right)
-\left(\frac{\partial^2 f}{\partial x\partial y}(a,b)\right)^2
$

On résoud alors l'équation du second degré dont $ \lambda$ et $ \mu$ sont solution. Posons :

\begin{displaymath}
\left(
\begin{array}{c}
u_* [2ex]
v_*
\end{array}\right)
=...
...\end{array}\right)
\;\Longleftrightarrow
(u_*,v_*) = (u,v)P\;.
\end{displaymath}

La dérivée seconde de $ g$ en 0 s'écrit :

\begin{displaymath}
g''(0) = (u_*,v_*)
\left(
\begin{array}{cc}
\lambda&0 [2ex...
..._* [2ex]
v_*
\end{array}\right)
= \lambda u_*^2+\mu v_*^2\;.
\end{displaymath}

Le signe de $ g''(0)$ dépend donc des signes de $ \lambda$ et $ \mu$.
$ \bullet$
Si $ \lambda<0$ et $ \mu<0$, alors $ g''(0)<0$ quelle que soit la direction $ (u,v)$, donc le point $ (a,b)$ est un maximum local pour $ f$.
$ \bullet$
Si $ \lambda>0$ et $ \mu>0$, alors $ g''(0)>0$ quelle que soit la direction $ (u,v)$, donc le point $ (a,b)$ est un minimum local pour $ f$.
$ \bullet$
Si $ \lambda>0$ et $ \mu<0$, alors $ g''(0)<0$ dans la direction $ (u_*,0)P$, et $ g''(0)>0$ dans la direction $ (0,v_*)P$. Dans ce cas on dit que le point $ (a,b)$ est un point selle pour $ f$.
Les trois cas sont illustrés sur la figure 8.
Figure 8: Maximum, minimum et point selle pour une fonction de $ \mathbb{R}^2$ dans $ \mathbb{R}$.
\includegraphics[width=5cm]{max} \includegraphics[width=5cm]{min} \includegraphics[width=5cm]{selle}
Voici un exemple.

$\displaystyle f(x,y) = x^3+3xy^2-15x-12y\;.
$

Le gradient et la matrice hessienne au point $ (x,y)$ sont :

\begin{displaymath}
\nabla = \left(
\begin{array}{c}
3x^2+3y^2-15\\
6xy -12
\en...
... \left(
\begin{array}{cc}
6x&6y\\
6y&6x
\end{array}\right)\;.
\end{displaymath}

Le gradient s'annule en 4 points dans le plan. Nous les donnons avec les valeurs propres de la matrice hessienne et la nature du point.

\begin{displaymath}
\begin{array}{lll}
(2,1)&\lambda=6 ,\;\mu=18&\mbox{minimum}...
...(-1,-2)&\lambda=6 ,\;\mu=-18&\mbox{point selle}\\
\end{array}\end{displaymath}

L'étude précédente se généralise aux fonctions de $ \mathbb{R}^n$ dans $ \mathbb{R}$.

Théorème 6   Soit $ D$ un domaine ouvert de $ \mathbb{R}^n$, $ f$ une fonction deux fois continûment différentiable sur $ D$ et $ (a,b)$ un point de $ D$. Notons $ \nabla$ le gradient et $ H$ la matrice hessienne de $ f$ au point $ (a,b)$.
  1. Si $ \nabla=0$ et si $ H$ a toutes ses valeurs propres strictement négatives, alors $ (a,b)$ est un maximum local pour $ f$.
  2. Si $ \nabla=0$ et si $ H$ a toutes ses valeurs propres strictement positives, alors $ (a,b)$ est un minimum local pour $ f$.

Les valeurs propres de $ H$ sont les racines du polynôme $ \Pi(x)$, où $ \Pi(x)$ est le déterminant de la matrice $ H-xI$, $ I$ étant la matrice indentité de taille $ n\times n$.

         © UJF Grenoble, 2011                              Mentions légales