Devoir

Essayez de bien rédiger vos réponses, sans vous reporter ni au cours, ni au corrigé. Si vous souhaitez vous évaluer, donnez-vous trois heures ; puis comparez vos réponses avec le corrigé et comptez un point pour chaque question à laquelle vous aurez correctement répondu.


Questions de cours :  

  1. Tirer un échantillon $ x$ de taille $ 1000$ de la loi exponentielle $ \mathcal{E}(1)$. Calculer la moyenne et l'écart-type empiriques, ainsi que les quantiles d'ordre $ 0.25$, $ 0.5$, $ 0.75$.
  2. Représenter un histogramme des valeurs obtenues en bleu. Superposer sur le même graphique une estimation de la densité en vert et la densité exacte de la loi $ \mathcal{E}(1)$ en rouge.
  3. Représenter la fonction de répartition empirique de $ x$ en bleu. Superposer sur le même graphique la fonction de répartition théorique en rouge.
  4. On considère l'échantillon des parties entières des valeurs de $ x$. Calculer la table de fréquence des valeurs observées, puis représenter un diagramme en bâtons en bleu. Juxtaposer sur le même graphique les probabilités de la loi géométrique de paramètre $ 1-\exp(-1)$, en rouge.
  5. Appliquer le test de Kolmogorov-Smirnov bilatéral pour tester l'ajustement de l'échantillon $ x$ à la loi $ \mathcal{E}(1)$. Extraire du résultat la p-valeur.

Problème : Soit $ (X_1,\ldots,X_n)$ un échantillon de la loi exponentielle $ \mathcal{E}(\lambda)$, de densité $ \lambda\mathrm{e}^{-\lambda x}$ sur $ \mathbb{R}^+$. L'estimateur du maximum de vraisemblance pour $ \lambda$ est noté $ T$. C'est l'inverse de la moyenne empirique :

$\displaystyle T = \frac{n}{X_1+\cdots+X_n}\;.
$

On admettra que l'espérance de $ T$ vaut $ \lambda n/(n-1)$, et que $ n\lambda/T$ suit la loi gamma $ {\cal G}(n,1)$. On note $ T'=T(n-1)/n$ l'estimateur sans biais basé sur $ T$.
  1. Tirer $ 1000$ échantillons de taille $ 20$ de la loi $ \mathcal{E}(\lambda)$, pour $ \lambda=2$. Pour chacun des 1000 échantillons, calculer l'estimation ponctuelle de $ \lambda$ par l'inverse de la moyenne empirique, puis la valeur débiaisée. Représenter les estimations de densité de ces deux échantillons d'estimations. Superposer sur le même graphique une ligne verticale donnant la vraie valeur.
  2. Écrire une fonction ic.moy qui prend en entrée un vecteur de données X et un niveau de confiance nc (valeur par défaut $ 0.95$), et qui retourne en sortie un vecteur à deux entrées contenant les bornes de l'intervalle de confiance pour $ \lambda$, déduit de l'intervalle de confiance générique sur la moyenne (fonction t.test).
  3. Écrire une fonction ic.sym qui prend en entrée un vecteur de données X et un niveau de confiance nc (valeur par défaut $ 0.95$), et qui retourne en sortie un vecteur à deux entrées contenant les bornes de l'intervalle de confiance symétrique de niveau nv pour l'échantillon X, basé sur la loi gamma.
  4. Ecrire une fonction test.gamma qui prend en entrée un vecteur de données X et une valeur du paramètre la0, et qui retourne les p-valeurs de 2 tests unilatéraux de l'hypothèse $ \mathcal{H}_0 : \lambda=$la0, contre $ \mathcal{H}_1 : \lambda>$la0. Le premier test est le test de la moyenne (fonction t.test), le second utilise la loi de $ T$ (fonction pgamma).
  5. On considère deux autres estimateurs de $ \lambda$.

    $\displaystyle T_{1} = \left(\frac{1}{2n}(X_1^2+\cdots+X_n^2)
\right)^{-1/2}$   et$\displaystyle \quad
T_{2} = \frac{\log(2)}{M}\;,
$

    $ M$ désigne la médiane de l'échantillon. Sur les 1000 échantillons de taille 20 de la question 1, calculer les estimations obtenues par $ T$, $ T'$, $ T_1$ et $ T_2$. Représenter sur un même graphique les 4 diagrammes en boîte verticaux (fonction boxplot). Représenter la vraie valeur par un trait horizontal.
  6. Tirer un échantillon de taille $ n=1000$ de la loi $ \mathcal{E}(\lambda)$, pour $ \lambda=2$ : $ (X_i)$. On note $ x_1,\ldots,x_{n-1}$ les valeurs de $ (X_i)$ rangées par ordre croissant (statistiques d'ordre, sauf le maximum). Pour tout $ i=1,\ldots,n-1$, on pose $ y_i=-\log(1-1/i)$. Calculer la pente et l'ordonnée à l'origine de la droite de regression linéaire des $ y_i$ sur les $ x_i$. Représenter sur un même graphique la droite de régression linéaire et les points de coordonnées $ (x_i,
y_i)$.
  7. On appelle $ T_r$ la pente de la droite de regression calculée comme dans la question précédente : c'est un nouvel estimateur de $ \lambda$. Écrire une fonction reg.est qui prend en entrée un vecteur de données X, et retourne la valeur de $ T_r$.
  8. Écrire une fonction compare.est, qui prend en entrée une valeur lambda, deux entiers E et n. La fonction tire E échantillons de taille n de la loi exponentielle de paramètre lambda. Elle calcule pour chacun les estimations obtenues par $ T$, $ T'$, $ T_1$, $ T_2$, et $ T_r$. Elle calcule ensuite l'erreur quadratique moyenne des E estimations pour chacun des 5 estimateurs. Elle retourne dans une table ces 5 erreurs quadratiques moyennes.
  9. Tirer deux échantillons de taille $ n=1000$ de la loi $ \mathcal{E}(1)$ : $ (X_1,\ldots,X_n)$ et $ (Y_1,\ldots,Y_n)$. Parmi les valeurs du premier échantillon, conserver les valeurs $ X_i$ qui vérifient $ Y_i>(1-X_i)^2/2$. Soit $ (U_i)$ l'échantillon des valeurs conservées. Représenter un histogramme de l'échantillon $ (U_i^2)$. Superposer sur le même graphique la densité de la loi de chi-deux à $ 1$ degré de liberté.
  10. Affecter chaque valeur de $ (U_i)$ du signe $ +$ ou $ -$, choisi avec probabilité $ 1/2$. Soit $ (Z_i)$ l'échantillon ainsi obtenu. Reésenter la fonction de répartition empirique de l'échantillon $ (Z_i)$. Superposer sur le même graphique la fonction de répartition théorique de la loi $ \mathcal {N}(0,1)$.
  11. Vérifier l'ajustement de l'échantillon $ (Z_i)$ à la loi $ \mathcal {N}(0,1)$ :
    1. par les quantiles (fonction qqnorm),
    2. par le test de Shapiro-Wilk (fonction shapiro.test),
    3. par le test de Kolmogorov-Smirnov (fonction ks.test).
  12. Simuler trois échantillons de taille $ n=1000$ de la loi $ \mathcal{E}(1)$ : $ (X_i)$, $ (Y_i)$, $ (Z_i)$. Pour tout $ i=1,\ldots,n$, on pose :

    $\displaystyle S_i=\frac{X_i}{X_i+Y_i+Z_i}$   et$\displaystyle \quad
T_i=\frac{X_i+Y_i}{X_i+Y_i+Z_i}\;.
$

    Représenter par des points dans le plan les couples $ (S_i,T_i)$. Vérifier par le test de Kolmogorov-Smirnov, l'ajustement de l'échantillon $ S_i$ à la loi bêta $ \mathcal{B}(1,2)$, et l'ajustement de l'échantillon $ (T_i)$ à la loi bêta $ \mathcal{B}(2,1)$.
  13. Simuler deux échantillons de taille $ n=1000$ de la loi uniforme sur $ [0,1]$ : $ (U_i)$ et $ (V_i)$. Pour tout $ i=1,\ldots,n$, on pose :

    $\displaystyle S'_i=\min\{U_i,V_i\}$   et$\displaystyle \quad
T'_i=\max\{U_i,V_i\} \;.
$

    Vérifier l'ajustement des deux échantillons $ S$ et $ S'$ d'une part, $ T$ et $ T'$ d'autre part, par :
    1. le test de Kolmogorov-Smirnov
    2. le test de Wilcoxon (fonction wilcox.test)
  14. Pour $ \lambda=1/2$, tirer un échantillon de taille $ n=1000$ de la loi $ \mathcal{E}(1/2)$ : $ (T_i)$. Pour tout $ i=1,\ldots,n$, calculer $ p_i=\exp(-T_i)$, et simuler une variable aléatoire $ Y_i$, de loi géométrique de paramètre $ p_i$ (le tout sans utiliser de boucle). Représenter les valeurs de l'échantillon par un diagramme en boîte. Calculer les déciles et le maximum.
  15. On admettra que pour tout entier $ k\in \mathbb{N}$, la probabilité que $ Y_i$ prenne la valeur $ k$ est $ \lambda B((\lambda+1),(k+1))$, où $ B(x,y)$ désigne la fonction beta. Dans l'échantillon $ Y$, remplacer toutes les valeurs supérieures à 10 par 10. Calculer les probabilités théoriques, puis appliquer le test du chi-deux d'ajustement (fonction chisq.test).


         © UJF Grenoble, 2011                              Mentions légales