Université Paris 5 - René Descartes

UFR de Mathématiques et Informatique

45, rue des Saints-Pères 75270 Paris cedex 06


Maîtrises Math-Mass 2000-2001

Corrigé du partiel du 7 décembre 2000


    1. La densité de la loi de $ X$ se met sous la forme
      $\displaystyle f_{\theta}(x)=\exp\bigl(Q({\theta})T(x)-{\phi}({\theta})\bigr)h(x) $
      avec $ Q({\theta})=\ln(1-{\theta})$, $ T(x)=x$, $ {\phi}({\theta})=-\ln{\theta}$ et $ h(x)=1$. Il s'agit donc d'un modèle exponentiel. L'espace canonique est l'ensemble des paramètres $ {\eta}$ tels que
      $\displaystyle \sum_{x=0}^{+\infty}\exp\bigl({\eta}T(x)\bigr)h(x)<+\infty. $
      Or il s'agit d'une série géométrique dont la somme est bien connue :
      $\displaystyle \sum_{x=0}^{+\infty}\exp\bigl({\eta}T(x)\bigr)h(x)$ $\displaystyle =$ $\displaystyle \sum_{x=0}^{+\infty}(\exp {\eta})^x$  
        $\displaystyle =$ $\displaystyle \frac{1}{1-\exp{\eta}}$ si $\displaystyle \exp{\eta}\in]0,1[$  
        $\displaystyle =$ $\displaystyle +\infty$ si $\displaystyle \exp{\eta}\geq 1$  

      L'espace canonique des paramètres est donc $ \{{\eta}\in{\mathbb{R}}/\exp{\eta}\in]0,1[\}={\mathbb{R}}_-^*$ . C'est un pavé ouvert de $ {\mathbb{R}}$. D'autre part, il n'y a pas de relation affine entre les différents paramètres canoniques, puisqu'il n'y en a qu'un. Même chose pour $ T(x)$. Le modèle est donc de rang plein.

    2. $\displaystyle {\mathbb{E}}_{\theta}[z^X]$ $\displaystyle =$ $\displaystyle \sum_{x=0}^{+\infty}z^x{\theta}(1-{\theta})^x$  
        $\displaystyle =$ $\displaystyle {\theta}\sum_{x=0}^{+\infty}\bigl(z(1-{\theta})\bigr)^x$  
        $\displaystyle =$ $\displaystyle \frac{{\theta}}{1-z(1-{\theta})}$  

      car $ \vert z(1-{\theta})\vert<1$ sous les hypothèses de l'énoncé. Il s'agit d'une série entière de rayon de convergence $ (1-{\theta})^{-1}$, qui est $ C^\infty$ en $ 1$. D'où
      $\displaystyle {\mathbb{E}}_{\theta}[X]$ $\displaystyle =$ $\displaystyle \frac{\mbox{d}}{\mbox{d}z}{\mathbb{E}}_{\theta}[z^X]\vert_{z=1}$  
        $\displaystyle =$ $\displaystyle \frac{{\theta}(1-{\theta})}{(1-z(1-{\theta}))^2}\vert_{z=1}$  
        $\displaystyle =$ $\displaystyle \frac{1-{\theta}}{\theta}$  
      $\displaystyle {\mathbb{E}}_{\theta}[X(X-1)]$ $\displaystyle =$ $\displaystyle \frac{\mbox{d}^2}{\mbox{d}z^2}{\mathbb{E}}_{\theta}[z^X]\vert_{z=1}$  
        $\displaystyle =$ $\displaystyle \frac{2{\theta}(1-{\theta})^2}{(1-z(1-{\theta}))^3}\vert_{z=1}$  
        $\displaystyle =$ $\displaystyle 2\left(\frac{1-{\theta}}{{\theta}}\right)^2$  
      $\displaystyle \mathop{\hbox{ var}}\nolimits _{\theta}(X)$ $\displaystyle =$ $\displaystyle {\mathbb{E}}_{\theta}[X(X-1)]+{\mathbb{E}}_{\theta}[X]-{\mathbb{E}}_{\theta}[X]^2$  
        $\displaystyle =$ $\displaystyle \frac{1-{\theta}}{{\theta}^2}$  

    3. D'après la première question, le modèle est de rang plein, et $ Q({\theta})=\ln(1-{\theta})$ est une fonction continuement dérivable sur $ ]0,1[$, dont la dérivée ne s'annule pas. Le modèle est donc régulier, ce qui signifie en particulier que l'information de Fisher est bien définie.
      $\displaystyle I_1({\theta})$ $\displaystyle =$ $\displaystyle \mathop{\hbox{ var}}\nolimits _{\theta}\Bigl(\frac{\partial}{\partial {\theta}}\ln f_{\theta}(X)\Bigr)$  
        $\displaystyle =$ $\displaystyle \mathop{\hbox{ var}}\nolimits _{\theta}\Bigl(\frac{1}{{\theta}}+\frac{X-1}{1-{\theta}}\Bigr)$  
        $\displaystyle =$ $\displaystyle \frac{1}{(1-{\theta})^2}\mathop{\hbox{ var}}\nolimits _{\theta}(X)\Bigr)$  
        $\displaystyle =$ $\displaystyle \frac{1}{{\theta}^2(1-{\theta})}$  

    1. Notons encore $ f_{\theta}$ la densité de la loi de $ (X_1,\ldots,X_n)$ par rapport à la mesure de comptage sur $ {\mathbb{N}}^n$.
      $\displaystyle f_{\theta}(x_1,\ldots,x_n)$ $\displaystyle =$ $\displaystyle f_{\theta}(x_1)\ldots f_{\theta}(x_n)$$\displaystyle \mbox{ car $X_1,\ldots,X_n$\ sont ind\'ependants}$  
        $\displaystyle =$ $\displaystyle \exp\bigl(Q({\theta})T(x_1,\ldots,x_n)+n\ln{\theta}\bigr)$  

      avec $ T(x_1,\ldots,x_n)=x_1+\cdots+x_n$. Comme à la première question, il s'agit d'un modèle exponentiel de rang plein, l'espace canonique des paramètres étant inchangé. On en déduit que $ T_n=T(X_1,\ldots,X_n)$ est une statistique exhaustive, complète et minimale. Les définitions générales des ces termes ont été vues en cours. Dans le cas présent, cela signifie respectivement (attention aux quantificateurs !)
      1. quel que soit $ A\in{\cal A}^{\otimes n}$, il existe une version de $ {\mathbb{P}}_{\theta}^{\otimes n}(A\vert T_n)$ indépendante de $ {\theta}$ ;
      2. quelle que soit $ f$ application de $ {\mathbb{N}}$ dans $ {\mathbb{R}}$, on a l'implication $ (\forall {\theta}\in]0,1[$, $ {\mathbb{E}}_{\theta}[f(T_n)]=0)\Longrightarrow (f=0)$ ;
      3. quelle que soit $ S$ exhaustive, il existe $ f$ borélienne telle que $ T_n=f(S)$.
      Comme $ Q({\theta})$ est continuement dérivable sur son ensemble de définition, de dérivée ne s'annulant pas, on en déduit aussi que $ T_n$ est une statistique régulière, et que c'est un estimateur UVMB et efficace de son espérance. Or $ {\mathbb{E}}_{\theta}[T_n]={\mathbb{E}}_{\theta}[X_1]+\cdots +{\mathbb{E}}_{\theta}[X_n]=n{\mathbb{E}}_{\theta}[X]=n(\frac{1}{{\theta}}-1)$ .
    2. L'information de Fisher $ I({\theta})$ associée à un $ n$-échantillon de variables aléatoires (indépendantes) est égale à $ n$ fois l'information de Fisher $ I_1({\theta})$ associée à l'une d'entre elles. On a donc
      $\displaystyle I({\theta})=nI_1({\theta})=\frac{n}{{\theta}^2(1-{\theta})} $
    3. Quel que soit $ z\in]-\frac{1}{1-{\theta}},\frac{1}{1-{\theta}}[$, on a
      $\displaystyle {\mathbb{E}}_{\theta}[z^X]^n$ $\displaystyle =$ $\displaystyle {\mathbb{E}}_{\theta}[z^{X_1}]\ldots{\mathbb{E}}_{\theta}[z^{X_n}]$  
        $\displaystyle =$ $\displaystyle {\mathbb{E}}_{\theta}[z^{X_1}\ldots z^{X_n}]$$\displaystyle \mbox{ car les $X_i$\ sont ind\'ependants}$  
        $\displaystyle =$ $\displaystyle {\mathbb{E}}_{\theta}[z^{X_1+\cdots+X_n}]={\mathbb{E}}_{\theta}[z^{T_n}]$  
        $\displaystyle =$ $\displaystyle \sum_{k=0}^{+\infty}z^k{\mathbb{P}}_{\theta}^{\otimes n}(T_n=k)\ \ \ (*)$  

      Or, pour tout $ u\in]-1,1[$,
      $\displaystyle \frac{1}{(1-u)^n}$ $\displaystyle =$ $\displaystyle =\frac{1}{(n-1)!}\frac{\mbox{d}}{\mbox{d}u^{n-1}}\left(\frac{1}{1-u}\right)$  
        $\displaystyle =$ $\displaystyle \frac{1}{(n-1)!}\frac{\mbox{d}}{\mbox{d}u^{n-1}}\left(\sum_{k=0}^{+\infty}u^k\right)$  
        $\displaystyle =$ $\displaystyle \frac{1}{(n-1)!}\sum_{k=0}^{+\infty}(n+k-1)\ldots(k+1)u^k=\sum_{k=0}^{+\infty} \frac{(k+n-1)!}{k!(n-1)!}u^k .$  

      D'où le développement de $ {\mathbb{E}}_{\theta}[z^X]^n$ :
      $\displaystyle {\mathbb{E}}_{\theta}[z^X]^n$ $\displaystyle =$ $\displaystyle \frac{{\theta}^n}{(1-z(1-{\theta}))^n}$  
        $\displaystyle =$ $\displaystyle \sum_{k=0}^{+\infty} \frac{(k+n-1)!}{k!(n-1)!}z^k{\theta}^n(1-{\theta})^k\ \ \ (**)$  

      En comparant $ (*)$ et $ (**)$, et du fait de l'unicité d'un développement en série entière, on en déduit le résultat demandé, i.e.
      $\displaystyle {\mathbb{P}}^{\otimes n}_{\theta}(T_n=k)={\theta}^n(1-{\theta})^k\frac{(k+n-1)!}{k!(n-1)!} $
    1. La vraisemblance du modèle au point $ (x_1,\ldots,x_n)$ est $ L({\theta},x_1,\ldots,x_n)={\theta}^n(1-{\theta})^{x_1+\cdots+x_n}$ . Comme elle ne s'annule pas, on peut considérer plutôt la log-vraisemblance $ \ln L({\theta},x_1,\ldots,x_n)=n\ln{\theta}+(x_1+\cdots+x_n)\ln(1-{\theta})$ . Il s'agit d'en trouver le maximum, en ayant $ {\theta}$ variant dans $ ]0,1[$. Si $ x_1+\cdots+x_n=0$, alors le maximum serait atteint pour $ {\theta}=1$, qui n'est pas une valeur de l'ensemble des paramètres. On peut alors dire qu'il n'y a pas d'estimateur du maximum de vraisemblance, ou plutôt rajouter à l'ensemble des lois possibles la masse de Dirac en 0 en posant $ {\mathbb{P}}_1={\delta}_0$ ; notons qu'on n'a plus alors un modèle exponentiel. Si $ x_1+\cdots+x_n>0$, alors la log-vraisemblance tend vers $ -\infty$ quand $ {\theta}$ tend vers 0 ou vers $ 1$. Le maximum est donc à rechercher dans un intervalle compact du type $ [{\varepsilon},1-{\varepsilon}]$ où la log-vraisemblance est continue. Elle y atteint donc son maximum. Comme elle est y aussi dérivable, ce maximum correspond à un point critique. L'estimateur du maximum de vraisemblance $ \hat{\theta}_m$ doit donc vérifier l'équation de vraisemblance
      $\displaystyle \frac{\partial\ln L}{\partial{\theta}}(\hat{\theta}_m,x_1,\ldots,x_n)=0 $
      Or
      $\displaystyle \frac{\partial}{\partial{\theta}}\ln L({\theta},x_1,\ldots,x_n)=0$ $\displaystyle \Longleftrightarrow$ $\displaystyle \frac{n}{\theta}-\frac{x_1+\cdots+x_n}{1-{\theta}}=0$  
        $\displaystyle \Longleftrightarrow$ $\displaystyle {\theta}=\frac{n}{x_1+\cdots+x_n+n}$  

      Ainsi n'y a-t-il qu'une seule valeur de $ {\theta}$ qui vérifie l'équation de vraisemblance. C'est donc le maximum de vraisemblance :
      $\displaystyle \hat{\theta}_m(x_1,\ldots,x_n)=\frac{n}{x_1+\cdots+x_n+n} $
      Notons que cette formule reste valable pour le cas $ x_1+\cdots+x_n=0$ sous l'hypothèse qu'on a rajouté $ 1$ à l'ensemble des paramètres.

      Cet estimateur est fortement consistant si $ \hat{\theta}_m(X_1,\ldots,X_n)$ converge presque sûrement vers $ {\theta}$ quand la taille de l'échantillon tend vers l'infini. Or les variables aléatoires $ X_i$ sont indépendantes, de même loi et possèdent un premier moment (attention aux hypothèses !). D'après la loi forte des grands nombres, on en déduit que $ \displaystyle \frac{X_1+\cdots+X_n}{n}$ converge presque sûrement vers $ {\mathbb{E}}_{\theta}[X_i]=\frac{1}{\theta}-1$. Cela implique la convergence presque sûre de $ \hat{\theta}_m(X_1,\ldots,X_n)=\displaystyle \frac{1}{\frac{X_1+\cdots+X_n}{n}+1}$ vers $ \displaystyle \frac{1}{\frac{1}{\theta}-1+1}={\theta}$. Autrement dit, on vient de montrer que $ \hat{\theta}_m(X_1,\ldots,X_n)$ est fortement consistant.

      Comme les variables aléatoires $ X_i$ possèdent aussi un deuxième moment (attention aux hypothèses (bis) !), on sait décrire les fluctuations de leur moyenne empirique autour de leur moyenne grâce au théorème central limite : la variable aléatoire

      $\displaystyle \sqrt n\Bigl(\frac{X_1+\cdots+X_n}{n}-\bigl(\frac{1}{\theta}-1\bigr)\Bigr) $
      converge en loi vers une gaussienne centrée de variance $ \mathop{\hbox{ var}}\nolimits _{\theta}(X_i)=\frac{1-{\theta}}{{\theta}^2}$ . Or
      $\displaystyle \hat{\theta}_m(X_1,\ldots,X_n)={\psi}\bigl(\frac{X_1+\cdots+X_n}{n}\bigr) $
      avec $ {\psi}(u)=\frac{1}{1+u}$. On en déduit que
      $\displaystyle \sqrt n(\hat{\theta}_m(X_1,\ldots,X_n)-{\theta})=\sqrt n\Bigl({\p... ...igl(\frac{X_1+\cdots+X_n}{n}\bigr)-{\psi} \bigl(\frac{1}{\theta}-1\bigr)\Bigr) $
      converge en loi vers une gaussienne centrée de variance
      $\displaystyle {\psi}'{}^2\bigl(\frac{1}{\theta}-1\bigr)\frac{1-{\theta}}{{\thet... ...2\frac{1-{\theta}}{{\theta}^2}={\theta}^2(1-{\theta})=\frac{1}{I_1({\theta})}. $
      Or $ S_n$ est un estimateur asymptotiquement efficace de $ g({\theta})$ si $ \sqrt n(S_n-g({\theta}))$ converge en loi vers une gaussienne centrée de variance $ \frac{g'{}^2({\theta})}{I_1({\theta})}$. Ceci montre que $ \hat{\theta}_m(X_1,\ldots,X_n)$ est un estimateur asymptotiquement efficace de $ {\theta}$.
    2. D'après la première question, on sait que
      $\displaystyle {\theta}=\frac{{\mathbb{E}}_{\theta}[X]}{{\mathbb{E}}_{\theta}[X^2]-{\mathbb{E}}_{\theta}[X]^2}. $
      On en déduit, en remplaçant les moments de $ X$ par les moments empiriques, un estimateur de $ {\theta}$ (dont on peut vérifier qu'il est fortement consistant d'après la loi des grands nombres) :
      $\displaystyle {\theta}^*(X_1,\ldots,X_n)$ $\displaystyle =$ $\displaystyle \frac{\frac{X_1+\cdots+X_n}{n}}{\frac{X_1^2+\cdots+X_n^2}{n}-\bigl(\frac{X_1+\cdots+X_n}{n}\bigr)^2}$  
        $\displaystyle =$ $\displaystyle \frac{T_n}{X_1^2+\cdots+X_n^2-\frac{T_n^2}{n}}$  

      On peut construire par cette méthode d'autres estimateurs de $ {\theta}$.
    3. D'après la deuxième question, $ T_n$ est une statistique exhaustive et complète. D'après le théorème de Lehmann-Scheffé, la variable aléatoire $ {\mathbb{E}}_{\theta}[1_{X_1=0}\vert T_n]$ est un estimateur UVMB de $ {\mathbb{E}}_{\theta}[1_{X_1=0}]={\mathbb{P}}_{\theta}^{\otimes n}(X_1=0)={\theta}$ . Or pour tout $ k\in{\mathbb{N}}$
      $\displaystyle {\mathbb{E}}_{\theta}[1_{X_1=0}\vert T_n=k]$ $\displaystyle =$ $\displaystyle {\mathbb{P}}_{\theta}^{\otimes n}(X_1=0\vert T_n=k)$  
        $\displaystyle =$ $\displaystyle \frac{{\mathbb{P}}_{\theta}^{\otimes n}(X_1=0,\ X_1+\cdots+X_n=k)}{{\mathbb{P}}_{\theta}^{\otimes n}(X_1+\cdots+X_n=k)}$  
        $\displaystyle =$ $\displaystyle \frac{{\mathbb{P}}_{\theta}^{\otimes n}(X_1=0,\ X_2+\cdots+X_n=k)}{{\mathbb{P}}_{\theta}^{\otimes n}(X_1+\cdots+X_n=k)}$  
        $\displaystyle =$ $\displaystyle \frac{{\mathbb{P}}_{\theta}^{\otimes n}(X_1=0)\times{\mathbb{P}}_... ...imes n}(X_2+\cdots+X_n=k)}{{\mathbb{P}}_{\theta}^{\otimes n}(X_1+\cdots+X_n=k)}$  
          $\displaystyle \hskip1cm$$\displaystyle \mbox{ car $X_1$\ et $X_2+\cdots+X_n$\ sont ind\'ependants}$  
             
        $\displaystyle =$ $\displaystyle \frac{{\mathbb{P}}_{\theta}^{\otimes n}(X_1=0)\times{\mathbb{P}}_{\theta}^{\otimes n}(T_{n-1}=k)}{{\mathbb{P}}_{\theta}^{\otimes n}(T_n=k)}$  
          $\displaystyle \hskip1cm$$\displaystyle \mbox{ car $T_{n-1}$\ et $X_2+\cdots+X_n$\ ont m\^eme loi}$  
             
        $\displaystyle =$ $\displaystyle \frac{{\theta}\times {\theta}^{n-1}(1-{\theta})^k\frac{(k+n-2)!}{k!(n-2)!}}{{\theta}^n(1-{\theta})^k\frac{(k+n-1)!}{k!(n-1)!}}$ d'après la question 2.(c)  
        $\displaystyle =$ $\displaystyle \frac{n-1}{k+n-1}$  

      Autrement dit,
      $\displaystyle {\mathbb{E}}_{\theta}[1_{X_1=0}\vert T_n]=\frac{n-1}{T_n+n-1} $
      est un estimateur UVMB de $ {\theta}$.
  1. Déterminons un intervalle de confiance pour $ \frac{1}{\theta}-1$ au seuil $ {\alpha}$. D'après la question 2.(a), l'espérance de $ \frac{T_n}{n}$ vaut $ \frac{1}{\theta}-1$. On en déduit, en utilisant l'inégalité de Bienaymé-Tchebycheff, que pour tout $ {\beta}>0$ on a
    $\displaystyle {\mathbb{P}}_{\theta}^{\otimes n}\Bigl(\bigl\vert \frac{T_n}{n}-\... ...rac{1}{\beta^2}\mathop{\hbox{ var}}\nolimits _{\theta}\bigl(\frac{T_n}{n}\bigr)$ $\displaystyle =$ $\displaystyle \frac{1}{\beta^2}\frac{1}{n^2}\mathop{\hbox{ var}}\nolimits _{\theta}(T_n)$  
      $\displaystyle =$ $\displaystyle \frac{1}{n^2\beta^2}n\mathop{\hbox{ var}}\nolimits _{\theta}(X_1)$  
      $\displaystyle =$ $\displaystyle \frac{1-{\theta}}{n{\beta}^2{\theta}^2}$  

    D'où l'inégalité suivante :
    $\displaystyle {\mathbb{P}}_{\theta}^{\otimes n}\Bigl(\frac{1}{\theta}-1\in\bigl[\frac{T_n}{n}-{\beta},\frac{T_n}{n}+{\beta}\bigr]\Bigr)$ $\displaystyle =$ $\displaystyle {\mathbb{P}}_{\theta}^{\otimes n}\Bigl(\bigl\vert \frac{T_n}{n}-\frac{1}{\theta}+1\bigr\vert\leq{\beta}\Bigr)$  
      $\displaystyle =$ $\displaystyle 1-{\mathbb{P}}_{\theta}^{\otimes n}\Bigl(\bigl\vert \frac{T_n}{n}-\frac{1}{\theta}+1\bigr\vert\geq{\beta}\Bigr)$  
      $\displaystyle \geq$ $\displaystyle 1-\frac{1-{\theta}}{n{\beta}^2{\theta}^2}$  

    La fonction $ {\theta}\mapsto1-\frac{1-{\theta}}{n{\beta}^2{\theta}^2}$ est un fonction croissante. Si $ {\theta}\geq 0,5$, alors
    $\displaystyle 1-\frac{1-{\theta}}{n{\beta}^2{\theta}^2}\geq1-\frac{1-0,5}{n{\beta}^2(0,5)^2}=1-\frac{2}{n{\beta}^2} $
    Autrement dit,
    $\displaystyle \forall {\theta}\geq 0,5\ \ {\mathbb{P}}_{\theta}^{\otimes n}\Big... ...c{T_n}{n}-{\beta},\frac{T_n}{n}+{\beta}\bigr]\Bigr)\geq 1-\frac{2}{n{\beta}^2} $
    L'intervalle aléatoire $ \bigl[\frac{T_n}{n}-{\beta},\frac{T_n}{n}+{\beta}\bigr]$ est donc un intervalle de confiance pour $ \frac{1}{\theta}-1$ au seuil $ \frac{2}{n{\beta}^2}$. Pour que ce seuil soit égal à $ {\alpha}$, il suffit de prendre $ {\beta}=\sqrt\frac{2}{n{\alpha}}$. Comme de plus
    $\displaystyle \frac{1}{\theta}-1\in[\frac{T_n}{n}-{\beta},\frac{T_n}{n}+{\beta}... ...igl[\frac{1}{\frac{T_n}{n}+{\beta}+1},\frac{1}{\frac{T_n}{n}-{\beta}+1}\bigr], $
    on en déduit finalement que
    $\displaystyle \forall {\theta}\geq0,5\ \ {\mathbb{P}}_{\theta}^{\otimes n}\Bigl... ...,\frac{1}{\frac{T_n}{n}-\sqrt\frac{2}{n{\alpha}}+1}\bigr]\Bigr)\geq1-{\alpha}. $
    On a ainsi bien déterminé un intervalle de confiance pour $ {\theta}$ au seuil $ {\alpha}$, sachant $ {\theta}\geq 0,5$.
    1. Le modèle statistique est un modèle exponentiel à rapport de vraisemblance croissant en $ -T_n=-(X_1+\cdots+X_n)$ ; en effet, d'après la question 2.(a), la densité de la loi $ {\mathbb{P}}_{\theta}^{\otimes n}$ par rapport à le mesure de comptage sur $ {\mathbb{N}}^n$ s'écrit
      $\displaystyle f_{\theta}(x_1,\ldots,x_n)=\exp\bigl(-\ln(1-{\theta})(-(x_1+\cdots+x_n))+n\ln{\theta}\bigr), $
      et la fonction $ {\theta}\mapsto -\ln(1-{\theta})$ est bien strictement croissante sur $ ]0,1[$ (contrairement à l'avis général...). Or on sait que pour les modèles statistiques à rapport de vraisemblance croissant en une statistique donnée, il existe pour un problème de test d'hypothèses unilatères un test uniformément plus puissant parmi les tests de seuil $ {\alpha}$ fixé. Dans le cas présent, sa fonction critique est de la forme :
      $\displaystyle {\Phi}(x_1,\ldots,x_n)=\left\{ \begin{array}{ll} 1&\mbox{ si }-(x... ...x_n)={\lambda}\ 0&\mbox{ si }-(x_1+\cdots+x_n)<{\lambda} \end{array}\right. $
      avec $ {\gamma},{\lambda}$ déterminés par $ {\mathbb{E}}_{\theta_0}[{\Phi}(X_1,\ldots,X_n)]={\alpha}$ .
    2. On commence par simplifier la fonction critique en supposant $ {\gamma}=1$, ce qui revient à supposer que l'événement $ -(X_1+\cdots+X_n)={\lambda}$ est de probabilité suffisamment petite pour n'intervenir que de façon négligeable dans le calcul du niveau du test. Ce niveau est donc égal à
      $\displaystyle {\mathbb{E}}_{\theta_0}\bigl[{\Phi}(X_1,\ldots,X_n)\bigr]={\mathbb{P}}_{\theta_0}^{\otimes n}\bigl(-T_n\geq{\lambda}\bigr) $
      Pour évaluer cette probabilité, on utilise une approximation gaussienne obtenue grâce au théorème central limite. En effet, $ \frac{T_n}{n}$ est la moyenne d'une somme de variables aléatoires indépendantes, de même loi et de carré intégrable. D'après le théorème central limite, la variable aléatoire
      $\displaystyle \bigl(\frac{T_n}{n}-{\mathbb{E}}_{\theta_0}[X_1]\bigr)\sqrt{n}\fr... ...{n}-\frac{1}{{\theta_0}}+1\bigr)\sqrt{n}\sqrt\frac{{\theta_0}^2}{1-{\theta_0}} $
      converge en loi vers $ Z$ gaussienne centrée réduite, quand $ n$ tend vers l'infini. Ici, $ n$ étant égal à 100, on considère que l'on peut approcher la loi de l'un par la loi de l'autre. D'après la table des quantiles de la loi $ {\cal N}(0,1)$, on sait que $ {\mathbb{P}}(Z\leq -1,2816)\simeq 10\%$. On en déduit que
      $\displaystyle 10\%$ $\displaystyle \simeq$ $\displaystyle {\mathbb{P}}(Z\leq -1,2816)$  
        $\displaystyle \simeq$ $\displaystyle {\mathbb{P}}_{\theta_0}^{\otimes n}\Bigl(\bigl(\frac{T_n}{n}-\fra... ...eta_0}}+1\bigr)\sqrt{n}\sqrt\frac{{\theta_0}^2}{1-{\theta_0}}\leq -1,2816\Bigr)$  
        $\displaystyle \simeq$ $\displaystyle {\mathbb{P}}_{\theta_0}^{\otimes n}\Bigl(-T_n\geq n\bigl(1,2816\sqrt\frac{1-{\theta_0}}{n{\theta_0}^2}-\frac{1}{{\theta_0}}+1\bigr)\Bigr)$  
        $\displaystyle \simeq$ $\displaystyle {\mathbb{P}}_{0,4}^{\otimes 100}(-T_n\geq -125,18)$  

      La zone de rejet pour un test de niveau $ 10\%$ est donc de la forme $ T_n\leq 125$.
  2. Soit $ S(X_1,\ldots,X_n)$ un estimateur de $ {\theta}$. Le risque bayésien de $ S$ est donné par
    $\displaystyle R({\mu},S)=\int_0^1{\mathbb{E}}_{\theta}[(S(X_1,\ldots,X_n)-{\theta})^2]{\mu}(d{\theta}). $
    Comme $ T_n$ est une statistique exhaustive, on déduit du théorème de Rao-Blackwell que $ {\mathbb{E}}_{\theta}[S\vert T_n]$ est un estimateur de risque bayésien plus faible : en effet, la fonction de coût quadratique est bien convexe, donc le risque quadratique associé à $ {\mathbb{E}}_{\theta}[S\vert T_n]$ est plus faible que celui associé à $ S$ pour tout $ {\theta}$ ; d'où l'assertion. $ {\mathbb{E}}_{\theta}[S\vert T_n]$ étant une fonction de $ T_n$ (plus exactement il en existe une version qui soit telle), on peut donc se contenter de rechercher les estimateurs qui minimisent le risque bayésien, autrement dit les estimateurs bayésiens, parmi les fonctions de $ T_n$.

    Soit donc $ g$ une fonction de $ {\mathbb{N}}$ dans $ {\mathbb{R}}$. Calculons le risque bayésien associé à $ g(T_n)$.

    $\displaystyle R({\mu},g(T_n))$ $\displaystyle =$ $\displaystyle \int_0^1{\mathbb{E}}_{\theta}[(g(T_n)-{\theta})^2]{\mu}(d{\theta})$  
      $\displaystyle =$ $\displaystyle \int_0^1\frac{{\Gamma}(a+b)}{{\Gamma}(a){\Gamma}(b)}{\theta}^{a-1... ...(k)-{\theta})^2{\theta}^n(1-{\theta})^k\frac{(k+n-1)!}{k!(n-1)!}\Bigr)d{\theta}$  
      $\displaystyle =$ $\displaystyle \sum_{k=0}^{+\infty}\frac{{\Gamma}(a+b)}{{\Gamma}(a){\Gamma}(b)}\... ...k!(n-1)!}\int_0^1{\theta}^{n+a-1}(1-{\theta})^{k+b-1}(g(k)-{\theta})^2d{\theta}$  

    où l'on a pu intervertir l'ordre de la sommation et de l'intégration dans la mesure où tous les termes étaient positifs. Minimiser le risque bayésien revient donc à minimiser pour chaque $ k$ l'intégrale
        $\displaystyle \int_0^1{\theta}^{n+a-1}(1-{\theta})^{k+b-1}(g(k)-{\theta})^2d{\theta}$  
        $\displaystyle =g(k)^2\int_0^1{\theta}^{n+a-1}(1-{\theta})^{k+b-1}d{\theta}-2g(k... ...\theta})^{k+b-1}d{\theta}+\int_0^1{\theta}^{n+a+1}(1-{\theta})^{k+b-1}d{\theta}$  

    Ce polynôme du deuxième degré en $ g(k)$ trouve est minimal pour
    $\displaystyle g(k)$ $\displaystyle =$ $\displaystyle \frac{\int_0^1{\theta}^{n+a}(1-{\theta})^{k+b-1}d{\theta}}{\int_0^1{\theta}^{n+a-1}(1-{\theta})^{k+b-1}d{\theta}}$  
      $\displaystyle =$ $\displaystyle \frac{{\beta}(n+a+1,k+b)}{{\beta}(n+a,k+b)}$  
      $\displaystyle =$ $\displaystyle \frac{{\Gamma}(n+a+1){\Gamma}(k+b){\Gamma}(n+k+a+b)}{{\Gamma}(n+a){\Gamma}(k+b){\Gamma}(n+k+a+b+1)}$  
      $\displaystyle =$ $\displaystyle \frac{n+a}{n+k+a+b}$  

    où l'on utilise le fait que $ {\Gamma}(n+a+1)=(n+a){\Gamma}(n+a)$ et $ {\Gamma}(n+k+a+b+1)=(n+k+a+b){\Gamma}(n+k+a+b)$.

    On a ainsi montré que $ \frac{n+a}{n+T_n+a+b}$ est un estimateur bayésien de $ {\theta}$.




Thierry Cabanal-Duvillard
2001-07-04