Fiche de mathématiques

Ile mathématiques > maths Agrégation > Modélisation

Espérance conditionnelle et application en modélisation

agrégation : leçon 403 en option probabilité

0.Introduction

1) Filtrage de Kalman-Bucy

On dispose d'un mobile dont la trajectoire est régie par l'équation différentielle:
$\frac{d}{dt}\begin{pmatrix}x(t)\\v(t)\end{pmatrix}=\begin{pmatrix}0&1\\-w^2&-\rho\end{pmatrix}\begin{pmatrix}x(t)\\v(t)\end{pmatrix}$
Cependant le mobile est soumis à desperturbations $V(t)$ , et l'on ne dispose que de mesures discrètes portant sur la position du mobile:
$Y(t)=GX(t)+W(t)$ où $W$ correpond au bruit perturbant l'appareil de mesure.
Finalement en discrétisant on obtient:
$X_{n+1}=\begin{pmatrix}1&h\\-w^2h&1-\rho h\end{pmatrix}X_n+V_n$
$Y_n=\begin{pmatrix}1&0\end{pmatrix}X_n+W_n$
Le but va être de trouver deux estimateurs, l'un permettant de prédire $X_n$ à partir des $n-1$ premières observations, et l'autre d'estimer $X_n$ à l'aide des $n$ premières observations.

2) Standard téléphonique

On suppose que le temps d'attente à un standard téléphonique $X$ suit une loi ${\cal E}(\theta)$ , $\theta\in\mathbb{R}_+^*$ inconnue
On veut estimer $g(\theta)=P_{\theta}(X_1>t)$ à partir de la connaissance du temps d'attente de $n$ personnes.
On connait l'estimateur empirique $\mu_n=\frac{1}{n}\displaystyle\sum_{i=1}^n\mathbb{1}_{X_i>t}$ , cependant on va chercher un estimateur qui soit optimal en ce sens qu'il sera de variance inférieure.

3) Sondage stratifié

On réalise un sondage, sur un échantillon représentatif de la population, à propos d'un referendum, et l'on classe les personnes interrogées selon $3$ classes distinctes.

$\begin{array}{|c|c|c|c|c|} \hline \mbox{Reponse} \setminus \mbox{Classe} & 1 & 2 & 3 & \mbox{Total}\\ \hline \mbox{Oui} & 94 & 120 & 80 & 294 \\ \hline \mbox{Total} & 200 & 300 & 100 & 600\\ \hline \end{array}$

Soit $X=\mathbb{1}_{\lbrace \mbox{ a repondu oui }\rbrace }$ et $Y$ la classe de la personne.
On peut observer que si l'on se restreint a l'une des 3 classes l'espérance de $X$ n'est plus la même.
$E(X|Y=1)=P(X=1|Y=1)=0.47$
On peut noter $E(X|Y)=\displaystyle\sum_{i=1}^3E(X|Y=i)\mathbb{1}_{Y=i}$ .
Et plus généralement si $X$ et $Y$ sont deux variables aléatoires discrètes à valeurs respectives dans $(x_i)_{i\in I}$ et $(y_j)_{j\in J}$ .
$E(X|Y)=\displaystyle\sum_{i\in I,j\in J}P(X=x_i|Y=y_j)x_i$

Soit $(\Omega,{\cal F},{\mathbf P})$ un espace de probabilité. $\cal G\subset F$ une sous tribu.

I.Espérance conditionnelle

Définition: Soit $X\in L^2(\cal F)$ , on appelle espérance conditionnelle de $X$ sachant $\cal G$ , la projection de $X$ sur $L^2(\cal G)$ et on la note $E(X|\cal G)$

Remarque:

L'espérance conditionnelle minimise $E[(X-Y)^2]$ parmi les fonctions $Y$ $\cal G$ -mesurable.
L'espérance conditionnelle même si elle est considérée comme une variable aléatoire n'est en fait définie que presque surement.

Théorème: Soit $X\in L^1$ , alors il existe $Y$ une variable aléatoire $\cal G$ -mesurable vérifiant: $E(|Y|)<\infty$ et $\forall G\in {\cal G}$ $\displaystyle\int_{G}Yd P=\int_GXd P$ .
On note $Y=E[X|\cal G]$

Remarque: En particulier si $Y$ est un représentant de l'espérance conditionnelle de $X$ sachant $\cal G$ , $Y$ vérifie, $E(Y)=E(X)$

Propriété: Si $(A_i)_{i\in {\mathbb{N}^*}}$ est une partition de $\Omega$ , avec $A_n\in \cal F$ et ${\cal G}=\sigma(A_n,n\ge 1)$ .Soit $X\in L^1$ alors $E(X|{\cal G})=\displaystyle\sum_{i\in {\mathbb{N}}^*}E(X|A_i)\mathbb{1}_{A_i}$ .
De plus $E(X|A_i)=\frac{E(X\mathbb{1}_{A_i})}{P(A_i)}$ si $P(A_i)\neq 0$ et peut être choisi arbitrairement dans le cas contraire.

II.Propriétés

Premiers résultats:

L'espérance conditionnelle possède les mêmes propriétes que l'espérance classique (linéarité, croissance monotone, lemme de Fatou, Cv dominé...)
Si $X$ indépendante de $\cal G$ alors $E[X|\cal G]=E[X]$
Si $Y$ est $\cal G$ -mesurable $E[XY|\cal G])YE[X|\cal G]$ et en particulier $E[Y|\cal G]=Y$ .

Exemple: Si $(T_i)_{i\in \lbrace 1,...,n\rbrace }$ sont des va iid et $T=\displaystyle\sum_{i=1}^nT_i$ , on peut montrer que $E[T_1|T]=T/n$ et $E[T|T_1]=(n-1)E[T_1]+T_1$ .

Proposition Si $\cal H\subset\cal G\subset \cal F$ , alors $E(X|{\cal H})=E(E(X|\cal G)|\cal H)$ p.s.

Proposition: $(X_n)$ martingale associée à $\cal G_n$ une filtration, alors à $m$ fixé,
$\forall n>m, E(X_n|\cal G_m)=X_m$ .
De plus $n\rightarrow E(X_n)$ est constant.

Exemple: Urne de Polya, si $X_k$ correspond a la proportion de boule blanche à la k-ème étape.
Sachant que $X_0=\frac{b}{n+b}$ , on a $(X_k)$ qui est une martingale et $E(X_k)=E(X_0)=\frac{b}{n+b}$

III.Filtre de Kalman-Bucy.

1) Vecteurs gaussiens

Définition: Si $X=(X_1,X_2,...,X_n)^t$ et $Y=(Y_1,..Y_m)^t$ sont deux vecteurs aléatoires on définit $E(X|Y)=(E(X_1|Y),...,E(X_n|Y))^t$ .

Proposition: Si $X$ et $Y$ sont deux vecteurs gaussiens dans leur ensemble, de moyenne $m_X$ et $m_Y$ et de matrices de covariances $\Sigma_X$ et $\Sigma_Y$ .
Notons $\Sigma_{XY}=E[(X-m_X)(Y-m_Y)^t]$ , et suppososns $\Sigma_Y$ positive.
Alors $E(X|Y)=m_X+\S_{XY}\S_Y^{-1}(T-m_Y)$ .
Et la covariance de $\widetilde X=X-E[X|Y]$ est $\Sigma_{\widetilde X}=\Sigma_X-\Sigma_{XY}\Sigma_Y^{-1}\Sigma_{YX}$ .

Corollaire: Si $X,Y,Z$ sont trois vecteurs gaussiens dans leur ensemble et si $Y$ et $Z$ sont non corrélés, et $\Sigma_Y$ ainsi que $\Sigma_Z$ sont positives alors:

$E[X|Y,Z]=E[X|Y]+E[X|Z]-m_X$ .

2)Application au filtre de Kalman-Bucy:

Pour cela on va supposer que tous nos vecteurs aléatoires sont des vecteurs gaussiens, que $(V_n)_{n\in \mathbb{N}}$ et $(W_n)_{n\in \mathbb{N}}$ sont indépendants de matrices de covariances $Q_n$ et $R_n$ connues, et que $X_n$ est centré.
On pose ${\cal F}_n=\sigma(Y)$ .
Pour prédire $X_n$ à l'aide des $n-1$ premières observations on va poser ${\widehat X}_n=E[X_n|{\cal F}_{n-1}]$ et pour estimer $X_n$ par les $n$ premières observations on va poser ${\widetilde X}_n=E[X_n|{\cal F}_n]$ .
On obtient par le théorème précédent une formule assez compliqué car il faut inverser une matrice de taile de plus en plus grande ce qui peut donc devenir très fastidieux. Il est donc très utile de donner des formules de récurrence qui permette d'alléger les calculs des prédictions et des matrices d'erreurs.
On va noter par la suite $\Sigma_n=\Sigma_{X_n-{\widehat X}_n}$ et ${\cal X}_n=\Sigma_{X_n-{\widetilde X}_n}$
On a

${\widehat X}_{n+1}=F{\widehat X}_n+K_n(Y_n-G{\widehat X}_n)$
$\Sigma_{n+1}=(F-K_nG)\Sigma_n(F-K_nG)^t+Q_{n+1}+K_nR_nK_n^t$

où $K_n=F\Sigma_nG^t(G\Sigma_nG^t+R_n)^{-1}$ et avec les conditions initiales ${\widehat X}_1=0,\quad \Sigma_1=\Sigma_{X_0}$
Et de la même manière on peut montrer que :

${\widetilde X}_n={\widehat X}_n+H_n(Y_n-G{\widehat X}_n)$
${\cal X}_n=(I_d-H_nG)\Sigma_n$

où $H_n=\Sigma_nG^t(G\Sigma_nG^t+R_n)^{-1}$

Preuve: Posons $I_n=Y_n-E[Y_n|\mathcal{F}_n]=GX_n+W_n-E[GX_n+W_n|\mathcal{F}_n]$ , par indépendance de $W_n$ on obtient $I_n=G(X_n-{\widehat X}_n)+W_n$
$\Sigma_{I_n}=E[I_nI_n^t]=GS_nG^t+R_n$ (par indépendance de $W_n$ )
On a $\mathcal{F}_n=\sigma(\mathcal{F}_{n-1},I_n)$ cela est évident par le fait que $I_n$ est indépendant de $\mathcal{F}_{n-1}$
Ainsi par le corollaire, on obtient que ${\widehat X}_{n+1}=E[X_{n+1}|\mathcal{F}_n]=E[X_{n+1}|\mathcal{F}_n]+E[X_{n+1}|I_n]=F{\widehat X}_n+FE[X_n|I_n]$ Or $FE[X_n|I_n]=\Sigma_{X_nI_n}S_{I_n}^{-1}I_n$
Ainsi ${\widehat X}_{n+1}=F{\widehat X}_n+F\Sigma_{X_nI_n}(GS_nG^t+R_n)^{-1}(Y_n-G{\widehat X}_n)$
Ainsi montrer la première partie de la récurrence revient à montrer que $\Sigma_{X_nI_n}=\Sigma_nG^t$
Or ${\widehat X}_n$ étant indépendant de $I_n$ , on a $\Sigma_{X_nI_n}=E(X_nI_n^t)=E((X_n-{\widehat X}_n)I_n^t)=\Sigma_nG^t$ .
$X_{n+1}-{\widehat X}_{n+1}=FX_n+V_n-(F{\widehat X}_n+K_n(Y_n-G{\widehat X}_n))=F(X_n-{\widehat X}_n)+V_n-K_n(GX_n+W_n-G{\widehat X}_n)=(F-K_nG)(X_n-{\widehat X}_n)+V_n-K_nW_n$ et le résultat final en découle par indépendance des 3 termes.

Ce qui permet de simplifier les calculs car les matrices à inverser sont de tailles constantes et qu'il suffit de connaitres les résultats à une étape précédente pour pouvoir calculer la suivante.

IV.Exhaustivité

Loi conditionnelle: Soit $X$ et $Y$ deux variables aléatoires telles que $Z=(X,Y)$ admette une densité de probabilité $f_{(X,Y)}(x,y)$ .
On peut considérer la fonction
$f_{(X|Y)}(x,y) = \left\lbrace \begin{array}{ll} \frac{f_{(X,Y)}(x,y)}{f_Y(y)} & \qquad \mathrm{si}\quad f_Y(y)>0 \\ 0 & \qquad \mathrm{sinon} \\ \end{array} \right.$
Où $f_Y(y)=\int_{\mathbb{R}}f_{(X,Y)}(x,y)dx$
Ceci nous permet de calculer des espérances conditionneles, ainsi $E[g(X)|Y]=\int_{\mathbb{R}}g(x)f_{(X|Y)}(x,Y)dx$

Application à la file d'attente: Soit $T_{\theta}=E_{\theta}[\mu_n|S_n]P_{\theta}(X_1>t|S_n)$ où $S_n=\displaystyle\sum_{i=1}^nX_i$
Alors on a $f_{(X_1,S_n)}(x,y)=\theta^n e^{-\theta y}\frac{(y-x)^{n-2}}{(n-2)!}\mathbb{1}_{0\le x\le y}$
Et $f_{S_n}(y)=\theta^ne^{-\theta y}\frac{(-y)^{n-1}}{(n-1)!}\mathbb{1}_{y\ge 0}$
Ainsi $T_{\theta}=\frac{S_n-t}{S_n}^{n-1}\mathbb{1}_{S_n\ge t}$

Définition: Une sous-tribu $\cal G$ est dites exhaustive pour le modèle statistique $(\Omega,{\cal F},{\mathbf P_{\theta}})$ si pour toute variable aléatoire réelle positive $X$ sur $\omega,\cal F$ , il existe une version de l'espérance conditionnlle $E_{\theta}[X|\cal G]$ qui ne dépendent pas de $\theta$ .
Une statistique $T$ est dite exhaustive si $\sigma(T)$ l'est.

Proposition: Si $U$ est un estimateur sans biais de $h(\theta)$ de carré intégrable et si $T$ est une statistique exhaustive alors l'estimateur $V=E[U|T]$ est un estimateur sans biais de $h(\theta)$ de risque quadratique plus faible que celui de de $U$ . $E_{\theta}[(V-h(\theta))^2]\le E_{\theta}[(U-h(\theta))^2]$

Définition: $T$ est une statistique complète si pour tout $\phi$ fonction telle que $\phi(T)\in L^1$
$\int \phi(T)P_{\theta}=0\;p.s\quad\forall \theta \Rightarrow \phi=0\;P.p.s$

Propriétés: Si $U$ est un estimateur sans biais de $h(\theta)$ , de carré in tégrable et $t$ une statistique exhaustive et complète, l'estimateur $E[U|T]$ est alors l'unique estimateur sans biais fonction de $T$ et sa variance est $\forall \theta$ inférieur ou égal à la variance de $U$ et est même plus faible que celle de tout estimater sans biais.
Il est uniformément de variance minimum parmi les estimateurs sans biais.

Application Dans le cas de la file d'attente, $S_n$ est une statistique exhaustive et complète.
Donc $E_{\theta}[\mu_n|T]$ est un estimateur UVMB indépendant de $\theta$

Bibliographie

[R]: D.Revuz "Probabilités"
[BMP]: Baldi-Mazliak-Priouret "Martingales et chaînes de Markov"
[DCD]: Dacunha Castelle Duflo "Probabilités et statistiques 1"
[W]: Williams "Probability with Martingales"
[B]: Brémaud "Introducton aux probabilités"
[S]: Saporta "Probabilité-Analyse des données et statistiques"
[Sh]: Sheldon Ross

Publié par Tom_Pascal le 01-12-2017

ceci n'est qu'un extrait
Pour visualiser la totalité des cours vous devez vous inscrire / connecter (GRATUIT)
Inscription Gratuite se connecter

Cette fiche

Imprimer
Réduire / Agrandir
Pour plus d'options, Connectez vous
Forum de maths

Forum enseignement
Plus de 1 037 topics de mathématiques en enseignement sur le forum.