Espérance conditionnelle et application en modélisation
agrégation : leçon 403 en option probabilité
0.Introduction
1) Filtrage de Kalman-Bucy
On dispose d'un mobile dont la trajectoire est régie par l'équation différentielle:
Cependant le mobile est soumis à desperturbations
![V(t)](https://latex.ilemaths.net/latex-0.tex?V(t))
, et l'on ne dispose que de mesures discrètes portant sur la position du mobile:
![Y(t)=GX(t)+W(t)](https://latex.ilemaths.net/latex-0.tex?Y(t)=GX(t)+W(t))
où
![W](https://latex.ilemaths.net/latex-0.tex?W)
correpond au bruit perturbant l'appareil de mesure.
Finalement en discrétisant on obtient:
Le but va être de trouver deux estimateurs, l'un permettant de prédire
![X_n](https://latex.ilemaths.net/latex-0.tex?X_n)
à partir des
![n-1](https://latex.ilemaths.net/latex-0.tex?n-1)
premières
observations, et l'autre d'estimer
![X_n](https://latex.ilemaths.net/latex-0.tex?X_n)
à l'aide des
![n](https://latex.ilemaths.net/latex-0.tex?n)
premières observations.
2) Standard téléphonique
On suppose que le temps d'attente à un standard téléphonique
![X](https://latex.ilemaths.net/latex-0.tex?X)
suit une loi
![{\cal E}(\theta)](https://latex.ilemaths.net/latex-0.tex?{\cal E}(\theta))
,
![\theta\in\mathbb{R}_+^*](https://latex.ilemaths.net/latex-0.tex?\theta\in\mathbb{R}_+^*)
inconnue
On veut estimer
![g(\theta)=P_{\theta}(X_1>t)](https://latex.ilemaths.net/latex-0.tex?g(\theta)=P_{\theta}(X_1>t))
à partir de la connaissance du temps d'attente de
![n](https://latex.ilemaths.net/latex-0.tex?n)
personnes.
On connait l'estimateur empirique
![\mu_n=\frac{1}{n}\displaystyle\sum_{i=1}^n\mathbb{1}_{X_i>t}](https://latex.ilemaths.net/latex-0.tex?\mu_n=\frac{1}{n}\displaystyle\sum_{i=1}^n\mathbb{1}_{X_i>t})
, cependant on va chercher un estimateur qui soit optimal en ce sens qu'il sera de variance inférieure.
3) Sondage stratifié
On réalise un sondage, sur un échantillon représentatif de la population, à propos d'un referendum, et l'on classe les personnes interrogées selon
![3](https://latex.ilemaths.net/latex-0.tex?3)
classes distinctes.
Soit
![X=\mathbb{1}_{\lbrace \mbox{ a repondu oui }\rbrace }](https://latex.ilemaths.net/latex-0.tex?X=\mathbb{1}_{\lbrace \mbox{ a repondu oui }\rbrace })
et
![Y](https://latex.ilemaths.net/latex-0.tex?Y)
la classe de la personne.
On peut observer que si l'on se restreint a l'une des 3 classes l'espérance de
![X](https://latex.ilemaths.net/latex-0.tex?X)
n'est plus la même.
On peut noter
![E(X|Y)=\displaystyle\sum_{i=1}^3E(X|Y=i)\mathbb{1}_{Y=i}](https://latex.ilemaths.net/latex-0.tex?E(X|Y)=\displaystyle\sum_{i=1}^3E(X|Y=i)\mathbb{1}_{Y=i})
.
Et plus généralement si
![X](https://latex.ilemaths.net/latex-0.tex?X)
et
![Y](https://latex.ilemaths.net/latex-0.tex?Y)
sont deux variables aléatoires discrètes à valeurs respectives dans
![(x_i)_{i\in I}](https://latex.ilemaths.net/latex-0.tex?(x_i)_{i\in I})
et
![(y_j)_{j\in J}](https://latex.ilemaths.net/latex-0.tex?(y_j)_{j\in J})
.
Soit
![(\Omega,{\cal F},{\mathbf P})](https://latex.ilemaths.net/latex-0.tex?(\Omega,{\cal F},{\mathbf P}))
un espace de probabilité.
![\cal G\subset F](https://latex.ilemaths.net/latex-0.tex?\cal G\subset F)
une sous tribu.
I.Espérance conditionnelle
Définition: Soit
![X\in L^2(\cal F)](https://latex.ilemaths.net/latex-0.tex?X\in L^2(\cal F))
, on appelle espérance conditionnelle de
![X](https://latex.ilemaths.net/latex-0.tex?X)
sachant
![\cal G](https://latex.ilemaths.net/latex-0.tex?\cal G)
, la projection de
![X](https://latex.ilemaths.net/latex-0.tex?X)
sur
![L^2(\cal G)](https://latex.ilemaths.net/latex-0.tex? L^2(\cal G))
et on la note
Remarque:
- L'espérance conditionnelle minimise
parmi les fonctions
-mesurable.
- L'espérance conditionnelle même si elle est considérée comme une variable aléatoire n'est en fait définie que presque surement.
Théorème: Soit
![X\in L^1](https://latex.ilemaths.net/latex-0.tex?X\in L^1)
, alors il existe
![Y](https://latex.ilemaths.net/latex-0.tex?Y)
une variable aléatoire
![\cal G](https://latex.ilemaths.net/latex-0.tex?\cal G)
-mesurable vérifiant:
![E(|Y|)<\infty](https://latex.ilemaths.net/latex-0.tex?E(|Y|)<\infty)
et
![\displaystyle\int_{G}Yd P=\int_GXd P](https://latex.ilemaths.net/latex-0.tex?\displaystyle\int_{G}Yd P=\int_GXd P)
.
On note
Remarque: En particulier si
![Y](https://latex.ilemaths.net/latex-0.tex?Y)
est un représentant de l'espérance conditionnelle de
![X](https://latex.ilemaths.net/latex-0.tex?X)
sachant
![\cal G](https://latex.ilemaths.net/latex-0.tex?\cal G)
,
![Y](https://latex.ilemaths.net/latex-0.tex?Y)
vérifie,
Propriété: Si
![(A_i)_{i\in {\mathbb{N}^*}}](https://latex.ilemaths.net/latex-0.tex?(A_i)_{i\in {\mathbb{N}^*}})
est une partition de
![\Omega](https://latex.ilemaths.net/latex-0.tex?\Omega)
, avec
![A_n\in \cal F](https://latex.ilemaths.net/latex-0.tex?A_n\in \cal F)
et
![{\cal G}=\sigma(A_n,n\ge 1)](https://latex.ilemaths.net/latex-0.tex?{\cal G}=\sigma(A_n,n\ge 1))
.Soit
![X\in L^1](https://latex.ilemaths.net/latex-0.tex?X\in L^1)
alors
![E(X|{\cal G})=\displaystyle\sum_{i\in {\mathbb{N}}^*}E(X|A_i)\mathbb{1}_{A_i}](https://latex.ilemaths.net/latex-0.tex?E(X|{\cal G})=\displaystyle\sum_{i\in {\mathbb{N}}^*}E(X|A_i)\mathbb{1}_{A_i})
.
De plus
![E(X|A_i)=\frac{E(X\mathbb{1}_{A_i})}{P(A_i)}](https://latex.ilemaths.net/latex-0.tex?E(X|A_i)=\frac{E(X\mathbb{1}_{A_i})}{P(A_i)})
si
![P(A_i)\neq 0](https://latex.ilemaths.net/latex-0.tex?P(A_i)\neq 0)
et peut être choisi arbitrairement dans le cas contraire.
II.Propriétés
Premiers résultats:
- L'espérance conditionnelle possède les mêmes propriétes que l'espérance classique (linéarité, croissance monotone, lemme de Fatou, Cv dominé...)
- Si
indépendante de
alors ![E[X|\cal G]=E[X]](https://latex.ilemaths.net/latex-0.tex?E[X|\cal G]=E[X])
- Si
est
-mesurable
et en particulier
.
Exemple: Si
![(T_i)_{i\in \lbrace 1,...,n\rbrace }](https://latex.ilemaths.net/latex-0.tex?(T_i)_{i\in \lbrace 1,...,n\rbrace })
sont des va iid et
![T=\displaystyle\sum_{i=1}^nT_i](https://latex.ilemaths.net/latex-0.tex?T=\displaystyle\sum_{i=1}^nT_i)
, on peut montrer que
![E[T_1|T]=T/n](https://latex.ilemaths.net/latex-0.tex?E[T_1|T]=T/n)
et
![E[T|T_1]=(n-1)E[T_1]+T_1](https://latex.ilemaths.net/latex-0.tex?E[T|T_1]=(n-1)E[T_1]+T_1)
.
Proposition Si
![\cal H\subset\cal G\subset \cal F](https://latex.ilemaths.net/latex-0.tex?\cal H\subset\cal G\subset \cal F)
, alors
![E(X|{\cal H})=E(E(X|\cal G)|\cal H)](https://latex.ilemaths.net/latex-0.tex?E(X|{\cal H})=E(E(X|\cal G)|\cal H))
p.s.
Proposition: ![(X_n)](https://latex.ilemaths.net/latex-0.tex?(X_n))
martingale associée à
![\cal G_n](https://latex.ilemaths.net/latex-0.tex?\cal G_n)
une filtration, alors à
![m](https://latex.ilemaths.net/latex-0.tex?m)
fixé,
![\forall n>m, E(X_n|\cal G_m)=X_m](https://latex.ilemaths.net/latex-0.tex?\forall n>m, E(X_n|\cal G_m)=X_m)
.
De plus
![n\rightarrow E(X_n)](https://latex.ilemaths.net/latex-0.tex?n\rightarrow E(X_n))
est constant.
Exemple: Urne de Polya, si
![X_k](https://latex.ilemaths.net/latex-0.tex?X_k)
correspond a la proportion de boule blanche à la k-ème étape.
Sachant que
![X_0=\frac{b}{n+b}](https://latex.ilemaths.net/latex-0.tex?X_0=\frac{b}{n+b})
, on a
![(X_k)](https://latex.ilemaths.net/latex-0.tex?(X_k))
qui est une martingale et
III.Filtre de Kalman-Bucy.
1) Vecteurs gaussiens
Définition: Si
![X=(X_1,X_2,...,X_n)^t](https://latex.ilemaths.net/latex-0.tex?X=(X_1,X_2,...,X_n)^t)
et
![Y=(Y_1,..Y_m)^t](https://latex.ilemaths.net/latex-0.tex?Y=(Y_1,..Y_m)^t)
sont deux vecteurs aléatoires on définit
![E(X|Y)=(E(X_1|Y),...,E(X_n|Y))^t](https://latex.ilemaths.net/latex-0.tex?E(X|Y)=(E(X_1|Y),...,E(X_n|Y))^t)
.
Proposition: Si
![X](https://latex.ilemaths.net/latex-0.tex?X)
et
![Y](https://latex.ilemaths.net/latex-0.tex?Y)
sont deux vecteurs gaussiens dans leur ensemble, de moyenne
![m_X](https://latex.ilemaths.net/latex-0.tex?m_X)
et
![m_Y](https://latex.ilemaths.net/latex-0.tex?m_Y)
et de matrices de covariances
![\Sigma_X](https://latex.ilemaths.net/latex-0.tex?\Sigma_X)
et
![\Sigma_Y](https://latex.ilemaths.net/latex-0.tex?\Sigma_Y)
.
Notons
![\Sigma_{XY}=E[(X-m_X)(Y-m_Y)^t]](https://latex.ilemaths.net/latex-0.tex?\Sigma_{XY}=E[(X-m_X)(Y-m_Y)^t])
, et suppososns
![\Sigma_Y](https://latex.ilemaths.net/latex-0.tex?\Sigma_Y)
positive.
Alors
![E(X|Y)=m_X+\S_{XY}\S_Y^{-1}(T-m_Y)](https://latex.ilemaths.net/latex-0.tex?E(X|Y)=m_X+\S_{XY}\S_Y^{-1}(T-m_Y))
.
Et la covariance de
![\widetilde X=X-E[X|Y]](https://latex.ilemaths.net/latex-0.tex?\widetilde X=X-E[X|Y])
est
![\Sigma_{\widetilde X}=\Sigma_X-\Sigma_{XY}\Sigma_Y^{-1}\Sigma_{YX}](https://latex.ilemaths.net/latex-0.tex?\Sigma_{\widetilde X}=\Sigma_X-\Sigma_{XY}\Sigma_Y^{-1}\Sigma_{YX})
.
Corollaire: Si
![X,Y,Z](https://latex.ilemaths.net/latex-0.tex?X,Y,Z)
sont trois vecteurs gaussiens dans leur ensemble et si
![Y](https://latex.ilemaths.net/latex-0.tex?Y)
et
![Z](https://latex.ilemaths.net/latex-0.tex?Z)
sont non corrélés, et
![\Sigma_Y](https://latex.ilemaths.net/latex-0.tex?\Sigma_Y)
ainsi que
![\Sigma_Z](https://latex.ilemaths.net/latex-0.tex?\Sigma_Z)
sont positives alors:
![E[X|Y,Z]=E[X|Y]+E[X|Z]-m_X](https://latex.ilemaths.net/latex-0.tex?E[X|Y,Z]=E[X|Y]+E[X|Z]-m_X)
.
2)Application au filtre de Kalman-Bucy:
Pour cela on va supposer que tous nos vecteurs aléatoires sont des vecteurs gaussiens, que
![(V_n)_{n\in \mathbb{N}}](https://latex.ilemaths.net/latex-0.tex?(V_n)_{n\in \mathbb{N}})
et
![(W_n)_{n\in \mathbb{N}}](https://latex.ilemaths.net/latex-0.tex?(W_n)_{n\in \mathbb{N}})
sont indépendants de matrices de covariances
![Q_n](https://latex.ilemaths.net/latex-0.tex?Q_n)
et
![R_n](https://latex.ilemaths.net/latex-0.tex?R_n)
connues, et que
![X_n](https://latex.ilemaths.net/latex-0.tex?X_n)
est centré.
On pose
![{\cal F}_n=\sigma(Y)](https://latex.ilemaths.net/latex-0.tex?{\cal F}_n=\sigma(Y))
.
Pour prédire
![X_n](https://latex.ilemaths.net/latex-0.tex?X_n)
à l'aide des
![n-1](https://latex.ilemaths.net/latex-0.tex?n-1)
premières observations on va poser
![{\widehat X}_n=E[X_n|{\cal F}_{n-1}]](https://latex.ilemaths.net/latex-0.tex?{\widehat X}_n=E[X_n|{\cal F}_{n-1}])
et pour estimer
![X_n](https://latex.ilemaths.net/latex-0.tex?X_n)
par les
![n](https://latex.ilemaths.net/latex-0.tex?n)
premières observations on va poser
![{\widetilde X}_n=E[X_n|{\cal F}_n]](https://latex.ilemaths.net/latex-0.tex?{\widetilde X}_n=E[X_n|{\cal F}_n])
.
On obtient par le théorème précédent une formule assez compliqué car il faut inverser une matrice de taile de plus en plus grande ce qui peut donc devenir très fastidieux.
Il est donc très utile de donner des formules de récurrence qui permette d'alléger les calculs des prédictions et des matrices d'erreurs.
On va noter par la suite
![\Sigma_n=\Sigma_{X_n-{\widehat X}_n}](https://latex.ilemaths.net/latex-0.tex?\Sigma_n=\Sigma_{X_n-{\widehat X}_n})
et
On a
où
![K_n=F\Sigma_nG^t(G\Sigma_nG^t+R_n)^{-1}](https://latex.ilemaths.net/latex-0.tex?K_n=F\Sigma_nG^t(G\Sigma_nG^t+R_n)^{-1})
et avec les conditions initiales
Et de la même manière on peut montrer que :
où
Preuve: Posons
![I_n=Y_n-E[Y_n|\mathcal{F}_n]=GX_n+W_n-E[GX_n+W_n|\mathcal{F}_n]](https://latex.ilemaths.net/latex-0.tex?I_n=Y_n-E[Y_n|\mathcal{F}_n]=GX_n+W_n-E[GX_n+W_n|\mathcal{F}_n])
, par indépendance de
![W_n](https://latex.ilemaths.net/latex-0.tex?W_n)
on obtient
![\Sigma_{I_n}=E[I_nI_n^t]=GS_nG^t+R_n](https://latex.ilemaths.net/latex-0.tex?\Sigma_{I_n}=E[I_nI_n^t]=GS_nG^t+R_n)
(par indépendance de
![W_n](https://latex.ilemaths.net/latex-0.tex?W_n)
)
On a
![\mathcal{F}_n=\sigma(\mathcal{F}_{n-1},I_n)](https://latex.ilemaths.net/latex-0.tex?\mathcal{F}_n=\sigma(\mathcal{F}_{n-1},I_n))
cela est évident par le fait que
![I_n](https://latex.ilemaths.net/latex-0.tex?I_n)
est indépendant de
Ainsi par le corollaire, on obtient que
![{\widehat X}_{n+1}=E[X_{n+1}|\mathcal{F}_n]=E[X_{n+1}|\mathcal{F}_n]+E[X_{n+1}|I_n]=F{\widehat X}_n+FE[X_n|I_n]](https://latex.ilemaths.net/latex-0.tex?{\widehat X}_{n+1}=E[X_{n+1}|\mathcal{F}_n]=E[X_{n+1}|\mathcal{F}_n]+E[X_{n+1}|I_n]=F{\widehat X}_n+FE[X_n|I_n])
Or
Ainsi
Ainsi montrer la première partie de la récurrence revient à montrer que
Or
![{\widehat X}_n](https://latex.ilemaths.net/latex-0.tex?{\widehat X}_n)
étant indépendant de
![I_n](https://latex.ilemaths.net/latex-0.tex?I_n)
, on a
![\Sigma_{X_nI_n}=E(X_nI_n^t)=E((X_n-{\widehat X}_n)I_n^t)=\Sigma_nG^t](https://latex.ilemaths.net/latex-0.tex?\Sigma_{X_nI_n}=E(X_nI_n^t)=E((X_n-{\widehat X}_n)I_n^t)=\Sigma_nG^t)
.
![X_{n+1}-{\widehat X}_{n+1}=FX_n+V_n-(F{\widehat X}_n+K_n(Y_n-G{\widehat X}_n))=F(X_n-{\widehat X}_n)+V_n-K_n(GX_n+W_n-G{\widehat X}_n)=(F-K_nG)(X_n-{\widehat X}_n)+V_n-K_nW_n](https://latex.ilemaths.net/latex-0.tex?X_{n+1}-{\widehat X}_{n+1}=FX_n+V_n-(F{\widehat X}_n+K_n(Y_n-G{\widehat X}_n))=F(X_n-{\widehat X}_n)+V_n-K_n(GX_n+W_n-G{\widehat X}_n)=(F-K_nG)(X_n-{\widehat X}_n)+V_n-K_nW_n)
et le résultat final en découle par indépendance des 3 termes.
Ce qui permet de simplifier les calculs car les matrices à inverser sont de tailles constantes et qu'il suffit de connaitres les résultats à une étape précédente pour pouvoir calculer la suivante.
IV.Exhaustivité
Loi conditionnelle: Soit
![X](https://latex.ilemaths.net/latex-0.tex?X)
et
![Y](https://latex.ilemaths.net/latex-0.tex?Y)
deux variables aléatoires telles que
![Z=(X,Y)](https://latex.ilemaths.net/latex-0.tex?Z=(X,Y))
admette une densité de probabilité
![f_{(X,Y)}(x,y)](https://latex.ilemaths.net/latex-0.tex?f_{(X,Y)}(x,y))
.
On peut considérer la fonction
Où
Ceci nous permet de calculer des espérances conditionneles, ainsi
Application à la file d'attente: Soit
![T_{\theta}=E_{\theta}[\mu_n|S_n]P_{\theta}(X_1>t|S_n)](https://latex.ilemaths.net/latex-0.tex?T_{\theta}=E_{\theta}[\mu_n|S_n]P_{\theta}(X_1>t|S_n))
où
Alors on a
Et
Ainsi
Définition: Une sous-tribu
![\cal G](https://latex.ilemaths.net/latex-0.tex?\cal G)
est dites exhaustive pour le modèle statistique
![(\Omega,{\cal F},{\mathbf P_{\theta}})](https://latex.ilemaths.net/latex-0.tex?(\Omega,{\cal F},{\mathbf P_{\theta}}))
si pour toute variable aléatoire réelle positive
![X](https://latex.ilemaths.net/latex-0.tex?X)
sur
![\omega,\cal F](https://latex.ilemaths.net/latex-0.tex?\omega,\cal F)
, il existe une version de l'espérance conditionnlle
![E_{\theta}[X|\cal G]](https://latex.ilemaths.net/latex-0.tex?E_{\theta}[X|\cal G])
qui ne dépendent pas de
![\theta](https://latex.ilemaths.net/latex-0.tex?\theta)
.
Une statistique
![T](https://latex.ilemaths.net/latex-0.tex?T)
est dite exhaustive si
![\sigma(T)](https://latex.ilemaths.net/latex-0.tex?\sigma(T))
l'est.
Proposition: Si
![U](https://latex.ilemaths.net/latex-0.tex?U)
est un estimateur sans biais de
![h(\theta)](https://latex.ilemaths.net/latex-0.tex?h(\theta))
de carré intégrable et si
![T](https://latex.ilemaths.net/latex-0.tex?T)
est une statistique exhaustive alors l'estimateur
![V=E[U|T]](https://latex.ilemaths.net/latex-0.tex?V=E[U|T])
est un estimateur sans biais de
![h(\theta)](https://latex.ilemaths.net/latex-0.tex?h(\theta))
de risque quadratique plus faible que celui de de
![U](https://latex.ilemaths.net/latex-0.tex?U)
.
Définition: ![T](https://latex.ilemaths.net/latex-0.tex?T)
est une statistique complète si pour tout
![\phi](https://latex.ilemaths.net/latex-0.tex?\phi)
fonction telle que
Propriétés: Si
![U](https://latex.ilemaths.net/latex-0.tex?U)
est un estimateur sans biais de
![h(\theta)](https://latex.ilemaths.net/latex-0.tex?h(\theta))
, de carré in tégrable et
![t](https://latex.ilemaths.net/latex-0.tex?t)
une statistique exhaustive et complète, l'estimateur
![E[U|T]](https://latex.ilemaths.net/latex-0.tex?E[U|T])
est alors l'unique estimateur sans biais fonction de
![T](https://latex.ilemaths.net/latex-0.tex?T)
et sa variance est
![\forall \theta](https://latex.ilemaths.net/latex-0.tex?\forall \theta)
inférieur ou égal à la variance de
![U](https://latex.ilemaths.net/latex-0.tex?U)
et est même plus faible que celle de tout estimater sans biais.
Il est uniformément de variance minimum parmi les estimateurs sans biais.
Application Dans le cas de la file d'attente,
![S_n](https://latex.ilemaths.net/latex-0.tex?S_n)
est une statistique exhaustive et complète.
Donc
![E_{\theta}[\mu_n|T]](https://latex.ilemaths.net/latex-0.tex?E_{\theta}[\mu_n|T])
est un estimateur UVMB indépendant de
Bibliographie
[R]: D.Revuz "Probabilités"
[BMP]: Baldi-Mazliak-Priouret "Martingales et chaînes de Markov"
[DCD]: Dacunha Castelle Duflo "Probabilités et statistiques 1"
[W]: Williams "Probability with Martingales"
[B]: Brémaud "Introducton aux probabilités"
[S]: Saporta "Probabilité-Analyse des données et statistiques"
[Sh]: Sheldon Ross