Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Write a title that briefly explains what it is about., Schemes and Mind Maps of Information Systems

Write a title that briefly explains what it is about.

Typology: Schemes and Mind Maps

2021/2022

Uploaded on 01/01/2023

eya-bouhouch
eya-bouhouch 🇹🇳

3 documents

1 / 182

Toggle sidebar

Related documents


Partial preview of the text

Download Write a title that briefly explains what it is about. and more Schemes and Mind Maps Information Systems in PDF only on Docsity! Université Rennes 2 Licence MASS 3 Espérance conditionnelle & Chaînes de Markov Arnaud Guyader Chapitre 1 Espérance conditionnelle Introduction L’espérance conditionnelle est un outil d’usage constant en probabilités et statistiques. Néanmoins, sa définition dans le cas général n’est pas simple. C’est pourquoi ce chapitre présente l’idée par étapes et de façon intuitive : cas discret, cas absolument continu, interprétation géométrique dans L2 et enfin extension à L1. 1.1 Cas discret On considère un couple aléatoire discret (X,Y ), c’est-à-dire une application mesurable (X,Y ) : { (Ω,F ,P) → X × Y ω 7→ (X(ω), Y (ω)) avec les ensembles X = (xi)i∈I et Y = (yj)j∈J au plus dénombrables (i.e. finis ou dénombrables). Autrement dit, les ensembles d’indices I et J sont au plus dénombrables : penser à des ensembles finis, à N, à Z. Pour calculer des quantités liées à ce couple aléatoire, il faut bien sûr connaître la probabilité de tomber sur un couple (xi, yj). Nous adoptons la notation : pij = P(X = xi, Y = yj). La suite double (pij)i∈I,j∈J est appelée loi jointe du couple (X,Y ). Il est clair que : { 0 ≤ pij ≤ 1∑ i∈I,j∈J pij = 1 Exemple. On tire deux chiffres au hasard, indépendamment et de façon équiprobable entre 1 et 3. Soit X le maximum des chiffres obtenus et Y la somme des chiffres obtenus. La loi jointe du couple (X,Y ) se représente sous forme d’un tableau (voir figure 1.1). Définition 1 (Lois marginales) Soit (X,Y ) un couple aléatoire. Les variables aléatoires X et Y sont dites marginales. La loi de X, dite loi marginale, est entièrement déterminée par les probabilités pi. de tomber sur les points xi : pi. = P(X = xi) = ∑ j∈J P(X = xi, Y = yj) = ∑ j∈J pij De même pour la loi marginale de Y et les probabilités p.j de tomber sur les points yj : p.j = P(Y = yj) = ∑ i∈I P(X = xi, Y = yj) = ∑ i∈I pij 1 2 Chapitre 1. Espérance conditionnelle 1 2 3 0 0 Y X 2 3 4 5 6 0 0 0 0 0 0 0 1 9 1 9 2 9 2 9 2 9 1 9 Figure 1.1 – Loi jointe pour le max et la somme. Exemple. Pour l’exemple précédent, on calcule aisément les lois marginales de X et Y : il suffit de sommer sur chaque ligne pour la loi de X et sur chaque colonne pour la loi de Y (voir figure 1.1). X 1 2 3 2 3 4 5 6 Y 1 9 2 9 3 9 4 9 5 9 Figure 1.2 – Loi jointe et lois marginales pour le max et la somme. Achtung ! La connaissance des lois marginales ne suffit pas à déterminer la loi du couple (X,Y ). Autrement dit, on peut trouver deux couples (X1, Y1) et (X2, Y2) n’ayant pas même loi jointe, mais tels que les lois de X1 et X2 soient égales, ainsi que les lois de Y1 et Y2 (cf. figure 1.3). La situation agréable est celle où les variables marginales X et Y sont indépendantes. Celle-ci se vérifie facilement une fois connues la loi jointe et les lois marginales. Proposition 1 (Lois marginales et indépendance) Les variables aléatoires marginales X et Y sont indépendantes si et seulement si : ∀(i, j) ∈ I × J P(X = xi, Y = yj) = P(X = xi)P(Y = yj), Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.1. Cas discret 3 1 1 2 3 2 3 0 0 0 0 0 1 4 1 4 1 4 1 4 1 1 2 3 2 3 1 8 1 8 1 8 1 8 1 16 1 16 1 16 1 16 1 4 X1 Y1 Y2 X2 Figure 1.3 – Mêmes lois marginales mais loi jointe différente. c’est-à-dire avec nos notations : pij = pi.p.j. Exemples : 1. Sur l’exemple précédent du max et de la somme, il est clair que X et Y ne sont pas indé- pendantes puisque par exemple : p12 = 1 9 6= p1. × p.2 = 1 9 × 1 9 = 1 81 2. Jeu de cartes : on tire une carte au hasard dans un jeu de 32 cartes. Le résultat de ce tirage est représenté par le couple aléatoire (X,Y ), où X est la couleur et Y la valeur. Autrement dit, X appartient à l’ensemble {Pique, Cœur, Carreau, Trèfle} et Y à l’ensemble {7, 8, 9, 10, Valet, Dame, Roi, As}. Il est clair que : ∀(i, j) ∈ I × J P(X = xi, Y = yj) = 1 32 = 1 4 × 1 8 = P(X = xi)P(Y = yj), donc X et Y sont indépendantes. Remarque. Soit i ∈ I fixé. Notons qu’on peut avoir pij = 0, c’est-à-dire que l’événement {X = xi, Y = yj} ne se réalise jamais. Par contre, on exclut le cas où pi. = 0 : ceci signifie- rait que X ne prend jamais la valeur xi, auquel cas cette valeur n’aurait rien à faire dans X . Puisque chacune des probabilités pi. est non nulle, on peut définir la probabilité conditionnelle de Y = yj sachant X = xi par la formule : pj|i = P(Y = yj|X = xi) = P(X = xi, Y = yj) P(X = xi) = pij pi. Définition 2 (Probabilités conditionnelles) Soit xi ∈ X . La loi conditionnelle de Y sachant X = xi est la loi discrète prenant les valeurs yj avec les probabilités pj|i = P(Y = yj|X = xi). Exemple : Lois de Poisson. Soit Y ∼ P(α) et Z ∼ P(β) deux variables aléatoires de Poisson indépendantes. On s’intéresse à leur somme X = Y + Z. X est bien sûr une variable aléatoire. On rappelle que Y suit une loi de Poisson de paramètre α si Y est à valeurs dans N, avec (voir aussi figure 1.4) : ∀n ∈ N P(Y = n) = e−αα n n! . Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 6 Chapitre 1. Espérance conditionnelle or, par définition, p.j = ∑ i∈I pij , donc : E[E[Y |X]] = ∑ j∈J p.jyj = E[Y ].  Remarque. Ce résultat permet souvent de calculer l’espérance de Y en deux étapes : on exprime d’abord E[Y |X] comme une fonction ϕ(X) de la variable aléatoire X. Puis, si cette fonction ϕ et la loi de X sont “assez simples”, on calcule E[ϕ(X)]. Voir par exemple les exercices ”Un dé et une pièce” et ”Somme aléatoire de variables aléatoires” en fin de chapitre. On vient de dire que, dans le cas général, l’espérance conditionnelle E[Y |X] est une variable aléa- toire et pas un nombre. Il existe cependant un cas particulier : lorsque X et Y sont indépendantes. Propriétés 1 (Espérance conditionnelle et indépendance) Si Y est intégrable, si X et Y sont indépendantes, alors la variable aléatoire E[Y |X] est constante, égale à E[Y ]. Preuve. Si X et Y sont indépendantes, alors pour tout couple (i, j) ∈ I × J : pij = pi.p.j. On en déduit que : ∀(i, j) ∈ I × J pj|i = p.j, donc pour tout xi ∈ X : E[Y |X = xi] = ∑ j∈J pj|iyj = ∑ j∈J p.jyj = E[Y ], or par définition E[Y |X] est la variable aléatoire qui prend les valeurs E[Y |X = xi] avec les probabilités pi.. On en déduit que E[Y |X] est la variable aléatoire constante égale à E[Y ].  Dans de nombreuses situations, on désire calculer la valeur moyenne prise par une fonction du couple (X,Y ), c’est-à-dire : E[h(X,Y )] = ∫ Ω h(X,Y ) dP, où h est une fonction de R2 dans R. Par exemple si on veut calculer la moyenne de la somme de deux variables, ou la moyenne de leur produit. Rappel : Théorème de transfert Sous réserve d’intégrabilité, le théorème de transfert assure que l’espérance précédente s’écrit comme une somme double : E[h(X,Y )] = ∑ i∈I,j∈J h(xi, yj)pij Le cas simple est celui où, d’une, h se décompose en produit : h(x, y) = f(x)g(y), et, de deux, X et Y sont indépendantes. Dans ce cas, on a immédiatement : E[h(X,Y )] = (∑ i∈I f(xi)pi. ) ∑ j∈J g(yj)p.j   = E[f(X)]E[g(Y )], Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.2. Cas absolument continu 7 c’est-à-dire qu’il suffit de calculer deux espérances discrètes classiques. Dans le cas général, h ne se décompose pas aussi simplement et les variables X et Y ne sont pas indépendantes. Néanmoins, sous les hypothèses usuelles d’intégrabilité, on peut toujours écrire : E[h(X,Y )] = ∑ i∈I  ∑ j∈J h(xi, yj)pj|i   pi. = ∑ i∈I E[h(xi, Y )|X = xi]P(X = xi) Ceci est une autre façon de dire que : E[h(X,Y )] = E[E[h(X,Y )|X]] où E[h(X,Y )|X] est la variable aléatoire qui prend les valeurs E[h(xi, Y )|X = xi] avec les proba- bilités pi.. On a ainsi ramené le calcul d’une somme double à deux calculs de sommes simples. 1.2 Cas absolument continu Pour une variable aléatoire réelle X, les deux situations classiques sont les suivantes : X est dis- crète ou X est absolument continue, c’est-à-dire qu’elle admet une densité. Dans le paragraphe précédent, on a vu le pendant d’une loi discrète pour un couple aléatoire. Etudions maintenant l’analogue d’une loi absolument continue pour un couple aléatoire (X,Y ) à valeurs dans R2 (ou un sous-ensemble de R2). Par définition, la loi jointe PX,Y du couple est la mesure de probabilité sur (R2,B2) définie par : ∀B ∈ B2, PX,Y (B) = P((X,Y ) ∈ B), que l’on peut voir comme la probabilité que le point aléatoire M de coordonnées (X,Y ) tombe dans l’ensemble borélien B. Définition 4 (Loi jointe absolument continue) On dit que la loi PX,Y est absolument continue 1 s’il existe une fonction mesurable f : (R2,B2) → (R,B) telle que : ∀B ∈ B2, PX,Y (B) = ∫∫ B f(x, y) dx dy. La fonction f est appelée densité de probabilité du couple (X,Y ). On la note parfois fX,Y . Pour qu’une fonction f soit une densité de probabilité, il faut et il suffit qu’elle soit positive et intègre à 1 : { f(x, y) ≥ 0∫∫ R 2 f(x, y) dx dy = 1 Remarque. En pratique, dans tout ce paragraphe, on peut faire le parallèle avec ce qui a été vu dans le cas discret : il suffit de remplacer xi par x, yj par y, pij par f(x, y) et les sommes par des intégrales. Exemple. On considère un couple (X,Y ) de densité : f(x, y) = 2e−(x+y) 1{0≤x≤y} 1. sous-entendu : par rapport à la mesure de Lebesgue sur R2. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 8 Chapitre 1. Espérance conditionnelle 0 1 2 3 4 5 0 1 2 3 4 0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 x z y Figure 1.5 – Représentation de la densité jointe f(x, y) = 2e−(x+y) 1{0≤x≤y}. On vérifie que ceci définit bien une densité de probabilité sur R2. En effet, f est positive et par le théorème de Fubini-Tonelli, on a pour le calcul de l’intégrale double : ∫ R 2 f(x, y) dx dy = ∫ +∞ 0 (∫ y 0 2e−(x+y) dx ) dy = ∫ +∞ 0 (∫ +∞ x 2e−(x+y) dy ) dx. Prenons par exemple la première expression : ∫ R 2 f(x, y) dx dy = ∫ +∞ 0 2e−y [ −e−x ]y 0 dy = ∫ +∞ 0 (2e−y − 2e−2y) dy, ce qui donne finalement : ∫ R 2 f(x, y) dx dy = [ −2e−y + e−2y ]+∞ 0 = 1. La représentation de la densité f est donnée figure 1.5. Comme dans le cas discret, on peut définir les lois des variables aléatoires marginales X et Y . Proposition 2 (Lois marginales) Si le couple (X,Y ) est absolument continu, les variables marginales X et Y sont absolument conti- nues et la densité jointe f(x, y) détermine les densités marginales f(x) et f(y) : f(x) = fX(x) = ∫ R f(x, y) dy & f(y) = fY (y) = ∫ R f(x, y) dx Convention. Suivant le contexte, la densité marginale de X sera notée f(x) ou fX , mais rarement fX(x), qui est lourdingue. Idem pour Y . Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.2. Cas absolument continu 11 Interprétation graphique. Pour la représentation de la densité conditionnelle f(y|x0), il suffit de faire une coupe de la surface définie par la densité jointe f(x, y) par le plan d’équation x = x0. On obtient ainsi la fonction y 7→ f(x0, y) : au facteur de normalisation f(x0) près, ceci donne une idée de la densité conditionnelle f(y|x0). 1 x y f(y|x) Figure 1.8 – Densité conditionnelle f(y|x) = e−(y−x) 1{y≥x}. Exemple. Pour l’exemple précédent, pour tout x ≥ 0, on a : f(y|x) = e−(y−x) 1{y≥x}, c’est-à-dire que, conditionnellement à X = x, Y suit une loi exponentielle de paramètre 1 transla- tée sur l’intervalle [x,+∞[. Ceci est illustré figure 1.8. Ainsi définie, pour tout x ≥ 0, la fonction f(.|x) est une densité de probabilité, c’est-à-dire qu’elle est positive et somme à 1. Les relations déjà vues dans le cas discret entre marginales et condition- nelles sont encore valables : il suffit de remplacer les sommes discrètes par des intégrales. Ainsi on a par exemple : f(y) = ∫ R f(y|x)f(x) dx. De plus, si les variables aléatoires X et Y sont indépendantes, on a bien sûr fX|Y = fX et fY |X = fY . On veut maintenant définir l’espérance conditionnelle. Pour x fixé, l’espérance conditionnelle de Y sachant X = x est : E[Y |X = x] = ∫ R yf(y|x) dy. La fonction ϕ : x 7→ ϕ(x) = E[Y |X = x] est une fonction réelle de la variable réelle. ϕ(X) est donc une variable aléatoire : c’est l’espérance conditionnelle de Y sachant X. Définition 6 (Espérance conditionnelle) La variable aléatoire qui prend les valeurs E[Y |X = x] avec la densité f(x) est appelée espérance conditionnelle de Y sachant X et on la note E[Y |X]. Exemple. Pour l’exemple précédent, on obtient pour tout x ≥ 0 : E[Y |X = x] = (x+ 1)1{x≥0}, Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 12 Chapitre 1. Espérance conditionnelle 0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 Figure 1.9 – Densité de la variable aléatoire E[Y |X]. donc E[Y |X] = X + 1. Or on a vu que X ∼ E(2), donc la variable aléatoire E[Y |X] suit une loi exponentielle de paramètre 2 translatée sur l’intervalle [1,+∞[ (voir figure 1.9). Propriétés 2 (Calcul d’espérance par conditionnement) Si Y est intégrable, alors la variable aléatoire E[Y |X] aussi et on a : E[E[Y |X]] = E[Y ]. Preuve. La preuve est la même que dans le cas discret. La variable aléatoire E[Y |X] prend les valeurs E[Y |X = x] avec densité f(x), donc son espérance vaut : E[E[Y |X]] = ∫ R E[Y |X = x]f(x) dx = ∫ R (∫ R yf(y|x) dy ) f(x) dx, donc d’après le théorème de Fubini : E[E[Y |X]] = ∫ R y (∫ R f(y|x)f(x) dx ) dy, et puisque f(y) = ∫ R f(y|x)f(x) dx, on retrouve bien : E[E[Y |X]] = ∫ R yf(y) dy = E[Y ].  Exemple. Pour l’exemple précédent, on a obtenu E[Y |X] = X + 1, avec X ∼ E(2), d’où : E[Y ] = E[X + 1] = E[X] + 1 = 3 2 , résultat que l’on retrouve bien en considérant la loi marginale de Y : E[Y ] = ∫ R yf(y) dy = ∫ R + y(2e−y − 2e−2y) dy = 2− 1 2 = 3 2 . Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.2. Cas absolument continu 13 Dans le cas général, on retrouve alors pour les couples absolument continus les propriétés vues pour les couples discrets. On commence par définir l’espérance conditionnelle d’un couple sachant l’une des variables. Soit h : R2 → R une fonction, l’espérance mathématique de la variable aléatoire h(X,Y ) est définie si : ∫ R 2 |h(x, y)|f(x, y) dx dy < +∞, auquel cas elle vaut : E[h(X,Y )] = ∫ R 2 h(x, y)f(x, y) dx dy, que l’on peut encore écrire : E[h(X,Y )] = ∫ R (∫ R h(x, y)f(y|x) dy ) f(x) dx. La définition suivante est alors naturelle. Définition 7 (Espérance conditionnelle d’un couple) L’espérance conditionnelle de h(X,Y ) sachant X = x est : E[h(X,Y )|X = x] = ∫ R h(x, y)f(y|x) dy = E[h(x, Y )|X = x]. L’espérance conditionnelle de h(X,Y ) sachant X, notée E[h(X,Y )|X], est la variable aléatoire qui prend les valeurs E[h(x, Y )|X = x] avec la densité de probabilité f(x). On peut alors énumérer différentes propriétés de l’espérance conditionnelle. Dans ce qui suit, on ne considère que des “bonnes fonctions”, c’est-à-dire telles qu’on n’ait pas de problème d’intégrabilité. Propriétés 3 (Propriétés de l’espérance conditionnelle) Sous réserve d’intégrabilité des variables aléatoires, on a les propriétés suivantes : – Calcul d’espérance par conditionnement : E[E[h(X,Y )|X]] = ∫ R E[h(x, Y )|X = x]f(x) dx = E[h(X,Y )]. – Indépendance : si X et Y sont indépendantes, alors E[g(Y )|X] = E[g(Y )]. En particulier, E[Y |X] = E[Y ]. – On a E[g(X)|X] = g(X). En particulier E[X|X] = X. – Linéarité : E[αg(X) + βh(Y )|X] = αE[g(X)|X] + βE[h(Y )|X] = αg(X) + βE[h(Y )|X]. – Linéarité(bis) : E[g(X)h(Y )|X] = g(X)E[h(Y )|X]. Preuve. Toutes les démonstrations se font sans difficulté en revenant à la définition de l’espérance conditionnelle. Pour la première relation, il suffit par exemple de dire que : Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 16 Chapitre 1. Espérance conditionnelle Preuve. Notons m = E[Y ], alors pour tout réel a : E[(Y − a)2] = E[((Y −m) + (m− a))2]. On utilise la linéarité de l’espérance : E[(Y − a)2] = E[(Y −m)2] + 2(m− a)E[(Y −m)] + (m− a)2 Or E[(Y −m)] = 0 et par suite : E[(Y − a)2] = E[(Y −m)2] + (m− a)2. Cette quantité est minimale lorsque a = m = E[Y ].  Remarque. Si on considère l’erreur en norme L1, c’est-à-dire si on cherche le réel a tel que E|Y −a| soit minimale, on obtient non pas la moyenne de Y , mais sa médiane. Rappel. Si Y admet un moment d’ordre 2, i.e. si E[Y 2] < +∞, alors Y admet un moment d’ordre 1, i.e. E|Y | < +∞. De manière générale, si Y admet un moment d’ordre p ∈ N∗, i.e. si E[|Y |p] < +∞, alors Y admet un moment d’ordre k pour tout k ∈ {1, . . . , p}. Plus précisément, on a l’inégalité suivante entre moments : 1 ≤ p ≤ q ⇒ E [|Y p|] 1 p ≤ E [|Y q|] 1 q . Approximation d’une variable aléatoire par une droite On considère un couple aléatoire (X,Y ), dont on connaît la loi jointe. On suppose que les variables marginales X et Y sont toutes deux de carré intégrable. Parler de la covariance du couple (X,Y ) a alors un sens puisque : ∀ω ∈ Ω |X(ω)Y (ω)| ≤ 1 2 (X2(ω) + Y 2(ω)), ce qui implique en passant aux espérances : E|XY | ≤ 1 2 E[X2 + Y 2] = 1 2 (E[X2] + E[Y 2]) < +∞. Supposons qu’on observe des réalisations de la variable aléatoire X, mais pas celles de Y : pour chaque valeur x de X, on voudrait deviner la valeur y de Y . Ceci est impossible, puisque même sachant X = x, Y est aléatoire. On peut néanmoins chercher à faire l’erreur la plus petite possible en moyenne. Une idée simple est d’approcher Y par une fonction affine de X, c’est-à-dire chercher la variable aléatoire Y = aX + b la plus proche possible, en moyenne, de Y . Pour l’erreur quadratique, on cherche donc à minimiser : E[(Y − (aX + b))2] = E[X2]a2 + 2E[X]ab+ b2 − 2E[XY ]a− 2E[Y ]b+ E[Y 2] = φ(a, b). Cette fonction φ des deux variables a et b est en fait issue d’une forme quadratique définie positive et atteint son minimum au point : { a = Cov(X,Y ) σ2(X) b = E[Y ]− Cov(X,Y ) σ2(X) E[X] Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.3. Applications 17 comme le montre la factorisation de Gauss : φ(a, b) = (b− (E[Y ]− E[X]a))2 + ( σ(X)a − Cov(X,Y ) σ(X) )2 + σ2(Y )− Cov2(X,Y ) σ2(X) . En notant ρ le coefficient de corrélation linéaire : ρ = Cov(X,Y ) σ(X)σ(Y ) , l’erreur minimale moyenne, appelée erreur quadratique, est donc : min a,b E[(Y − (aX + b))2] = σ2(Y )(1− ρ2). Noter que ceci suppose σ(X) 6= 0 : si σ(X) = 0, la variable aléatoire X est presque sûrement constante, donc chercher à approcher Y par une fonction affine de X revient à approcher Y par une constante c. On a vu précédemment que le mieux est de prendre c = E[Y ]. On voit que l’erreur quadratique est d’autant plus faible que : 1. La valeur absolue |ρ| du coefficient de corrélation linéaire est proche de 1. En général, on sait simplement que : −1 ≤ ρ ≤ 1. Lorsque ρ = 0, X et Y sont dits décorrélés et le mieux qu’on puisse faire est à nouveau d’approcher Y par sa moyenne E[Y ]. Lorsque ρ = ±1, X et Y sont liés par une relation affine et l’erreur est nulle. 2. La variable Y est peu dispersée autour de sa moyenne. ∆a,b Mi xi y x yi Figure 1.10 – Droite de régression. Remarque. En statistiques, c’est-à-dire dans la vraie vie, on ne connaît pas la loi du couple (X,Y ). On dispose simplement d’un nuage de points (xi, yi)1≤i≤n. Or, si on cherche la droite d’équation y = ax+ b qui minimise la somme des carrés : n∑ i=1 (yi − (axi + b))2, on retrouve la droite de régression ci-dessus en considérant les espérances, variances et covariances empiriques (voir figure 1.10). Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 18 Chapitre 1. Espérance conditionnelle Approximation d’une variable aléatoire par une fonction On reprend le problème précédent. On considère donc un couple aléatoire (X,Y ) dont on connaît la loi jointe, avec Y de carré intégrable. On suppose toujours qu’on n’observe que la variable aléatoire X et qu’on veut approcher au mieux la variable aléatoire Y . Par rapport à ce qui précède, on ne se restreint pas à une approximation de Y par une fonction affine de X : parmi toutes les fonctions possibles, on cherche la fonction de X qui approche le mieux Y . On retrouve alors l’espérance conditionnelle. Définition 9 (Courbe de régression) La courbe x 7→ y = E[Y |X = x] est appelée courbe de régression de Y en X. Par exemple, si X et Y sont indépendantes, la courbe de régression de Y en X est tout simplement la droite horizontale y = E[Y ]. Exemples. 1. On considère à nouveau le couple (X,Y ) de densité : f(x, y) = 2e−(x+y) 1{0≤x≤y} La fonction de régression de Y en X est la fonction : u : { [0,+∞[ → R x 7→ (x+ 1) Sur cet exemple, on voit que la courbe de régression coïncide avec la droite de régression : ceci n’est pas vrai en général, comme le montre l’exemple suivant. 2. Soit (X,Y ) un couple aléatoire de densité jointe : f(x, y) = 12 5 y(2− y − x)1]0,1[2(x, y). Quelques calculs permettent de montrer que pour tout x ∈]0, 1[ : E[Y |X = x] = 5− 4x 8− 6x . La courbe de régression est donc un morceau d’hyperbole (voir figure 1.11). La fonction de régression vérifie une propriété de minimalité souvent utilisée en statistiques. On considère une fonction u : R→ R et la quantité : E[(Y − u(X))2]. Cette quantité varie lorsque la fonction u varie. Quand est-elle minimale ? Ce genre de problème, dit de calcul des variations, est en général difficile : on cherche une fonction minimisant un certain critère (et non un point de l’espace de dimension finie Rn comme en optimisation classique). Mais ici tout est simple, au moins d’un point de vue théorique... Théorème 2 (Espérance conditionnelle et régression) Supposons Y telle que E[Y 2] < +∞. Parmi toutes les fonctions u : R → R, l’erreur d’approxi- mation E[(Y − u(X))2] est minimale lorsque u est la fonction de régression x 7→ E[Y |X = x], i.e. lorsque u(X) = E[Y |X]. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.4. Interprétation géométrique de l’espérance conditionnelle 21  Dans ce cadre, dire que les variables aléatoires X et Y sont orthogonales pour le produit scalaire 〈., .〉 signifie que E[XY ] = 0. Dans le cas de variables centrées, l’orthogonalité correspond donc à la non-corrélation. On récupère automatiquement les propriétés d’une norme issue d’un produit scalaire, vues en cours d’algèbre linéaire. Propriétés 5 (Propriétés de la norme dans L 2(Ω)) – Positivité : ‖X‖ ≥ 0 et ‖X‖ = 0 seulement pour X = 0. – Homogénéité : pour tout réel a, ‖aX‖ = |a|‖X‖. – Inégalité triangulaire : ‖X + Y ‖ ≤ ‖X‖ + ‖Y ‖. – Inégalité de Cauchy-Schwarz : 〈X,Y 〉 ≤ ‖X‖‖Y ‖. La norme ‖.‖ permet de mesurer la distance entre deux variables aléatoires : d(X,Y ) = ‖Y −X‖ On l’appelle la distance en moyenne quadratique entre X et Y . On peut alors associer à cette norme la notion de convergence en moyenne quadratique : la suite de variables aléatoires (Xn)n≥0 converge en moyenne quadratique vers la variable aléatoire X et on note : Xn L2 −→ X si limn→∞ ‖X −Xn‖ = 0, c’est-à-dire si lim n→∞ E[(X −Xn) 2] = 0. Nous donnons maintenant un résultat dû à F. Riesz et d’une grande importance théorique. Théorème 3 (Espace de Hilbert) L’espace L2(Ω) est complet, c’est-à-dire que toute suite (Xn)n≥0 de L2(Ω) vérifiant le critère de Cauchy converge en moyenne quadratique vers une variable aléatoire X de L2(Ω). Comme en analyse, l’intérêt du critère de Cauchy dans un espace complet est de permettre de montrer la convergence d’une suite sans connaître sa limite. Preuve. Soit (Xn)n≥0 une suite de Cauchy dans L2(Ω). Il existe donc une suite d’indices (nk)k≥0 telle que : ∀n ≥ nk, ∀p ≥ 0 ‖Xn+p −Xn‖ ≤ 1 2k . En particulier, la suite de variables aléatoires (Yk)k≥0 définie par Y0 = Xn0 et : ∀k ≥ 1 Yk = Xnk −Xnk−1 est telle que : +∞∑ k=0 ‖Yk‖ ≤ ‖Xn0‖+ +∞∑ k=0 1 2k = ‖Xn0‖+ 2 < +∞. On va montrer que (Yk)k≥0 converge presque sûrement vers une variable aléatoire X. Considérons la variable aléatoire Z définie pour tout ω ∈ Ω par : Z(ω) = lim K→+∞ ZK(ω) = lim K→+∞ K∑ k=0 |Yk(ω)| = +∞∑ k=0 |Yk(ω)| ≤ +∞, Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 22 Chapitre 1. Espérance conditionnelle avec les variables aléatoires ZK définie pour tout ω ∈ Ω par : ZK(ω) = K∑ k=0 |Yk(ω)| < +∞. Autrement dit, la suite croissante de variables aléatoires positives (ZK)K≥0 converge presque sûre- ment vers Z. Il en va de même de la suite (Z2 K)K≥0 vers Z2 et on peut donc appliquer le théorème de Beppo Lévi : E[Z2] = lim K→+∞ E[Z2 K ]. Mais par l’inégalité triangulaire on a aussi pour tout K ≥ 0 : E[Z2 K ] = ‖ZK‖2 ≤ ( K∑ k=0 ‖Yk‖ )2 ≤ ( +∞∑ k=0 ‖Yk‖ )2 < +∞. On en déduit que E[Z2] < +∞. Mais alors par Tchebychev, pour tout n ∈ N∗ : P (Z ≥ n) ≤ E[Z2] n2 , d’où l’on déduit par continuité monotone décroissante d’une mesure de probabilité : P(Z = +∞) = P ( +∞⋂ n=1 {Z ≥ n} ) = lim n→+∞ P (Z ≥ n) , ce qui donne : P(Z = +∞) ≤ lim n→+∞ E[Z2] n2 = 0, c’est-à-dire que Z est presque sûrement finie. Puisqu’on convient de confondre deux variables aléatoires presque sûrement égales, quitte à remplacer Z(ω) par 0 aux éventuels points ω où on aurait Z(ω) = +∞, on peut donc considérer que pour tout ω ∈ Ω, on a : +∞∑ k=0 |Yk(ω)| < +∞. En particulier, la série de variables aléatoires ∑ k≥0 Yk est absolument convergente sur Ω, donc simplement convergente, et il existe une variable aléatoire X finie sur Ω telle que pour tout ω ∈ Ω : X(ω) = +∞∑ k=0 Yk(ω). La variable aléatoire X est de carré intégrable puisque par définition, pour tout ω ∈ Ω : |X(ω)| ≤ Z(ω), et on a prouvé ci-dessus que Z ∈ L2(Ω). Il reste à voir que : ∥∥∥∥∥X − K∑ k=0 Yk ∥∥∥∥∥ = ∥∥∥∥∥ +∞∑ k=K+1 Yk ∥∥∥∥∥ ≤ +∞∑ k=K+1 ‖Yk‖ ≤ 1 2K −−−−−→ K→+∞ 0. On revient enfin à la suite (Xn)n≥0. Pour tout n ≥ nK , on a par inégalité triangulaire : ‖X −Xn‖ ≤ ‖X −XnK ‖+ ‖Xn −XnK ‖, Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.4. Interprétation géométrique de l’espérance conditionnelle 23 or il est clair que : XnK = K∑ k=0 Yk, d’où il vient : ‖X −Xn‖ ≤ 1 2K + 1 2K = 1 2K−1 −−−−−→ K→+∞ 0, et la suite (Xn)n≥0 converge en moyenne quadratique vers la variable aléatoire X.  Remarque. Qu’a-t-on utilisé comme outils ? Beppo Lévi et la continuité monotone décroissante, or ceux-ci sont valables dans tout espace mesuré (Ω,F ,m). Ainsi, le résultat qu’on vient d’établir est en fait très général : on le retrouve par exemple dans l’espace classique d’intégration (R,B, λ) lorsqu’on considère les fonctions f de carré intégrable sur R. On le retrouve aussi dans l’espace des suites (N,P(N), µ) muni de la mesure de comptage, autrement dit dans l’étude des séries numériques ∑ n≥0 un telles que ∑+∞ n=0 u 2 n < +∞. Dans ce dernier espace, le produit scalaire est : 〈u, v〉 = +∞∑ n=0 unvn. Un espace vectoriel ayant un produit scalaire et complet pour la norme induite par celui-ci est ap- pelé espace de Hilbert. Ces espaces jouissent de nombreuses propriétés. Celle qui suit est cruciale. Y H πH(Y ) Y − πH(Y ) Figure 1.12 – Projeté orthogonal πH(Y ) de Y sur le sous-espace H. Théorème 4 (Théorème de la projection orthogonale) Soit H un sous-espace fermé de L2(Ω). Pour tout Y de L2(Ω), il existe une unique variable aléatoire de H, notée πH(Y ), qui soit à plus courte distance de Y . On l’appelle le projeté orthogonal de Y sur H et elle est entièrement caractérisée par la double propriété : { πH(Y ) ∈ H Y − πH(Y ) ⊥ H L’application Y 7→ πH(Y ) est linéaire sur L2(Ω). De plus, πH(Y ) = Y ssi Y ∈ H, et ‖πH(Y )‖2 < ‖Y ‖ si Y /∈ H (voir figure 1.12). Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 26 Chapitre 1. Espérance conditionnelle  Par suite on peut appliquer le résultat de projection orthogonale ci-dessus. Soit donc Y une autre variable aléatoire de carré intégrable : il existe une unique variable aléatoire πL2(X)(Y ) dans le sous-espace L2(X) qui soit à plus courte distance de Y . Mais, dans les cas discret et continu, on a déjà traité ce problème dans le paragraphe sur la régression : c’est exactement l’espérance conditionnelle de Y sachant X. C’est pourquoi il est naturel d’en partir comme définition. Définition 11 (Espérance conditionnelle) Soit (X,Y ) un couple aléatoire, avec Y ∈ L2(Ω). L’espérance conditionnelle de Y sachant X, notée E[Y |X], est la projection orthogonale de Y sur le sous-espace L2(X) des variables aléatoires fonctions de X et de carré intégrable. Ainsi l’espérance conditionnelle de Y sachant X admet une interprétation géométrique très simple (cf. figure 1.14). Cette interprétation est fructueuse, car elle permet de retrouver sans effort cer- taines propriétés usuelles de l’espérance conditionnelle (un bête dessin et l’affaire est entendue). Y E[Y |X] L2(X) Figure 1.14 – L’espérance conditionnelle comme projection orthogonale. Propriétés 6 Soit (X,Y ) un couple aléatoire, avec Y ∈ L2(Ω). – Distance minimale : ∀Z ∈ L2(X), ‖Y − E[Y |X]‖ ≤ ‖Y − Z‖. – Orthogonalité : ∀Z ∈ L2(X), 〈Y − E[Y |X], Z〉 = 0. – Orthogonalité(bis) : ∀Z ∈ L2(X), 〈Y,Z〉 = 〈E[Y |X], Z〉. – Pythagore : ‖Y ‖2 = ‖E[Y |X]‖2 + ‖Y − E[Y |X]‖2. – Pythagore(bis) : ‖E[Y |X]‖ ≤ ‖Y ‖, avec égalité si et seulement si Y est une fonction de X. – Linéarité : Soit Y1 et Y2 de carrés intégrables, α et β deux réels, alors : E[αY1 + βY2|X] = αE[Y1|X] + βE[Y2|X]. – Linéarité(bis) : si u : R→ R est bornée, alors E[u(X)Y |X] = u(X)E[Y |X]. – Positivité : Si Y ≥ 0, alors E[Y |X] ≥ 0. – Positivité(bis) : si Y1 et Y2 sont de carrés intégrables, avec Y1 ≤ Y2, alors E[Y1|X] ≤ E[Y2|X]. – Calcul d’espérance par conditionnement : E[E[Y |X]] = E[Y ]. – Espérance conditionnelle et indépendance : si X et Y sont indépendantes, alors E[Y |X] = E[Y ]. Remarques. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.5. Espérance conditionnelle : le cas général 27 1. Par commodité des notations, toutes les propriétés ont été énoncées en termes de produits scalaires et de normes. Cependant, il faut savoir les lire aussi bien en termes d’espérances et d’espérances conditionnelles. De même, chaque fois qu’on écrit Z ∈ L2(X), il faut lire Z = u(X), avec u(X) ∈ L2(Ω). Par exemple, la propriété d’orthogonalité(bis) s’écrit encore : pour toute fonction u telle que la variable aléatoire u(X) soit de carré intégrable, on a : E[u(X)Y ] = E[u(X)E[Y |X]]. 2. Le théorème de projection orthogonale permet de comprendre toutes les méthodes dites de moindres carrés en statistiques. Dans ces applications, l’espace H est engendré par les variables observables (X1, . . . ,Xn), ou variables explicatives. Partant de celles-ci, on cherche à estimer (ou à expliquer) une autre variable Y , non observée. L’idée est de chercher une fonction f : Rn → R telle que la variable aléatoire f(X1, . . . ,Xn) approche le mieux possible Y . Les méthodes de moindres carrés sont basées sur la distance L2 : dans ce cas, ce qui a été vu ci-dessus se généralise sans problème et l’unique solution au problème est l’espérance conditionnelle de Y sachant le n-uplet (X1, . . . ,Xn). 1.5 Espérance conditionnelle : le cas général Soit (Ω,F ,P) un espace probabilisé. On note L1(Ω,F ,P), ou plus simplement L1(Ω), l’ensemble des variables aléatoires X : Ω → R intégrables, i.e. telles que : E|X| < +∞, en convenant toujours d’identifier deux variables aléatoires presque sûrement égales. Dans l’étude des cas discret et continu, pour définir l’espérance conditionnelle de Y sachant X, on a vu qu’il suffisait de supposer Y intégrable. C’est pourquoi si on veut donner une définition générale, l’interprétation géométrique de L2(Ω) n’est pas complètement satisfaisante. Néanmoins, c’est celle qu’il faudra garder en tête pour se souvenir de toutes les propriétés usuelles. Du reste, pour la définition qui suit, on part de la propriété de projection déjà vue. Définition 12 (Espérance conditionnelle) Soit (X,Y ) un couple aléatoire, avec Y intégrable. L’espérance conditionnelle de Y sachant X est l’unique variable aléatoire fonction de X, notée E[Y |X], telle que pour toute fonction bornée u : R→ R, on ait : E[u(X)Y ] = E[u(X)E[Y |X]]. Ainsi il existe une fonction ϕ : R → R mesurable telle que E[Y |X] = ϕ(X). On retrouve alors toutes les propriétés vues ci-dessus non propres à l’espace L2(Ω). Propriétés 7 Soit (X,Y ) un couple aléatoire, avec Y ∈ L1(Ω). – Cas d’égalité : si Y = g(X) est fonction de X, alors E[Y |X] = Y . En particulier E[X|X] = X. – Linéarité : Soit Y1 et Y2 intégrables, α et β deux réels, alors : E[αY1 + βY2|X] = αE[Y1|X] + βE[Y2|X] – Linéarité(bis) : si u : R→ R est bornée, alors E[u(X)Y |X] = u(X)E[Y |X]. – Positivité : Si Y ≥ 0, alors E[Y |X] ≥ 0. – Positivité(bis) : si Y1 et Y2 sont intégrables, avec Y1 ≤ Y2, alors E[Y1|X] ≤ E[Y2|X]. – Calcul d’espérance par conditionnement : E[E[Y |X]] = E[Y ]. – Espérance conditionnelle et indépendance : si X et Y sont indépendantes, alors E[Y |X] = E[Y ]. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 28 Chapitre 1. Espérance conditionnelle 1.6 Exercices “Là où il y a une volonté, il y a un chemin.” Lénine. Exercice 1.1 (Let’s make a deal) Vous participez à un jeu où l’on vous propose trois portes au choix. L’une des portes cache une voiture à gagner, et chacune des deux autres une chèvre. Vous choisissez une porte, mais sans l’ouvrir ! L’animateur, qui sait où est la voiture, ouvre une autre porte, derrière laquelle se trouve une chèvre. Il vous donne maintenant la possibilité de vous en tenir à votre choix initial, ou de changer de porte. Qu’avez-vous intérêt à faire ? Remarque : C’est un problème auquel étaient confrontés les invités du jeu télévisé ”Let’s make a deal” de Monty Hall (animateur et producteur américain), sauf que les lots de consolation n’étaient pas des chèvres. Corrigé Supposons, sans perte de généralité, la configuration suivante : (V,C,C), c’est-à-dire que la voiture est derrière la porte 1, les chèvres derrière les portes 2 et 3. Le jeu se déroule alors comme suit : 1. Sans changement de porte : (a) le spectateur choisit la porte 1, donc l’animateur ouvre indifféremment l’une des deux autres portes, et le spectateur gagne. (b) le spectateur choisit la porte 2, donc l’animateur ouvre la porte 3, et le spectateur perd. (c) le spectateur choisit la porte 3, donc l’animateur ouvre la porte 2, et le spectateur perd. 2. Avec changement de porte : (a) le spectateur choisit la porte 1, l’animateur ouvre indifféremment l’une des deux autres portes, le spectateur ouvre l’autre et perd. (b) le spectateur choisit la porte 2, donc l’animateur ouvre la porte 3, le spectateur ouvre la porte 1 et gagne. (c) le spectateur choisit la porte 3, donc l’animateur ouvre la porte 2, le spectateur ouvre la porte 1 et gagne. Bilan des courses : s’il change de porte, il gagne 2 fois sur 3, sinon seulement 1 fois sur 3. Il vaut donc mieux changer de porte ! Exercice 1.2 (Le problème du dépistage) 1. Soit (Ω,F ,P) un espace probabilisé. Soit (H1, . . . ,Hn) une partition de Ω en n événements de probabilités non nulles. Soit A ∈ F tel que P(A) > 0. Rappeler la formule de Bayes (encore appelée formule de probabilité des causes, les Hi étant les causes possibles et A la conséquence). 2. Application : Test de dépistage Une maladie est présente dans la population, dans la proportion d’une personne malade sur 1000. Un responsable d’un grand laboratoire pharmaceutique vient vous vanter son nouveau test de dépistage : si une personne est malade, le test est positif à 99%. Néanmoins, sur une personne non malade, le test est positif à 0.2%. Ces chiffres ont l’air excellent, vous ne pouvez qu’en convenir. Toutefois, ce qui vous intéresse, plus que les résultats présentés par le laboratoire, c’est la probabilité qu’une personne soit réellement malade lorsque son test est positif. Calculer cette probabilité. Corrigé Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 31 Exercice 1.5 (Memento) 1. On dit que la variable aléatoire discrète X suit une loi géométrique de paramètre p ∈]0, 1[ si X est à valeurs dans N∗, avec P(X = k) = p(1− p)k−1. Soit n ∈ N, déterminer P(X > n). Montrer que X vérifie la propriété suivante, dite d’absence de mémoire : ∀(m,n) ∈ N2 P(X > n+m | X > m) = P(X > n). 2. Rappeler la densité d’une loi exponentielle de paramètre λ > 0, ainsi que sa fonction de répartition. Montrer que X vérifie : ∀t ≥ 0, ∀s ≥ 0 P(X > t+ s | X > t) = P(X > s), c’est-à-dire la propriété d’absence de mémoire. 3. Application : la durée de vie T en années d’une télévision suit une loi exponentielle de moyenne 8 ans. Vous possédez une telle télévision depuis 2 ans, quelle est la probabilité que sa durée de vie soit encore d’au moins 8 ans à partir de maintenant ? Corrigé 1. Soit X ∼ G(p) loi géométrique de paramètre p ∈]0, 1[. On a : P(X > n) = +∞∑ k=n+1 P(X = k) = +∞∑ k=n+1 p(1− p)k−1 = p +∞∑ k=n+1 (1− p)k−1, où l’on reconnaît une somme géométrique, donc : P(X > n) = p (1− p)n 1− (1− p) = (1− p)n. Par définition de la probabilité conditionnelle, on a alors ∀(m,n) ∈ N×N : P(X > n+m|X > m) = P({X > n+m} ∩ {X > m}) P(X > m) = P(X > n+m) P(X > m) , puisque l’événement {X > n+m} implique l’événement {X > m}. Grâce au calcul précédent, on a donc : P(X > n+m|X > m) = (1− p)n+m (1− p)m = (1− p)n = P(X > n). 2. Si la variable aléatoire X suit une loi exponentielle de paramètre λ, sa densité est : f(x) = λe−λx 1{x≥0}. Sa fonction de répartition F vaut : F (x) = (1− e−λx)1{x≥0}. Pour tout s ≥ 0, on a donc : P(X > s) = 1−P(X ≤ s) = 1− F (s) = e−λs. D’autre part, par le même raisonnement qu’en question précédente, il vient pour tout couple (s, t) de réels positifs : P(X > t+ s|X > t) = P(X > t+ s) P(X > t) = e−λ(t+s) e−λt = e−λs = P(X > s), donc la loi exponentielle n’a pas de mémoire. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 32 Chapitre 1. Espérance conditionnelle 3. Application : la probabilité cherchée s’écrit P(X > 2 + 8|X > 2) = P(X > 8) = e−1 ≈ 0.37. Exercice 1.6 (Loi de succession de Laplace) On dispose de (N + 1) urnes, numérotées de 0 à N . L’urne k contient k boules rouges et (N − k) boules blanches. On choisit une urne au hasard. Sans connaître son numéro, on en tire n fois de suite une boule, avec remise après chaque tirage. 1. Quelle est la probabilité que le tirage suivant donne encore une boule rouge sachant que, au cours des n premiers tirages, seules des boules rouges ont été tirées ? Indication : on pourra noter En (respectivement En+1) le fait de tirer n (respectivement (n+1)) boules rouges à la suite et décomposer ces deux événements sur la partition (U0, . . . , UN ) formée par les urnes. 2. Calculer la limite de cette probabilité lorsque N tend vers l’infini. (Rappel sur les sommes de Riemann : si f est continue sur [0, 1], alors limn→∞ 1 n ∑n k=1 f(k/n) = ∫ 1 0 f(x)dx.) Corrigé 1. La probabilité cherchée s’écrit, en suivant l’indication de l’énoncé : pN = P(En+1|En) = P(En+1 ∩ En) P(En) = P(En+1) P(En) , la dernière égalité venant de ce que En+1 ⊆ En. Les deux termes se traitent alors de la même façon, en décomposant sur la partition {U0, . . . , UN} : P(En) = N∑ k=0 P(En|Uk)P(Uk) = 1 N + 1 N∑ k=0 P(En|Uk), le terme 1 N+1 venant de l’équiprobabilité pour le choix de l’urne dans laquelle on pioche. Il reste à voir que si on pioche dans l’urne Uk, la probabilité de tirer 1 boule rouge est k/N donc la probabilité de tirer n boules rouges à la suite est (k/N)n. On a donc : pN = 1 N+1 ∑N k=0(k/N)n+1 1 N+1 ∑N k=0(k/N)n . 2. Pour trouver la limite de (pN ) lorsque le nombre N d’urnes tend vers l’infini, il suffit d’ap- pliquer le résultat sur les sommes de Riemann : 1 N + 1 N∑ k=0 (k/N)n = N N + 1 ( 1 N N∑ k=1 (k/N)n ) −−−−→ N→∞ ∫ 1 0 xndx = 1 n+ 1 . On en déduit : lim N→∞ pN = n+ 1 n+ 2 . Exercice 1.7 (Transmission bruitée) Un message doit être transmis d’un point à un autre à travers N canaux successifs. Ce message peut prendre deux valeurs, 0 ou 1. Durant le passage par un canal, le message a la probabilité p ∈]0, 1[ d’être bruité, c’est-à-dire d’être transformé en son contraire, et (1 − p) d’être transmis fidèlement. Les canaux se comportent indépendamment les uns des autres. 1. Notons In l’événement : “en sortie de n-ème canal, le message est le même que celui transmis initialement.” Exprimer P(In+1) en fonction de P(In) et de p. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 33 2. En notant pn = P(In), donner une relation de récurrence entre pn+1 et pn. Que vaut p1 ? 3. On considère une suite (un)n≥1 vérifiant la relation de récurrence : un+1 = (1− 2p)un + p. Une telle suite est dite arithmético-géométrique. Vérifier que la suite (vn)n≥1, définie par vn = un − 1 2 , est géométrique. En déduire vn en fonction de p et v1. 4. En déduire pn en fonction de p pour tout n ∈ {1, . . . , N}. 5. Que vaut limN→+∞ pN ? Qu’est-ce que ce résultat a d’étonnant à première vue ? Corrigé 1. Pour que l’événement In+1 ait lieu, de deux choses l’une : ou bien In était réalisé et le message a été bien transmis dans le (n + 1)-ème canal, ou bien In était réalisé et le message a été mal transmis dans le (n+ 1)-ème canal. C’est en fait la formule des probabilités totales qui s’applique ici : P(In+1) = P(In+1|In)P(In) +P(In+1|In)P(In), c’est-à-dire : P(In+1) = (1− p)P(In) + p(1−P(In)). 2. On a donc la relation de récurrence : pn+1 = (1− p)pn + p(1− pn) = (1− 2p)pn + p. La condition initiale est p1 = 1 − p, probabilité que le message n’ait pas été bruité dans le premier canal. 3. On écrit : vn+1 = un+1 − 1 2 = (1− 2p)un + p− 1 2 , et en remplaçant un par vn + 1 2 , il vient vn+1 = (1 − 2p)vn, donc la suite (vn)n≥1 est géométrique de raison (1− 2p). On en déduit : ∀n ∈ {1, . . . , N} vn = (1− 2p)n−1v1. 4. On a la même relation pour pn que pour un = vn + 1 2 et puisque p1 = (1− p), on en déduit que : ∀n ∈ {1, . . . , N} pn = 1 2 + ( 1 2 − p ) (1− 2p)n−1. 5. Pour déterminer limN→+∞ pN , on peut distinguer 3 cas : (a) p = 0 : la transmission est fiable et on retrouve bien sûr pN = 1 pour tout N . (b) p = 1 : chaque passage dans un canal change de façon certaine le message, donc pN dépend de la parité du nombre de canaux : p2N = 1 et p2N+1 = 0. (c) 0 < p < 1 : contrairement aux deux situations précédentes, on est dans le cas d’un brui- tage aléatoire. On remarque que limN→+∞(1 − 2p)N−1 = 0 et limN→+∞ pN = 1 2 . Ceci signifie que dès que le nombre de canaux devient grand, on est incapable de retrouver le message initial de façon fiable : autant tirer à pile ou face ! C’est le fameux principe du téléphone arabe. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 36 Chapitre 1. Espérance conditionnelle 1 2 3 0 Y 0 0 54321 4 5 0 0 0 0 0 0 0 1/25 1/25 1/25 1/25 1/25 1/25 1/25 1/25 1/251/25 1/25 2/25 3/25 4/25 5/25 U Figure 1.15 – Loi jointe pour le couple (U, Y ). Puisqu’on connaît la loi jointe, il reste à préciser la loi marginale de Y , c’est-à-dire sommer sur les colonnes dans le tableau de la question précédente. Ce qui donne : P(Y = n) = P(U = 1, Y = n) + · · ·+P(U = n, Y = n) = 1 25 (n− 1) + 1 25 n = 2n− 1 25 . Ainsi, on obtient pour la loi conditionnelle de U sachant Y : P(U = k|Y = n) = { 1/(2n − 1) si 1 ≤ k ≤ (n− 1) n/(2n− 1) si k = n Au total, on obtient : E[U |Y = n] = (1 + · · ·+ (n− 1)) 1 2n − 1 + n n 2n− 1 . La première somme, entre parenthèses, est arithmétique de raison 1, donc : 1 + · · ·+ (n − 1) = n(n− 1) 2 , d’où finalement : E[U |Y = n] = n(n− 1) 2(2n − 1) + n2 2n − 1 = n(3n− 1) 2(2n − 1) . Remarque : quand vous arrivez ici, après quelques calculs, pensez à vérifier que la formule fonctionne, par exemple pour n = 1 et n = 2. 3. On en déduit que : E[U |Y ] = Y (3Y − 1) 2(2Y − 1) . 4. Pour déterminer E[Y |U ], on commence par calculer E[Y |U = n] pour tout n ∈ {1, 2, 3, 4, 5}. Lorsque U vaut n, il est clair que Y peut prendre les valeurs n, . . . , 5. Comme ci-dessus, il faut donc commencer par préciser la loi marginale de U . Or U est obtenue en tirant un nombre au hasard entre 1 et 5, donc U suit une loi uniforme sur l’ensemble {1, 2, 3, 4, 5} : P(U = n) = 1 5 . On en déduit que : P(Y = k|U = n) = { 1/5 si (n+ 1) ≤ k ≤ 5 n/5 si k = n Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 37 On en déduit l’espérance conditionnelle de Y sachant U = n : E[Y |U = n] = n n 5 + ((n+ 1) + · · ·+ 5) 1 5 . On reconnaît à nouveau une somme arithmétique dans la parenthèse : (n+ 1) + · · ·+ 5 = (n + 6)(5 − (n+ 1) + 1) 2 = (n+ 6)(5 − n) 2 , et finalement on obtient : E[Y |U = n] = n2 − n+ 30 10 . Et l’espérance conditionnelle de Y sachant U est donc : E[Y |U ] = U2 − U + 30 10 . 1 2 3 54321 4 5 3/25 U X 5/25 4/25 2/25 1/25 1/25 1/25 1/25 1/25 1/25 1/25 1/25 1/25 1/25 0 0 0 0 0 0 0 0 0 0 1/25 Figure 1.16 – Loi jointe pour le couple (U,X). 5. Pour déterminer E[U |X], on reprend pas à pas le raisonnement vu ci-dessus. La loi jointe du couple aléatoire (U,X) est représentée figure 1.16. Pour tout n entre 1 et 5, on a cette fois : E[U |X = n] = nP(U = n|X = n) + · · ·+ 5P(U = 5|X = n). Pour la loi marginale de X, on a : P(X = n) = 11−2n 25 . Ce qui donne pour la loi conditionnelle de U sachant X = n : P(U = k|X = n) = { 1/(11 − 2n) si (n+ 1) ≤ k ≤ 5 (6− n)/(11 − 2n) si k = n On a donc : E[U |X = n] = n 6− n 11− 2n + ((n + 1) = · · ·+ 5) 1 11 − 2n = 30 + 11n− 3n2 22− 4n . Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 38 Chapitre 1. Espérance conditionnelle Donc finalement : E[U |X] = 30 + 11X − 3X2 22− 4X . Pour calculer l’espérance conditionnelle de X sachant U , on a deux possibilités : ou bien on reprend la méthode plan-plan ci-dessus, ou bien on pense à une ruse de sioux. Il suffit en effet de remarquer, puisque l’espérance conditionnelle est linéaire, que : E[X + Y |U ] = E[X|U ] + E[Y |U ], or X + Y = U + V , puisque si X est égal à U , Y est égal à V et vice-versa. Donc : E[X + Y |U ] = E[U + V |U ] = E[U |U ] + E[V |U ], et on utilise les propriétés classiques de l’espérance conditionnelle : E[U |U ] = U d’une part, et E[V |U ] = E[V ] d’autre part, puisque U et V sont indépendantes. Si on fait les comptes, on a donc obtenu : E[X|U ] = U + E[V ]− E[Y |U ]. Or E[V ] = 3 puisque V suit une loi uniforme et on a calculé E[Y |U ] ci-dessus. Finalement : E[X|U ] = 11U − U2 10 , et tout est dit. Figure 1.17 – Tirage uniforme dans un triangle. Exercice 1.11 (Des points dans N2) On tire un point de façon uniforme parmi ceux de la figure 1.17. Ceci donne un couple aléatoire (X,Y ) dont la loi jointe est : pij = P(X = i, Y = j) = 1 15 , 1 ≤ j ≤ i ≤ 5. 1. Donner les lois marginales de X et de Y . 2. Soit j ∈ {1, . . . , 5} fixé : donner la loi conditionnelle de X sachant Y = j, c’est-à-dire P(X = i|Y = j). 3. Calculer E[X|Y = j], en déduire E[X|Y ], puis E[X] en fonction de E[Y ]. 4. Déterminer de même la loi conditionnelle de Y sachant X = i. 5. Calculer E[Y |X = i], en déduire E[Y |X], puis E[Y ] en fonction de E[X]. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 41 3. Pour n ≥ k ≥ 0, on peut alors écrire : P(X = n|Y = k) = P(X = n, Y = k) P(Y = k) , où numérateur et dénominateur ont été calculés dans les questions précédentes, ce qui permet d’aboutir à : ∀n ≥ k ≥ 0 P(X = n|Y = k) = e−(1−p)λ ((1 − p)λ)n−k (n− k)! , c’est-à-dire que, sachant Y = k, X suit en effet une loi de Poisson translatée. Pour en déduire E[X|Y = k] et pour reprendre la formule chère aux amateurs de westerns spaghettis, “Le monde se divise en deux catégories : ceux qui ont le revolver chargé, et ceux qui creusent”, i.e. sans ou avec calculs. Optons pour la première option : lorsque Y = k, X suit une loi de Poisson de paramètre (1−p)λ translatée de k, c’est-à-dire que X−k suit exactement une loi de Poisson de paramètre (1− p)λ. On en déduit que E[X − k|Y = k] = (1− p)λ, autrement dit E[X|Y = k] = k + (1− p)λ et plus généralement : E[X|Y ] = Y + λ(1− p). 4. Nous sommes exactement dans le cadre d’application de ce qui précède, avec λ = 100, p = 1/3 et k = 100. Le nombre moyen de voitures qui sont passées par l’embranchement vaut donc : E[X|Y = 100] = 100 + (1− 1/3) × 100 ≈ 167. Un raisonnement moisi serait le suivant : pour une voiture qui prend la direction A, deux prennent la direction B, donc si on a vu passer 100 voitures en une heure partant vers A, 200 voitures ont dû prendre la direction B, donc au total 300 ont dû se présenter à l’embranchement. Où est la faute ? Le fait que les choix de A ou B sont indépendants implique que l’information sur l’un n’apporte aucune information sur l’autre. Donc quel que soit le nombre de voitures partant vers A en une heure, le nombre moyen de voitures vers B est inchangé et vaut environ 67. Formellement, ceci peut se voir en utilisant les propriétés classiques de l’espérance conditionnelle : E[X|Y ] = E[Y + Z|Y ] = E[Y |Y ] + E[Z|Y ] = Y + E[Z], où la relation E[Z|Y ] = E[Z] vient de l’indépendance de Y et Z. Exercice 1.14 (Espérance d’une variable géométrique) Soit une urne contenant N boules noires et M boules blanches (N,M ≥ 1). On pose p = N N+M . On effectue une suite de tirages avec remise et on désigne par T le nombre de tirages nécessaires pour amener pour la première fois une boule noire. 1. Quelle est la loi de T ? Que vaut E[T ] ? 2. On calcule ici l’espérance de T par une autre méthode. On introduit une variable X qui prend la valeur 0 ou 1 selon que la première boule tirée est blanche ou noire. (a) Déterminer E[T |X = 1]. (b) Déterminer E[T |X = 0] en fonction de E[T ]. (c) Via un calcul d’espérance par conditionnement, en déduire E[T ]. Corrigé Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 42 Chapitre 1. Espérance conditionnelle 1. La variable T est à valeurs dans N∗ et pour tout entier naturel non nul n, il faut (n − 1) échecs et finalement un succès pour que T vaille n. Puisque les tirages sont indépendants, ceci se traduit par P(T = n) = p(1− p)n−1 On dit que T suit une loi géométrique de paramètre p et on note T ∼ G(p). Le cadre général est le suivant : lors d’une expérience, un événement donné a la probabilité p de survenir ; si on répète cette expérience de façon indépendante jusqu’à ce que cet événement apparaisse, le nombre d’expériences nécessaires suit la loi géométrique de paramètre p. On prendra garde au fait que le paramètre p de cette loi ne correspond pas à la raison de la suite des probabilités (P (T = n))n∈N∗ , lequel vaut (1− p). Le calcul de l’espérance de T se fait alors comme suit : E[T ] = ∞∑ n=1 np(1− p)n−1 = p ∞∑ n=1 n(1− p)n−1. Il suffit alors de se souvenir de la somme d’une série géométrique et de dériver terme à terme pour obtenir le résultat voulu : 1 1− x = ∞∑ n=0 xn ⇒ 1 (1− x)2 = ∞∑ n=1 nxn−1 ⇒ 1 p2 = ∞∑ n=1 n(1− p)n−1 ce qui donne E[T ] = 1/p. Interprétation élémentaire : plus l’événement d’intérêt est rare, autrement dit plus p est faible, et en moyenne plus il faut attendre pour le voir apparaître. 2. (a) Il est clair que E[T |X = 1] = 1. (b) Si X = 0, la première boule tirée est blanche et on revient au point de départ (hormis qu’on a déjà fait un tirage), ce qui se traduit par E[T |X = 0] = 1 + E[T ]. (c) Tenant compte de ce que P(X = 0) = 1−P(X = 1) = 1− p, on peut alors écrire E[T ] = E[E[T |X]] = E[T |X = 0]P(X = 0)+E[T |X = 1]P(X = 1) = (1+E[T ])(1−p)+p ce qui conduit bien à E[T ] = 1/p. Exercice 1.15 (Germinal revival) Un mineur est prisonnier dans un puits d’où partent trois tunnels. Le premier tunnel le mènerait à la sortie au bout de 3 heures de marche. Le second le ramènerait à son point de départ au bout de 5 heures de marche, de même que le troisième au bout de 7 heures. On suppose que les tunnels sont indiscernables et qu’à chaque fois qu’il est au point de départ, le mineur emprunte l’un des trois de façon équiprobable. On note T le nombre d’heures nécessaires pour sortir du puits. Soit X ∈ {1, 2, 3} le numéro du tunnel que le prisonnier choisit à sa première tentative. Reprendre le raisonnement de l’exercice 1.14 (partie 2.) pour calculer le temps moyen qu’il faut au mineur pour sortir. Corrigé En s’inspirant de l’exercice 1.14, on obtient : E[T |X = 1] = 3, E[T |X = 2] = E[T ] + 5 et E[T |X = 3] = E[T ] + 7. Par ailleurs, le calcul d’espérance par conditionnement donne : E[T ] = E[T |X = 1]P(X = 1) + E[T |X = 2]P(X = 2) + E[T |X = 3]P(X = 3). Mais puisque le prisonnier choisit au hasard parmi les trois tunnels, on a : P(X = 1) = P(X = 2) = P(X = 3) = 1 3 . Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 43 Ainsi il vient : E[T ] = 1 3 (3 + E[T ] + 5 + E[T ] + 7), d’où l’on déduit : E[T ] = 15. Il faut en moyenne 15 heures au mineur pour sortir. Autant dire qu’il n’a pas le cul sorti des ronces... Exercice 1.16 (Variable Y définie à partir de X) On considère une variable aléatoire X à valeurs dans N∗ et telle que : ∀i ∈ N∗ P(X = i) = 2 3i . Soit Y une variable aléatoire telle que, sachant X = i, la loi de Y est l’équiprobabilité sur {i, i+1}. 1. Que vaut E[X] ? 2. Pour tout i ∈ N∗, déterminer E[Y |X = i]. En déduire E[Y |X], puis E[Y ]. 3. Calculer la loi jointe du couple (X,Y ). 4. Déterminer la loi de Y . 5. Pour tout j ∈ N∗, déterminer E[X|Y = j]. En déduire E[X|Y ]. 6. Calculer Cov(X,Y ). Corrigé 1. On a vu que X suit une loi géométrique de paramètre 2/3 donc E[X] = 3/2. 2. Pour tout i ∈ N∗, on a vu que : E[Y |X = i] = 1 2 (i+ (i+ 1)) = 2i+ 1 2 . On en déduit que E[Y |X] = 2X + 1 2 , et par suite E[Y ] = E[E[Y |X]] = 1 2 (2E[X] + 1) = 2. 3. La loi jointe du couple (X,Y ) est très simple puisqu’on connaît marginale et conditionnelle. Pour tout i ∈ N∗, on a : pi,j = { 0 si j /∈ {i, i + 1} 1 3i si j ∈ {i, i + 1} 4. La variable aléatoire Y est à valeurs dans N∗, avec pj = P(Y = j) = { 1/3 si j = 1 4 3j si j ≥ 2 5. On commence par déterminer la loi conditionnelle de X sachant Y = j. Or si Y = 1, il est clair que X vaut 1, donc que E[X|Y = 1] = 1. Si Y = j > 1, alors X ne peut valoir que j ou (j − 1) et plus précisément : P(X = j − 1|Y = j) = P(X = j − 1, Y = j) P(Y = j) = 3 4 , Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 46 Chapitre 1. Espérance conditionnelle 5. Pour l’expression de l’espérance conditionnelle de Y sachant X, il faut donc faire attention à X = 0 : E[Y |X] = 1 5(ln 6− ln 5) 1{X=0} + 1 5 X1{X>0} = 1 5(ln 6− ln 5) 1{X=0} + 1 5 X. 6. On en déduit l’espérance de Y en fonction de celle de X : E[Y ] = E[E[Y |X]] = 1 5(ln 6− ln 5) E[1{X=0}] + 1 5 E[X]. La variable aléatoire 1{X=0} est binaire, elle prend les valeurs 0 et 1 avec les probabilités respectives P(X > 0) et P(X = 0), donc son espérance est tout simplement : E[1{X=0}] = 0×P(X > 0) + 1×P(X = 0) = P(X = 0) = ln 6− ln 5 ln 2 . On en déduit que : E[Y ] = 1 5 ln 2 + 1 5 E[X], ce qui est bien le résultat voulu. Remarque. Une version plus générale de cet exercice se trouve dans l’ouvrage Toutes les probabilités et les statistiques, de Jacques Dauxois et Claudie Hassenforder, Ellipses, 2004. Exercice 1.18 (Echauffement) On considère la fonction f définie sur R2 par : f(x, y) = e−(x+y) 1{x≥0,y≥0} 1. Vérifier que f est une densité sur R2. 2. Soit (X,Y ) un couple de densité f . Déterminer les marginales f(x) et f(y). 3. Calculer la covariance du couple (X,Y ). Corrigé 1. Il est clair que f est une fonction positive. Par ailleurs, par le théorème de Fubini-Tonelli, le calcul de son intégrale double sur R2 se fait sans problème : ∫∫ R 2 f(x, y) dx dy = ∫ +∞ 0 (∫ +∞ 0 e−(x+y) dy ) dx = · · · = 1, et f est bien une densité sur R2. 2. La densité f(x) de la variable aléatoire X s’obtient en intégrant par rapport à y : f(x) = ∫ R f(x, y) dy = · · · = e−x 1[0,+∞[(x). On voit donc que X suit une loi exponentielle de paramètre 1, ce que l’on note : X ∼ E(1). Vu les rôles symétriques joués par X et Y , la variable aléatoire Y a la même loi : Y ∼ E(1). 3. On remarque que : ∀(x, y) ∈ R2 f(x, y) = f(x)f(y), donc X et Y sont indépendantes, donc leur covariance est nulle (rappelons que la réciproque est fausse en général, sauf dans le cas des vecteurs gaussiens). Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 47 Exercice 1.19 (Montée en puissance) Soit (X,Y ) un couple aléatoire de densité jointe : f(x, y) = 1 y e −x y −y 1]0,+∞[2(x, y) 1. Déterminer la densité marginale f(y) de Y . 2. En déduire la densité conditionnelle f(x|y). 3. Que vaut E[X|Y = y]. En déduire l’espérance conditionnelle de X sachant Y . 4. On considère cette fois : f(x, y) = 12 5 x(2− x− y)1]0,1[2(x, y). Montrer que E[X|Y ] = 5− 4Y 8− 6Y Corrigé 1. La densité marginale de Y vaut : f(y) = ∫ +∞ 0 1 y e −x y −y 1]0,+∞[(y) dy, ce qui donne après calculs : f(y) = e−y 1]0,+∞[(y), c’est-à-dire que Y ∼ ε(1). 2. On en déduit la densité conditionnelle f(x|y). Pour tout y > 0 : f(x|y) = f(x, y) f(y) = 1 y e− x y 1]0,+∞[(x), donc sachant Y = y, X ∼ ε(1/y). 3. On sait que si X ∼ ε(λ), alors E[X] = 1/λ. Or sachant Y = y, X ∼ ε(1/y), donc : E[X|Y = y] = y, et par suite : E[X|Y ] = Y . 4. On considère cette fois : f(x, y) = 12 5 x(2− x− y)1]0,1[2(x, y). Pour montrer que E[X|Y ] = 5− 4Y 8− 6Y , il suffit d’appliquer la méthode usuelle. Si vous n’arrivez pas à ce résultat, c’est que vous avez fait une faute de calcul quelque part ! Exercice 1.20 (Mai 2007) Soit (X,Y ) un couple aléatoire de densité jointe : f(x, y) = cx(y − x)e−y 1{0<x≤y}. 1. Soit V une variable aléatoire qui suit une loi exponentielle de paramètre λ. Rappeler son moment d’ordre n, c’est-à-dire E[V n]. 2. Déterminer c pour que f soit effectivement une densité. 3. Calculer f(x|y), densité conditionnelle de X sachant Y = y. 4. En déduire que E[X|Y ] = Y/2. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 48 Chapitre 1. Espérance conditionnelle 5. Calculer f(y|x), densité conditionnelle de Y sachant X = x. 6. En déduire que E[Y |X] = X + 2. 7. Déduire des questions 4 et 6 les quantités E[X] et E[Y ]. Corrigé Cf. annales en fin de polycopié. Exercice 1.21 (Mai 2008) On considère le couple aléatoire (X,Y ) de densité la fonction f définie sur R 2 par : f(x, y) = { 2 si 0 ≤ x ≤ y ≤ 1 0 sinon 1. Représenter f et vérifier qu’il s’agit bien d’une fonction de densité. 2. Les variables X et Y sont-elles indépendantes ? 3. Déterminer les lois marginales puis calculer E[X] et E[Y ]. 4. Calculer les lois conditionnelles f(y|x) et f(x|y). 5. Calculer E[X|Y ]. 6. En utilisant le résultat précédent et la valeur de E[Y ] de la question 3, retrouver la valeur de E[X]. Corrigé Cf. annales en fin de polycopié. Exercice 1.22 (Changement de couple) On considère la fonction suivante : f(x, y) = e−y 1{0<x<y}. 1. Vérifier que f(x, y) définit une densité de probabilité sur R2. 2. Calculer les densités marginales de X et Y . Les variables X et Y sont-elles indépendantes ? 3. Calculer E[X], E[Y ], Cov(X,Y ). 4. Déterminer la densité conditionnelle fY |X de Y sachant X = x. En déduire E[Y |X = x], puis l’espérance conditionnelle E[Y |X]. 5. Déterminer de même E[X|Y ]. 6. Déterminer la loi jointe fZ,T du couple (Z, T ) défini par : { Z = X + Y T = Y −X 7. En déduire les densités marginales de Z et T . Corrigé Cet exercice est corrigé en annexe, sujet de juin 2005. Exercice 1.23 (Jeu de fléchettes) Soit D le disque de centre (0, 0) et de rayon 1, (X,Y ) un point tiré uniformément dans D. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 51 or les variables aléatoires L1, . . . , Ln sont indépendantes et identiquement distribuées, donc : P(L1 > a, . . . , Ln > a) = P(L1 > a)× · · · ×P(Ln > a) = P(L1 > a)n. Mais on a alors : P(L1 > a) = 1−P(L1 ≤ a) = 1−P(L2 1 ≤ a2) = 1−P(X2 +Y 2 ≤ a2) = 1−G(a2) = 1−a2. Ainsi : pa = 1− (1− a2)n. Exercice 1.24 (Lois exponentielles) Soit X et Y deux variables aléatoires indépendantes suivant une loi exponentielle de même para- mètre λ > 0. 1. Quelle est la loi jointe fX,Y du couple (X,Y ) ? 2. Déterminer la loi jointe fV,W du couple (V,W ) défini par : { V = X + Y W = X 3. En déduire la densité de V . 4. Calculer f(w|v). Quelle loi reconnaît-on ? Corrigé Voir les annales, sujet de mai 2008. Exercice 1.25 (Minimum de variables exponentielles) 1. On considère deux variables aléatoires indépendantes X1 et X2 exponentielles de paramètres respectifs λ1 et λ2. Soit Y = min(X1,X2) le minimum de ces deux variables. Montrer que Y suit une loi exponentielle de paramètre (λ1 + λ2) (on pourra utiliser les fonctions de répartition). 2. Montrer que : P(Y = X1) = P(X1 < X2) = λ1 λ1 + λ2 . Indication : on pourra calculer P(X1 < X2) en conditionnant par rapport à X2. 3. Deux guichets sont ouverts à une banque : le temps de service au premier (respectivement second) guichet suit une loi exponentielle de moyenne 20 (respectivement 30) minutes. Aude et Vincent sont convoqués à la banque pour s’expliquer sur leurs découverts respectifs : Aude choisit le guichet 1, Vincent le 2. Quelle est la probabilité que Aude sorte la première ? 4. En moyenne, combien de temps faut-il pour que les deux soient sortis ? Indication : le max de deux nombres, c’est la somme moins le min. Corrigé Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 52 Chapitre 1. Espérance conditionnelle 1. Notons FY la fonction de répartition de Y , alors : FY (y) = P(Y ≤ y) = P(min(X1,X2) ≤ y) = 1− P (min(X1,X2) > y), ce qui s’écrit encore : FY (y) = 1−P ({X1 > y} ∩ {X2 > y}) . Or X1 et X2 sont indépendantes : FY (y) = 1−P(X1 > y)P(X2 > y) = 1− e−λ1y 1 R +(y)e−λ2y 1 R +(y) = 1− e−(λ1+λ2)y 1 R +(y), c’est-à-dire que Y ∼ E(λ1 + λ2). 2. On a : P(Y = X1) = P(X1 < X2) = ∫ +∞ 0 P(X1 < X2|X2 = x)fX2(x) dx, c’est-à-dire : P(Y = X1) = ∫ +∞ 0 P(X1 < x|X2 = x)λ2e −λ2x dx. Mais puisque X1 et X2 sont indépendantes, le premier terme dans l’intégrale est simplement : P(X1 < x|X2 = x) = P(X1 < x) = 1− e−λ1x, d’où l’on déduit : P(Y = X1) = ∫ +∞ 0 ( λ2e −λ2x − λ2e −(λ1+λ2)x ) dx = 1− λ2 λ1 + λ2 . Finalement on a bien : P(Y = X1) = λ1 λ1 + λ2 . 3. Rappelons qu’une exponentielle de moyenne 20 a pour paramètre 1/20. La probabilité que Aude sorte la première est donc tout simplement : p = 1/20 1/20 + 1/30 = 3 5 . 4. Soit Xa, respectivement Xv, le temps nécessaire pour que Aude, respectivement Vincent, sorte de la banque. On cherche donc à calculer E[max(Xa,Xv)]. Il suffit de remarquer que : max(Xa,Xv) = Xa +Xv −min(Xa,Xv), d’où par linéarité de l’espérance : E[max(Xa,Xv)] = E[Xa] + E[Xv]− E[min(Xa,Xv)] = 20 + 30− 1 1/20 + 1/30 = 38 min. Exercice 1.26 (Variable Y définie à partir de X) Soit X une variable aléatoire de densité : 2 (ln 2)2 ln(1 + x) 1 + x 1[0,1](x) Soit Y une variable aléatoire telle que la loi conditionnelle de Y sachant X = x est : 1 ln(1 + x) 1 1 + y 1[0,x](y) Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 53 1. Donner la densité jointe du couple (X,Y ). 2. Les variables X et Y sont-elles indépendantes ? 3. Quelle est la loi de Y ? Loi conditionnelle de X sachant Y ? 4. Déterminer l’espérance conditionnelle E[X|Y ]. Corrigé Cf. annales, sujet de juin 2006. Exercice 1.27 (L’aiguille de Buffon) On suppose qu’on lance une aiguille de longueur unité sur un parquet dont les lames sont elles- mêmes de largeur unité. On voudrait calculer la probabilité p que l’aiguille soit à cheval sur deux lames. On modélise le problème comme suit : la variable aléatoire X correspond à la distance du milieu de l’aiguille au bord de lame le plus proche, la variable aléatoire T correspond à l’angle entre l’aiguille et l’axe des abscisses (cf. figure 1.18, à gauche). On suppose que X est uniformément distribuée sur [0, 1/2], T uniformément distribuée sur [−π/2, π/2], et que ces deux variables sont indépendantes. TX R Figure 1.18 – Modélisation de l’expérience de Buffon (à gauche) et solution diabolique (à droite). 1. Expliquer pourquoi la probabilité cherchée peut s’écrire : p = P ( X ≤ 1 2 | sinT | ) . 2. Soit t ∈ [−π/2, π/2]. Que vaut P(X ≤ 1 2 | sin t|) ? 3. Grâce à un calcul de probabilité par conditionnement, en déduire que p = 2 π . 4. Méthode heuristique : on jette un très grand nombre d’aiguilles sur le parquet, de sorte qu’il y en ait dans toutes les directions. On peut donc les mettre bout à bout de façon à former un très grand cercle, de rayon R (cf. figure 1.18, à droite). (a) Quel est approximativement le nombre N d’allumettes nécessaires pour former ce cercle ? (b) Quel est approximativement le nombre Ni de lames de parquet intersectées par ces allumettes ? (c) En faisant le rapport entre ces deux nombres, retrouver le résultat p = 2 π . Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 56 Chapitre 1. Espérance conditionnelle La loi conditionnelle de Y sachant X = x est donnée par : f(y|x) = 3 y2 x3 1]0,x[(y). La loi conditionnelle de Z sachant X = x et Y = y est donnée par : f(z|x, y) = 2 y − z y2 1]0,y[(z). 1. Soit V ∼ E(λ). Donner pour tout n ∈ N : E[V n]. 2. Représenter l’ensemble des valeurs prises par le triplet (X,Y,Z). 3. Déterminer la densité jointe f(x, y, z). En déduire la densité de Z. 4. Que vaut la densité jointe du couple (X,Y ) conditionnellement à Z = z ? 5. En déduire la densité de X sachant Z = z, notée f(x|z), puis E[X|Z]. 6. Soit S = X + Y et T = X − Y . Déterminer la densité jointe fS,T du couple (S, T ). Quelle loi suit la variable aléatoire T ? Exercice 1.30 (Couple mixte) On rappelle que si V ∼ E(α), on a : E[V n] = n!/αn. Soit alors (X,Y ) un couple de variables aléatoires à valeurs dans N× [0,+∞[, tel que : – la loi marginale de Y est exponentielle de paramètre 1 ; – la loi conditionnelle de X sachant Y = λ est une loi de Poisson de paramètre λ. Puisque le couple n’est ni discret, ni absolument continu, on propose de noter p(n, λ) sa loi jointe, p(n) = P(X = n) la loi marginale de X, p(λ) la densité de Y , etc. 1. Déterminer la loi jointe du couple (X,Y ), c’est-à-dire p(n, λ). 2. Déterminer la loi marginale de X, c’est-à-dire p(n). Quel est le lien avec une loi géométrique classique ? Que vaut E[X] ? 3. Déterminer la densité conditionnelle de Y sachant X = n, c’est-à-dire p(λ|n). 4. Déterminer l’espérance conditionnelle de Y sachant X = n, c’est-à-dire E[Y |X = n]. En déduire E[Y |X]. 5. Vérifier sur cet exemple la relation vue en cours dans les cas classiques : E[Y ] = E[E[Y |X]]. Exercice 1.31 (Triplet exponentiel) Soit X1, X2 et X3 des variables i.i.d. de loi exponentielle de paramètre α. On pose : { Y1 = X2 −X1 Y2 = X3 −X1 On s’intéresse à la densité jointe du couple (Y1, Y2) sachant X1 = x1. Montrer que pour tout triplet (x1, y1, y2) de R3, on a : f(y1, y2|x1) = α2e−α(2x1+y1+y2) 1{y1≥−x1,y2≥−x1}. Exercice 1.32 (Droite de régression en statistiques) On considère les tailles et poids de dix enfants de six ans : Taille 121 123 108 118 111 109 114 103 110 115 Poids 25 22 19 24 19 18 20 15 20 21 Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 57 1. Calculer les espérances, variances et covariance empiriques pour cet échantillon. 2. Déterminer la droite de régression y = âx+ b̂. 3. Quelle est l’erreur quadratique moyenne pour cet échantillon ? Exercice 1.33 (Droite de régression en probabilités) Soit (X,Y ) un couple aléatoire de densité jointe : f(x, y) = 1 2π e− 2x2−2xy+y2 2 1. Montrer que X ∼ N (0, 1) et Y ∼ N (0, 2), lois normales centrées de variances respectives 1 et 2. 2. Montrer que la covariance du couple (X,Y ) vaut 1. 3. En déduire l’équation de la droite de régression de Y en X : y = ax+ b. 4. Montrer que, sachant X = x, Y suit une loi normale N (x, 1). En déduire la courbe de régression : x 7→ E[Y |X = x]. 5. Sachant X = x, on veut la probabilité que Y s’éloigne de ax + b de plus de une unité, i.e. calculer : P(|Y − (aX + b)| > 1|X = x). Indication : si V ∼ N (0, 1), alors P(|V | > 1) ≈ 0.32. Exercice 1.34 (Droite de régression et courbe de régression) Soit (X,Y ) un couple aléatoire de densité jointe : f(x, y) = 1 x √ 2π e− 1 2 ( y 2 x2 −2y+x2+2x) 1{x>0} 1. Montrer que X ∼ E(1), loi exponentielle de paramètre 1. 2. Calculer f(y|x) pour montrer que, sachant X = x, Y suit une loi normale N (x2, x2). 3. En déduire la courbe de régression : x 7→ E[Y |X = x]. 4. Sachant X = x, donner une zone de confiance à 95% pour Y . 5. Déterminer l’équation de la droite de régression de Y en X. 6. Représenter graphiquement les résultats. Exercice 1.35 (Droite de régression et points aberrants) Douze personnes sont inscrites à une formation. Au début de la formation, ces stagiaires subissent une épreuve A notée sur 20. A la fin de la formation, elles subissent une épreuve B de niveau identique. Les résultats sont donnés dans le tableau suivant : Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4 Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19 1. Représenter le nuage de points. Déterminer la droite de régression. Calculer le coefficient de corrélation. Commenter. 2. Deux stagiaires semblent se distinguer des autres. Les supprimer 3 et déterminer la droite de régression sur les dix points restants. Calculer le coefficient de corrélation. Commenter. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 58 Chapitre 1. Espérance conditionnelle 4 6 8 10 12 14 6 8 10 12 14 16 18 Notes Epreuve A N ot es E pr eu ve B Figure 1.20 – Représentation des notes et droite de régression pour l’ensemble des 12 stagiaires. Corrigé 1. Le nuage de points ainsi que la droite de régression sont représentés figure 1.20. On cherche à expliquer les notes à l’épreuve B, notées y1, . . . , y12 à partir des notes à l’épreuve A, notées x1, . . . , x12. L’équation de la droite de régression est y = âx+ b̂, avec : â = ∑12 i=1(xi − x̄)(yi − ȳ)∑12 i=1(xi − x̄)2 ≈ 0.11 rapport de la covariance empirique entre les notes à l’épreuve A et celles à l’épreuve B et de la variance empirique des notes à l’épreuve A. Pour l’ordonnée à l’origine, on a : b̂ = ȳ − âx̄ ≈ 12.0 Le coefficient de corrélation linéaire vaut : ρ̂ = ∑12 i=1(xi − x̄)(yi − ȳ)√∑12 i=1(xi − x̄)2 √∑12 i=1(yi − ȳ)2 ≈ 0.10 Le coefficient proche de 0 pourrait laisser penser qu’il n’y a pas une forte corrélation linéaire entre les notes à l’épreuve A et les notes à l’épreuve B. De fait, sur la figure 1.20, la droite de régression ne semble pas représenter correctement le nuage de points. 2. On élimine les notes des deux derniers stagiaires, c’est-à-dire les deux dernières colonnes du tableau. Le nuage de points ainsi que la droite de régression sont représentés figure 1.21. L’équation de la droite de régression est encore y = âx+ b̂, avec : â = ∑10 i=1(xi − x̄)(yi − ȳ)∑10 i=1(xi − x̄)2 ≈ 0.90 3. “Je ne crois aux statistiques que lorsque je les ai moi-même falsifiées.” Winston Churchill. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 1.6. Exercices 61 avec : E[X2] = ∫ 1 0 x2 dx = 1 3 , d’où finalement : Var(X) = 1 12 . De même, on a : Cov(X,Y ) = E[XY ]− E[X]E[Y ]. Or les variables aléatoires X et Y sont liées par la relation Y = eX , donc : E[XY ] = E [ XeX ] = ∫ 1 0 xex dx, ce qui donne après une intégration par parties : E[XY ] = 1 ⇒ Cov(X,Y ) = 1 2 (3− e). On en déduit que les coefficients de la régression linéaire sont : { a = 6(3− e) ≈ 1.69. b = 2(2e− 5) ≈ 0.87. Autrement dit, sur l’intervalle [0, 1], la meilleure approximation au sens de la norme L2 de la fonction x 7→ ex par une fonction affine est donnée par la droite (cf. figure 1.22) : y = 6(3− e)x+ 2(2e − 5) ≈ 1.69x + 0.87. 0.8 1.0 2.8 ................... ................... .................. ................. ................. ................ ................ ............... ............... .............. .............. .............. ............. ............. ............. ............ ............ ............ ............ ........... ........... ........... ........... .......... .......... .......... .......... .......... ......... ......... ......... ......... ......... ......... ......... ........ ........ ........ ........ ........ ........ ........ ....... 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Figure 1.22 – Approximation en norme L2 de x 7→ ex par une fonction affine sur [0, 1]. Remarque. L’approche brutale consisterait à voir la quantité à optimiser comme une fonction des deux variables a et b : Φ(a, b) = ∫ 1 0 (ex − ax− b)2 dx, Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 62 Chapitre 1. Espérance conditionnelle ce qui donne après développement et calculs : Φ(a, b) = a2 3 + b2 + ab− 2a+ 2(1− e)b+ 1 2 (e2 − 1). On effectue une factorisation “à la Gauss” : Φ(a, b) = ( b− ( e− 1− a 2 ))2 + 1 12 (a− 6(3− e))2 − ( 7 2 e2 − 20e + 57 2 ) . Cette quantité est minimale lorsqu’on annule les 2 carrés, c’est-à-dire lorsque : { a = 6(3 − e) b = e− 1− a 2 = 2(2e − 5) On retrouve le résultat précédent. Happy end ! Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov Chapitre 2 Vecteurs gaussiens et conditionnement Introduction Le calcul conditionnel s’exprime très simplement dans le cadre gaussien, puisque tout se ramène à du calcul matriciel. C’est pourquoi on dit qu’on est dans un cadre linéaire. C’est ce qui devrait ressortir de ce chapitre. Au préalable, il convient de faire quelques rappels sur les lois normales uni- et multi-dimensionnelles. 2.1 Rappels sur les vecteurs gaussiens 2.1.1 Variables gaussiennes Dans toute la suite, (Ω,F ,P) est un espace probabilisé. −3 −2 −1 0 1 2 3 4 −7 −5 −3 −1 1 3 5 7 9−4 0.40 0.12 0.14 Figure 2.1 – Densités des lois normales N (0, 1) (à gauche) et N (2, 9) (à droite). Définition 13 (Variable gaussienne) On dit que la variable aléatoire X : (Ω,F ,P) → (R,B) est gaussienne de moyenne m et de variance 63 66 Chapitre 2. Vecteurs gaussiens et conditionnement Et puisqu’on a la condition initiale : F (0) = ∫ R cos(0x)e− x2 2 dx = √ 2π, on en déduit que : ∀t ∈ R F (t) = √ 2π e− t2 2 . Par ailleurs, la fonction G est identiquement nulle, puisque : G(t) = ∫ R sin(tx)e− x2 2 dx est l’intégrale d’une fonction impaire sur un domaine symétrique par rapport à 0, donc vaut 0. Ainsi, lorsque X ∼ N (0, 1), sa fonction caractéristique est : ∀t ∈ R ΦX(t) = e− t2 2 . Si maintenant on considère Y = σX +m, alors Y ∼ N (m,σ2) et sa fonction caractéristique est : ΦY (t) = E[eit(σX+m)] = eimt E[ei(tσ)X ] = eimtΦX(σt), et on peut se servir de ce qu’on vient de voir pour en déduire : ∀t ∈ R ΦY (t) = eimt−σ2t2 2 .  Exercice. A partir du développement en série entière de l’exponentielle (eu = ∑+∞ n=0 un n! ), montrer que si X ∼ N (0, 1), alors ses moments sont donnés par : { E[X2n+1] = 0 E[X2n] = (2n)! 2n n! Via le théorème de Paul Lévy, les fonctions caractéristiques sont un outil efficace pour montrer la convergence en loi d’une suite de variables aléatoires : il suffit de prouver la convergence simple de la suite des fonctions caractéristiques. C’est d’ailleurs ainsi qu’on montre le résultat qui fait toute l’importance de la loi normale, à savoir le théorème central limite. En voici la version la plus simple : si (Xn)n≥1 est une suite de variables aléatoires indépendantes et identiquement distribuées (en abrégé i.i.d.) de carré intégrable, alors en notant Sn = X1 + · · ·+Xn, on a la convergence en loi vers la loi normale centrée réduite : Sn − nE[X1]√ n VarX1 L−−−−−→ n→+∞ N (0, 1), c’est-à-dire que pour tout intervalle (a, b) de R, on a : P ( a ≤ Sn − nE[X1]√ n VarX1 ≤ b ) −−−−−→ n→+∞ ∫ b a 1√ 2π e− x2 2 dx. Autrement dit, la somme d’un grand nombre de variables aléatoires i.i.d. se comporte comme une loi normale. L’aspect remarquable de ce résultat tient bien sûr au fait que la loi commune des Xn peut être n’importe quoi ! Celle-ci peut aussi bien être discrète qu’absolument continue, mixte ou singulière. La seule chose requise est l’existence du moment d’ordre 2. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 2.1. Rappels sur les vecteurs gaussiens 67 2.1.2 Vecteurs gaussiens La définition d’un vecteur gaussien est a priori un peu tordue. Définition 14 (Vecteur gaussien) On dit que le vecteur aléatoire 1 X = [X1, . . . ,Xd] ′ est un vecteur gaussien si pour tout d-uplet (α1, . . . , αd) de réels, la variable aléatoire α1X1 + · · · + αdXd est gaussienne. En particulier, une variable aléatoire gaussienne est un vecteur gaussien de dimension 1. Par ailleurs, il découle de la définition le résultat suivant. Proposition 8 (Vecteur gaussien ⇒ Composantes gaussiennes) Si le vecteur aléatoire X = [X1, . . . ,Xd] ′ est un vecteur gaussien, alors chaque variable aléatoire Xi est gaussienne. Preuve. Si X = [X1, . . . ,Xd] ′ est gaussien, alors en prenant α1 = 1 et αi = 0 pour tout i ≥ 2, on en déduit que : X1 = d∑ i=1 αiXi est gaussienne. Idem pour X2, . . . ,Xd.  La réciproque n’est pas vraie, comme le montre la situation suivante. −3 −2 −1 0 1 2 3 0.0 0.5 1 t−t F (−t) F (t) Figure 2.3 – Fonction de répartition F d’une loi normale N (0, 1) et relation : F (−t) = 1− F (t). Remarque : Composantes gaussiennes ; Vecteur gaussien. Soit X ∼ N (0, 1) et ε une variable aléatoire indépendante de X et suivant une loi de Rademacher : elle prend les valeurs +1 et −1 de façon équiprobable. Considérons la nouvelle variable Y = εX 1. Dans tout le polycopié, le symbole ’ correspond à la transposition. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 68 Chapitre 2. Vecteurs gaussiens et conditionnement et le vecteur aléatoire V = [X,Y ]′. La variable aléatoire Y est gaussienne, comme le montre sa fonction de répartition : FY (u) = P(Y ≤ u) = P(εX ≤ u) = P(−X ≤ u|ε = −1)P(ε = −1) +P(X ≤ u|ε = 1)P(ε = 1), expression qu’on peut simplifier grâce à l’indépendance de X et ε : FY (u) = 1 2 (P(−X ≤ u) +P(X ≤ u)) = 1 2 (P(X ≥ −u) +P(X ≤ u)), et en notant FX la fonction de répartition d’une loi normale centrée réduite, c’est-à-dire : FX(t) = ∫ t −∞ 1√ 2π e− x2 2 dx, on a donc : FY (u) = 1 2 (1− FX(−u) + FX(u)) = FX(u), la dernière égalité venant de la symétrie d’une loi normale centrée réduite par rapport à l’origine (voir figure 2.3) : ∀u ∈ R FX(−u) = 1− FX(u). Ainsi Y suit une loi normale N (0, 1), tout comme X. Mais le vecteur V = [X,Y ]′ n’est pas gaussien, puisque si on considère la variable aléatoire Z = X + Y = (1 + ε)X, on a : P(Z = 0) = P(1 + ε = 0) = P(ε = −1) = 1 2 , ce qui est impossible pour une variable gaussienne ! En effet, cette probabilité vaut 0 pour toute loi gaussienne N (m,σ2), sauf si m = σ2 = 0, auquel cas elle vaut 1. A titre indicatif la fonction de répartition de Z est donnée figure 2.4 : c’est un exemple de loi mixte. −3 −2 −1 0 1 2 3 1.0 0.5 Figure 2.4 – Fonction de répartition de la variable aléatoire Z. Il y a cependant une situation où les choses se passent bien. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 2.1. Rappels sur les vecteurs gaussiens 71 Preuve. Supposons le vecteur X = [X1, . . . ,Xd] ′ gaussien, de moyenne m et de matrice de cova- riance Γ. Alors la variable aléatoire : Y = u1X1 + · · ·+ udXd = u′X est gaussienne, de moyenne : µ = u1E[X1] + · · · + udE[Xd] = u′m, et de variance (cf. proposition 11) : σ2 = u′Γu. On peut alors appliquer la Proposition 7 : ΦY (t) = eiµt− σ2t2 2 = eiu ′mt− 1 2 u′Γut2 . Et on conclut en remarquant que : ΦX(u) = E[eiu ′X ] = E[eiY ] = ΦY (1) = eiu ′m− 1 2 u′Γu. Réciproquement, supposons X = [X1, . . . ,Xd] ′ vecteur aléatoire de moyenne m, de matrice de covariance Γ et de fonction caractéristique : ΦX(u) = eiu ′m− 1 2 u′Γu La variable aléatoire : Y = α1X1 + · · ·+ αdXd = α′X a pour fonction caractéristique : ΦY (t) = E[eitY ] = E[ei(tα) ′X ] = ΦX(tα), c’est-à-dire : ΦY (t) = ei(tα) ′m− 1 2 (tα)′Γ(tα) = ei(α ′m)t− 1 2 (α′Γα)t2 . La Proposition 7 assure donc que Y est gaussienne et plus précisément : Y ∼ N ( α′m,α′Γα ) . Ainsi X est bien un vecteur aléatoire gaussien.  Les lois normales sont stables par transformation affine. Le résultat suivant, sur lequel on serait tenté de jeter un coup d’œil distrait, est d’utilité constante dans la manipulation des vecteurs gaussiens. Proposition 13 (Transformation affine) Si X est un vecteur gaussien d-dimensionnel, avec X ∼ Nd(m,Γ), si A ∈ Mk,d(R) et si B ∈ Mk,1(R), alors le vecteur Y = AX +B est gaussien avec : Y ∼ Nk(Am+B,AΓA′). Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 72 Chapitre 2. Vecteurs gaussiens et conditionnement Preuve. Il suffit d’utiliser la caractérisation par la fonction caractéristique ci-dessus. On a en effet : ∀u ∈ Rk ΦY (u) = E[eiu ′Y ] = E[eiu ′(AX+B)] = eiu ′B E[ei(u ′A)X ], c’est-à-dire : ΦY (u) = eiu ′BΦX(A′u) = eiu ′(Am+B)− 1 2 u′(AΓA′)u, ce qui exactement dire que : Y ∼ Nk(Am+B,AΓA′).  Remarque. Il arrive souvent qu’un vecteur Y soit construit à partir d’un autre vecteur X par une transformation affine. Si X est un vecteur gaussien, par exemple lorsqu’il est composé de variables aléatoires gaussiennes indépendantes, ce résultat permet d’en déduire automatiquement le fait que Y est aussi un vecteur gaussien. Voir les exercices de fin de chapitre : Processus autorégressif, Moyenne mobile. Rappel. Soit X et Y deux variables aléatoires de carrés intégrables. On dit qu’elles sont non corrélées si : Cov(X,Y ) = 0, ce qui équivaut à dire que : E[XY ] = E[X]E[Y ], ou encore que la matrice de covariance du vecteur [X,Y ]′ est diagonale. Ceci est bien sûr toujours vrai lorsqu’elles sont indépendantes, puisqu’alors on a plus généralement pour toutes “bonnes” fonctions f et g : E[f(X)g(Y )] = E[f(X)]E[g(Y )]. La réciproque est fausse en général, comme le montre l’exemple suivant. x y x y = x2 y Figure 2.5 – Supp(X,Y ) (à gauche) 6= Supp(X)× Supp(Y ) (à droite). Exemple : Décorrélation ; Indépendance Soit X ∼ N (0, 1) et Y = X2, donc E[Y ] = E[X2] = Var(X) = 1. X et Y sont bien décorrélées puisque E[X]E[Y ] = 0× 1 = 0 et : E[XY ] = E[X3] = 0, Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 2.1. Rappels sur les vecteurs gaussiens 73 une loi gaussienne ayant tous ses moments d’ordres impairs nuls. Cependant X et Y ne sont pas indépendantes. Ceci est clair intuitivement puisque Y est une fonction déterministe de X. On peut aussi le justifier par l’espérance conditionnelle : E[Y |X] = E[X2|X] = X2 6= E[Y ] = 1. Une dernière façon de le voir est de remarquer que le support du vecteur aléatoire [X,Y ]′ est la pa- rabole y = x2 du plan et non le produit cartésienR×R+ des supports des variables (voir figure 2.5). Dans le cas de vecteurs gaussiens, cependant, la décorrélation est équivalente à l’indépendance. Proposition 14 (Indépendance ⇔ Décorrélation) Soit X = [X1, . . . ,Xd] ′ un vecteur aléatoire gaussien. Les variables aléatoires (X1, . . . ,Xd) sont indépendantes si et seulement si elles sont non corrélées, c’est-à-dire si et seulement si la matrice de dispersion Γ est diagonale. Preuve. Supposons X gaussien et de composantes indépendantes. Alors ces composantes sont a fortiori non corrélées, c’est-à-dire : ∀(i, j) ∈ {1, . . . , d}2 Cov(Xi,Xj) = 0, et la matrice Γ est diagonale. Ceci est d’ailleurs toujours vrai, l’aspect gaussien de X n’est pas nécessaire. Réciproquement, supposons X gaussien et de matrice de covariance Γ diagonale : Γ = diag(σ2 1 , . . . , σ 2 d). Si on note m = [m1, . . . ,md] ′ la moyenne de X, celui-ci admet pour fonction caractéristique : ΦX(u) = eiu ′m− 1 2 u′Γu, qu’on peut factoriser en : ΦX(u) = d∏ j=1 ΦXj (uj), où ΦXj est tout bonnement la fonction caractéristique de Xj : ∀j ∈ {1, . . . , d} ΦXj (uj) = eimjuj− σ2 j u 2 j 2 . Ainsi la fonction caractéristique du vecteur X = [X1, . . . ,Xd] ′ est le produit des fonctions carac- téristiques de ses composantes Xj : c’est une caractérisation de l’indépendance des Xj.  Remarque. Pour pouvoir appliquer le critère d’indépendance ci-dessus, il faut que le vecteur soit gaussien : le fait que les composantes le soient n’est pas suffisant. Pour s’en convaincre, il suffit de revenir à l’exemple vu précédemment : X ∼ N (0, 1) et Y = εX, avec ε variable de Rademacher indépendante de X. On a vu que Y suit elle aussi une loi normale centrée réduite, donc les deux variables X et Y sont gaussiennes. De plus, puisque X et ε sont indépendantes, on a : Cov(X,Y ) = E[XY ]− E[X]E[Y ] = E[εX2] = E[ε]E[X2] = 0, la dernière égalité venant du fait que ε est centrée. Ainsi X et Y sont gaussiennes et décorrélées. Pourtant elles ne sont pas indépendantes : il appert qu’une fois connue la réalisation de X, Y ne Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 76 Chapitre 2. Vecteurs gaussiens et conditionnement La situation agréable pour un vecteur gaussien est celle où la matrice de covariance est inversible (i.e. définie positive). Il admet alors une densité dans Rd, que l’on peut facilement expliciter. Proposition 16 (Densité d’un vecteur gaussien) Si X ∼ Nd(m,Γ), avec Γ inversible, alors X admet pour densité : f(x) = f(x1, . . . , xd) = 1 (2π)d/2 √ det Γ e− 1 2 (x−m)′Γ−1(x−m). Remarque. En dimension 1, la formule exprimant la densité d’une variable gaussienne en fonction de la moyenne m et de la variance σ2 n’est valable que si σ2 est strictement positive, c’est-à-dire inversible. Il n’est donc pas étonnant qu’on retrouve la même condition en dimension supérieure. Preuve. On utilise la transformation affine du résultat précédent : Y = P (X −m), avec : PΓP ′ = ∆ = diag(λ1, . . . , λd). Dire que Γ est inversible équivaut à dire que les valeurs propres λj sont toutes strictement positives. Les composantes Y1, . . . , Yj sont indépendantes, avec Yj ∼ N (0, λj), donc Y admet pour densité : fY (y) = d∏ j=1 fj(yj) = d∏ j=1 1√ 2πλj e − y2j 2λj , qu’on peut encore écrire : fY (y) = 1 (2π)d/2 √ detΓ e− 1 2 y′∆−1y. Pour retrouver la densité de X, il suffit alors d’appliquer la formule de changement de variable pour le C1-difféomorphisme : φ : { R d → R d x 7→ y = P (x−m) Ce qui donne : fX(x) = fY (P (x−m)) |detJφ(x)| . Or φ est une transformation affine, donc : ∀x ∈ Rd Jφ(x) = P, et puisque P est orthogonale : ∀x ∈ Rd |detJφ(x)| = 1. On en déduit la densité du vecteur X : f(x) = 1 (2π)d/2 √ detΓ e− 1 2 (x−m)′Γ−1(x−m).  Représentation. La figure 2.7 correspond à un vecteur gaussien [X,Y ]′ de moyenne m = [1, 2]′ et de matrice de dispersion : Γ = [ 1/ √ 2 1 1 1/ √ 2 ] . Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 2.1. Rappels sur les vecteurs gaussiens 77 0.225 0.113 0.000 Z −5 0 5 Y 5 0 −5 X Figure 2.7 – Densité d’un vecteur gaussien N2(m,Γ). La densité correspondante est donc : f(x, y) = 1 π √ 2 e−((x−1)2− √ 2(x−1)(y−2)+(y−2)2) Si Γ n’est pas inversible, on dit que la loi de X est dégénérée. Comme mentionné plus haut, ceci signifie que le vecteur aléatoire ne prend ses valeurs que dans un sous-espace affine de Rd (cf. exercice Problème de dégénérescence). Exemple. Supposons que X1 ∼ N (0, 1), et considérons le vecteur gaussien X = [X1, 1 +X1] ′. Sa matrice de dispersion est de rang 1 : Γ = [ 1 1 1 1 ] , On voit que le vecteur aléatoire X ne prend en fait ses valeurs que sur la droite d’équation y = 1+x, et non dans R2 tout entier. Ce vecteur n’admet donc pas de densité par rapport à la mesure de Lebesgue de R2. Enfin, on peut généraliser le théorème de la limite centrale aux vecteurs aléatoires. Le principe est rigoureusement le même qu’en dimension 1. On dit qu’une suite (Xn)n≥0 de vecteurs aléatoires de R d converge en loi vers un vecteur gaussien X ∼ Nd(m,Γ) si pour tout borélien B ∈ Bd, on a : P(Xn ∈ B) −−−−−→ n→+∞ P(X ∈ B). Comme en dimension 1, la convergence simple sur Rd de la suite des fonctions caractéristiques (Φn) vers la fonction caractéristique ΦX est souvent le moyen le plus simple de montrer la convergence en loi. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 78 Chapitre 2. Vecteurs gaussiens et conditionnement Théorème 5 (Théorème central limite) Soit (Xn)n≥1 ∈ L2(Ω) une suite de vecteurs aléatoires de Rd, indépendants et identiquement dis- tribués, avec pour moyenne m = E[X1] et matrice de dispersion Γ = E[(X1 −m)(X1 −m)′]. Alors la suite de vecteurs aléatoires (Sn−nm√ n ), où Sn = X1 + · · · + Xn, converge en loi vers un vecteur gaussien centré de matrice de dispersion Γ. On note : Sn − nm√ n L−−−−−→ n→+∞ Nd(0,Γ). Remarques. – Rappelons le point remarquable du théorème central limite : quelle que soit la loi des vecteurs aléatoires Xn, on a convergence vers une loi gaussienne. C’est-à-dire que si n est assez grand, on a en gros : L(Sn) ≈ N (nm,nΓ). – Avec les hypothèses ci-dessus, on s’intéresse à la suite (Sn) des sommes partielles. La loi forte des grands nombres dit que : Sn n p.s.−−−−−→ n→+∞ m. C’est-a-dire qu’en première approximation, la somme de n vecteurs aléatoires i.i.d. de moyenne m se comporte comme une suite déterministe de vecteurs : Sn ≈ nm. Question qui en découle naturellement : quel est l’ordre de grandeur de l’erreur effectuée en remplaçant Sn par nm ? C’est à cette question que répond le théorème central limite : l’erreur faite en remplaçant la somme partielle Sn par nm est de l’ordre de √ n. On peut donc voir la loi des grands nombres et le théorème central limite comme le début du développement asymptotique de la somme Sn. – L’exercice Sauts de puce donne un exemple d’application de ce théorème. 2.2 Conditionnement des vecteurs gaussiens 2.2.1 Conditionnement pour un couple gaussien Rappel du premier chapitre : soit (X,Y ) un couple aléatoire dont on connaît la loi jointe. Supposons qu’on observe X = x et qu’on veuille en déduire une estimation de Y . Ceci signifie qu’on définit une fonction de R dans R qui à tout point x associe un point u(x). Si la qualité de l’approximation est mesurée par l’erreur quadratique moyenne, i.e. par la quantité : E[(Y − u(X))2], on a vu que le mieux à faire est de prendre pour u la fonction de régression de Y sur X, c’est-à-dire la fonction qui à x associe E[Y |X = x]. D’après le théorème de projection, la variable aléatoire E[Y |X] est la fonction u(X) caractérisée par la double propriété 2 : { u(X) ∈ L2(X) Y − u(X) ⊥ L2(X) avec comme en chapitre 1 : L2(X) ∆ = {u(X) avec u : R 7→ R borélienne telle que E[u2(X)] < +∞}. Néanmoins, l’espérance conditionnelle n’est pas nécessairement un objet très simple à calculer ou à estimer. C’est pourquoi, faute de mieux, on se contente parfois de chercher à approcher au mieux 2. On rappelle que dans L2(Ω) : X ⊥ Y signifie que E[XY ] = 0. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 2.2. Conditionnement des vecteurs gaussiens 81 qui approche le mieux la variable aléatoire Y au sens des moindres carrés, c’est-à-dire telle que l’erreur quadratique moyenne : E[(Y − (b+ a1X1 + · · · + anXn)) 2] soit minimale. Autrement dit, au lieu de chercher la droite de régression, on cherche l’hyperplan de régression (voir figure 2.9 pour n = 2). Ceci revient à déterminer la projection πH(Y ) de Y sur le sous-espace : H = Vect(1,X1, . . . ,Xn), engendré par la constante 1 et les variables aléatoires Xi. Hypothèses : – Notons X = [X1, . . . ,Xn] ′ le vecteur formé des variables Xi. On suppose dans toute la suite que la matrice de dispersion ΓX = E[(X − E[X])(X − E[X])′] est inversible. – Puisqu’on parle de projections et d’erreurs quadratiques, on suppose aussi que toutes les va- riables aléatoires sont de carrés intégrables. X1 X2 Y y = b+ a1x1 + a2x2 Figure 2.9 – Interprétation graphique de l’hyperplan de régression. Théorème 7 (Hyperplan de régression) La projection orthogonale de Y sur H est : πH(Y ) = b+ n∑ i=1 ai(Xi − E[Xi]) = E[Y ] + ΓY,XΓ−1 X (X − E[X]), avec : ΓY,X = E[(Y − E[Y ])(X − E[X])′] = [Cov(Y,X1), . . . ,Cov(Y,Xn)], matrice ligne de covariance de la variable aléatoire Y et du vecteur aléatoire X. Preuve. La projection orthogonale de Y sur H est de la forme : πH(Y ) = b+ n∑ i=1 aiXi. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 82 Chapitre 2. Vecteurs gaussiens et conditionnement Dire que Y − πH(Y ) est orthogonal à H est équivalent à dire que Y − πH(Y ) est orthogonal à chacun des vecteurs qui engendrent H, c’est-à-dire : 1, X1, . . . , Xn. L’orthogonalité à 1 donne : 〈 Y − b− n∑ i=1 aiXi, 1 〉 = E[Y ]− b− n∑ i=1 aiE[Xi] = 0, c’est-à-dire : b = E[Y ]− n∑ i=1 aiE[Xi]. L’orthogonalité aux Xj donne les n équations : 〈 Y − b− n∑ i=1 aiXi,Xj 〉 = 0 1 ≤ j ≤ n, ce qui s’écrit encore : 〈 Y − E[Y ]− n∑ i=1 ai(Xi − E[Xi]),Xj 〉 = 0 1 ≤ j ≤ n, ou encore : 〈 Y − E[Y ]− n∑ i=1 ai(Xi − E[Xi]),Xj − E[Xj] 〉 = 0 1 ≤ j ≤ n. Avec les notations de l’énoncé, ces n équations se résument sous forme matricielle à : ΓY,X = [a1, . . . , an]ΓX , c’est-à-dire : [a1, . . . , an] = ΓY,XΓ−1 X . En revenant à πH(Y ), ceci donne : πH(Y ) = b+ n∑ i=1 aiXi = E[Y ]− ΓY,XΓ−1 X E[X] + ΓY,XΓ−1 X X, c’est-à-dire : πH(Y ) = E[Y ] + ΓY,XΓ−1 X (X − E[X]).  Remarque. En prenant X = X1, on retrouve bien la droite de régression puisque ΓY,X = Cov(X,Y ) et ΓX = Var(X). Corollaire 1 (Erreur quadratique moyenne) L’erreur quadratique moyenne dans l’approximation par l’hyperplan de régression, encore appelée variance résiduelle ou résidu, est : E[(Y − πH(Y ))2] = ΓY − ΓY,XΓ−1 X ΓX,Y , avec ΓY = Var(Y ) et ΓX,Y = (ΓY,X)′. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 2.2. Conditionnement des vecteurs gaussiens 83 Preuve. Il suffit de l’écrire : E[(Y − πH(Y ))2] = E[((Y − E[Y ])− ΓY,XΓ−1 X (X − E[X]))2], ce qui donne une combinaison de 3 termes. Le premier est simple : E[(Y − E[Y ])2] = Var(Y ). Le deuxième l’est un peu moins : E[(Y − E[Y ])ΓY,XΓ−1 X (X − E[X])] = ΓY,XΓ−1 X E[(Y − E[Y ])(X − E[X])] = ΓY,XΓ−1 X ΓX,Y . Et le troisième encore moins : E[(ΓY,XΓ−1 X (X − E[X]))2] = E[(ΓY,XΓ−1 X (X − E[X]))(ΓY,XΓ−1 X (X − E[X]))′], ce qui aboutit à : E[(ΓY,XΓ−1 X (X − E[X]))2] = ΓY,XΓ−1 X ΓX,Y . On remet tout bout à bout : E[(Y − πH(Y ))2] = Var(Y )− 2ΓY,XΓ−1 X ΓX,Y + ΓY,XΓ−1 X ΓX,Y = Var(Y )− ΓY,XΓ−1 X ΓX,Y .  ΓX,YΓX ΓY,X ΓY X1 Xn Y =⇒ Γ = Figure 2.10 – Les sous-matrices mises en jeu dans le calcul de E[Y |X]. Les matrices de covariance ΓX , ΓY,X , ΓY,X et ΓY peuvent se voir comme des sous-matrices de la matrice de covariance globale Γ du vecteur [X,Y ]′ = [X1, . . . ,Xn, Y ]′. C’est ce que représente la figure 2.10. Remarque. On adopte dès à présent la notation ΓY pour la variance de la variable aléatoire Y en vue de la généralisation de fin de chapitre : lorsque Y ne sera plus une variable aléatoire, mais un vecteur aléatoire, cette formule sera encore valide. 2.2.3 Espérance conditionnelle gaussienne On suppose maintenant le vecteur [X1, . . . ,Xn, Y ] gaussien. L’espérance conditionnelle de Y sa- chant X = [X1, . . . ,Xn] ′ est la projection orthogonale de Y sur l’espace des fonctions u(X) = u(X1, . . . ,Xn), avec u : Rn → R telle que E[u2(X)] < +∞. C’est la fonction qui minimise Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 86 Chapitre 2. Vecteurs gaussiens et conditionnement E[Y ] E[Y |X = x] σ2 Var(Y ) Figure 2.12 – Loi de Y et loi de Y sachant X = x. problème. L’espérance conditionnelle de Y sachant X est un vecteur aléatoire de taille m donné par la formule : E[Y |X] = E[Y ] + ΓY,XΓ+ X(X − E[X]). C’est un vecteur gaussien, en tant que transformée affine du vecteur gaussien X, dont la moyenne vaut E[Y ] et la matrice de covariance : ΓY,XΓ+ XΓX,Y . Le vecteur W = Y − E[Y |X] est un vecteur gaussien centré de matrice de covariance : ΓY − ΓY,XΓ+ XΓX,Y . Qui plus est, W est indépendant de X. ∆ = λ1 λr 0 0 λ2 0 0 ∆ + = 1 λ1 1 λ2 1 λr =⇒ Figure 2.13 – Matrice diagonale ∆ et sa pseudo-inverse de Moore-Penrose ∆+. 2.3 Exercices “Tough ain’t enough.” Clint Eastwood, Million Dollar Baby. Exercice 2.1 (Moments d’une loi normale) Pour tout n ∈ N, on note : In = ∫ +∞ −∞ xne− x2 2 dx. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 2.3. Exercices 87 1. Déterminer I0 et I1. 2. Montrer que, pour tout n ∈ N, on a : In+2 = (n + 1)In. 3. Donner alors I2n+1 pour tout n ∈ N. Pouvait-on prévoir ce résultat sans calculs ? 4. Déterminer I2n pour tout n ∈ N. 5. Soit X une variable aléatoire gaussienne de moyenne 1 et de variance unité. Déterminer E[X4]. Corrigé 1. I0 = √ 2π puisqu’on reconnaît la densité d’une loi normale centrée réduite. Pour I1, on a : I1 = ∫ +∞ −∞ xe− x2 2 dx = [ −e− x2 2 ]+∞ −∞ = 0. 2. Pour tout n ∈ N, on peut écrire : In+2 = ∫ +∞ −∞ xn+2e− x2 2 dx = ∫ +∞ −∞ (xn+1)(xe− x2 2 ) dx, et on effectue une intégration par parties : In+2 = [ −xn+1e− x2 2 ]+∞ −∞ + ∫ +∞ −∞ (n+ 1)xne− x2 2 dx = (n+ 1)In, la dernière égalité venant du fait que l’exponentielle l’emporte sur la puissance : lim x→+∞ xn+1e− x2 2 = lim x→−∞ xn+1e− x2 2 = 0. 3. Puisque I1 = 0, on en déduit que I3 = 0, puis que I5 = 0, et de proche en proche il est clair que I2n+1 = 0 pour tout n ∈ N. Ce résultat était d’ailleurs clair sans calculs puisqu’on intègre une fonction impaire sur un domaine symétrique par rapport à 0. 4. Pour les indices pairs, on a I2 = 1× I0 = √ 2π, puis I4 = 3× I2 = 3× 1× I0 = 3 √ 2π, et de proche en proche : I2n = (2n − 1)× (2n − 3)× · · · × 3× 1× I0 = (2n)! 2nn! √ 2π. 5. Pour déterminer E[X4], il y a deux méthodes équivalentes. – Méthode analytique : on écrit l’espérance sous forme d’intégrale : E[X4] = ∫ +∞ −∞ x4√ 2π e− (x−1)2 2 dx, et on effectue le changement de variable u = x− 1, ce qui donne : E[X4] = ∫ +∞ −∞ (u+ 1)4√ 2π e− u2 2 du. On utilise la formule du binôme : (u+1)4 = u4+4u3 +6u2+4u+1, et on peut alors tout exprimer en fonction des In : E[X4] = 1√ 2π (I4 + 4I3 + 6I2 + 4I1 + I0) = 10. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 88 Chapitre 2. Vecteurs gaussiens et conditionnement – Méthode probabiliste : l’idée est la même, puisqu’on sait que si X ∼ N (1, 1), alors Y = X−1 ∼ N (0, 1). Donc, par les calculs faits avant, on sait que E[Y ] = E[Y 3] = 0, E[Y 2] = 1 et E[Y 4] = 3. Or on a : E[X4] = E[(Y + 1)4] = E[Y 4] + 4E[Y 3] + 6E[Y 2] + 4E[Y ] + 1 = 3 + 6 + 1 = 10. Exercice 2.2 (Queue de la gaussienne) On appelle fonction de Marcum, ou queue de la gaussienne, la fonction définie pour tout réel x par : Q(x) = 1√ 2π ∫ +∞ x e− t2 2 dt. 1. Soit X une variable aléatoire qui suit une loi normale centrée réduite N (0, 1). Représenter la densité de X, puis Q(x) sur ce même dessin. Soit F la fonction de répartition de X : donner la relation entre F (x) et Q(x). 2. Soit x > 0 fixé. Dans l’intégrale définissant Q(x), effectuer le changement de variable t = x+u et, tenant compte de e−ux ≤ 1, montrer qu’on a : Q(x) ≤ 1 2 e− x2 2 . 3. Pour t ≥ x > 0, montrer que : 1 + 1 t2 1 + 1 x2 ≤ 1 ≤ t x . 4. En déduire que : 1 (1 + 1 x2 ) √ 2π ∫ +∞ x ( 1 + 1 t2 ) e− t2 2 dt ≤ Q(x) ≤ 1 x √ 2π ∫ +∞ x te− t2 2 dt. 5. Calculer la dérivée de 1 t e − t2 2 . En déduire que, pour tout x > 0, on a : 1 (1 + 1 x2 )x √ 2π e− x2 2 ≤ Q(x) ≤ 1 x √ 2π e− x2 2 . 6. En déduire un équivalent de Q(x) en +∞. 7. Application : en communications numériques, pour une modulation binaire, les symboles transmis valent ±√ Eb, où Eb est appelée énergie moyenne par bit. Quand il transite par un canal à bruit gaussien, le signal reçu en sortie Y est égal à la somme du symbole d’entrée et d’une variable aléatoire indépendante B ∼ N (0, N0 2 ), où N0 est appelé puissance moyenne du bruit. (a) Supposons que le symbole d’entrée soit + √ Eb. Donner la loi de Y en fonction de Eb et N0. Même question si le symbole d’entrée est −√ Eb. (b) On reçoit y ∈ R en sortie de canal, mais on ignore ce qu’était le symbole d’entrée : quelle règle simple proposez-vous pour décider si en entrée le symbole émis était a priori équiprobablement + √ Eb ou −√ Eb ? (c) Montrer que la probabilité d’erreur Pe faite avec cette règle de décision est : Pe = Q (√ 2Eb N0 ) . La quantité Eb N0 est appelée rapport signal à bruit et intervient très souvent en commu- nications numériques (on l’exprime usuellement en décibels). Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 2.3. Exercices 91 Ces résultats admettent une interprétation graphique très simple : les points d’abscisses 0 et τ sont les points d’intersection des fonctions y 7→ f(y|X = + √ Eb)P(X = + √ Eb) et y 7→ f(y|X = −√ Eb)P(X = −√ Eb) respectivement lorsque P(X = + √ Eb) = 1/2 et P(X = + √ Eb) = 3/4 (voir figure 2.14 dans le cas où N0 = √ Eb = 1, d’où en particulier τ = − ln 3/4 ≈ −0.27). Figure 2.14 – Fonctions y 7→ f(y|X = + √ Eb)P(X = + √ Eb) et y 7→ f(y|X = −√ Eb)P(X = −√ Eb) lorsque P(X = + √ Eb) = 1/2 (à gauche) et P(X = + √ Eb) = 3/4 (à droite). (c) Dans le cas où les symboles d’entrée sont équiprobables, la probabilité d’erreur Pe est égale à la somme de la probabilité de décider + √ Eb alors que le symbole d’entrée était −√ Eb et vice-versa : Pe = P(Y > 0|X = − √ Eb)P(X = − √ Eb) +P(Y < 0|X = + √ Eb)P(X = + √ Eb) et par symétrie des rôles, en notant toujours B le bruit additif : Pe = P(B > √ Eb) = P ( B√ N0/2 > √ Eb√ N0/2 ) = Q (√ 2Eb N0 ) . Exercice 2.3 (Entropie d’une variable aléatoire) Si X est une variable aléatoire réelle admettant une densité f , on appelle entropie de X la quantité (si elle est définie) : h(X) = E[− ln f(X)] = − ∫ +∞ −∞ f(x) ln f(x) dx. Grosso modo, l’entropie d’une variable aléatoire mesure le degré d’incertitude qu’on a sur l’issue d’un tirage de cette variable aléatoire. 1. Supposons que X ∼ N (0, 1), loi normale centrée réduite. Montrer qu’elle a pour entropie : h(X) = 1 2 (1 + ln(2π)). 2. Supposons que X ∼ N (m,σ2). Montrer qu’elle a pour entropie : h(X) = 1 2 (1 + ln(2πσ2)). Ainsi, au moins pour les lois normales, l’entropie est d’autant plus grande que la variance est grande. On va montrer dans la suite que, parmi les variables aléatoires de variance donnée, celles qui ont la plus grande entropie sont celles qui suivent une loi normale. 3. Soit donc X1 ∼ N (0, σ2), dont la densité est notée ϕ, et X2 une variable aléatoire centrée de densité f et de variance σ2, c’est-à-dire que : ∫ +∞ −∞ x2f(x) dx = σ2. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2 92 Chapitre 2. Vecteurs gaussiens et conditionnement On suppose pour simplifier que f est strictement positive sur R. (a) Vérifier que (sous réserve d’existence des intégrales) : h(X2) = ∫ +∞ −∞ f(x) ln ϕ(x) f(x) dx− ∫ +∞ −∞ f(x) lnϕ(x) dx. (b) Montrer que pour tout x > 0, log x ≤ x− 1. En déduire que : ∫ +∞ −∞ f(x) ln ϕ(x) f(x) dx ≤ 0. (c) Montrer que : − ∫ +∞ −∞ f(x) lnϕ(x) dx = 1 2 (1 + ln(2πσ2)). (d) En déduire que h(X2) ≤ h(X1). Corrigé 1. Si X ∼ N (0, 1), alors son entropie s’écrit h(X) = − ∫ +∞ −∞ e− x2 2√ 2π ln  e− x2 2√ 2π   dx = ln(2π) 2 ∫ +∞ −∞ e− x2 2√ 2π dx+ 1 2 ∫ +∞ −∞ x2 e− x2 2√ 2π dx or ∫ +∞ −∞ e− x2 2√ 2π dx = 1 et ∫ +∞ −∞ x2 e− x2 2√ 2π dx = E[X2] = Var(X) = 1 d’où en effet h(X) = 1 2 (1 + ln(2π)). 2. Le même calcul que ci-dessus montre que si X ∼ N (m,σ2), alors elle a pour entropie : h(X) = 1 2(1 + log(2πσ2)). 3. Soit donc X1 ∼ N (0, σ2), dont la densité est notée ϕ, et X2 une variable aléatoire centrée de densité f et de variance σ2, c’est-à-dire que : ∫ +∞ −∞ x2f(x) dx = σ2. On suppose pour simplifier que f est strictement positive sur R. (a) Sous réserve d’existence des intégrales, par définition de l’entropie h(X2) = − ∫ +∞ −∞ f(x) ln f(x) dx = ∫ +∞ −∞ f(x) ( ln ϕ(x) f(x) − lnϕ(x) ) dx ce qui donne bien h(X2) = ∫ +∞ −∞ f(x) ln ϕ(x) f(x) dx− ∫ +∞ −∞ f(x) lnϕ(x) dx. (b) Pour montrer que pour tout x > 0, lnx ≤ x − 1, il suffit par exemple d’étudier la fonction g : x 7→ x−1− lnx sur ]0,+∞[. Sa dérivée est g′(x) = 1−1/x, qui est négative sur ]0, 1] et positive sur [1,+∞[. Son minimum est donc g(1) = 0, autrement dit g est bien positive sur son domaine de définition. On en déduit que : ∫ +∞ −∞ f(x) log ϕ(x) f(x) dx ≤ ∫ +∞ −∞ f(x) ( ϕ(x) f(x) − 1 ) dx = ∫ +∞ −∞ ϕ(x) dx − ∫ +∞ −∞ f(x) dx or f et ϕ étant toutes deux des densités, elles intègrent à 1 et le majorant vaut bien 0. Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov 2.3. Exercices 93 (c) On a alors − ∫ +∞ −∞ f(x) lnϕ(x) dx = − ∫ +∞ −∞ f(x) ln  e− x2 2√ 2π   dx qui se calcule sans difficultés − ∫ +∞ −∞ f(x) lnϕ(x) dx = ln(2π) 2 ∫ +∞ −∞ f(x) dx+ 1 2 ∫ +∞ −∞ x2f(x) dx en ayant en tête que ∫ +∞ −∞ f(x) dx = 1 et ∫ +∞ −∞ x2f(x) dx = E[X2 2 ] = Var(X2) = σ2 Au total on a bien − ∫ +∞ −∞ f(x) logϕ(x) dx = 1 2 (1 + ln(2πσ2)). (d) Des trois questions précédentes et du calcul de l’entropie pour une variable gaussienne X1 ∼ N (0, σ2), on déduit que h(X2) ≤ 1 2 (1 + ln(2πσ2)) = h(X1), c’est-à-dire que, à variance donnée, c’est la loi normale qui réalise le maximum de l’en- tropie. Exercice 2.4 (Changement de base) Soit [X,Y ]′ un vecteur gaussien de moyenne m = [1, 2]′ et de matrice de covariance : Γ = [ 3 1 1 3 ] 1. Vérifier que Γ est bien une matrice de covariance. 2. Diagonaliser Γ en base orthonormée, c’est-à-dire écrire une décomposition : Γ = P ′∆P , avec P matrice orthogonale et ∆ diagonale. 3. Représenter la fonction f : { R 2 → R (u, v) 7→ f(u, v) = 1 4π √ 2 e− 1 2 (u 2 4 + v2 2 ) 4. En déduire la représentation de la densité du vecteur aléatoire [X,Y ]′. Exercice 2.5 (Problème de dégénérescence) Soit [X,Y ]′ un vecteur gaussien de moyenne m = [0, 1]′ et de matrice de covariance : Γ = [ 1 −2 −2 4 ] 1. Vérifier que Γ est bien une matrice de covariance. 2. Diagonaliser Γ. Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved