Docsity
Docsity

Prépare tes examens
Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity


Obtiens des points à télécharger
Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium


Guides et conseils
Guides et conseils

Probabilités Pierre Priouret, Essai de Littérature

Typologie: Essai

2018/2019

Téléchargé le 14/10/2019

Danielle92
Danielle92 🇫🇷

4.4

(40)

95 documents

1 / 120

Toggle sidebar

Aperçu partiel du texte

Télécharge Probabilités Pierre Priouret et plus Essai au format PDF de Littérature sur Docsity uniquement! 1 Université Pierre et Marie Curie Licence de Mathématiques (3ème année) Année 2004/2005 Probabilités Pierre Priouret Mode d’emploi Ce polycopié est destiné aux étudiants de la Licence (3ème année) de Mathématiques de l’Université Pierre et Marie Curie. En principe ces étudiants ont déja suivi un cours de théorie de la mesure et d’intégration. Nous commençons par l’étude des probabilités sur les ensembles finis (chapitre 1) puis sur les ensembles dénombrables (chapitre 2) avant de présenter (chapitre 3) les résultats d’intégration utilisés par la suite. Le chapitre 4 introduit les principales notions de probabilités dans leur cadre général. Le chapitre 5 traite des fonctions caractéristiques et des vecteurs gaussiens. Les théorèmes limites sont abordés dans les chapitres 6 (avec, en particulier, la loi des grands nombres) et 7 (avec, en particulier, la convergence en loi vers la loi normale). Enfin le chapitre 8 présente quelques notions de statistique. Les compléments situés à la fin de certains chapitres ne sont pas au programme de l’examen. Ce polycopié est divisé en chapitres, sections et sous-sections. Ainsi 3.2.4 renvoie au chapitre 3, section 2, sous-section 4 et 5.4 renvoie chapitre 5, section 4. A l’intérieur d’une même section, les énoncés sont numérotés en continu. Ainsi “d’après le th. 5.4.6” renvoie au chapitre 5, section 4, énoncé 6. Quant aux égalités, elles sont numérotées entre parenthèses et en continu au sein d’un même chapitre. Ainsi “vu (3.5)” réfère à la cinquième égalité numérotée du chapitre 3. Le signe  indique la fin d’une preuve. Ce polycopié se termine par un index des notations et un index des termes. 2 Chapitre 1 Espace de probabilité fini Dans ce premier chapitre, on présente les premières notions de probabilité dans un cadre élémentaire. 1.1. Notions fondamentales 1.1.1. Probabilité sur un ensemble fini. Soit E un ensemble fini. Une probabilité sur E est une famille (p(a), a ∈ E) de réels vérifiant 0 ≤ p(a) ≤ 1, ∑ a∈E p(a) = 1. On pose alors, pour A ⊂ E, P(A) = ∑ a∈A p(a). P est une application de P(E) dans [0, 1] telle que P(Ω) = 1, P(A ∪B) = P(A) + P(B) si A ∩B = ∅. (1.1) On voit immédiatement, par récurrence, que, si A1, . . . , Ar sont des sous-ensembles de Ω deux à deux disjoints, alors P( r⋃ i=1 Ai) = r∑ i=1 P(Ai). Réciproquement si une fonction d’ensembles A 7→ P(A), A ⊂ E, vérifie (1.1) et si on pose, pour tout a ∈ E, p(a) = P({a}), on a 0 ≤ p(a) ≤ 1 et ∑ a∈E p(a) = 1 puisque les ensembles {a} sont évidemment deux à deux disjoints d’union E. En conclusion, on appellera probabilité sur E aussi bien la famille (p(a), a ∈ E) que la fonction d’ensembles A 7→ P(A). 1.1.2. Espace de probabilité fini. Un couple (Ω,P) où Ω est un ensemble fini et P une probabilité sur Ω s’appelle un espace de probabilité fini. Un sous-ensemble A de Ω s’appelle un événement et P(A) est la probabilité que l’événement A ait lieu. L’élément {ω} s’appelle alors un événement élémentaire. On note Ac le complémentaire de A, 6 Espace de probabilité fini c’est l’événement “A n’a pas lieu”. De même A ∪B est l’événement “A ou B a lieu” et A ∩B est l’événement “A et B ont lieu”. Enfin Ω est l’événement certain et ∅ est l’événement impossible. Noter (c’est la moindre des choses) que P(∅) = 0 puisque, vu que Ω ∩ ∅ = ∅, 1 = P(Ω) = P(Ω ∪ ∅) = P(Ω) + P(∅) = 1 + P(∅). Donnons quelques conséquences faciles de (1.1). On a A∪Ac = Ω et A∩Ac = ∅ donc 1 = P(Ω) = P(A) + P(Ac) d’où P(Ac) = 1− P(A). (1.2) Si A ⊂ B, on note B \A = B ∩Ac. On a alors B = A∪ (B \A) avec A∩ (B \A) = ∅ d’où si A ⊂ B, P(B \A) = P(B)− P(A). (1.3) En particulier, dans ce cas, P(A) ≤ P(B). Enfin on a A ∪B = (A ∩B) ∪ (A \A ∩B) ∪ (B \A ∩B), ces ensembles étant deux à deux disjoints. On a donc P(A∪B) = P(A∩B)+P(A\A∩B)+P(B\A∩B) = P(A∩B)+P(A)−P(A∩B)+P(B)−P(A∩B) d’où P(A ∪B) = P(A) + P(B)− P(A ∩B). (1.4) On note |A| le cardinal de A i.e. le nombre d’éléments de A. Un cas particulier important d’espace de probabilité fini (Ω,P) est celui où P est la probabilité uniforme sur Ω définie par P({ω}) = 1 |Ω| . On a alors P(A) = |A||Ω| . Ce cas est très fréquent mais n’est pas le seul à envisager (voir l’exemple 4 de 1.1.4). 1.1.3. Variables aléatoires. Soit (Ω,P) un espace de probabilité fini. On appelle vari- able aléatoire (en abrégé v.a.) à valeurs E toute application X de Ω dans E. Puisque X(Ω) est fini, on peut supposer E fini, c’est ce qu’on fera par la suite. Pour a ∈ E et Γ ⊂ E, on pose {X = a} = X−1(a) = {ω, X(ω) = a}, {X ∈ Γ} = X−1(Γ) = {ω, X(ω) ∈ Γ}. (1.5) On définit alors, pour tout a ∈ E, q(a) = P(X = a). On a 0 ≤ q(a) ≤ 1 et, les ensembles {X = a}, a ∈ E, étant deux à deux disjoints d’union Ω, ∑ a∈E q(a) = P(Ω) = 1. Les (q(a), a ∈ E) sont donc une probabilité sur E, notée µX , appelée loi de la v.a. X. Alors, pour tout Γ ⊂ E, µX (Γ) = ∑ a∈Γ q(a) = ∑ ω, X(ω)∈Γ p(ω) = P(X ∈ Γ). 7 1.1.4. Exemples. 1. On lance une pièce trois fois de suite. L’ensemble des issues possibles est Ω = {PPP, PPF, PFP, PFF, FPP, FPF, FFP, FFF}. On a |Ω| = 23 = 8. Les issues étant équiprobables, on munit Ω de la proba- bilité P({ω}) = 18 . Soient A l’événement “on obtient exactement deux faces” et B l’événement “on obtient au moins deux faces”. On a A = {PFF, FPF, FFP}, B = {PFF, FPF, FFP, FFF}, |A| = 3, |B| = 4, P(A) = 38 , P(B) = 1 2 . 2. On lance deux dés, un rouge et un bleu. L’ensemble des issues possibles est Ω = {11, 21, 12, . . . , 66} = {i1i2, 1 ≤ i1, i2 ≤ 6}. On a |Ω| = 62 = 36. Les issues étant équiprobables, on munit Ω de la proba- bilité P({ω}) = 136 . Soit A l’événement “la somme des résultats vaut 5”. On a A = {14, 23, 32, 14} et P(A) = 436 = 1 9 . SoientX1 le résultat du dé rouge,X2 le résultat du dé bleu et S la somme. Ce sont des variables aléatoires et on a X1(i1i2) = i1, X2(i1i2) = i2, S(i1i2) = i1 + i2 = X1(i1i2) + X2(i1i2). Il est immédiat que, pour k = 1, . . . , 6, P(X1 = k) = P(X2 = k) = 16 . La loi de X1 (et de X2) est donc la loi uniforme sur {1, 2, 3, 4, 5, 6}. Soit (qk, k = 2, 3, . . . , 12) la loi de S. Ci-dessus, on a calculé q5. De la même façon, on obtient: q2 = q12 = 1 36 , q3 = q11 = 2 36 , q4 = q10 = 3 36 , q5 = q9 = 4 36 , q6 = q8 = 5 36 , q7 = 6 36 . 3. On met au hasard trois boules distinctes a, b, c dans trois urnes. L’ensemble des issues possibles est Ω = {(abc| − |−), (−|abc|−), (−| − |abc), (ab|c|−), . . . . . .}. On a |Ω| = 33 = 27 et, les issues étant équiprobables, P({ω}) = 127 . Soit A l’événement “la première urne contient deux boules, la seconde une boule”, événement qu’on note (2|1|0). On a A = {(ab|c|−), (ac|b|−), (bc|a|−)} d’où P(A) = 327 = 1 9 . Soit B l’événement “chaque urne contient une boule”, événement qu’on note (1|1|1). On a B = {(a|b|c), (b|a|c), (a|c|b), (c|a|b), (b|c|a), (c|b|a)} et P(B) = 627 = 2 9 . Par symétrie, on a P((3|0|0)) = P((0|3|0)) = P((0|0|3)) = 1 27 , P((2|1|0)) = P((1|2|0)) = P((2|0|1)) = P((1|0|2)) = P((0|2|1)) = P((0|1|2)) = 1 9 , P((1|1|1)) = 2 9 . 4. On met au hasard trois boules indistinctes dans trois urnes. L’ensemble des issues possibles est Ω = {(3|0|0), (0|3|0), (0|0|3), (2|1|0), (1|2|0), (2|0|1), (1|0|2), (0|2|1), (0|1|2), (1|1|1)}. 10 Espace de probabilité fini Cette loi s’appelle la loi hypergéométrique. 1.2.5. Loi binomiale. On suppose encore que S = S1∪S2 avec S1∪S2 = ∅, |S1| = n1, |S2| = n2, n = n1 + n2. On tire avec remise r éléments de S, r quelconque, et soit X le nombre d’éléments de type 1 obtenus. On se place dans le cadre de 1.2.2 et il s’agit de calculer la loi de la v.a. X. On doit calculer |A| où A = {X = k}. Evidemment P(A) = 0 si k > r. Sinon on construit un élément de A en se donnant un échantillon avec répétition de taille k de S1 (il y en a nk1) puis en se donnant un échantillon avec répétition de taille r − k de S2 (il y en a nr−k2 ) et en faisant un échantillon avec répétition de taille r de S i.e en choisissant la place des éléments de S1 dans l’échantillon total (il y a donc Ckr possibilités). Ceci donne |A| = nk1n r−k 2 C k r et P(A) = |A| |Ω| = nk1n r−k 2 C k r /n r. Posant p = n1/n, on obtient P(X = k) = Ckr pk(1− p)r−k, k = 0, 1, . . . , r, P(X = k) = 0 si k > r. (1.7) Cette loi s’appelle la loi binomiale car 1 = ∑r k=0 P(X = k) n’est rien d’autre que la formule du binôme ∑r k=0C k r p k(1− p)r−k = (p+ (1− p))r = 1. Evidemment si n1 et n2 sont très grands par rapport à r, le fait de tirer sans remise ou avec remise modifie peu le résultat et dans ce cas la loi binomiale est une bonne approximation de la loi hypergéométrique. C’est ce que montre le calcul suivant où k, r sont fixes et où n1, n2 → +∞ avec n1/n→ p. Alors Ckn1C r−k n2 Crn = r!n1(n1 − 1) . . . (n1 − k + 1)n2(n2 − 1) . . . (n2 − r + k + 1) n(n− 1) . . . (n− r + 1) k!(r − k)! ∼ Ckr nk1n r−k 2 nr = Ckr ( n1 n )k(1− n1 n )r−k → Ckr pk(1− p)r−k. 1.2.6. Généralisation. On suppose maintenant que S = S1 ∪S2 ∪ . . .∪Sm avec les Sj deux à deux disjoints, |Sj | = nj , n = n1 + . . . + nm. On appelle éléments de type j les éléments de Sj , j = 1, . . . ,m. On tire sans remise (resp. avec remise) r éléments de S (r ≤ n dans le premier cas) et soit Xj le nombre d’éléments de type j obtenus. On veut calculer P(X1 = k1, . . . , Xm = km), k1 + . . .+ km = r, on a a. Tirage sans remise. P(X1 = k1, . . . , Xm = km) = Ck1n1 . . . C km nm Crn , ∀j, kj ≤ nj , k1 + . . . km = r ; = 0 sinon. b. Tirage avec remise. On pose pj = nj n . Alors P(X1 = k1, . . . , Xm = km) = r! k1! . . . km! pk11 . . . p km m , k1 + . . . km = r ; = 0 sinon. 11 Si m = 2, il s’agit des formules précédentes. Dans le cas général, elles se montrent de la même façon. Exemple. Le bridge se joue avec un jeu de 52 cartes de 4 couleurs. Il oppose deux camps de chacun deux joueurs. On distribue 13 cartes à chaque joueur. On dit qu’une main est 5521 si elle se compose de deux couleurs de 5 cartes, d’une couleur de 2 cartes et d’une couleur de 1 carte. Quelle est la probabilité p qu’une main soit 5521? La probabilité pour qu’une main comprenne 5 piques, 5 cœurs, 2 carreaux, 1 tréfle est (loi hypergéométrique généralisée) α = C513C 5 13C 2 13C 1 13 C1352 = 0, 002645. On obtient la probabilité cherchée en permutant les couleurs. Il y a C24 façons de choisir les deux couleurs de 5 cartes puis deux façons de choisir la couleur de 2 cartes. On a donc p = 2C24α = 0, 03174. Vous jouez un contrat avec pique comme atout. Vous avez avec votre partenaire (le mort) 9 piques . Quelles sont les probabilités q1, q2, q3 que, chez vos adversaires, les piques soient partagés 4− 0, 3− 1, 2− 2? La probabilité qu’un de vos adversaires ait 4 (resp. 3, resp. 2) piques est (loi hypergéométrique) C44C 9 22 C1326 = 0, 0478, resp. C34C 10 22 C1326 = 0, 2486, resp. C24C 11 22 C1326 = 0, 40695. On a donc q1 = 0, 09565, q2 = 0, 4974, q3 = 0, 40695. 1.3. Probabilité conditionnelle On considère un espace de probabilité fini (Ω,P). On écrit indifféremment A ∩B ou AB. 1.3.1. Probabilité conditionnelle. Soient Ω une population, A la sous population des hommes, Ac celle des femmes et B celle des fumeurs. Si on tire au hasard un élément de Ω, la probabilité d’obtenir un fumeur est |B||Ω| . Si on observe que l’élément tiré est un homme, la probabilité que ce soit un fumeur est |AB||A| , c’est ce qu’on appellera la probabilité conditionnelle de B sachant A. Ceci conduit à: Définition 1.3.1. Soit A ⊂ Ω tel que P(A) > 0. On appelle probabilité conditionnelle de B sachant A et on note P(B|A) la quantité P(AB)/P(A). On a donc P(AB) = P(A)P(B|A). Noter que B 7→ P(B|A) est une probabilité sur Ω. 12 Espace de probabilité fini Proposition 1.3.2. (Formule de Bayes) Soient A,B des événements tels que P(A) > 0,P(Ac) > 0,P(B) > 0. On a P(A|B) = P(A)P(B|A) P(A)P(B|A) + P(Ac)P(B|Ac) . Preuve: Par définition P(A|B) = P(AB)/P(B). D’une part P(AB) = P(A)P(B|A). D’autre part P(B) = P(BA) + P(BAc) = P(A)P(B|A) + P(Ac)P(B|Ac). D’où le résultat.  Proposition 1.3.3. Soient A1, A2, . . . , An des événements tels que P(A1A2 . . . An) > 0. On a P(A1A2 . . . An) = P(A1)P(A2|A1)P(A3|A1A2) . . .P(An|A1A2 . . . An−1) . Preuve: Par définition P(A1A2) = P(A1)P(A2|A1). Supposons la formule vraie au rang n. Alors P(A1A2 . . . AnAn+1) = P(A1A2 . . . An)P(An+1|A1A2 . . . An) et il suffit d’appliquer la formule au rang n pour conclure.  1.3.2. Evénements indépendants. Si P(B|A) = P(B) i.e. P(AB) = P(A)P(B), savoir si A a eu lieu ou non ne modifie pas la probabilité de B. Il est alors naturel de dire que les événements A et B sont indépendants d’où Définition 1.3.4. Les événements A et B sont indépendants si P(AB) = P(A)P(B). Supposons A et B indépendants, on a P(ABc) = P(A)− P(AB) = P(A)− P(A)P(B) = P(A)(1− P(B)) = P(A)P(Bc). Donc A et Bc sont indépendants. On voit facilement qu’il en est de même de Ac et B et de Ac et Bc. Donc posant, pour F ⊂ Ω; σ(F ) = {Ω, F, F c, ∅}, (1.8) on a que A et B sont indépendants ssi P(CD) = P(C)P(D) pour tout C ∈ σ(A) et tout D ∈ σ(B). Ceci conduit à: Définition 1.3.5. Les événements A1, A2, . . . , An sont indépendants si, pour tout C1 ∈ σ(A1), tout C2 ∈ σ(A2),. . ., tout Cn ∈ σ(An), P(C1C2 . . . Cn) = P(C1)P(C2) . . .P(Cn). On montre alors facilement: Proposition 1.3.6. Les événements A1, A2, . . . , An sont indépendants ssi, pour tout {i1, . . . , ik} ⊂ {1, . . . , n}, P(Ai1 . . . Aik) = P(Ai1) . . .P(Aik). 15 Théorème 2.1.5. Soit(ai, i ∈ I) une famille sommable de nombres complexes. (i) Pour toute énumération φ de I, Sφn définie par (2.1) converge vers S ∈ C indépendant de φ. On note S = ∑ i∈I ai. On a | ∑ i∈I ai| ≤ ∑ i∈I |ai|. (ii) Soit (Ij , j ∈ J) une partition de I, on a ∑ i∈I ai = ∑ j∈J ∑ i∈Ij ai. (iii) Si (bi, i ∈ I) est une autre famille sommable de nombres complexes et si α, β ∈ C, la famille (αai + βbi, i ∈ I) est sommable et∑ i∈I (αai + βbi) = α ∑ i∈I ai + β ∑ i∈I bi. Preuve: On pose, pour a ∈ R, a+ = max(a, 0), a− = max(−a, 0). On a a = a+ − a− et |a| = a+ + a−. Pour a ∈ C, on a a = <(a) + i=(a). Alors, pour tout i ∈ I, [<(ai)]+ ≤ |ai|, [<(ai)]− ≤ |ai|, [=(ai)]+ ≤ |ai|, [=(ai)]− ≤ |ai|. Ecrivant Sφn = n∑ k=0 [<(aφ(k))]+ − n∑ k=0 [<(aφ(k))]− + i n∑ k=0 [=(aφ(k))]+ − i n∑ k=0 [=(aφ(k))]−, on est ramené au cas positif.  2.2. Espace de probabilité discret 2.2.1. Probabilité sur E dénombrable. Soit E un ensemble dénombrable. Une prob- abilité sur E est une famille (p(a), a ∈ E) de réels vérifiant 0 ≤ p(a) ≤ 1, ∑ a∈E p(a) = 1. On pose alors, pour A ⊂ E, P(A) = ∑ a∈A p(a). P est une application de P(E) dans [0, 1] vérifiant P(E) = 1, P(A ∪ B) = P(A) + P(B) si A ∩ B = ∅ (prop. 2.1.3) et P(An) ↑ P(A) si An ↑ A (prop. 2.1.2). Ceci implique que A 7→ P(A) est σ-additive i.e. que, pour toute famille (An, n ∈ N) de sous-ensembles de Ω deux à deux disjoints, on a P(∪An) = ∑ P(An). En effet: P(∪An) = lim ↑N P(∪N0 An) = lim ↑N N∑ 0 P(An) = ∑ P(An). Réciproquement si une application de P(E) dans [0, 1], A 7→ P(A), vérifie P(E) = 1 et est σ-additive, on a, posant p(a) = P({a}), 0 ≤ p(a) ≤ 1 et ∑ a∈E p(a) = 1. Ici encore, on appellera probabilité sur E aussi bien la famille (p(a), a ∈ E) que la fonction d’ensembles A 7→ P(A). 16 Espace de probabilité discret 2.2.2. Un couple (Ω,P) où Ω est un ensemble fini ou dénombrable et P une probabilité sur Ω s’appelle un espace de probabilité discret. Toute application X de Ω dans E s’appelle une variable aléatoire à valeurs E. On peut supposer E dénombrable puisque X(Ω) est dénombrable. Alors, vu la prop. 2.1.3, la famille (q(a), a ∈ E) où q(a) = P(X = a) est une probabilité sur E appelée loi de X. 2.2.3. Espérance. Soient (Ω,P) un espace de probabilité discret et X une variable aléatoire à valeurs E discret (i.e. fini ou dénombrable). On pose p(ω) = P({ω}). a. On suppose E ⊂ R+. On pose E(X) = ∑ ω∈ΩX(ω)p(ω). E(X), qui est un élément de [0,+∞], s’appelle l’espérance de X. b. On suppose E ⊂ R. Alors, si E(|X|) = ∑ ω |X(ω)|p(ω) < +∞, on appelle espérance de X la quantité E(X) = ∑ ω∈ΩX(ω)p(ω). c. On suppose E quelconque et soit f : E → R. Si f ≥ 0 ou si E(|f(X)|) =∑ ω∈Ω |f(X(ω))|p(ω) < +∞, on a E(f(X)) = ∑ ω∈Ω f(X(ω))p(ω). (2.2) Théorème 2.2.1. Soient X une variable aléatoire à valeurs E discret et f : E → R. Si f ≥ 0, on a E(f(X)) = ∑ a∈E f(a)P(X = a). (2.3) De plus, E(|f(X)|) < +∞ ssi ∑ a |f(a)|P(X = a) < +∞ et, dans ce cas, on a (2.3). Preuve: Supposons d’abord f ≥ 0. Alors, vu la prop. 2.1.3, E(f(X)) = ∑ ω∈Ω f(X(ω))p(ω) = ∑ a∈E ∑ ω /X(ω)=a f(X(ω))p(ω) = ∑ a∈E ∑ ω /X(ω)=a f(a)p(ω) = ∑ a∈E f(a) ∑ ω /X(ω)=a p(ω) = ∑ a∈E f(a)P(X = a). On a donc, pour f réelle, E(|f(X)|) = ∑ a |f(a)|P(X = a) et, si cette quantité est finie, le calcul ci dessus est encore valable (th. 2.1.5).  Soient X1, X2 des v.a. à valeurs E1 et E2 discrets. Alors (X1, X2) est une v.a. à valeurs E1 × E2 et on a, pour toute f : E1 × E2 → R positive ou telle que E(|f(X1, X2)|) < +∞, E(f(X1, X2)) = ∑ (a1,a2)∈E1×E2 f(a1, a2) P(X1 = a1, X2 = a2). (2.4) Si A ⊂ Ω, on appelle fonction indicatrice de A et on note 1A la fonction définie par 1A(ω) = 1 si ω ∈ A, 1A(ω) = 0 si ω /∈ A. Alors, notant p(ω) = P({ω}), E(1A) = ∑ ω∈Ω 1A(ω)p(ω) = ∑ ω∈A p(ω) = P(A). (2.5) 17 2.2.4. Moments. Dans cette sous section, X désigne une v.a. à valeurs E ⊂ R, E discret. Soit p ∈ N∗. Si E(|X|p) < +∞, E(|X|p) s’appelle le moment absolu d’ordre p de X et E(Xp) s’appelle le moment d’ordre p de X. D’après le th. 2.2.1, E(|X|p) = ∑ a∈E |a|p P(X = a). Noter que, pour 1 ≤ q ≤ p, E(|X|p) < +∞ implique E(|X|q) < +∞ puisque |X|q ≤ 1 + |X|p. Supposons E(X2) < +∞, alors m = E(X), qu’on appelle aussi moyenne de X, existe et on définit la variance de X par Var(X) = E[(X −m)2] = E(X2)−m2. (2.6) La variance donne une idée de l’écart de X par rapport à sa moyenne m comme le montre: Proposition 2.2.2. (Inégalité de Bienaymé-Tchebychev) On suppose que E(X2) < +∞ et soit m = E(X). Alors, pour tout λ > 0, P(|X −m| ≥ λ) ≤ 1 λ2 Var(X). Preuve: On a Var(X) = E[(X −m)2] = ∑ ω∈Ω (X(ω)−m)2p(ω) ≥ ∑ ω∈{|X−m|≥λ} (X(ω)−m)2p(ω) ≥ λ2 ∑ ω∈{|X−m|≥λ} p(ω) = λ2 P(|X −m| ≥ λ).  2.2.5. Lois usuelles. Loi binomiale. On l’a déjà rencontré en (1.7). Soit n ∈ N∗. C’est la loi d’une v.a. à valeurs {0, 1, . . . , n} telle que P(X = k) = Cknpk(1− p)n−k, k = 0, 1, . . . , n ; 0 < p < 1. (2.7) Elle est appelée loi binomiale de paramètre n, p et notée B(n, p). On écrit X ∼ B(n, p). En particulier si X ∼ B(1, p), on dit que X est une v.a. de Bernouilli. Calculons la moyenne et la variance de X ∼ B(n, p). D’une part E(X) = ∑ k≥0 k P(X = k) = n∑ k=1 kCknp k(1−p)n−k = np n∑ k=1 (n− 1)! (k − 1)!(n− k)! pk−1(1−p)n−k = np n−1∑ i=0 Cin−1p i(1− p)n−1−i = np(p+ (1− p))n−1 = np. 20 Espace de probabilité discret (ii) il en est de même de Xr(1), . . . , Xr(n) pour toute permutation {r(1), . . . , r(n)} de (1, . . . , n), (iii) il en est de même,pour tous 1 < m1 < . . . < mp = n, de Y1, . . . , Yp où Y1 = (X1, . . . , Xm1), Y2 = (Xm1+1, . . . , Xm2), . . . , Yp = (Xmp−1+1, . . . , Xn). Par exemple, si X1, X2, X3, X4 sont des variables aléatoires réelles indépendantes, il en est de même de X1, X3, X2, X4, de Y1 = (X1, X3) et Y2 = (X2, X4) et de U1 = cos(X21 +X 2 3 ) et U2 = e X2X4 . Exemple. Soient X et Y deux v.a. indépendantes à valeurs N, de lois P(λ) et P(µ). Cherchons la loi de S = X + Y . On a P(S = k) = P(X + Y = k) = k∑ j=0 P(X = j, Y = k − j) = k∑ j=0 P(X = j)P(Y = k − j) = k∑ j=0 e−λ λj j! e−µ µk−j (k − j)! = e−(λ+µ) 1 k! k∑ j=0 Cjkλ jµk−j = e−(λ+µ) (λ+ µ)k k! . Donc S ∼ P(λ+ µ). 2.3. Fonctions génératrices Dans cette section, on ne considère que des v.a. à valeurs N. 2.3.1. Définition. Soit X une telle v.a. Notons d’abord que, vu le th. 2.2.1, on a, pour tout s ≥ 0, ∑∞ n=0 P(X = n)sn = E(sX) avec la convention s0 = 1 si s = 0. Définition 2.3.1. On appelle fonction génératrice de X, la fonction g(s) = gX (s) = ∞∑ n=0 P(X = n)sn = E(sX), 0 ≤ s ≤ 1. On pose qn = P(X = n). On a gX (0) = q0, gX (1) = 1 et, vu la prop. 2.1.2, gX (s) ↑ gX (1) = 1 lorsque s ↑ 1. Sur [0, 1], la fonction gX (s) est convexe et strictement convexe si q0 + q1 < 1. De plus, la série entière ∑ qns n a un rayon de convergence R ≥ 1. Donc gX (s) est indéfiniment dérivable sur [0, 1[ et g′X (s) = ∑ n≥1 nqns n−1, g′′ X (s) = ∑ n≥2 n(n− 1)qnsn−2,. . .. Enfin n!qn = g(n)X (0) d’où: Proposition 2.3.2. La fonction génératrice gX détermine la loi de X. En fait: P(X = n) = 1 n! g(n) X (0). Exemples. 21 a. Loi binomiale B(n, p). On a g(s) = ∑ k P(X = k)sk = n∑ k=0 Cknp ksk(1− p)n−k = (ps+ (1− p))n. b. Loi de Poisson P(λ). On a g(s) = ∑ k P(X = k)sk = e−λ ∑ k≥0 λksk k! = eλ(s−1). c. Loi géométrique G(a). On a g(s) = ∑ k P(X =)sk = ∑ k≥0 (1− a)aksk = 1− a 1− as . 2.3.2. Calcul des moments. Rappelons (2.2.4) que E(Xp) < +∞ implique E(Xq) < +∞ pour tout q ≤ p. Proposition 2.3.3. (i) E(X) < +∞ ssi gX est dérivable à gauche en 1 et, dans ce cas, on a E(X) = g′ X (1). (ii) E(X2) < +∞ ssi gX est deux fois dérivable à gauche en 1 et, dans ce cas, on a E(X(X − 1)) = g′′ X (1). Preuve: (i) On a, utilisant la prop. 2.1.2, lorsque s ↑ 1, g(s)− g(1) s− 1 = ∑ n≥0 qn sn − 1 s− 1 = ∑ n≥0 qn(1 + . . .+ sn−1) ↑ ∑ n≥0 nqn = E(X) et le résultat cherché. (ii) On remarque d’abord que, si E(X2) < +∞, E(X) < +∞ et g′(1) < +∞. Alors, lorsque s ↑ 1, g′(s)− g′(1) s− 1 = ∑ n≥0 nqn sn−1 − 1 s− 1 = ∑ n≥0 nqn(1+. . .+sn−2) ↑ ∑ n≥0 n(n−1)qn = E(X(X−1)). On conclut facilement.  On peut continuer et, si E(Xp) < +∞, p ∈ N, g(p) X (1) = E(X(X − 1) . . . (X − p+ 1)). Supposons E(X2) < +∞. Alors Var(X) = E(X2)−[E(X)]2 = E(X(X−1))+E(X)−[E(X)]2 = g′′ X (1)+g′ X (1)−[g′ X (1)]2. Le lecteur est invité à calculer l’espérance et la variance des lois binomiale et de Poisson par cette méthode. Considérons la loi géométrique G(a) (2.3.1). On a g(s) = 1− a 1− as , g′(1) = a 1− a = E(X), g′′(1) = 2a2 (1− a)2 , Var(X) = a (1− a)2 . 2.3.3. Somme de v.a. indépendantes. 22 Espace de probabilité discret Proposition 2.3.4. Soient X et Y deux v.a. à valeurs N indépendantes. On a, pour tout s ∈ [0, 1], gX+Y (s) = gX (s) gY (s). Preuve: On a, utilisant le th. 2.2.4, gX+Y (s) = E(s X+Y ) = E(sXsY ) = E(sX) E(sY ) = gX (s) gY (s).  Exemples. (i) Soient X et Y deux v.a. indépendantes de loi P(λ) et P(µ). On a gX+Y (s) = e λ(s−1)eµ(s−1) = e(λ+µ)(s−1) et donc (prop. 2.3.2) X + Y ∼ P(λ+ µ). (ii) Soient A1, . . . , An des événements indépendants de même probabilité p = P(Ak). Soient Sn = 1A1 + . . .+1An le nombre d’événements réalisés, g la fonction génératrice (commune) de 1A1 et gn la fonction génératrice de Sn. On a g(s) = E(s1A1 + 1Ac1) = ps+ 1− p. Donc gn(s) = [g(s)]n = (ps+ 1− p)n et (prop. 2.3.2) Sn ∼ B(n, p). 2.3.4. Critère d’indépendance. Soient X et Y deux v.a. à valeurs N. On définit pour u, v ∈ [0, 1], g (X,Y ) (u, v) = ∑ m,n P(X = m,Y = n)umvn = E(uXvY ). (2.13) (Toujours avec la convention 00 = 1). Alors g (X,Y ) s’appelle la fonction génératrice du couple (X,Y ). Proposition 2.3.5. Les v.a. à valeurs N X et Y sont indépendantes ssi, pour tous u, v ∈ [0, 1], g (X,Y ) (u, v) = gX (u) gY (v). (2.14) Preuve: Si X et Y sont indépendantes, (2.14) résulte du th. 2.2.4. Réciproquement (2.14) s’écrit∑ m,n P(X = m,Y = n)umvm = ∑ m P(X = m)um ∑ n P(Y = n)vn. Appliquant ∂ m+n ∂un∂vm (0, 0) aux deux membres, on obtient que, pour tous m,n, P(X = m,Y = n) = P(X = m)P(Y = n) i.e. l’indépendance de X et Y .  La prop. 2.3.5 s’étend facilement au cas de n v.a. 25 Proposition 3.1.3. Soient f : E → (A,A) et h : E → R (resp. E → R+). Alors h est σ(f)-mesurable ssi il existe g ∈ [A] (resp. g ∈ A+) telle que h = g ◦ f . Preuve: Evidemment si h = g◦f , h est σ(f)-mesurable (transitivité). Réciproquement supposons d’abord h ∈ e[σ(f)]+, on a h = ∑n k=1 ak1Bk avec Bk ∈ σ(f) et donc Bk = f−1(Ak), Ak ∈ A. Vu que 1Bk = 1Ak ◦ f , on a h = g ◦ f avec g = ∑n k=1 ak1Ak . Si h ∈ [σ(f)]+, on a h = lim ↑ hn avec hn ∈ e [σ(f)]+ et donc hn = gn ◦ f , gn ∈ A+. On en déduit h = g ◦ f avec g = lim sup gn ∈ A+. Si h ∈ [σ(f)], on a h = h+ − h− et h+ = g1 ◦ f , h− = g2 ◦ f avec gi ∈ A+. On a alors h = g ◦ f avec g = g11{g1<+∞} − g21{g2<+∞} ∈ [A].  Plus généralement si (fi, i ∈ I) est une famille d’applications de E dans des espaces mesurables (Fi,Fi), on note σ(fi, i ∈ I) et on appelle tribu engendrée par les fi la plus petite tribu sur E rendant toutes les fi mesurables. On a donc σ(fi, i ∈ I) = σ(f−1i (Ai), Ai ∈ Fi, i ∈ I). 3.2. Mesures 3.2.1. Soit (E,B) un espace mesurable. Définition 3.2.1. On appelle mesure sur (E,B) toute application µ de B dans R+ telle que (i) µ(∅) = 0, (ii) pour tous An ∈ B deux à deux disjoints, µ(∪nAn) = ∑ n µ(An). Le triplet (E,B, µ) s’appelle un espace mesuré. Propriétés: (i) si A,B ∈ B et A ⊂ B, µ(A) ≤ µ(B), (ii) si An ∈ B, µ(∪nAn) ≤ ∑ n µ(An), (iii) si An ∈ B et si An ↑ A (i.e. 1An ↑ 1A), µ(An) ↑ µ(A), (iv) si An ∈ B, si An ↓ A (i.e. 1An ↓ 1A) et si, pour un n0, µ(An0) < +∞, µ(An) ↓ µ(A). Si E = ∪nEn avec En ∈ B et µ(En) < +∞, la mesure µ est dite σ-finie. Si µ(E) < +∞, la mesure µ est dite bornée. Si µ(E) = 1, la mesure µ est appelée une probabilité. Exemple. Soit a ∈ E. alors δa(A) = 1A(a) définit une mesure sur (E,B) appelée mesure de Dirac de a. Plus géralement, étant donnés an ∈ E et λn ≥ 0, µ = ∑ n λnδan est une mesure sur (E,B) (prop. 2.1.2). Remarque. La propriété (ii) de la def. 3.2.1 s’appelle σ-additivité. Si dans la def. 3.2.1, on suppose que B est seulement une algèbre, la définition a encore un sens en rajoutant dans (ii) la condition ∪nAn ∈ B. On a ainsi la notion de mesure sur une algèbre. 26 Mesure. Intégration Proposition 3.2.2. Soient µ et ν deux mesures sur (E,B) et C ⊂ B une classe d’ensembles stable par intersection finie. On suppose que, pour tout A ∈ C, µ(A) = ν(A) < +∞ et que E = lim ↑ En avec En ∈ C. Alors µ(A) = ν(A) pour tout A ∈ σ(C). Preuve: Supposons d’abord µ(E) = ν(E) < +∞. Soit M = {A ∈ B, µ(A) = ν(A)}. On vérifie immédiatement que les hypothèses de la prop. 3.1.2 sont vérifiées. On a donc σ(C) ⊂ M. Le cas général se traite en appliquant ce résultat aux mesures µn(A) = µ(A ∩ En) et νn(A) = ν(A ∩ En).  Corollaire 3.2.3. Soient µ et ν deux probabilités sur (E,B) et C ⊂ B une classe d’ensembles stable par intersection finie telle que σ(C) = B. Si µ(A) = ν(A) pour tout A ∈ C, alors µ = ν. 3.2.2. Soit (E,B, µ) un espace mesuré. Un sous-ensemble A de E est dit négligeable (ou µ-négligeable s’il y a ambigüıté) si A ⊂ B avec B ∈ B et µ(B) = 0. Une propriété est vraie presque partout (en abrégé p.p. ou, plus présisemment, µ p.p.) si elle est vraie en dehors d’un ensemble négligeable. Par exemple f = g p.p. signifie que {x ∈ E, f(x) 6= g(x)} est négligeable. Si µ est une probabilité, on dit presque sûrement (en abrégé p.s.) pour presque partout. On note N la classe des ensembles négligeables. Il faut noter que si An ∈ N , on a ∪nAn ∈ N . Si N ⊂ B, l’espace mesuré (E,B, µ) est dit complet. Si ce n’est pas le cas, on peut le “compléter” de la façon suivante. On définit B = σ(B,N ). Alors A ∈ B ssi A = B ∪ N avec B ∈ B et N ∈ N . On peut prolonger µ à B en posant µ(A) = µ(B) (il est facile de voir que ceci ne dépend pas de l’écriture de A). L’espace (E,B, µ) est alors complet et s’appelle le complété de (E,B, µ). Enfin on vérifie aisément que f : E → R est B−mesurable ssi il existe g, h : E → R B−mesurables telles que g ≤ f ≤ h et g = h µ p.p. 3.2.3. Construction. Dans la suite, la plupart du temps, on partira d’un espace mesurable ou d’un espace de probabilité sans se soucier de sa construction. Il est néanmoins indispensable de s’assurer de l’existence de tels objets. On va s’intéresser aux mesures sur B(R) finies sur les intervalles bornés. Observons d’abord que C = { ]a, b], −∞ < a < b < +∞} est une classe stable par intersection finie et que σ(C) = B(R). Il résulte alors de la prop. 3.2.2 qu’une mesure µ sur B(R) finie sur les intervalles bornés est déterminée par les valeurs µ(]a, b]). Ensuite, étant donnée une telle mesure, si on pose F (0) = 0; F (x) = µ(]0, x]), x > 0; F (x) = −µ(]x, 0]), x < 0, F (x) est une fonction continue à droite et croissante et l’on a µ(]a, b]) = F (b)−F (a). On est donc ramené au problème suivant. Soit F une application de R dans R continue à droite et croissante, existe-t-il une mesure µ sur B(R) telle que µ(]a, b]) = F (b) − F (a)? Il est facile de décrire l’algèbre A engendrée par C, on a A = {A = ∪nk=1]ak, bk], −∞ ≤ a1 < b1 < a2 < . . . < bn−1 < an < bn ≤ +∞} 27 en convenant que, si bn = +∞, ]an, bn] =]an,+∞[. On définit µ sur A par µ(A) =∑n k=1 F (bk) − F (ak) où F (+∞) = limx→+∞ F (x), F (−∞) = limx→−∞ F (x). Il est facile de montrer que µ est additive sur A, un peu plus délicat de montrer que µ est σ-additive sur A mais cela se fait. On a donc construit une mesure µ sur A telle que µ(]a, b]) = F (b)− F (a). Pour passer à B(R), on utilise le théorème de Carathéodory: Théorème 3.2.4. Soit µ une mesure sur une algèbre A, alors µ se prolonge en une mesure sur σ(A). De plus, si µ est σ-finie, ce prolongement est unique. Tout ceci donne, puisque dans notre cas σ(A) = B(R), Théorème 3.2.5. Soit F une application de R dans R continue à droite et croissante. Il existe une et une seule mesure µ sur B(R) telle que, pour tous a < b, µ(]a, b]) = F (b)− F (a). Si on choisit F (x) = x, on obtient l’existence et l’unicité d’une mesure λ sur B(R) vérifiant, pour tout intervalle I, λ(I) = |I|. C’est la mesure de Lebesgue sur R. Si N est la classe des ensembles λ-négligeables, B(R) = σ(B,N ) s’appelle la tribu des ensembles Lebesgue-mesurables (elle est beaucoup plus “grosse” que B(R)) et λ se prolonge sans peine à B(R) comme en 3.2.2. 3.3. Intégration Soit (E,B, µ) un espace mesuré. 3.3.1. Intégration des fonctions positives. On va construire l’intégrale de f par rap- port à µ. Si f ∈ eB+, c’est très facile, f s’écrit f = ∑n k=1 ak1Ak , Ak ∈ B et l’on pose ∫ f dµ := n∑ k=1 akµ(Ak). Des considérations élémentaires montrent que ceci ne dépend pas de l’écriture de f et que, pour f, g ∈ eB+ et a, b ∈ R+, ∫ (af + bg) dµ = a ∫ f dµ + b ∫ g dµ et que, si f ≤ g, ∫ f dµ ≤ ∫ g dµ. On a aussi le résultat plus technique suivant qui est la clé de la construction. Lemme 3.3.1. Si fn, gn ∈ eB+ sont croissantes et si lim ↑ fn = lim ↑ gn, on a lim ↑ ∫ fn dµ = lim ↑ ∫ gn dµ. Soit f ∈ B+. Il existe (prop. 3.1.2) une suite fn ∈ eB+ telle que fn ↑ f , on a alors∫ fn dµ ↑ et on pose ∫ f dµ = lim ↑ ∫ fn dµ. Le point important est que, d’après le lem. 3.3.1, cette limite ne dépend pas de la suite fn choisie. On a en particulier, vu (3.2), pour f ∈ B+,∫ f dµ = lim ↑ n2n−1∑ k=0 k 2n µ({x, k 2n ≤ f(x) < k + 1 2n }) + nµ({x, f(x) ≥ n}). (3.3) 30 Mesure. Intégration On peut appliquer le cor. 3.3.6 et∫ A 1 h (f(t+ h, x)− f(t, x)) dµ(x) →h→0 ∫ A ∂f ∂t (t, x) dµ(x) = ∫ ∂f ∂t (t, x) dµ(x).  3.3.4. Lien avec l’intégrale usuelle. Soit f une fonction réelle continue sur [a, b] et posons, pour a ≤ x ≤ b, F (x) = ∫ x a f(t) dt (intégrale au sens usuelle) et G(x) =∫ 1[a,a+x[f dλ, λ mesure de Lebesgue sur R. On sait que F (a) = 0, F est continue sur [a, b] et que, sur ]a, b[, F est dérivable avec F ′ = f . Il est facile de vérifier que G a les mêmes propriétés. Ceci implique que F = G sur [a, b] et, en particulier, que∫ b a f(t) dt = ∫ 1[a,b[f dλ. Par additivité, cette formule est encore vraie si f est continue par morceaux sur [a, b]. Considérons maintenant une application f de R dans R continue par morceaux telle que ∫ +∞ −∞ f(t) dt soit absolument convergente. Lorsque a ↓ −∞ et b ↑ +∞, d’une part, par définition, ∫ b a |f(t)| dt → ∫ +∞ −∞ |f(t)| dt < +∞ et ∫ b a f(t) dt → ∫ +∞ −∞ f(t) dt; d’autre part, ∫ 1[a,b[|f | dλ → ∫ |f | dλ (convergence monotone) ce qui implique que f ∈ L1(λ) puis ∫ 1[a,b[f dλ → ∫ f dλ (théorème de Lebesgue puisque |1[a,b[f | ≤ |f | ∈ L1(λ)). Donc ∫ +∞ −∞ f(t) dt = ∫ f dλ. Par contre, si ∫ +∞ −∞ f(t) dt est convergente mais pas absolument convergente (par exemple f(x) = sinxx ), f /∈ L 1(λ). 3.3.5. Espaces Lp. Soit (E,B, µ) un espace mesuré. On note L0 l’ensemble des appli- cations B-mesurables de E dans R finies p.p. On dit que f ∼ g si f = g p.p. Alors ∼ est une relation d’équivalence sur L0. On note L0 = L0/ ∼. En fait L0 est l’espace des classes de fonctions B-mesurables définies à un p.p. près. Puisque f = g p.p. implique ∫ |f | dµ = ∫ |g| dµ et ∫ f dµ = ∫ g dµ si f et g sont dans L1, on peut définir sans ambigüıté, pour f ∈ L0, ∫ |f | dµ puis, si ∫ |f | dµ < +∞, ∫ f dµ. Par abus de langage, dans toute la suite nous noterons de la même façon une fonction et sa classe d’équivalence. On pose alors, pour 1 ≤ p < +∞ et f ∈ L0, ||f ||p = [ ∫ |f |p dµ] 1 p et, pour p = +∞, ||f ||∞ = inf(M, µ(|f | > M) = 0). On a deux inégalités fondamentales. Pour f, g ∈ L0+, ||f + g||p ≤ ||f ||p + ||g||p, 1 ≤ p ≤ +∞ (3.6) qui s’appelle l’inégalité de Minkowski et ||fg||1 ≤ ||f ||p ||g||q, 1 ≤ p ≤ +∞, 1 p + 1 q = 1 (3.7) 31 qui s’appelle l’inégalité de Hölder. Notons que pour p = q = 2, (3.7) implique l’inégalité de Schwarz [ ∫ |fg| dµ]2 ≤ ( ∫ f2 dµ)( ∫ g2 dµ). On note Lp = {f ∈ L0, ∫ |f |p dµ < +∞}, Lp = {f ∈ L0, ∫ |f |p dµ < +∞}. Alors Lp muni de la norme ||.||p est un espace de Banach et L2 est un espace de Hilbert pour le produit scalaire < f, g >= ∫ fg dµ. On peut aussi considérer le cas des fonctions à valeurs complexes. On définit de la même façon LpC = L p C(E,B, µ). Il faut noter que L2C est associé au produit scalaire < f, g >= ∫ fḡ dµ. Proposition 3.3.8. Pour 1 ≤ p < +∞, E0 = {f, f = ∑n k=1 ak1Ak , Ak ∈ B, µ(Ak) < +∞} est dense dans Lp(E,B, µ). Preuve: Il suffit de considérer f ≥ 0. Alors il existe (prop. 3.1.2) une suite fn ∈ eB+ telle que fn ↑ f . Vu que fpn ≤ fp ∈ L1, fn ∈ E0. On a, puisque f < +∞ p.p., |f −fn|p → 0 p.p. et |f −fn|p ≤ fp ∈ L1 donc (th. de Lebesgue) ∫ |f −fn|p dµ→ 0.  3.4. Mesures à densité 3.4.1. Soit µ une mesure sur (E,B). On peut lui associer une application I de B+ dans R+ en posant I(f) = ∫ f dµ, f ∈ B+. L’application I a les propriétés suivantes: I(f+ g) = I(f) + I(g), I(af) = aI(f), a ∈ R+ et I(fn) ↑ I(f) si fn ↑ f . Réciproquement on a, Proposition 3.4.1. Soient (E,B) un espace mesurable et I une application de B+ dans R+ telle que (i) si f, g ∈ B+, I(f + g) = I(f) + I(g); si f ∈ B+ et a ∈ R+, I(af) = aI(f), (ii) si fn ∈ B+ et si fn ↑ f , I(fn) ↑ I(f). Alors µ(A) = I(1A), A ∈ B, définit une mesure sur B et on a, pour toute f ∈ B+, I(f) = ∫ f dµ. Preuve: Soient An ∈ B des ensembles deux à deux disjoints d’union A, on a 1A =∑ n 1An = lim ↑ ∑n k=1 1Ak et µ(A) = I(1A) = I(lim ↑ n∑ k=1 1Ak) = lim ↑ I( n∑ k=1 1Ak) = lim ↑ n∑ k=1 I(1Ak) = ∑ n µ(An). 32 Mesure. Intégration Ce qui montre que µ est une mesure. On a alors, pour toute f ∈ eB+, I(f) = ∫ f dµ. On conclut facilement en utilisant la prop. 3.1.2.  3.4.2. Mesures à densité. Proposition 3.4.2. Soient (E,B, µ) un espace mesuré et h ∈ B+. La formule ν(A) =∫ A h dµ, A ∈ B définit une mesure sur B appelée mesure de densité h par rapport à µ et notée h.µ. On a, pour toute f ∈ B+,∫ f dν = ∫ fh dµ. (3.8) De plus f ∈ [B] est ν-intégrable ssi fh est µ-intégrable et l’on a dans ce cas (3.8). Preuve: On considère la fonctionnelle I(f) = ∫ fh dµ, f ∈ B+ et on applique la prop. 3.4.1. La dernière assertion est pure routine en écrivant f = f+ − f−.  Supposons que ν = h1.µ = h2.µ et que ν soit bornée, alors h1, h2 ∈ L1(µ) et on a (3.3.3 (vi)) h1 = h2 µ p.p. On voit facilement que ceci est encore vrai si ν est σ-finie. 3.4.3. Théorème de Radon-Nikodym. Soient µ, ν deux mesures sur (E,B). On cherche à savoir si ν a une densité par rapport à µ. Si ν = h.µ, on a évidemment, pour A ∈ B, µ(A) = 0 implique ν(A) = 0. Il est remarquable que cette propriété suffise à caractériser les mesures ayant une densité par rapport à µ. Définition 3.4.3. On dit que ν est absolument continue par rapport à µ si A ∈ B et µ(A) = 0 impliquent ν(A) = 0. On note alors ν  µ. On a (théorème de Radon-Nikodym): Théorème 3.4.4. Soient µ, ν deux mesures σ-finies sur (E,B) telles que ν  µ. Alors il existe h ∈ B+, unique à un µ p.p. près, telle que ν = h.µ. 3.5. Mesures produits 3.5.1. Soient (E1,B1) (E2,B2) deux espaces mesurables. On définit une tribu sur E1 × E2, appelée tribu produit de B1 et B2 et notée B1 ⊗ B2, par B1 ⊗ B2 = σ(A1 ×A2, A1 ∈ B1, A2 ∈ B2). Alors si f : E1 × E2 → R+ est une fonction B1 ⊗ B2-mesurable, on a que pour tout x1 ∈ E1, x2 7→ f(x1, x2) est B2-mesurable et que, pour tout x2 ∈ E2, x1 7→ f(x1, x2) est B1-mesurable. En particulier si A ∈ B1 ⊗ B2, Ax2 = {x1, (x1, x2) ∈ A} ∈ B1 et Ax1 = {x2, (x1, x2) ∈ A} ∈ B2. On en déduit facilement que, si f ∈ (B1 ⊗ B2)+ et si µi est une mesure sur (Ei,Bi), x1 7→ ∫ f(x1, x2) dµ2(x2) est B1-mesurable et x2 7→ ∫ f(x1, x2) dµ1(x1) est B2-mesurable. 35 Pour montrer qu’une partie de C0 est dense, le théorème de Stone-Weierstrass est un outil précieux. Rappelons qu’une sous-algèbre V de C0 est un sous-espace vectoriel tel que f, g ∈ V implique fg ∈ V . Alors: Théorème 3.5.5. Soit A une sous-algèbre de C0 vérifiant (i) pour tous x, y ∈ Rd, x 6= y, il existe f ∈ A telle que f(x) 6= f(y), (ii) pour tout x ∈ Rd, il existe f ∈ A telle que f(x) 6= 0, alors A = C0. Notant C∞k l’espace des fonctions indéfiniment dérivables à support compact sur Rd, on a: Corollaire 3.5.6. C∞k est dense dans C0. Preuve: Soit, pour t ∈ R, φ(t) = 1]0,+∞[(t) exp(− 1t2 ). On vérifie facilement que φ ∈ C∞(R). On pose, pour ρ > 0, a ∈ Rd et x ∈ Rd, fρ,a(x) = φ(ρ2 − |x− a|2). On a fρ,a ∈ C∞k , fρ,a(a) > 0, fρ,a(x) = 0 si |x− a| > ρ. On peut alors appliquer le th. 3.5.5 36 Mesure. Intégration Chapitre 4 Espace de probabilité général. Variables aléatoires 4.1. Espace de probabilité 4.1.1. On peut maintenant aborder le cas général. Définition 4.1.1. On appelle espace de probabilité un triplet (Ω,A,P) où (Ω,A) est un espace mesurable et P une probabilité sur A. Les éléments de A s’appellent des événements. Pour des événements A et B, on écrira indifféremment A ∩B ou AB. Premières propriétés. An, A,B étant des événements, (i) P(Ac) = 1− P(A); si A ⊂ B, P(A) ≤ P(B), (ii) P(A ∪B) = P(A) + P(B)− P(A ∩B), (iii) si An ↑ A, P(An) ↑ P(A), (iv) si An ↓ A, P(An) ↓ P(A), (v) P(∪An) ≤ ∑ P(An). Rappelons qu’un sous-ensemble B de Ω est dit négligeable si B ⊂ A ∈ A tel que P(A) = 0. Une propriété dépendant de ω est vraie presque sûrement, en abrégé p.s., si elle est vraie en dehors d’un ensemble négligeable. Notons qu’un ensemble négligeable n’est pas toujours un événement sauf si l’espace (Ω,A,P) est complet. On peut cependant toujours se ramener à ce cas. Voir à ce sujet 3.2.2. 4.1.2. Probabilité conditionnelle. Toutes les définitions et résultats de la section 1.3 restent valables en supposant que tous les ensembles considérés sont des événements i.e. sont des éléments de A. En particulier la définition de n événements indépendants (def. 1.3.5) est inchangée. On dit alors que des événements (An)n∈N sont indépendants si, pour tout r, A1, . . . , Ar sont indépendants. 40 Espace de probabilité général. Variables aléatoires (ii) X est vectorielle i.e. à valeurs Rd et µX = hX .λ, λ étant la mesure de Lebesgue sur Rd (3.5.3). On dit alors que X est une v.a. de densité hX . Dans ce cas, on a, pour toute f ∈ B+(Rd), E(f(X)) = ∫ fhX dλ. (4.5) 4.2.4. Moments. Dans la suite Lp désigne Lp(Ω,A,P). On ne distinguera pas deux v.a.r. égales p.s. ce qui fait qu’on désigne par X aussi bien la v.a. X que sa classe d’équivalence dans L0. En particulier on écrira indifféremment X ∈ Lp aussi bien que X ∈ Lp. Notons que, si 1 ≤ q ≤ p, Lp ⊂ Lq puisque |X|q ≤ 1 + |X|p. En fait, d’après (3.7), on a le résultat plus précis: {E(|X|q)}1/q ≤ {E(|X|p)}1/p, q ≤ p. Définition 4.2.5. Soit X une v.a.r. Pour p ∈ [1,+∞[, E|X|p s’appelle moment absolu d’ordre p de X; pour p ∈ N∗, si X ∈ Lp, E(Xp) s’appelle moment d’ordre p de X. Notons que, d’après (4.3), E(|X|p) = ∫ |x|p dµX (x), E(Xp) = ∫ xp dµX (x). Les deux moments les plus importants sont le moment d’ordre 1 qui n’est rien d’autre que l’espérance de X (on dit aussi la moyenne de X) et le moment d’ordre 2. On pose, pour X ∈ L2, Var(X) = E[(X − E(X))2] (4.6) qu’on appelle la variance de X. On a Var(X) = E(X2)− (E(X))2 et: Lemme 4.2.6. Si Y ∈ L2, E[(Y − a)2] est minimum pour a = E(Y ) et ce minimum vaut Var(Y ). Preuve: En effet, si m = E(Y ), E[(Y − a)2] = E[(Y −m)2] + (m− a)2.  On note aussi σ2 X pour Var(X), la racine carrée positive de Var(X) s’appelle l’écart type et se note σX . Une v.a. X ∈ L1 est dite centrée si E(X) = 0. Une v.a. X ∈ L2 est dite centrée réduite si E(X) = 0 et E(X2) = Var(X) = 1. Noter que, si X ∈ L2 et σX > 0, σ −1 X (X − E(X)) est centrée réduite. Proposition 4.2.7. (i) Soit X ∈ Lp, p ≥ 1. On a, pour tout λ > 0, P(|X| ≥ λ) ≤ 1 λp E|X|p. (ii) Soit X ∈ L2. On a, pour tout λ > 0, P(|X − E(X)| ≥ λ) ≤ 1 λ2 Var(X). Preuve: (i) On remarque que λp1{|X|≥λ} ≤ |X|p et on prend l’espérance. (ii) On applique (i) à |X − E(X)|.  La première de ces inégalités s’appellent l’inégalité de Markov, la seconde l’inégalité de Bienaymé-Tchebichev. Montrons maintenant l’inégalité de Jensen. 41 Proposition 4.2.8. Soient X une v.a.r. et f une application convexe de R dans R. On suppose X et f(X) intégrables. Alors f(E(X)) ≤ E(f(X)). Preuve: Soit m = E(X). La fonction f étant convexe, il existe une droite passant par (m, f(m)) et située sous le graphe de f i.e. une fonction affine α(x) = a(x−m)+ f(m) ≤ f(x) pour tout x ∈ R. On a donc a(X − m) + f(m) ≤ f(X) et, prenant l’espérance, f(m) ≤ E(f(X)).  Corollaire 4.2.9. Soient µ une probabilité sur R, f une application convexe de R dans R et g ∈ [B(R)]. On suppose g et f ◦ g µ-intégrables. Alors f( ∫ g(x) dµ(x)) ≤ ∫ f(g(x)) dµ(x). Preuve: On choisit Ω = R, A = B(R), P = µ, X = g et on applique la prop. 4.2.8.  4.3. Probabilités sur R 4.3.1. On a vu en 2.2 des exemples de lois discrètes sur R. On considère maintenant quelques lois à densités. Une application borélienne q de Rd dans R est une densité de probabilité si: q(x) ≥ 0, ∫ Rd q(x) dx = 1. (4.7) On dit alors qu’une v.a. à valeurs Rd X a pour densité q(x) si la loi de X est de densité q par rapport à la mesure de Lebesgue sur Rd ce qu’on écrit µX = q.λ. Dans cette section, on suppose d = 1. a. Loi uniforme sur [a, b] notée U(a, b), a, b ∈ R. C’est la loi sur R de densité q(x) = 1 b− a 1[a,b](x). (4.8) Si X ∼ U(a, b), E(X) = a+b2 , Var(X) = (b−a)2 12 . b. Loi de Cauchy de paramètre a > 0. C’est la loi de densité qa(x) = 1 π(1 + (x− a)2) . (4.9) Noter que, si X suit une loi de Cauchy, E(|X|) = +∞. c. Loi de Laplace. C’est la loi de densité q(x) = 1 2 e−|x|. (4.10) Noter que, si X suit une loi de Laplace, E(X) = 0, E(X2) = 2. 42 Espace de probabilité général. Variables aléatoires d. Loi gamma de paramètres a, c, a > 0, c > 0, notée G(a, c). Rappelons que la fonction Γ(a) = ∫ +∞ 0 e−xxa−1 dx (4.11) est définie pour tout a > 0 et que l’on a Γ(1) = 1, Γ(a + 1) = aΓ(a) (intégrer par parties) d’où Γ(n) = (n− 1)!. Donc qa,c(x) = ca Γ(a) e−cxxa−11R+(x) (4.12) est une densité de probabilité sur R. La loi de densité qa,c s’appelle la loi G(a, c). On a, si X ∼ G(a, c), E(X) = a/c, Var(X) = a/c2. En particulier, pour a = 1, on obtient la loi G(1, c) de densité ce−cx qu’on appelle loi exponentielle de paramètre c. e. Loi normale ou de Gauss N1(m,σ2). On appelle loi N1(m,σ2) la loi sur R de densité fm,σ2(x) = 1√ 2πσ2 e− (x−m)2 2σ2 . (4.13) Si X ∼ N1(m,σ2), E(X) = m, Var(X) = σ2. Noter que si X ∼ N1(0, 1), m+ σX ∼ N1(m,σ2). 4.3.2. Fonction de répartition. On a vu en 3.2.3 que, si µ est une probabilité sur R, la fonction F (t) = µ(] − ∞, t]) est croissante de 0 à 1 et continue à droite et que, réciproquement, si une fonction F a ces propriétés, il existe une probabilité µ sur R, unique, telle que F (t) = µ(]−∞, t]). La fonction F s’appelle la fonction de répartition de µ. Définition 4.3.1. Soit X une v.a. réelle de loi µX . On appelle fonction de répartition de X la fonction FX (t) = P(X ≤ t) = µX (]−∞, t]). Il résulte du rappel que FX crôıt de 0 à 1 et est continue à droite. Elle a donc une limite à gauche en tout point notée FX (x−). De plus, on a P(a < X ≤ b) = P(X ≤ b)− P(X ≤ a) = FX (b)− FX (a). En particulier P(a− ε < X ≤ a) = FX (a)− FX (a− ε) d’où, lorsque ε ↓ 0, µX ({a}) = P(X = a) = FX (a)− FX (a−). Etant donnée une fonction de répartition F , on pose, pour u ∈ [0, 1], F−1(u) = inf(t, F (t) ≥ u). (4.14) Proposition 4.3.2. Soit µ une probabilité sur R de fonction de répartition F et U une v.a.r. de loi uniforme sur [0, 1]. Alors F−1(U) est une v.a. de loi µ. 45 Propriétés. (i) Cov(X,X)=Var(X). Pour tous a, b ∈ R, Cov(X + a, Y + b) = Cov(X,Y ). (ii) Si les v.a. X et Y sont indépendantes, Cov(X,Y ) = 0. (iii) (X,Y ) 7→ Cov(X,Y ) est une forme bilinéaire symétrique. En particulier, vu (i), Var( n∑ k=1 Xk) = n∑ k=1 Var(Xk) + 2 ∑ 1≤j<k≤n Cov(Xj , Xk). Remarque. Cov(X,Y ) = 0 n’implique pas l’indépendance de X et Y . Par exemple si la loi du couple (X,Y ) est donnée par: P((X,Y ) = (1, 0)) = P((X,Y ) = (−1, 0)) = P((X,Y ) = (0, 1)) = P((X,Y ) = (0,−1)) = 1 4 , on a E(X) = E(Y ) = E(XY ) = Cov(X,Y ) = 0 et P(X = 1, Y = 0) = 14 6= P(X = 1)P(Y = 0) = 18 . 4.4.4. Coefficient de corrélation. Soient X et Y deux v.a. réelles de carré intégrable non p.s. constantes (donc Var(X) > 0, Var(Y ) > 0). On appelle coefficient de corrélation de X et Y et on note ρ(X,Y ) la quantité ρ(X,Y ) = Cov(X,Y )√ Var(X)Var(Y ) . (4.19) Noter que (inégalité de Schwarz) |ρ(X,Y )| ≤ 1, que ρ(X,Y ) = ρ(Y,X) et que ρ(X,Y ) = 0 si X et Y sont indépendantes. De plus Proposition 4.4.6. Soit X et Y deux v.a.r. de carré intégrable non p.s. constantes. Alors ε(a, b) = E(Y − aX − b)2 est minimum pour â = Cov(X,Y ) Var(X) , b̂ = E(Y )− âE(X) et ce minimum vaut Var(Y )(1− ρ2(X,Y )). Preuve: Posant X̃ = X − E(X), Ỹ = Y − E(Y ), b̃ = b− E(Y ) + aE(X), on a ε(a, b) = E[(Ỹ − aX̃ − b̃)2] = E(Ỹ 2) + a2 E(X̃2) + b̃2 − 2aE(X̃Ỹ ) = Var(X)(a− Cov(X,Y ) Var(X) )2 + b̃2 + Var(Y )− Cov 2(X,Y ) Var(X) . Donc ε(a, b) est minimum pour a = Cov(X,Y )Var(X) = â et b̃ = 0 i.e. b = b̂ = E(Y )− âE(X) et ce minimum vaut Var(Y )− Cov 2 (X,Y ) Var(X) = Var(Y )(1− ρ 2(X,Y )).  Cette proposition implique que |ρ(X,Y )| = 1 ssi Y = aX + b p.s. 46 Espace de probabilité général. Variables aléatoires 4.5. Vecteurs aléatoires 4.5.1. Notations. (i) On note, pour x = (x1, . . . , xd) ∈ Rd, |x| = (x21 + . . .+ x2d)1/2. (ii) On note Lpd = {X = (X1, . . . , Xd), Xk v.a. réelles et E|X| p < +∞}. (iii) Si X ∈ L1d, on note E(X) = (E(X1), . . . ,E(Xd)). 4.5.2. On appelle vecteur aléatoire toute v.a. à valeurs Rd. On remarque d’abord que X = (X1, . . . , Xd) est un vecteur aléatoire ssi, pour k = 1, . . . , d, Xk est une v.a.r. Soit X = (X1, . . . , Xd) un vecteur aléatoire. Les lois µX1 , . . . , µXd s’appellent les lois marginales de X. Proposition 4.5.1. Soit X un vecteur aléatoire de densité q. Alors Xk a pour densité qk(u) = ∫ q(x1, . . . , xk−1, u, xk+1, . . . , xd) dx1 . . . dxk−1dxk+1 . . . dxd. Preuve: On suppose d = 2. Alors, pour φ ∈ B+(R), E(φ(X1)) = ∫ φ(x1)q(x1, x2) dx1dx2 = ∫ φ(x1){ ∫ q(x1, x2) dx2}dx1.  On sait (th. 4.4.2) que les composantes X1, . . . , Xd sont indépendantes ssi µX = µX1 ⊗ . . .⊗ µXd . On en déduit immédiatement: Proposition 4.5.2. Soit X = (X1, . . . , Xd) un vecteur aléatoire de densité q. Les composantes X1, . . . , Xd sont indépendantes ssi q(x1, . . . , xd) = q1(x1) . . . qd(xd) p.p. où qk est la densité de Xk. En fait pour montrer l’indépendance de X1, . . . , Xd, on utilise plutôt: Corollaire 4.5.3. Soit X = (X1, . . . , Xd) un vecteur aléatoire de densité q. Les composantes X1, . . . , Xd sont indépendantes ssi q(x1, . . . , xd) = g1(x1) . . . gd(xd) p.p. et alors Xk a pour densité qk(u) = gk(u)/ ∫ R gk(v) dv. Preuve: (d = 2) On suppose que q(x1, x2) = g1(x1)g2(x2). La densité q1 de X1 est donc q1(x1) = ∫ g1(x1)g2(x2) dx2 = a1g1(x1), a1 = ∫ g2(x2) dx2. De même q2(x2) = a2g2(x2), a2 = ∫ g1(x1) dx1. Mais 1 = ∫ q(x1, x2) dx1dx2 = ∫ g1(x1)g2(x2) dx1dx2 = ∫ g1(x1) dx1 ∫ g2(x2) dx2 = a1a2. 47 On conclut facilement.  4.5.3. Matrice de covariance (ou de dispersion). On note MT la matrice transposée de la matrice M . Alors on peut représenter x ∈ Rd par un vecteur colonne i.e. une matrice d × 1 et on écrira indifféremment x = (x1, . . . , xd) ou x = (x1 . . . xd)T. Pour x = (x1 . . . xd)T et y = (y1 . . . yd)T, on a xTy = x1y1 + . . .+ xdyd =< x, y > et xyT est la matrice de terme général xiyj . Pour X ∈ L2d, on définit: K(X) = E[(X − E(X))(X − E(X))T] = E(XXT)− E(X)[E(X)]T. (4.20) K(X) s’appelle la matrice de covariance ou la matrice de dispersion de X. On a K(X) =  Var(X1) Cov(X1, X2) . . . . . . . . . Cov(X1, Xd) Cov(X2, X1) Var(X2) . . . . . . . . . Cov(X2, Xd) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cov(Xd, X1) . . . . . . . . . . . . Var(Xd)  . Noter que, si les composantes X1, . . . , Xd sont indépendantes, K(X) est diagonale. Proposition 4.5.4. Soit X ∈ L2d. On a (i) K(αX) = α2K(X), α ∈ R; K(X + a) = K(X), a ∈ Rd; KT(X) = K(X). (ii) Pour tout λ ∈ Rd, λTK(X)λ ≥ 0. (iii) Soit M une matrice déterministe r × d, on a K(MX) = MK(X)MT. Preuve: (i) résulte de la définition (4.20). (ii) Vu (i), on peut supposer E(X) = 0. Alors λTK(X)λ = λTE(XXT)λ = E(λTXXTλ) = E|λTX|2 ≥ 0. (iii) Vu (i), on peut supposer E(X) = 0. Alors K(MX) = E(MX(MX)T) = E(MXXTMT) = ME(XXT)MT = MK(X)MT.  Les points (i) et (ii) montrent que K(X) est symétrique semi-définie positive. Théorème 4.5.5. Soient X,Y ∈ L2d des vecteurs aléatoires indépendants, on a K(X+Y ) = K(X)+K(Y ). En particulier, si d = 1, Var(X+Y ) = Var(X)+Var(Y ) si les v.a.r. X et Y sont indépendantes. Preuve: On peut supposer E(X) = E(Y ) = 0. Alors K(X + Y ) = E((X + Y )(X + Y )T) = E(XXT) + E(Y Y T) puisque, vu l’indépendance, E(XY T) = E(X)E(Y T) = 0 et de même E(Y XT) = 0.  4.5.4. La matrice de dispersion donne des renseignements sur le support de la loi de X. 50 Espace de probabilité général. Variables aléatoires Le cor.4.5.3 montre que S et T sont indépendantes, que S a pour densité hS(s) = ca+b Γ(a+ b) e−cssa+b−11]0,+∞[(s) i.e. S ∼ G(a+ b, c) et que T a pour densité hT (t) = Γ(a+ b) Γ(a)Γ(b) ta−1(1− t)b−11]0,1[(t). Puisque hT est une densité de probabilité, on a montré au passage la formule∫ 1 0 ta−1(1− t)b−1 dt = Γ(a)Γ(b) Γ(a+ b) . (4.23) 4.6.4. L’exemple suivant sera très utile pour simuler des v.a.r. gaussiennes. Proposition 4.6.3. Soient (X,Y ) un couple de v.a.r. indépendantes de même loi U(0, 1). On pose U = √ −2 logX. cos(2πY ), V = √ −2 logX. sin(2πY ). Alors les v.a. U et V sont indépendantes de même loi N1(0, 1). Preuve: Soit ψ : (x, y) 7→ (u = √ −2 log x. cos(2πy), v = √ −2 log x. sin(2πy). ψ est un difféomorphisme de D =]0, 1[×]0, 1[ sur ∆ = R2 \ (R+ × {0}). On a J(ψ)(x, y) = −2πx , et, vu que u 2 + v2 = −2 log x, J(ψ−1)(u, v) = − 12π e −(u2+v2)/2. Le couple (X,Y ) a pour densité 1D(x, y). Donc (prop. 4.6.1) (U, V ) = ψ(X,Y ) a pour densité 1 2π e−(u 2+v2)/21∆(u, v) = 1√ 2π e−u 2/2 1√ 2π e−v 2/2 p.p.  4.6.5. Exemple 4. Soit (X,Y ) un couple de v.a.r. indépendantes de même loi N1(0, 1). On pose T = YX (noter que P(X = 0) = 0). Quelle est la loi de T ? Evidemment on ne peut pas appliquer directement la prop. 4.6.1. On choisit d’abord une v.a. U = f(X,Y ) telle qu’on puisse utiliser la prop. 4.6.1 pour obtenir la densit de (T,U) puis on obtient la loi de T comme marginale. Ici on peut choisir U = X. Soit ψ : (x, y) 7→ (t = y/x, u = x). Alors ψ est un difféomorphisme de D = R×R∗ sur ∆ = R×R∗. On a x = u, y = tu, et J(ψ−1)(u, v) = −u. Le couple (X,Y ) a pour densité 12π e −(x2+y2)/21D(x, y). Alors (prop. 4.6.1) (T,U) = ψ(X,Y ) a pour densité 1 2π e −u2(1+t2)/2|u|1∆(t, u) = 12π e −u2(1+t2)/2|u| p.p. Donc T a pour densité q(t) = ∫ +∞ −∞ 1 2π e−u 2(1+t2)/2|u| du = 1 π ∫ +∞ 0 e−u 2(1+t2)/2u du = 1 π(1 + t2) . La v.a. T suit donc une loi de Cauchy. En fait, il est souvent plus rapide de calculer directement E(f(T )). Ici, par exem- ple, passant en coordonnées polaires, on a: E(f(T )) = 1 2π ∫ ∫ f( y x )e− 1 2 (x2+y2)) dxdy = 1 2π ∫ 2π 0 ∫ ∞ 0 f(tan θ)e− ρ2 2 ρ dθdρ 51 = 1 π ∫ π 2 −π 2 f(tan θ) dθ = 1 π ∫ +∞ −∞ f(t) 1 1 + t2 dz. 4.6.6. Exemple 5. Soit (X,Y ) un couple de v.a.r. indépendantes de même loi N1(0, 1). On pose U = X,V = X2 + Y 2. Quelle est la loi du couple (U, V ) ? L’application (x, y) 7→ (x, x2 + y2) n’étant pas une bijection, on ne peut utiliser la prop. 4.6.1. Soit f ∈ C+k (R 2) arbitraire. On a E(f(U, V )) = E(f(X,X2 + Y 2)) = 1 2π ∫ R2 f(x, x2 + y2)e−(x 2+y2)/2 dxdy = 1 2π ∫ R×R+ . . .+ 1 2π ∫ R×R− . . . . Considérons l’application (x, y) 7→ (u = x, v = x2+y2). C’est d’une part une bijection de R× R+ sur Γ = {(u, v), v ≥ u2 } et alors x = u, y = √ v − u2 et d’autre part une bijection de R × R− sur Γ et dans ce cas x = u, y = − √ v − u2. Dans les deux cas, |J | = 1 2 √ v−u2 . On obtient E(f(U, V )) = 1 2π ∫ Γ f(u, v) e−v/2√ v − u2 dudv. Le couple a donc pour densité e −v/2 2π √ v−u2 1Γ(u, v). 4.6.7. Exemple 6. On ne rencontre pas toujours des v.a. ayant une densité par rapport à la mesure de Lebesgue. Soit X une v.a.r. de densité e−x1R+(x). On pose U = [X], V = X − [X] où [x] désigne la partie entière de x. Quelle est la loi de (U, V ) ? Quelles sont les lois de U et de V ? Les v.a. U et V sont-elles indépendantes ? Soit f ∈ C+k (R 2) arbitraire. On a E(f(U, V )) = ∫ +∞ 0 f([x], (x− [x])e−x dx = ∞∑ k=0 ∫ k+1 k f(k, x− k)e−x dx = ∞∑ k=0 ∫ 1 0 f(k, t)e−ke−t dt. Si on note ν la mesure sur N définie par ν({k}) = 1 et λ la mesure de Lebesgue sur [0, 1], ce calcul implique que la loi de (U, V ) est la probabilité e−ke−t.ν ⊗ λ. Prenant f(u, v) = φ(u), on a E(φ(U)) = ∞∑ k=0 φ(k)e−k(1− e−1) = ∞∑ k=0 φ(k)(e−1)k(1− e−1) et U suit une loi géométrique de paramètre e−1. Prenant f(u, v) = ψ(u), on a E(ψ(V )) = ∫ 1 0 ∞∑ k=0 e−kψ(t)e−t dt = ∫ 1 0 (1− e−1)−1ψ(t)e−t dt 52 Espace de probabilité général. Variables aléatoires et V a pour densité ee−1e −t1]0,1[(t). Enfin E(φ(U)ψ(V )) = E(φ(U)) E(ψ(V )) et U et V sont indépendantes (th. 4.4.4). 4.6.8. Loi des min et des max. Soient X1, X2, . . . , Xn des v.a. réelles indépendantes de fonction de répartition F1, F2, . . . , Fn. On pose U = min 1≤k≤n Xk, V = max 1≤k≤n Xk. D’une part P(V ≤ t) = P(X1 ≤ t, . . . ,Xn ≤ t) = n∏ k=1 P(Xk ≤ t) = n∏ k=1 Fk(t) et V a pour fonction de répartition FV (t) = ∏n k=1 Fk(t). D’autre part P(U > t) = P(X1 > t, . . . ,Xn > t) = n∏ k=1 P(Xk > t) = n∏ k=1 (1− Fk(t)) et U a pour fonction de répartition FU (t) = 1− ∏n k=1(1− Fk(t)). Si les Xk ont même loi, pour tout k, Fk(t) = F (t) et FV (t) = (F (t)) n, FU (t) = 1− (1− F (t)) n. Si, de plus, les Xk ont une densité, F est dérivable et on obtient les densités de U et V en dérivant FU (t) et FV (t). 4.7. Conditionnement 4.7.1. Soient A un événement tel que P(A) > 0 et Y une v.a à valeurs Rd. Posons, pour Γ ∈ B(Rd), µY (Γ|A) = P(Y ∈ Γ|A) = 1 P(A) P(A ∩ {Y ∈ Γ}). (4.24) Alors, A étant fixé, Γ 7→ µY (Γ|A) est une probabilité sur Rd qu’on appelle loi condi- tionnelle de Y sachant A. De même, pour φ ∈ L1(µY ),∫ φ(y) dµY (y|A) = E(φ(Y )|A) = 1 P(A) ∫ A φ(Y ) dP (4.25) s’appelle l’espérance conditionnelle de φ(Y ) sachant A. 4.7.2. Considérons une v.a. à valeurs E fini ou dénombrable telle que, pour tout a ∈ E, P(X = a) > 0 et Y une v.a à valeurs Rd. Prenant A = {X = a}, on obtient la loi conditionnelle de Y sachant que X = a définie par µY (Γ|X = a) = P(Y ∈ Γ|X = a) = 1 P(X = a) P(X = a, Y ∈ Γ) (4.26) 55 4.8.1. Nombres au hasard. En général, la fonction “random” d’un ordinateur fournit une suite de nombres entre 0 et 1 censés être le résultat de tirages indépendants selon la loi uniforme sur [0, 1]. Ces nombres sont obtenus par un algorithme qui fournit des nombres ayant les mêmes propriétés qu’une suite de tirages indépendants selon U(0, 1). A ce sujet, voir la sous-section 6.4.2. Le problème est donc de construire à partir d’une suite U1, U2, . . . , Un, . . . de v.a. indépendantes de loi U(0, 1) une suite X1, X2, . . . , Xn, . . . de v.a. indépendantes de loi µ. 4.8.2. Simulation de v.a. réelles. Soit µ une probabilité sur R de fonction de répartition F . On pose F−1(u) = inf(t, F (t) ≥ u). On sait (prop. 4.3.2) que, si U ∼ U(0, 1), F−1(U) a pour loi µ. Donc, si (Un, n ≥ 1) est une suite de v.a. indépendantes de loi U(0, 1), (F−1(Un), n ≥ 1) est une suite de v.a. indépendantes de loi µ. Exemple. Soit (pk, k = 0, . . . , n) une probabilité sur {0, 1, . . . , n}. Soit F (t) sa fonction de répartition. On pose a0 = 0, a1 = p0, a2 = p0 + p1, . . . , an = p0 + . . .+ pn−1, an+1 = 1. On a F (t) = 0 = a0 si t < 0, F (t) = a1 si 0 ≤ t < 1, F (t) = a2 si 2 ≤ t < 3, . . . et F−1(u) = k si ak ≤ u < ak+1, k = 0, 1, . . . , n. Si µ = f.λ, F (t) = ∫ t −∞ f(x) dx. Il n’est pas toujours (en fait pas souvent) possible de calculer F et F−1. C’est en particulier le cas pour la loi N1(0, 1). 4.8.3. Simulation de v.a. gaussiennes réelles. Soit (Un, n ≥ 1) une suite de v.a. indépendantes de loi U(0, 1), on pose, pour n ≥ 1, X2n−1 = √ −2 logU2n−1. cos(2πU2n), X2n = √ −2 logU2n−1. sin(2πU2n). Alors d’après la prop. 4.6.3, (Xn, n ≥ 1) est une suite de v.a. indépendantes de loi N1(0, 1). Pour simuler la loi N1(m,σ2), il suffit de remarquer que, si Y ∼ N1(0, 1), alors X = m+ σY ∼ N1(m,σ2). 4.8.4. La méthode de rejet. Soient (Zn, n ≥ 1) une suite de v.a. à valeurs (E, E) et B ∈ E . On considère ν = inf(n ≥ 1, Zn ∈ B) avec la convention inf ∅ = +∞. Alors ν(ω) est la premier n tel que Zn(ω) ∈ B et si, pour tout n, Zn(ω) /∈ B, ν(ω) = +∞. ν est donc une v.a. à valeurs N. Si P(ν < +∞) = 1, on peut définir une v.a. Zν par Zν(ω) = Zn(ω) sur {ω, ν(ω) = n}. La méthode de rejet repose sur: Proposition 4.8.1. Soient (Zn, n ≥ 1) une suite de v.a. indépendantes à valeurs (E, E) de même loi µ et B ∈ E avec µ(B) > 0. On pose ν1 = inf(n ≥ 1, Zn ∈ B), . . ., νr = inf(n > νr−1, Zn ∈ B), . . .. Alors, pour tout r ≥ 1, P(νr < +∞) = 1 et (Zνr , r ≥ 1) est une suite de v.a. indépendantes de loi ρ donnée par ρ(A) = µ(A ∩B) µ(B) = P(Z1 ∈ A |Z1 ∈ B) 56 Espace de probabilité général. Variables aléatoires i.e. ρ est donc la loi conditionnelle de Z1 sachant que Z1 ∈ B. Preuve: Notons d’abord que P(ν1 = k) = P(Z1 /∈ B, . . . , Zk−1 /∈ B,Zk ∈ B) = (1− µ(B))k−1µ(B) (4.28) d’où P(ν1 < +∞) = ∑ k≥1 P(ν1 = k) = 1. Supposons que P(νr−1 < +∞) = 1, alors P(νr < +∞) = ∑ k≥1 P(νr−1 = k, νr < +∞) = ∑ j,k≥1 P(νr−1 = k, νr = k + j) = ∑ j,k≥1 P(νr−1 = k, Zk+1 /∈ B, . . . , Zk+j−1 /∈ B,Zk+j ∈ B) = ∑ k≥1 P(νr−1 = k) ∑ j≥1 (1− µ(B))k−1µ(B) = ∑ k≥1 P(νr−1 = k) = P(νr−1 < +∞) = 1. De même P(Zν1 ∈ A) = ∑ k≥1 P(ν1 = k, Zk ∈ A ∩B) = ∑ k≥1 P(Z1 /∈ B, . . . , Zk−1 /∈ B,Zk ∈ A∩B) = ∑ k≥1 (1−µ(B))k−1µ(A∩B) = µ(A ∩B) µ(B) . Supposons que P(Zν1 ∈ A1, . . . , Zνr−1 ∈ Ar−1) = µ(A1∩B) µ(B) . . . µ(Ar−1∩B) µ(B) , alors P(Zν1 ∈ A1, . . . , Zνr−1 ∈ Ar−1, Zνr ∈ Ar) = ∑ j,k≥1 P(Zν1 ∈ A1, . . . , Zνr−1 ∈ Ar−1, νr−1 = k, Zk+1 /∈ B, . . . , Zk+j−1 /∈ B,Zk+j ∈ Ar∩B) = ∑ k≥1 P(Zν1 ∈ A1, . . . , Zνr−1 ∈ Ar−1, νr−1 = k) ∑ j≥1 (1− µ(B))j−1µ(Ar ∩B) = P(Zν1 ∈ A1, . . . , Zνr−1 ∈ Ar−1) µ(Ar ∩B) µ(B) = r∏ i=1 µ(Ai ∩B) µ(B) , ce qui montre que les v.a. (Zνk , k ≥ 1) sont indépendantes et de même loi.  En pratique, soit z1, . . . , zn, . . . une suite de tirages indépendants selon la loi µ. On considère z1. Si z1 ∈ B, on pose x1 = z1, k1 = 1. Sinon, on considère z2. Si z2 ∈ B, on pose x1 = z2, k1 = 2. Sinon, on considère z3. Si z3 ∈ B, on pose x1 = z3, k1 = 3. . . . On construit ainsi x1, k1. On considère alors zk1+1. Si zk1+1 ∈ B, on pose x2 = zk1+1, k2 = k1 + 1. Sinon, on considère zk1+2. Si zk1+2 ∈ B, on pose x2 = zk1+2, k2 = k1 + 2. Sinon, on considère zk1+3. Si zk1+3 ∈ B, on pose x2 = zk1+3, k2 = k1 + 3. . . . On construit ainsi x2, k2. On continue.... et on obtient une suite x1, . . . , xn, . . . de tirages indépendants selon la loi ν(A) = µ(A∩B)µ(B) . Remarque 1. Vu (4.28), la v.a. ν1−1 suit une loi géométrique de paramètre 1−µ(B) et on a E(ν1) = 1µ(B) . Il est intuitif (et facile à vérifier) que les v.a. ν1, ν2−ν1, . . . , νr−νr−1 57 sont indépendantes et de même loi. On a donc E(ν1) = E(ν2 − ν1) = . . . = E(νr − νr−1) = 1µ(B) . Donc, si µ(B) est très petit, cette simulation risque de prendre du temps. 4.8.5. Simulation de la loi uniforme sur un domaine de mesure de Lebesgue finie. Soit D un domaine de Rd tel que λ(D) < +∞, λ étant la mesure de Lebesgue sur Rd. On appelle loi uniforme sur D, la probabilité de densité (λ(D))−11D. La prop. 4.8.1 donne immédiatement: Corollaire 4.8.2. Soient D ⊂ ∆ deux domaines de Rd avec λ(∆) < +∞ et (Zn, n ≥ 1) une suite de v.a. indépendantes de loi la loi uniforme sur ∆. On pose ν1 = inf(n ≥ 1, Zn ∈ D), . . ., νr = inf(n > νr−1, Zn ∈ D), . . .. Alors, pour tout r ≥ 1, P(νr < +∞) = 1 et (Zνr , r ≥ 1) est une suite de v.a. indépendantes de loi la loi uniforme sur D. Preuve: Il suffit de remarquer que, si µ est la loi uniforme sur ∆, la loi de Xν1 est ρ(A) = µ(A ∩D) µ(D) = λ(A ∩D) λ(∆) : λ(D) λ(∆) = λ(A ∩D) λ(D) i.e. la loi uniforme sur D.  En pratique, si D est borné, on choisit ∆ = [a1, b1] × . . . × [ad, bd] et il est très facile de simuler la loi uniforme sur ∆ et donc sur D. 4.8.5. SoitD = {(x, y), 0 ≤ y < f(x)} ⊂ R2 où f est une densité de probabilité sur R. Si (X,Y ) est un couple de v.a. de loi uniforme sur D, alors X est une v.a.r. de densité f . Réciproquement, si X est une v.a.r. de densité f et si U est une v.a.r. de loi U(0, 1), indépendante deX, alors (X,Uf(X)) suit la loi uniforme surD et, plus généralement, (X, aUf(X)) (a > 0) suit la loi uniforme sur ∆ = {(x, y), 0 ≤ y < af(x)}. Ceci fournit une méthode, sachant simuler une loi de densité g, pour simuler une loi de densité f si f ≤ a g (nécessairement a ≥ 1)). Plus précisemment: Proposition 4.8.3. Soient ρ une mesure σ-finie sur (F,F) et f, g ∈ F+ telles que ∫ f dρ = ∫ g dρ = 1 et f ≤ ag ρ p.p. Soient (Yn, n ≥ 1) une suite de v.a. indépendantes à valeurs (F,F) de loi g.ρ et (Un, n ≥ 1) une suite de v.a.r. indépendantes de loi U(0, 1) et indépendantes de (Yn, n ≥ 1). On pose ν1 = inf(n ≥ 1, aUng(Yn) < f(Yn) ), . . . , νr = inf(n > νr−1, aUng(Yn) < f(Yn) ), . . . Alors les v.a. (Yνr , r ≥ 1) sont indépendantes de loi f.ρ. Preuve: Soient Zn = (Yn, Un) et Γ = {(y, u), a.u.g(y) < f(y) }. On a alors ν1 = inf(n ≥ 1, Zn ∈ Γ),. . .. Lemme 4.8.4. Pour toute φ ∈ F+, E(φ(Y1)1{Z1∈Γ}) = E(φ(Y1)1{aU1g(Y1)<f(Y1)}) = 1 a ∫ φ(y)f(y) dρ(y). 60 Espace de probabilité général. Variables aléatoires Preuve: Soit Sn l’ensemble des permutations de {1, 2, . . . , n}. On a, pour h ≥ 0, E(h(X(1), . . . , X(n))) = ∑ σ∈S E(h(X(1), . . . , X(n))1{Xσ(1)<...<Xσ(n)}) = ∑ σ∈S ∫ {xσ(1)<...<xσ(n)} h(xσ(1), . . . , xσ(n))p(x1) . . . p(xn) dx1 . . . dxn = ∑ σ∈S ∫ {x1<...<xn} h(x1, . . . , xn)p(x1) . . . p(xn) dx1 . . . dxn = n! ∫ {x1<...<xn} h(x1, . . . , xn)p(x1) . . . p(xn) dx1 . . . dxn.  A partir de (4.34), il est facile de retrouver (4.33) i.e. la densité qk de X(k) con- sidérée comme une marginale de (X(1), . . . , X(n)). On a donc, posant At = {x1 < . . . < xk−1 < t < xk+1 < . . . < xn }, qk(t) = n! ∫ At p(x1) . . . p(xk−1)p(t)p(xk+1) . . . p(xn) dx1 . . . dxk−1dxk+1 . . . dxn = n! (n− k)! ∫ {x1<...<xk−1<t } p(x1) . . . p(xk−1) dx1 . . . dxk−1(1− F (t))n−kp(t) = n! (k − 1)!(n− k)! (F (t))k−1(1− F (t))n−kp(t). Exemple. Soit X1, . . . , Xn un n échantillon de la loi uniforme sur [0, 1]. Alors la loi de (X(1), . . . , X(n)) a pour densité n! 1{x1<...<xn} et celle de X(k), 1 ≤ k ≤ n, a pour densité n!(k−1)!(n−k)! t k−1(1 − t)n−k1]0,1[(t). En particulier (calcul facile en utilisant la formule (4.23)) E(X(k)) = kn+1 . Chapitre 5 Fonctions caractéristiques. Vecteurs gaussiens 5.1. Transformée de Fourier 5.1.1. Rappelons que le produit de convolution de deux mesures bornées sur Rd a été défini en 3.5.4. Soient X et Y deux v.a. indépendantes à valeurs Rd. On pose S = X + Y . Cherchons la loi de S. On a, pour toute f ∈ B+(Rd), E(f(S)) = E(f(X + Y )) = ∫ f(x+ y) dµX (x)dµY (y) = ∫ f dµX ∗ µY . On peut énoncer: Proposition 5.1.1. Soient X et Y deux v.a. indépendantes à valeurs Rd. On a µX+Y = µX ∗ µY . On sait que pour calculer des produits de convolution, la transformation de Fourier est un outil indispensable. 5.1.2. Transformée de Fourier. On noteMb l’ensemble des mesures bornées sur B(Rd). Pour µ ∈Mb, on pose µ̂(t) = ∫ ei<t,x> dµ(x), t ∈ Rd. (5.1) De même, pour h ∈ L1(Rd, λ), λ mesure de Lebesgue sur Rd, on pose ĥ(t) = ∫ ei<t,x>h(x) dx, t ∈ Rd. (5.2) La fonction µ̂ (resp ĥ) s’appelle la transformée de Fourier de µ (resp. de h). Remar- quer que, si µ = h.λ, µ̂ = ĥ. Alors, 62 Fonctions caractéristiques. Vecteurs gaussiens Théorème 5.1.2. (i) Soient µ, ν ∈Mb. Si µ̂ = ν̂, µ = ν. (ii) Soit µ ∈Mb telle que µ̂ ∈ L1(λ). On a alors µ = h.λ avec h(x) = (2π)−d ∫ e−i<t,x>µ̂(t) dt. (5.3) Preuve: On pose: gσ(x) = (2πσ2)−d/2 exp(− |x|2 2σ2 ), |x|2 = x21 + . . .+ x2d. (5.4) Lemme 5.1.3. La famille (gσ(x− a), σ > 0, a ∈ Rd) est totale dans C0(Rd). Preuve: Soit V l’espace vectoriel engendré par les fonctions gσ(x−a), σ > 0, a ∈ Rd. Vu que gσ(x− a) gρ(x− b) = C gτ (x− c) avec τ2 = ρ2σ2 ρ2 + σ2 , c = ρ2a+ σ2b ρ2 + σ2 , V est une algèbre. On vérifie immédiatement (i) et (ii) du th. 3.5.5 d’où V = C0.  Lemme 5.1.4. On a ĝσ(t) = exp(−σ 2 2 |t| 2) = (2πσ2)d/2gσ(σ2t). Preuve: Soit φ(t) = (2π)−1/2 ∫ eitue−u 2/2 du, t ∈ R. Vu que | ddte itu| ≤ |u| ∈ L1(e−u2/2.λ), on peut appliquer la prop. 3.3.7 et on a φ′(t) = i(2π)−1/2 ∫ eitu d(−e−u2/2) = −(2π)−1/2t ∫ eitue−u 2/2 du = −tφ(t) d’où φ(t) = Ce−t 2/2 = e−t 2/2 puisque φ(0) = 1. Alors (th. 3.5.2) (2πσ2)−d/2 ∫ ei<t,x>e−|x| 2/2σ2 dx = d∏ k=1 (2πσ2)−1/2 ∫ eitkxke−x 2 k/2σ 2 dxk = e−σ 2|t|2/2.  Lemme 5.1.5. Soit µ ∈Mb. On a∫ gσ(x− a) dµ(x) = (2π)−d/2 ∫ g1(σt)e−i<a,t>µ̂(t) dt. (5.5) Si, de plus, µ̂ ∈ L1(λ),∫ gσ(x− a) dµ(x) = (2π)−d ∫ gσ(x− a) ∫ e−i<x,t>µ̂(t) dt dx. (5.6) Preuve: Notons d’abord que, vu le lem. 5.1.4, gσ(x) = (2πσ2)−d/2ĝσ( x σ2 ) = (2π)−d/2σd ∫ gσ(σ2t)ei<x,t> dt. (5.7) 65 Preuve: On se limite à d = 1, m = 1. On pose φ = φX et µ = µX . On a φ”(0) = limh→0 1h2 (φ(h) + φ(−h)− 2φ(0)) et φ(h) + φ(−h)− 2φ(0) = ∫ (eihx + e−ihx − 2) dµ(x) = −4 ∫ sin2 hx 2 dµ(x). Appliquant le lemme de Fatou (prop. 3.3.4), on a −φ”(0) = lim h 4 ∫ sin2 hx2 h2 dµ(x) ≥ 4 ∫ lim inf h sin2 hx2 h2x2 x2 dµ(x) = ∫ x2 dµ(x).  5.2.4. Fonctions caractéristiques usuelles (voir 2.2.5 et 4.3.1 pour les définitions). a. Loi binomiale B(n, p). Si X ∼ B(n, p), on a φX (t) = E(e itX) = n∑ k=0 Ckn p k(1− p)n−keitk = (peit + 1− p)n. Cette formule et le th. 5.2.3 montrent que, si X ∼ B(n, p) et Y ∼ B(m, p), X,Y indépendantes, alors X +Y ∼ B(n+m, p). En particulier si X1, . . . , Xn sont des v.a. indépendantes avec P(Xk = 1) = p, P(Xk = 0) = 1−p, Sn = X1+ . . .+Xn ∼ B(n, p). b. Loi de Poisson P(λ). Si X ∼ P(λ), φX (t) = E(e itX) = ∞∑ k=0 e−λ λk k! eitk = exp(λ(eit − 1)). Donc si X ∼ P(λ) et Y ∼ P(µ), X,Y indépendantes, X + Y ∼ P(λ+ µ). c. Loi uniforme Si X ∼ U(a, b), a < b, φX (t) = 1 b− a ∫ b −a eitx dx = eitb − eita it(b− a) . d. Loi gamma G(a, c). Si X ∼ G(a, c), on a φX (t) = ca Γ(a) ∫ +∞ 0 eitxe−cxxa−1 dx. Utilisant la prop. 3.3.7 et intégrant par partie, on obtient φ′ X (t) = ica Γ(a) ∫ +∞ 0 eitxe−cxxa dx = −iaca Γ(a)(it− c) ∫ +∞ 0 eitxe−cxxa−1 dx = ia c− it φX (t) d’où φX (t) = (1 − itc ) −a puisque φX (0) = 1. Noter que pour a /∈ N, on prend la détermination continue valant 1 en 0. Si X ∼ G(a, c) et Y ∼ G(b, c), X,Y indépendantes, alors X+Y ∼ G(a+ b, c). En particulier si X1, . . . , Xn sont des v.a. indépendantes de même densité λe−λx1R+ et donc de loiG(1, λ), Sn = X1+. . .+Xn ∼ G(n, λ) et a pour densité λ n (n−1)!e −λxxn−11R+ . 66 Fonctions caractéristiques. Vecteurs gaussiens e. Loi normale N1(m,σ2). Si Y ∼ N1(0, 1), φY (t) = e−t 2/2 (lem. 5.1.4). Soit X = m+ σY , alors X ∼ N1(m,σ2) et E(eitX) = emtE(etσY ), d’où la formule: φX (t) = exp(itm− 1 2 σ2t2), X ∼ N1(m,σ2). (5.8) On en déduit immédiatement Proposition 5.2.7. Si X ∼ N1(m,σ2) et Y ∼ N1(l, ρ2), X,Y indépendantes, alors X + Y ∼ N1(m+ l, σ2 + ρ2). f. Loi de Laplace. C’est la loi d’une v.a. X de densité q(x) = 12e −|x|. On a φX (t) = 1 2 ∫ +∞ −∞ eitxe−|x| dx = 1 2 ∫ +∞ 0 ex(it−1) dx+ 1 2 ∫ 0 −∞ ex(it+1) dx = 1 1 + t2 . g. Loi de Cauchy de paramètre 0. C’est la loi d’une v.a. X de densité q(x) = 1 π(1+x2) . Vu que 1 1+t2 ∈ L1, on a d’après f. et le th. 5.2.2 (ii), 1 2π ∫ +∞ −∞ e−itx 1 1 + t2 dt = 1 2 e−|x|. On en déduit φX (t) = 1 π ∫ +∞ −∞ eitx 1 1 + x2 dt = e−|t|. 5.3. Vecteurs gaussiens 5.3.1. On dit qu’une probabilité µ sur R est gaussienne si elle a pour densité (4.13) ou si µ = δm. Il est normal d’adjoindre les mesures de Dirac aux lois gaussiennes car la loi N1(m,σ2) converge en un certain sens vers δm lorsque σ → 0. Une v.a. réelle est dite gaussienne si sa loi est gaussienne. Définition 5.3.1. Un vecteur aléatoire X = (X1, . . . , Xd) est dit gaussien si, pour tout a ∈ Rd, aTX = a1X1 + . . .+ adXd est une v.a. gaussienne. En particulier chaque composante Xk est une v.a.r. gaussienne mais cela ne suffit pas à assurer que le vecteur X est gaussien. On appelle loi gaussienne sur Rd toute loi d’un vecteur gaussien. Exemples. (i) X = 0 ∈ Rd est un vecteur gaussien. (ii) Soit X = (X1, . . . , Xd) avec X1, . . . , Xd indépendants de même loi N1(0, 1). Alors (prop. 5.2.7) a1X1 + . . .+ adXd ∼ N1(0, a21 + . . .+ a2d) et X est un vecteur gaussien. Cette notion est invariante par transformation linéaire, plus précisément: Lemme 5.3.2. Soit X un vecteur gaussien à valeurs Rd de moyenne m et de matrice de covariance D. Pour tous b ∈ Rr et M matrice r × d, Y = b+MX est un vecteur gaussien à valeurs Rr, de moyenne b+Mm et de matrice de covariance MDMT 67 Preuve: En effet aTY = aTb + (aTM)X est une v.a.r. gaussienne. On a E(Y ) = b+ME(X) = b+Mm et (prop. 4.5.4) K(Y ) = K(MX) = MK(X)MT = MDMT.  Théorème 5.3.3. Soit X un vecteur aléatoire de moyenne m et de matrice de co- variance K. Le vecteur X est gaussien ssi sa fonction caractéristique est donnée par φX (t) = exp(it Tm− 1 2 tTKt). (5.9) Preuve: (i) Supposons X gaussien. Alors (lem. 5.3.2) tTX ∼ N1(tTm, tTKt) et φX(t) = E(eit TX) = φ tTX (1) = exp(itTm− 12 t TKt) d’où (5.9). (ii) Supposons (5.9). Alors φ aTX (u) = E(eiuaTX) = exp(iuaTm− 12u 2aTKa) donc aTX est une v.a.r. gaussienne et X un vecteur gaussien.  Toute loi gaussienne sur Rd est donc déterminée par sa moyenne m et sa matrice de covariance K. On note Nd(m,K) une telle loi. On a vu (exemple (ii)) que Nd(0, Id) existe mais on n’a pas établi l’existence dans le cas général. Pour cela, on utilise: Lemme 5.3.4. Soit K une matrice d× d symétrique semi-définie positive. Il existe une matrice d× d symétrique semi-définie positive A telle que K = A2. Preuve: Soient λ1, . . . , λd les valeurs propres de K (elles sont ≥ 0). Il existe une matrice orthogonale C (i.e. CTC = I) telle que CTKC = D = diag(λ1, . . . , λd) où diag(λ1, . . . , λd) désigne la matrice diagonale ayant λ1, . . . , λd sur la diagonale. On a alors CDCT = K. Soit ∆ = diag( √ λ1, . . . , √ λd). On pose A = C∆CT. On a, A2 = C∆CTC∆CT = C∆2CT = CDCT = K.  Appliquant le lem. 5.3.2, on a que, si X ∼ Nd(0, Id), Y = m+ AX ∼ Nd(m,K). On a montré: Théorème 5.3.5. Etant donnés m ∈ Rd et une matrice d × d symétrique semi- définie positive K, il existe une et une seule loi gaussienne sur Rd de moyenne m et de matrice de covariance K. 5.3.2. Vecteurs gaussiens et indépendance. Théorème 5.3.6. Soient X = (X1, . . . , Xd) un vecteur gaussien. (i) Les v.a.r. X1, . . . , Xd sont indépendantes ssi la matrice de covariance K(X) est diagonale. (ii) On pose Y1 = (X1, . . . , Xd1), Y2 = (Xd1+1, . . . , Xd2), . . . Yr = (Xdr−1+1, . . . , Xd). Les vecteurs (Y1, . . . , Yr) sont indépendants ssi Ki j(X) = Cov(Xi, Xj) = 0 pour tous i, j n’appartenant pas au même intervalle [1, d1], [d1 + 1, d2], . . . , [dr−1 + 1, d]. 70 Convergence des suites de variables aléatoires (ii) Supposons que Xn converge p.s. vers X. Alors, pour tout ε > 0, 1{|Xn−X|>ε} →n 0 p.s. et est manifestement borné par 1, donc (th. de Lebesgue) P(|Xn − X| > ε) = E(1{|Xn−X|>ε}) →n 0.  Notons que si Xn converge en probabilité vers X et vers Y , on a P(|X − Y | > ε) ≤ P(|X −Xn| > ε2) + P(|Xn− Y | > ε 2) →n 0 et donc P(|X − Y | > 0) = 0 et X = Y p.s. Ceci implique, vu la prop. 6.1.2, que les limites de Xn en les différents sens définis ci-dessus sont p.s. égales. 6.1.2. Exemples. Soit Xn une suite de v.a.r. indépendantes telles que P(Xn = an) = pn, P(Xn = 0) = 1− pn. On suppose 0 < pn < 1, pn →n 0 et an ≥ 1. a. On a, pour ε ∈]0, 1[, P(|Xn| > ε) = P(Xn > ε) = pn et Xn →n 0 en probabilité. b. On a ∑ P(Xn > 0) = ∑ pn donc, si ∑ pn < +∞, on a (prop. 4.1.2) que {Xn > 0} n’a p.s. lieu que pour un nombre fini de n donc Xn →n 0 p.s. Réciproquement si∑ pn = +∞, on a (prop. 4.1.2) que {Xn = an} a p.s. lieu pour une infinité de n donc Xn ne converge pas p.s. vers 0. Donc Xn →n 0 p.s. ssi ∑ pn < +∞. c. E|Xn| = E(Xn) = anpn. Donc Xn →n 0 dans L1 ssi anpn →n 0. d. E(Xn)2 = a2npn. Donc Xn →n 0 dans L2 ssi a2npn →n 0. Si on choisit pn = 1n , an = 1, Xn converge vers 0 dans L 1 mais pas p.s. Si on choisit pn = 1n2 , an = n 2, Xn converge vers 0 p.s. mais pas dans L1. Si on choisit pn = 1n2 , an = n, Xn converge vers 0 dans L1 mais pas dans L2. 6.1.3. Critères de convergence. Proposition 6.1.3. Soit Xn une suite de v.a.r. Si ∑ P(|Xn+1 − Xn| > εn) < +∞ pour une suite εn > 0 vérifiant ∑ εn < +∞, la suite Xn converge p.s. Preuve: D’après le lemme de Borel-Cantelli (prop. 4.1.2), pour tout ω /∈ N , N négligeable, il existe n0(ω) tel que, pour tout n ≥ n0(ω), |Xn+1(ω) − Xn(ω)| ≤ εn. On a donc, pour n > m ≥ n0(ω), |Xn(ω)−Xm(ω)| ≤ n−1∑ k=m |Xk+1(ω)−Xk(ω)| ≤ n−1∑ k=m εk. Vu la convergence de ∑ εn, ceci implique que Xn(ω) est une suite de Cauchy et donc Xn(ω) converge.  Corollaire 6.1.4. De toute suite Xn convergeant en probabilité, on peut extraire une sous-suite Xnk convergeant p.s. Preuve: Vu que, pour tout k, P(|Xn −X| > 2−(k+1)) →n 0, on peut construire une suite croissante nk telle que, pour tout n ≥ nk, P(|Xn−X| > 2−(k+1)) ≤ 2−(k+1). On a alors, P(|Xnk+1−Xnk | > 2 −k) ≤ P(|Xnk+1−X| > 2 −(k+1))+P(|Xnk−X| > 2 −(k+1)) ≤ 2−k. 71 D’où (prop. 6.1.3) Xnk converge p.s.  Il est très utile d’avoir des critères de type Cauchy. Proposition 6.1.5. Soit Xn une suite de v.a.r. (i) Xn converge en probabilité ssi, pour tout ρ > 0, supk P(|Xn+k −Xn| > ρ) →n 0, (ii) Xn converge dans Lp (1 ≤ p < +∞) ssi supk E(|Xn+k −Xn|p) →n 0, (iii) Xn converge p.s. ssi, pour tout ρ > 0, P(supk |Xn+k −Xn| > ρ) →n 0. Preuve: (i) Supposons que, pour tout ρ > 0, supk P(|Xn+k − Xn| > ρ) →n 0. On peut alors construire une suite croissante d’entiers nr telle que P(|Xnr+1 − Xnr | > 2−r) ≤ 2−r et donc (prop. 6.1.3) Xn converge p.s. et a fortiori en probabilité vers une v.a. X. Alors, étant donné ε > 0, P(|Xn −X| > ρ) ≤ P(|Xn −Xnr | > ρ/2) + P(|X −Xnr | > ρ/2) < ε pour tout n ≥ nr si on choisit r assez grand et Xn → X en probabilité. Vu que P(|Xn+k −Xn| > ρ) ≤ P(|Xn+k −X| > ρ/2) + P(|Xn −X| > ρ/2), la réciproque est immédiate. (ii) Ceci n’est rien d’autre que la complétude de Lp (voir 3.3.5). (iii) Supposons que, pour tout ρ > 0, P(supk |Xn+k − Xn| > ρ) →n 0. Soit Vn = supi,j≥n |Xi−Xj |, alors Vn ↓ V et Xn converge p.s. ssi V = 0 p.s. (critère de Cauchy). Mais P(Vn > ρ) ≤ P(supk≥1 |Xn+k − Xn| > ρ/2) →n 0 ce qui implique que V = 0 p.s. Réciproquement si Xn converge p.s., supk |Xn+k − Xn| →n 0 p.s. et aussi en probabilité.  6.2. Loi 0 -1 6.2.1. Soit X1, . . . , Xn, . . . une suite de v.a. à valeurs Rd. On pose: Fn(X) = σ(X1, . . . , Xn), F∞(X) = σ(X1, . . . , Xn, . . .) = σ(∪n≥1Fn(X)), Fn(X) = σ(Xn, Xn+1, . . . , Xn+k, . . .), F∞(X) = ∩n≥1Fn(X). Evidemment F∞(X) ⊂ F∞(X). La tribu F∞(X) s’appelle la tribu asymptotique ou tribu de queue de la suite Xn. Exemple. Soit X1, . . . , Xn, . . . une suite de v.a. réelles. Les événements { ∑ Xn converge}, { ∑ |Xn| < +∞}, {lim sup 1 n (X1 + . . .+Xn) < 1} sont dans F∞(X). En effet il suffit de vérifier que, pour tout p, ils sont dans Fp, ce qui est immédiat. 6.2.2. En fait, si les Xn sont indépendantes, un événement de F∞(X) est de proba- bilité 0 ou 1. C’est la loi 0 -1. 72 Convergence des suites de variables aléatoires Proposition 6.2.1. Soit X1, . . . , Xn, . . . une suite de v.a. indépendantes à valeurs Rd. Alors, pour tout A ∈ F∞(X), P(A) = 0 ou 1. De plus, si Y est une v.a.r. F∞(X)-mesurable, Y = constante p.s. Preuve: Soit A ∈ F∞(X) avec P(A) > 0. On pose Q(B) = P(A ∩B) P(A) , B ∈ F∞(X). Q est une probabilité sur F∞(X). Si B ∈ Fn(X), B et A sont indépendants puisque A ∈ Fn+1(X). On a donc P(B) = Q(B) pour tout B ∈ C = ∪n≥1Fn(X). Cette classe étant stable par intersection finie et engendrant F∞(X), on a (cor. 3.2.3) P(B) = Q(B) pour tout B ∈ F∞(X) et en particulier pour B = A. Donc P(A) = Q(A) = 1. Soit FY (t) = P(Y ≤ t). Par hypothèse, {Y ≤ t} ∈ F∞(X) et donc FY (t) = 0 ou 1 ce qui implique qu’il existe a ∈ R tel que FY (t) = 1[a,+∞[(t) et donc Y = a p.s.  Corollaire 6.2.2. Soit X1, . . . , Xn, . . . une suite de v.a. réelles indépendantes. Alors, (i) ∑ Xn converge p.s. ou diverge p.s., (ii) si bn est une suite de réels tendant vers +∞, 1bn (X1 + . . .+Xn) diverge p.s. ou converge vers une constante p.s. Preuve: On a vu que { ∑ Xn converge} ∈ F∞(X) d’où (i). De même A = { 1bn (X1 + . . . + Xn) converge} ∈ F∞(X) donc P(A) = 0 ou 1. Supposons que P(A) = 1. Soit Z = limn 1bn (X1 + . . . + Xn). Vu que bn →n +∞, on a aussi, pour tout p, Z = limn 1bn (Xp + . . .+Xn) et donc Z ∈ [F ∞(X)] d’où Z = constante p.s.  6.3. Somme de v.a. indépendantes Soit X1, . . . , Xn, . . . une suite de v.a. réelles de carré intégrable. On pose Sn = X1 + . . .+Xn et Yn = Xn − E(Xn). On a alors Sn = n∑ k=1 Yk + n∑ k=1 E(Xk) (6.1) et E(Yk) = 0, E(Y 2k ) = Var(Yk) = Var(Xk). Donc pour étudier la convergence de Sn, il suffit pour l’essentiel de s’intéresser au cas centré. 6.3.1. La convergence dans L2 est simple à étudier. Proposition 6.3.1. Soit X1, . . . , Xn, . . . une suite de v.a. réelles, indépendantes, de carré intégrable et centrées. Alors Sn converge dans L2 ssi la série ∑ E(X2n) est convergente. Preuve: On a, pour n < m, E[(Sm − Sn)2] = E( m∑ k=n+1 Xk)2 = m∑ k=n+1 E(X2k). 75 6.4. La loi des grands nombres 6.4.1. On démontre la loi des grands nombres dans le cadre général. Théorème 6.4.1. . Soit X1, . . . , Xn, . . . une suite de v.a. réelles indépendantes et de même loi. On pose Sn = X1 + . . .+Xn. (i) Si E(|X1|) < +∞, Snn converge p.s. et dans L 1 vers E(X1). (ii) Si Snn converge p.s., E(|X1|) < +∞. D’abord deux lemmes relatifs à X v.a. réelle. Lemme 6.4.2. . On a ∑ n≥1 P(|X| ≥ n) ≤ E(|X|) ≤ 1 + ∑ n≥1 P(|X| ≥ n). Preuve: Soit φ(x) = ∑ n≥1 1{x≥n}. On a, pour x ∈ R+, φ(x) ≤ x ≤ 1 + φ(x). D’où∑ n≥1 P(|X| ≥ n) = E( ∑ n≥1 1{|X|≥n}) ≤ E(|X|) ≤ 1+E( ∑ n≥1 1{|X|≥n}) = 1+ ∑ n≥1 P(|X| ≥ n).  Lemme 6.4.3. On a ∑ n≥1 E( X2 n2 1{|X|<n}) ≤ 2 + E(|X|). Preuve: Vu que k2 ∞∑ n=k 1 n2 = 1 + k2 ∞∑ n=k+1 1 n2 ≤ 1 + k2 ∫ ∞ k 1 x2 dx = 1 + k, on a, tout étant positif, ∞∑ n=1 E( X2 n2 1{|X|<n}) = ∞∑ n=1 E( X2 n2 n∑ k=1 1{k−1≤|X|<k}) = ∞∑ k=1 E(1{k−1≤|X|<k}X2 ∞∑ n=k 1 n2 ) ≤ ∞∑ k=1 E(1{k−1≤|X|<k}k2 ∞∑ n=k 1 n2 ) ≤ ∞∑ k=1 E(1{k−1≤|X|<k}(1 + k)) ≤ ∞∑ k=1 E(1{k−1≤|X|<k}(2 + |X|)) ≤ 2 + E(|X|).  Revenons à la démonstration du théorème. (i) On suppose E(|X1|) < +∞. Posons X̂k = Xk1{|Xk|<k}, Ŝn = ∑n k=1 X̂k. Alors, vu le lem. 6.4.2,∑ k P(Xk 6= X̂k) = ∑ k P(|Xk| ≥ k) = ∑ k P(|X1| ≥ k) ≤ E(|X1|) < +∞. Donc (Borel-Cantelli) Xk = X̂k à partir d’un certain rang p.s et Snn − Ŝn n →n 0 p.s. On est donc ramené à étudier la limite de Ŝnn . Pour cela, on utilise la prop. 6.3.5. 76 Convergence des suites de variables aléatoires D’une part, vu le lem. 6.4.3, ∑ n≥1 Var(X̂n) n2 ≤ ∑ n≥1 E(X̂2n) n2 = ∑ n≥1 E( X21 n2 1{|X1|<n}) ≤ 2 + E(|X1|) < +∞. D’autre part, comme E(X̂k) = E(Xk1{|Xk|<k}) = E(X11{|X1|<k}) →k E(X1) (Lebesgue), 1 nE(Ŝn) →n E(X1). Finalement Ŝn n →n E(X1) p.s. et il en est de même de Sn n . Passons à la convergence dans L1. On peut supposer E(X1) = 0. On a, pour tout M > 0, E(|Sn n |) ≤ E(| 1 n n∑ k=1 Xk1{|Xk|<M}|) + E(| 1 n n∑ k=1 Xk1{|Xk|≥M}|). D’une part, vu la première partie et que 0 = E(X1) = E(X11{|X1|<M})+E(X11{|X1|≥M}), | 1 n n∑ k=1 Xk1{|Xk|<M}| →n |E(X11{|X1|<M})| = |E(X11{|X1|≥M})| p.s. en restant borné par M et donc aussi dans L1. D’autre part E(| 1 n n∑ k=1 Xk1{|Xk|≥M}|) = 1 n E(| n∑ k=1 X11{|X1|≥M}|) ≤ E(|X1|1{|X1|≥M}). . D’où lim sup n E(|Sn n |) ≤ |E(X11{|X1|≥M})|+ E(|X1|1{|X1|≥M}) ≤ 2E(|X1|1{|X1|≥M}). Mais cette dernière quantité est arbitrairement petite puisque E(|X1|1{|X1|≥M}) → 0 lorsque M → +∞ (Lebesgue). (ii) Supposons que Snn converge p.s. Donc (cor. 6.2.2) Sn n →n c p.s et Xn n = Sn n − n−1 n Sn−1 n−1 → 0 p.s. Ceci implique que P(lim sup{|Xn| ≥ n}) = 0 et donc (prop. 4.1.2) que ∑ n P(|Xn| ≥ n) < +∞. On a alors (lem. 6.4.2) E(|X1|) ≤ 1 + ∑ n P(|X1| ≥ n) = 1 + ∑ n P(|Xn| ≥ n) < +∞  . Remarque 1. Tradtionnellement le th. 6.4.1 s’appelle la loi forte des grands nombres. On réserve le nom de loi faible des grands nombres à la convergence en probabilité de Sn/n vers E(X1) qui est évidemment une conséquence de la loi forte. Remarque 2. Soit µ une probabilité sur un espace mesurable (E, E). Le tirage d’une suite de points de E selon µ peut se représenter par une suite de v.a. indépendantes 77 de loi µ. Soit A ∈ E . Les v.a. 1A(X1), 1A(X2), . . . , 1A(Xn), . . . sont indépendantes, de même loi, d’espérance µ(A). On a donc p.s. µ(A) = lim n 1 n n∑ k=1 1A(Xk) = lim n nombre de k ≤ n tels que Xk ∈ A n . On retrouve là la justification fréquentielle de la notion de probabilités. Remarque 2. En raisonnant composante par composante, le th. 6.4.1 se généralise immédiatement aux v.a. à valeurs Rd. 6.4.2. Nombres au hasard. On revient sur la question, posée en 4.8.1, de construire une suite (un, n ≥ 1) de nombres compris entre 0 et 1 et pouvant être considérée comme le résultat de tirages indépendants selon la loi U(0, 1). Soit (Un, n ≥ 1) une suite de v.a. indépendantes de loi U(0, 1). On a (loi des grands nombres), pour tous 0 ≤ a < b ≤ 1, 1 n n∑ k=1 1[a,b](Uk) →n b− a p.s. Mais X1 = (U1, U2), X2 = (U3, U4), . . . , Xn = (U2n−1, U2n), . . . est aussi une suite de v.a. indépendantes à valeurs R2 de loi uniforme sur [0, 1] × [0, 1] et l’on a, pour tous 0 ≤ a1 < b1 ≤ 1, 0 ≤ a2 < b2 ≤ 1, posant D = [a1, b1]× [a2, b2] 1 n n∑ j=0 1D(U2j+1, U2j+2) →n (b1 − a1)(b2 − a2) p.s Plus généralement, pour tout k et tous 0 ≤ a1 < b1 ≤ 1, . . . , 0 ≤ ak < bk ≤ 1, posant D = ∏k j=1[aj , bj ], 1 n n∑ j=0 1D(Ukj+1, . . . , Ukj+k) →n k∏ j=1 (bj − aj) p.s Ceci conduit à: Définition 6.4.4. Une suite (un, n ≥ 1) de nombres compris entre 0 et 1 est dite k-uniforme (k ∈ N∗) si, pour tous 0 ≤ a1 < b1 ≤ 1, . . . , 0 ≤ ak < bk ≤ 1, posant D = ∏k j=1[aj , bj ], 1 n n∑ j=0 1D(ukj+1, . . . , ukj+k) →n k∏ j=1 (bj − aj). L’idéal pour qu’une suite (un, n ≥ 1) puisse être considérée comme le résultat de tirages indépendants selon la loi uniforme sur [0, 1] serait que cette suite soit k-uniforme pour tout k mais ceci, en pratique, est impossible et on se contente d’approximations. 80 Convergence des suites de variables aléatoires |Xn| > K n’a lieu qu’un nombre fini de fois. Les séries ∑ Xn et ∑ XKn sont donc p.s. de même nature et ∑ XKn converge p.s. Puisque |XKn | ≤ K, on peut appliquer la prop. 6.5.1 et ∑ E(XKn ) et ∑ Var(XKn ) convergent. (ii) Supposons que les trois séries convergent. Vu la prop. 6.5.1, ∑ XKn converge p.s. et, comme ci-dessus, la convergence de ∑ P(|Xn| > K) implique que les séries ∑ Xn et ∑ XKn sont p.s. de même nature. Donc ∑ nXn converge p.s.  6.6. Complément: grandes déviations. 6.6.1. Soit X1, . . . , Xn, . . . une suite de v.a.r. indépendantes et de même loi µ avec E|X1| < +∞. On pose m = E(X1). Si a > m, il résulte du th. 6.4.1 que, posant Sn = X1 + . . .+Xn, P( Sn n > a) →n 0. On voudrait préciser la vitesse de convergence. On sait que plus une v.a.r. posséde de moments finis, plus on peut espérer des estimatuions précises. On pose donc: φ(λ) = E(eλX1) = ∫ eλx dµ(x), G(λ) = log φ(λ), ∆ = {λ, φ(λ) < +∞} (6.2) et on suppose que 0 est un point intérieur de ∆ . La fonction φ(λ) est stricte- ment positive et, vu que ∀a < b < c < d, ∀n ≥ 0, ∃M ∀λ ∈ [b, c], |xn eλx| ≤M (eax + edx), ∆ est un intervalle, φ est indéfiniment dérivable sur ◦ ∆ et φ(n)(λ) = ∫ xn eλx dµ(x) d’après la prop. 3.3.7. En particulier φ(0) = 1, φ′(0) = ∫ x dµ(x) = m. La fonction φ étant strictement positive, G est aussi indéfiniment dérivable sur ◦ ∆ et l’on a, pour λ ∈ ◦ ∆, G(0) = 0, G′(λ) = φ′(λ) φ(λ) = ∫ y eλy−G(λ) dµ(y), G′(0) = m. Enfin G est convexe puisque, pour 0 < α < 1, vu l’inégalité de Hölder: φ(αλ1 + (1− α)λ2) = ∫ eαλ1xe(1−α)λ2x dµ(x) ≤ [ ∫ eλ1x dµ(x)]α[ ∫ eλ2x dµ(x)]1−α, G(αλ1 + (1− α)λ2) ≤ α log φ(λ1) + (1− α) log φ(λ2x) = αG(λ1) + (1− α)G(λ2x). 6.6.2. Majoration. On a alors, pour a > m et tout λ > 0, P( Sn n ≥ a) = P(eλSn ≥ eλna) ≤ e−λnaE(eλSn) = e−λna [φ(λ)]n = exp(−n(λa−G(λ))) d’où P( Sn n ≥ a) ≤ exp(−n sup λ>0 (λa−G(λ))). (6.3) 81 Ceci conduit à s’intéresser à la fonction I(x) = sup λ∈R (λx−G(λ)), x ∈ R. (6.4) Cette fonction s’appelle la transformée de Legendre de G. Elle joue un rôle important en analyse convexe. Indiquons quelques propriétés. Lemme 6.6.1. La fonction I(x) est positive, convexe, vérifie I(m) = 0, est décroissante sur ]−∞,m] et croissante sur [m,+∞[. Pour x > m, I(x) = supλ>0(λx−G(λ)). Preuve: Vu que, pour λ = 0, λx − G(λ) = 0, I(x) ≥ 0. La fonction I étant un sup de fonctions affines, elle est convexe. De plus, d’après l’inégalité de Jensen, eG(λ) = E(eλX1) ≥ eλE(X1) = eλm, d’où, pour tout λ, λm ≤ G(λ) et donc I(m) ≤ 0 et I(m) = 0. De plus la fonction I étant positive, convexe et nulle en m, elle croit sur [m,+∞[ et décroit sur ]−∞,m]. Enfin la fonction h(λ) = λx − G(λ) est concave, dérivable au voisinage de 0 et vérifie h(0) = 0, h′(0) = x − G′(0) = x − m > 0 et donc supλ>0(λx − G(λ)) = supλ∈R(λx−G(λ)).  On en déduit immédiatement les inégalités de Chernov: Proposition 6.6.2. On a: (i) pour tout a ≥ m, ,P(Snn ≥ a) ≤ e −nI(a), (ii) pour tout a ≤ m, P(Snn ≤ a) ≤ e −nI(a). Preuve: (i) résulte de (6.4) et du lem. 6.6.1 pour a > m et est évident pour a = m puisque I(m) = 0. (ii) s’obtient en appliquant (i) à la suite (−Xn).  6.6.3. Minoration. Proposition 6.6.3. On a, pour tous a ∈ R et δ > 0, lim inf n 1 n log P(|Sn n − a| < δ) ≥ −I(a). Preuve: Si I(a) = +∞, il n’y a rien à montrer. On suppose donc I(a) < +∞. La preuve repose sur l’étude de plusieurs cas selon que h(λ) = λa − G(λ) atteint son maximum ou non. (i) On suppose qu’il existe λ0 ∈ ◦ ∆ tel que I(a) = λ0a − G(λ0). La fonction h étant dérivable sur ◦ ∆, on a h′(λ0) = 0 i.e. G′(λ0) = a. Soient ν la probabilité sur R définie par: dν(x) = φ−1(λ0) eλ0x dµ(x) (6.5) et Y1, . . . , Yn, . . . une suite de v.a.r. indépendantes de loi ν définies sur (Ω′,A′,P′). On pose Σn = Y1 + . . . + Yn. On vérifie facilement que, notant E′(Z) pour ∫ Z dP′, E′(|Y1|) =< +∞ et que E′(Y1) = ∫ x dν(x) = φ−1(λ0) ∫ x eλ0x dµ(x) = φ′(λ0) φ(λ0) = G′(λ0) = a. 82 Convergence des suites de variables aléatoires D’autre part, pour toute f ∈ B+(R), E(f(Sn)) = ∫ f(x1, . . . , xn) dµ(x1) . . . dµ(xn) = φn(λ0) ∫ f(x1, . . . , xn) e−λ0(x1+...+xn) dν(x1) . . . dν(xn) = φn(λ0)E′(f(Σn)e−λ0Σn). On en déduit que, pour tout ε ∈]0, δ], P(|Sn n − a| < δ) ≥ P(|Sn n − a| < ε) = φn(λ0)E′(1{|Σn n −a|<ε}e −λ0Σn) = φn(λ0)e−naλ0E′(1{|Σn n −a|<ε}e −λ0n(Σnn −a))) ≥ φn(λ0)e−naλ0e−nελ0P′(| Σn n − a| < ε). D’où 1 n log P(|Sn n − a| < δ) ≥ −aλ0 +G(λ0)− λ0ε+ 1 n log P′(|Σn n − a| < ε) et, puisque −aλ0 + G(λ0) = −I(a) et que P′(|Σnn − a| < ε) →n 1 (loi des grands nombres), lim inf n 1 n log P(|Sn n − a| < δ) ≥ −I(a)− λ0ε. Ce qui établit la proposition dans ce cas. (ii) On suppose qu’il existe λk ∈ ◦ ∆, λk ↑ +∞, tels que I(a) = limk λka − G(λk). On a alors e−I(a) = lim k eG(λk)−λka = lim k ∫ eλk(x−a) dµ(x). Puisque ∫ ]−∞,a[ e λk(x−a) dµ(x) →k 0, ∫ [a,+∞[ e λk(x−a) dµ(x) →k e−I(a) ce qui implique, vu que eλk(x−a) ↑ +∞ sur ]a,+∞], que µ(]a,+∞[) = 0 et donc que e−I(a) = µ({a}). Alors P(|Sn n − a| < δ) ≥ P(X1 = . . . = Xn = a) = [µ({a})]n = e−nI(a) et la minoration cherchée. Supposons: pour tout λ ∈ R, ∫ eλx dµ(x) = E(eλX1) < +∞. (6.6) Alors ∆ = R, G(λ) est partout finie et h(λ) = λa − G(λ) est une fonction concave C∞ sur R et on est nécessaiement soit dans le cas (i), soit dans le cas (ii), ce qui prouve la proposition sous cette hypothèse. Une autre situation intéressante est la suivante. Rappelons que le support Sµ de µ est le plus petit fermé F tel que µ(F c) = 0. On pose αµ = inf Sµ, βµ = supSµ (les valeurs infinies ne sont pas exclues). Considérons l’hypothèse: pour tout a ∈]αµ, βµ[, il existe λ ∈ ◦ ∆ tel que G′(λ) = a. (6.7) Chapitre 7 Convergence en loi 7.1. Convergence étroite On note M1 l’ensemble des probabilités sur B(Rd), Cb (resp. C0, resp. Ck) l’ensemble des fonctions continues bornées (resp. tendant vers 0 à l’infini, resp. à support com- pact) sur Rd. Soient µn, µ ∈ M1. On veut donner un sens à “µn converge vers µ”. Il semble naturel de demander que, pour tout A ∈ B(Rd), µn(A) → µ(A) mais ceci est très contraignant. Par exemple, sur R, si µn = δ 1 n et µ = δ0, on a µn(]0, 1]) = 1 et µ(]0, 1]) = 0 et donc, en ce sens, µn ne converge pas vers µ. C’est pourquoi on introduit la notion de convergence étroite. 7.1.1. Définition. Définition 7.1.1. Soient µn, µ ∈M1. On dit que µn converge étroitement vers µ si, pour toute f ∈ Cb, ∫ f dµn →n ∫ f dµ. Un critère très utile est le suivant. Rappelons que H ⊂ C0 est total si e.v.[H] est dense dans C0 pour la norme ||f || = supx |f(x)|. Proposition 7.1.2. Soient µn, µ ∈ M1. Si, pour toute f ∈ H, H total dans C0,∫ f dµn →n ∫ f dµ, µn converge étroitement vers µ. Preuve: Montrons d’abord que, pour toute f ∈ C0, ∫ f dµn →n ∫ f dµ. Soit V = e.v.[H]. On a V = C0 et, pour toute g ∈ V , ∫ g dµn → ∫ g dµ. Soient f ∈ C0 et g ∈ V , on a | ∫ f dµn − ∫ f dµ| ≤ | ∫ f dµn − ∫ g dµn|+ | ∫ g dµn − ∫ g dµ|+ | ∫ g dµ− ∫ f dµ| ≤ 2||f − g||+ | ∫ g dµn − ∫ g dµ|. On a donc lim supn | ∫ f dµn − ∫ f dµ| ≤ 2||f − g||. Cette dernière quantité étant arbitrairement petite, ∫ f dµn → ∫ f dµ. 86 Convergence en loi Ceci fait, on a, pour f ∈ Cb et g ∈ Ck, 0 ≤ g ≤ 1, | ∫ f dµn− ∫ f dµ| ≤ | ∫ f dµn− ∫ fg dµn|+| ∫ fg dµn− ∫ fg dµ|+| ∫ fg dµ− ∫ f dµ| ≤ ||f ||(1− ∫ g dµn) + | ∫ fg dµn − ∫ fg dµ|+ ||f ||(1− ∫ g dµ). On a donc lim supn | ∫ f dµn− ∫ f dµ| ≤ 2||f ||(1− ∫ g dµ). Vu qu’il existe gn ∈ Ck, 0 ≤ gn ≤ 1, tels que gn ↑ 1 et qu’alors ∫ gn dµ ↑ ∫ 1 dµ = 1, 1− ∫ g dµ est arbitrairement petit et ∫ f dµn →n ∫ f dµ. Ceci montre que µn converge étroitement vers µ.  Il y a deus exemples particulièrement intéressants d’ensemble total dans C0 à savoir l’espace C∞k (cor. 3.5.6) et la famille (gσ(x− a), σ > 0, a ∈ Rd) (lem. 5.1.3). 7.1.2. L’exemple introductif montre que µn peut converger étroitement vers µ sans que µn(A) converge vers µ(A). La question est de savoir pour quels ensembles on a cette convergence. On note ∂A = A \ ◦ A la frontière topologique de A i.e. la fermeture moins l’intérieur. Proposition 7.1.3. Soient µn, µ ∈ M1. On suppose que µn converge étroitement vers µ. Alors, pour tout A ∈ B(Rd) tel que µ(∂A) = 0, µn(A) → µ(A). Preuve: Il existe fp, gp ∈ C+b telles que gp ↓ 1A, fp ↑ 1 ◦A, alors ∫ gp dµ ↓ µ(A) et∫ fp dµ ↑ µ( ◦ A). D’où, vu l’hypothèse, ∫ (gp − fp) dµ→p 0. Soit ε > 0. Il existe donc f, g ∈ Cb telles que f ≤ 1A ≤ g et ∫ (g − f) dµ < ε. On a alors ∫ f dµn − ∫ g dµ ≤ µn(A)− µ(A) ≤ ∫ g dµn − ∫ f dµ d’où lim supn |µn(A)− µ(A)| ≤ ∫ (g − f) dµ < ε. Ceci montre que µn(A) → µ(A).  7.1.3. On a enfin le résultat très important suivant: Théorème 7.1.4. Soient µn, µ ∈ M1. La suite µn converge étroitement vers µ ssi, pour tout t ∈ Rd, µ̂n(t) →n µ̂(t). Preuve: La condition est évidemment nécessaire puisque fx(t) = ei<t,x> ∈ Cb. Réciproquement, d’après (5.5) et le théorème de Lebesgue,∫ gσ(x− a) dµn = (2π)−d/2 ∫ g1(σt)e−i<a,t>µ̂n(t) dt →n (2π)−d/2 ∫ g1(σt)e−i<a,t>µ̂(t) dt = ∫ gσ(x− a) dµ. Puisque H = (gσ(x − a), σ > 0, a ∈ Rd) est totale dans C0, on conclut grâce à la prop. 7.1.2.  87 7.2. Convergence en loi Dans cette section, Xn, X désignent des v.a. à valeurs Rd. Rappelons qu’on note µX la loi de X et φX sa fonction caractéristique. 7.2.1. Convergence en loi des v.a.. Définition 7.2.1. On dit qu’une suite de v.a. Xn converge en loi vers une probabilité µ (resp. une v.a. X) si la suite µXn converge étroitement vers µ (resp. vers µX ). La distinction entre convergence en loi vers µ ou vers X est une simple affaire de langage car en fait c’est la loi de Xn qui converge vers µ et donc vers la loi de X pour toute v.a. X de loi µ. Vu la prop. 7.1.2 et le th. 7.1.4, on a: Proposition 7.2.2. Soient Xn des v.a. à valeurs Rd et µ ∈ M1. Il y a équivalence entre: (i) Xn converge en loi vers µ, (ii) pour toute f ∈ H, H total dans C0, E(f(Xn)) →n ∫ f dµ, (iii) pour tout t ∈ Rd, φXn (t) →n µ̂(t). En particulier Xn converge en loi vers X ssi: pour tout t ∈ Rd, φXn (t) = E(e i<t,Xn>) →n φX (t) = E(e i<t,X>). Proposition 7.2.3. Si Xn converge en loi vers X et si φ : Rd → Rp est continue, Yn = φ(Xn) converge en loi vers Y = φ(X). Preuve: Soit f ∈ Cb(Rp), alors f ◦ φ ∈ Cb(Rd) et E(f(Yn)) = E(f(φ(Xn))) →n E(f(φ(X))) = E(f(Y )).  Enfin la prop. 7.1.3 devient: Proposition 7.2.4. Soit Xn une suite de v.a. convergeant en loi vers µ. Pour tout A ∈ B(Rd) tel que µ(∂A) = 0, on a P(Xn ∈ A) →n µ(A). 7.2.2. Examinons le lien entre la convergence en loi et les convergences des v.a. étudiées dans la section précédente. Proposition 7.2.5. Si Xn converge en probabilité vers X, alors Xn converge en loi vers X. Preuve: Il suffit (prop. 7.2.2) de montrer que, pour toute f ∈ Ck, E(f(Xn)) →n E(f(X)) = ∫ fdµX . Soient donc f ∈ Ck et ε > 0. Il existe, f étant uniformément continue, α > 0 tel que |f(x)− f(y)| ≤ ε si |x− y| ≤ α. On a alors |E(f(Xn))− E(f(X))| ≤ E(|f(Xn))− f(X)|1{|Xn−X|≤α}) +E(|f(Xn))− f(X)|1{|Xn−X|>α}) ≤ ε+ 2||f ||P(|Xn −X| > α) 90 Convergence en loi Corollaire 7.2.11. Soit Xn une suite de v.a.r. convergeant en loi vers X∞. Il existe des v.a.r. (pas nécessairement définies sur le même espace de probabilité) Yn, 1 ≤ n ≤ +∞, telles que, pour 1 ≤ n ≤ +∞, loi de Yn = loi de Xn et Yn →n Y∞ presque sûrement. Preuve: Soient Fn et F les fonctions de répartition de Xn et X∞ et C(F ) l’ensemble des points de continuité de F . On pose F−1(u) = inf(t, F (t) ≥ u). Soient A = {u ∈ [0, 1], ∃t1 6= t2 tels que F (t1) = F (t2) = u} et B = [0, 1] \ A. Noter que A est dénombrable. et que, pour tout u ∈ B, y < F−1(u) ⇒ F (y) < u et y > F−1(u) ⇒ F (y) > u. On en déduit que, pour tout u ∈ B, F−1n (u) →n F−1(u). En effet soient u ∈ B et y ∈ C(F ) tels que y > F−1(u), on a F (y) > u et aussi (th. 7.2.10), pour n assez grand, Fn(y) > u et y ≥ F−1n (u) ce qui implique, C(F ) étant dense, lim supn F−1n (u) ≤ F−1(u). Considérant y ∈ C(F ) tel que y < F−1(u), on a, par un argument symétrique que lim infn F−1n (u) ≥ F−1(u). D’où limn F−1n (u) = F−1(u) si u ∈ B. On considère alors l’espace de probabilité ([0, 1],B([0, 1]), λ = mesure de Lebesgue) et soit U la v.a. U(u) = u. On pose Yn = F−1n (U), Y∞ = F −1(U). D’après la prop. 4.3.2, Yn et Xn ont même loi et, pour tout u ∈ B, Yn(u) = F−1n (u) →n Y∞(u) = F−1(u) et, comme λ(B) = 1, Yn →n Y∞ p.s.  7.2.6. Théorème de Levy. S’il est souvent facile de montrer que φXn (t) →n φ(t), il est plus délicat de montrer que φ(t) est une fonction caractéristique. De plus ce n’est pas toujours vrai. Donnons un exemple. Soit Xn une suite de v.a.r. de loi uniforme sur [−n,+n]. On a φXn (0) = 1 et, pour t 6= 0, φXn (t) = 1 2n ∫ n −n eitx dx = sin(nt) nt . Donc φXn (t) →n 1{0}(t) qui n’est pas une fonction caractéristique puisque pas con- tinue en 0. En fait, pour f ∈ Ck, il est immédiat que ∫ f dµXn →n 0 et µXn converge en un sens affaiblie vers 0. La réponse à ce problème est donnée par le théorème de Lévy. Théorème 7.2.12. Soit Xn une suite de v.a. telle que, pour tout t ∈ Rd, φXn (t) →n φ(t). Si φ est continue en 0, il existe une probabilité µ sur Rd telle que µ̂ = φ et Xn converge en loi vers µ. Preuve: On a besoin du résultat d’analyse suivant que nous admettons. On dit qu’une suite µn ∈ Mb converge faiblement s’il existe µ ∈ Mb telle que, pour toute f ∈ C0,∫ f dµn →n ∫ f dµ. Alors Théorème 7.2.13. Soient µn ∈ Mb telles que A = supn µn(Rd) < +∞, alors il existe une sous-suite µnk convergeant faiblement. Ceci fait, on note µn la loi de Xn. Puisque µn(Rd) = 1, il existe (th.7.2.13) une sous-suite µnk telle que µnk converge faiblement vers µ ∈ Mb. On pose µ′k = µnk . D’après (5.5), on a, pour tout a ∈ Rd,∫ gσ(x− a) dµ′k(x) = (2π)−d/2 ∫ e−i<a,u>g1(σu)µ̂′k(u) du. 91 Passant à la limite en k, on a (justifier),∫ gσ(x− a) dµ(x) = (2π)−d/2 ∫ e−i<a,u>g1(σu)φ(u) du. On a donc vu (5.5), pour tout a ∈ Rd,∫ e−i<a,u>g1(σu)µ̂(u) du = ∫ e−i<a,u>g1(σu)φ(u) du. D’où (th.5.1.2) µ̂(u)g1(σu) = φ(u)g1(σu) λ p.p. et, g1 étant > 0, µ̂(u) = φ(u) λ p.p. Soit E = {µ̂ = φ}, on a λ(Ec) = 0. Il existe donc xn ∈ E tel que xn → 0. On a, pour tout n, µ̂(xn) = φ(xn) et, les deux fonctions étant continues en 0, µ(Rd) = µ̂(0) = φ(0) = limn µ̂n(0) = 1. Donc µ ∈M1 et (prop. 7.1.2) µ′k converge étroitement vers µ. On en déduit que φ = µ̂ et que µn converge étroitement vers µ.  7.3. Convergence vers la loi normale 7.3.1. Le théorème de la limite centrale. Théorème 7.3.1. Soit Xn une suite de v.a. à valeurs Rd indépendantes et de même loi. On suppose que E(|X1|2) < +∞ et on pose m = E(X1), K = K(X1), Sn = X1 + . . . , Xn. Alors 1√n(Sn − nm) converge en loi vers Nd(0,K). Preuve: Il suffit de considérer le cas où m = E(X1) = 0. On pose φ(t) = φX1 (t). Vu la prop. 5.2.5, ∂∂tkφ(0) = 0, ∂2 ∂tjtk φ(0) = −Kj,k. On a donc φ(t) = 1− 1 2 tTKt+ |t|2ε(t) avec lim t→0 |ε(t)| = 0. On en déduit φ 1√ n Sn (t) = φSn( t√ n ) = (φ( t√ n ))n = (1− 1 2n tTKt+ |t|2 n ε( t√ n ))n →n exp(− 1 2 tTKt). Ceci d’après le lem. 7.3.2 ci-dessous. Donc 1√ n Sn converge en loi vers Nd(0,K) d’après la prop. 7.2.2. Lemme 7.3.2. Soient zn, z ∈ C tels que zn →n z, alors on a (1 + znn ) n →n ez. Preuve: Pour zn ∈ R, le résultat est classique. Remarquant que, pour a, b ∈ C, on a |an − bn| ≤ n|a− b| si |a| ≤ 1, |b| ≤ 1, on a | (1 + znn ) n (1 + |zn|n ) n − e z e|z| | = |( 1 + znn 1 + |zn|n )n − ( e z n e |z| n )n| ≤ n | 1 + znn 1 + |zn|n − e z n e |z| n | ≤ n |(1 + znn ) e |z| n − (1 + |zn|n ) e z n | (1 + |zn|n ) e |z| n ≤ |zn + |z| − |zn| − z + ε( 1n)| (1 + |zn|n ) e |z| n →n 0. 92 Convergence en loi Donc (1+ zn n )n (1+ |zn| n )n →n e z e|z| et, vu que (1 + |zn| n ) n →n e|z|, (1 + znn ) n →n ez.  7.3.2. Le cas réel. Corollaire 7.3.3. Soit Xn une suite de v.a.r. indépendantes, de même loi, de carré intégrable. On pose Sn = X1 + . . . + Xn, m = E(X1), σ2 = Var(X1) qu’on suppose > 0. Alors, pour −∞ ≤ a < b ≤ +∞, P(a < Sn − nm σ √ n < b) →n 1√ 2π ∫ b a e− t2 2 dt. Preuve: Ceci résulte du th. 7.3.1 et de la prop. 7.2.4.  Exemple. Soient X1, . . . , Xn, . . . une suite de v.a. réelles indépendantes et de même loi de Poisson P(1) et Sn = X1 + . . .+Xn. On sait (2.3.3) que Sn ∼ P(n) et (2.2.5) que E(Sn) = n, Var(Sn) = n. Posons Yn = Sn − n√ n . D’après le th. 7.3.1, Yn converge en loi vers Z ∼ N1(0, 1). Soit h(x) = (−x) ∧ 0, h est continue donc (prop.7.2.3) Y −n = h(Yn) converge en loi vers Z − = h(Z). Vu que E((Y −n )2) ≤ E(Y 2n ) = 1nVar(Sn) = 1, on a (prop. 7.2.9) E(Y − n ) →n E(Z−). Mais E(Y −n ) = E(h(Yn)) = +∞∑ k=0 h( k − n√ n )P(Sn = k) = n∑ k=0 n− k√ n e−n nk k! = e−n√ n { n∑ k=0 nk+1 k! − n∑ k=1 nk (k − 1)! } = e −n √ n nn+1 n! = e−nnn √ n n! et E(Z−) = 1√ 2π ∫ +∞ −∞ x−e− x2 2 dx = 1√ 2π ∫ +∞ 0 xe− x2 2 dx = 1√ 2π ∫ +∞ 0 d(−e− x2 2 ) = 1√ 2π d’où e −nnn √ n n! →n 1√ 2π i.e. n! ∼ √ 2πn e−nnn (formule de Stirling). 7.3.3. Vitesse de convergence. Pour d = 1, le théorème de la limite centrale nous dit que, pour n assez grand, la loi de Sn−nm σ √ n i.e. de Sn centrée réduite est proche de la loi N1(0, 1). Pour être vraiment utile, un tel résultat doit être accompagné de précisions sur la vitesse de convergence. A ce sujet, on a le théorème de Berry-Esseen que nous montrerons section 7.4. Théorème 7.3.4. Soit Xn une suite de v.a. indépendantes et de même loi avec E(|X1|3) < +∞. On pose m = E(X1), σ2 = E(X1 −m)2, ρ = E(|X1 −m|3). Alors: sup x |P(Sn − nm σ √ n ≤ x)− 1√ 2π ∫ x −∞ e− t2 2 dt | ≤ ρ σ3 √ n . 95 |f(x)| ≤ b−a2 + ρ√ n et f ∈ C avec f ′(x) = 1{a− ρ√ n ≤x≤b+ ρ√ n }. On a alors, vu (7.7), le lem. 7.4.1 et que E(|Un|) ≤ {E(U2n)}1/2 = 1, P(a < Un−1 < b) ≤ 2E( ∫ {|t|≤ρ/ √ n} 1{a<Un−1<b}K(t) dt ) ≤ 2E( ∫ 1{a− ρ√ n <Un−1+t<b+ ρ√ n }K(t) dt ) = 2E( ∫ f ′(Un−1 + t)K(t) dt) = 2E(Unf(Un)) ≤ 2||f ||∞ ||Un||1 ≤ b− a+ 2 ρ√ n .  On peut maintenant exploiter (7.8). Remarquons d’abord que, vu (7.5), |f ′b(u+ s)− f ′b(u+ t)| ≤ |(u+ s)fb(u+ s)− (u+ t)fb(u+ t)|+ |hb(u+ s)− hb(u+ t)| ≤ |u| |fb(u+ s)− fb(u+ t)|+ |sfb(u+ s)|+ |tfb(u+ t)|+ |hb(u+ s)− hb(u+ t)| ≤ (|u|+ 1)(|t|+ |s|) + 1{s≥t}1{b−s≤u≤b−t} + 1{s<t}1{b−t≤u≤b−s}. Reportant ceci dans (7.8), on obtient, utilisant le lem. 7.4.2, que ∫ |t|K(t) dt = ρ 2 √ n , que ∫ |s| dµ(s) = E(|Y1|) ≤ ρ√n et que E(|Un−1|) ≤ {E(U 2 n−1)}1/2 ≤ 1, sup b |P(Un ≤ b)− Φ(b)| ≤ ∫ ∫ (|s|+ |t|)(E(|Un−1|+ 1)K(t) dµ(s) dt + ∫ ∫ 1{s≥t}P(b−s ≤ Un−1 ≤ b−t)dµ(s) dt+ ∫ ∫ 1{s<t}P(b−t ≤ Un−1 ≤ b−s)dµ(s) dt ≤ 3 ∫ ∫ (|s|+ |t|)K(t) dµ(s) dt+ 2ρ√ n ≤ 13 2 ρ√ n . 7.4.3. Il reste à montrer (7.5). On a les inégalités classiques suivantes: pour x ≥ 0, φ(x) ≥ x(1− Φ(x)), pour x ≤ 0, φ(x) ≥ |x|Φ(x). En effet, pour x > 0, on a (dériver) : φ(x) x = 1√ 2π ∫ +∞ x (1 + 1 t2 )e−t 2/2 dt ≥ 1− Φ(x). Par symétrie on obtient le cas x < 0. On suppose b ≥ 0. Le cas b < 0 se traite de façon analogue mais on voit facilement, remplaçant Un par −Un, qu’il suffit de montrer (7.1) pour x ≥ 0. On remarque d’abors que: pour x ≥ b, fb(x) = Φ(b)(1− Φ(x)) φ(x) ; pour x ≤ b, fb(x) = Φ(x)(1− Φ(b)) φ(x) . (i) On suppose x > b. Alors f ′b(x) = Φ(b)( x(1−Φ(x)) φ(x) − 1) d’où −1 ≤ f ′ b(x) ≤ 0. 96 Convergence en loi (ii) On suppose 0 ≤ x < b. Alors f ′b(x) = 1−Φ(b) + xΦ(x) φ(x) (1−Φ(b)) d’où 0 ≤ f ′ b(x) ≤ 1− Φ(b) + xΦ(x)φ(x) (1− Φ(x)) ≤ 1− Φ(b) + Φ(x) ≤ 1. (iii) On suppose x < 0 ≤ b. Alors f ′b(x) = (1 − Φ(b))(1 + xΦ(x) φ(x) ) d’où 0 ≤ f ′ b(x) ≤ 1− Φ(b) ≤ 1. Le calcul précedent montre que fb(x) atteint son maximum en b. On a donc 0 ≤ fb(x) ≤ Φ(b)(1−Φ(b))φ(b) ≤ 1. En effet Φ(b)(1−Φ(b)) φ(b) ≤ Φ(b) b ≤ 1 si b ≥ b0 avec b0 ≤ 0, 8 et, pour 0 ≤ b ≤ b0, Φ(b)(1−Φ(b))φ(b) ≤ 1 4φ(b) ≤ 1 4φ(b0) ≤ 14φ(0,8) ≤ 1.  7.5. Complément: comportement asymptotique de la médiane empirique. La lecture de cette section suppose que l’on a lu la section 4.9. Soit µ une probabilité sur R. On note F sa fonction de répartition (def. 4.3.1). On sait que F est continue ssi µ({x}) = 0 pour tout x ∈ R. 7.5.1. Médiane. Tout réel λ tel que µ(] −∞, λ]) ≥ 12 et µ([λ,+∞[) ≥ 1 2 s’appelle la médiane de µ. On a donc, X étant une v.a. de loi µ, P(X ≤ λ) ≥ 1 2 et P(X ≥ λ) ≥ 1 2 i.e. F (λ) ≥ 12 et F (λ−) ≤ 1 2 . Il y a donc trois cas possibles. (i) Il existe un unique λ tel que F (λ) = 12 . Ce nombre λ est alors l’unique médiane. En particulier, c’est le cas si F est continue strictement croissante. (ii) Il existe une infinité de λ tel que F (λ) = 12 . Tous ces nombres λ sont des médianes et ce sont les seuls. (iii) Il existe λ (évidemment unique) tel que F (λ−) ≤ 12 et F (λ) > 1 2 . Ce nombre λ est l’unique médiane. 7.5.2. On considère maintenant une suite X1, . . . , Xn, . . . de v.a.r. indépendantes de même loi µ. On suppose que F fonction de répartition de µ est continue. Soit Mn la médiane empirique de X1, . . . , X2n+1 (voir (4.29)). Proposition 7.5.1. On suppose qu’il existe un unique λ tel que F (λ) = 12 . Alors Mn →n λ p.s. Preuve: Soient s < λ < t et Fn(u) = 1n ∑n i=1 1]−∞,u ](Xi). Noter que p.s. F2n+1(Mn) = n+1 2n+1 et que (vu l’unicité de λ) F (s) < F (λ) < F (t). Vu le th.6.4.1, F2n+1(s) →n F (s) < 12 et F2n+1(t) →n F (t) > 1 2 p.s. et donc 1]s,t ](Mn) →n 1 p.s. On en déduit que p.s. lim infnMn ≥ λ et lim supnMn ≤ λ i.e. Mn →n λ p.s.  97 Théorème 7.5.2. On suppose que µ a une densité p(x), qu’il existe un unique λ tel que F (λ) = 12 , que p est continue en λ et que p(λ) > 0. Alors Zn = √ 2n+ 1(Mn−λ) converge en loi vers N1(0, 14p2(λ)). Preuve: Nous allons montrer que la densité gn(u) de Zn converge vers celle de N1(0, 14p2(λ)) uniformément sur tout compact, ce qui montrera le théorème vu la prop 7.2.2 en choisissant H = Ck. D’après (4.33), la densité de Mn est: (2n+ 1)! (n!)2 (F (t))n(1− F (t))np(t). Un changement de variable montre que celle de Zn est: gn(u) = αn . {ψn(u) }n . p(λ+ u√ 2n+ 1 ) αn = (2n+ 1)! (n!)2 √ 2n+ 1 1 4n , ψn(u) = 4F (λ+ u√ 2n+ 1 )(1− F (λ+ u√ 2n+ 1 )). Utilisant la formule de Stirling n! ∼ (ne ) n √ 2πn, on voit que αn →n √ 2 π . Fixons A > 0. L’écriture φn(u) = o( 1an ) signifie que an φn(u) →n 0 uniformément en |u| ≤ A. On a alors, puisque F ′ = p et F (λ) = 12 , 2F (λ+ u√ 2n+ 1 ) = 1 + u√ 2n+ 1 p(λ) (1 + o(1)) 2(1− F (λ+ u√ 2n+ 1 )) = 1− u√ 2n+ 1 p(λ) (1 + o(1)), d’où n logψn(u) = n(− 4u2 2n+ 1 p2(λ) + o( 1 n )) = −2u2p2(λ) + o(1). Finalement gn(u) →n 2p(λ)√ 2π e−2u 2p2(λ) uniformément en |u| ≤ A. Mais cette dernière expression est la densité de N1(0, σ2) pour σ2 = 14p2(λ) .  7.5.3. Dans bien des cas, le th. 7.5.2 peut remplacer avantageusement le th. 7.3.1. Par exemple soit X1, . . . , X2n+1 un 2n+ 1 échantillon de la loi de Cauchy de densité pθ(x) = 1 π(1 + (x− θ)2) . Cette loi n’a pas de moyenne mais a θ pour médiane. De plus pθ(θ) = 1π . Dans ce cas Mn →n θ p.s. et √ 2n+ 1(Mn − θ) tend en loi vers N1(0, π 2 4 ). Plus généralement soit p(x) une fonction définie sur R, positive, paire, continue au voisinage de 0 et d’intégrale 1. On suppose que a = p(0) > 0 et que ∫ x2p(x) dx = σ2 < 100 Notions de statistique 8.1.2. Le cas réel. On suppose d = 1 et on note F la fonction de répartition de µ. La fonction de répartition de µXn s’appelle la fonction de répartition empirique de µ et se note FXn . On a donc FXn (t) = µ X n (]−∞, t ]) = 1 n n∑ k=1 1]−∞,t ](Xk). (8.2) Il résulte de (8.2) que nFXn (t) ∼ B(n, F (t)) et que, pour tout t, FXn (t) →n F (t) p.s. En fait, on a un résultat beaucoup plus fort appelé théorème de Glivenko-Cantelli: Théorème 8.1.4. supt∈R |FXn (t)− F (t)| →n 0 p.s. Preuve: On pose Fn = FXn . (i) On suppose que µ est la loi uniforme sur [0, 1]. D’après (8.2) et la loi des grands nombres, il existe A ∈ A avec P(A) = 1 tel que, pour tout ω ∈ A, tout k ≥ 0 et tout p > 0, Fn(kp ) →n F ( k p ). On a alors, pour ω ∈ A, pour k = 1, . . . , p et pour t ∈ [k−1p , k p ], Fn( k − 1 p )− k − 1 p − 1 p = Fn( k − 1 p )− k p ≤ Fn(t)−t ≤ Fn( k p )− k − 1 p = Fn( k p )− k p + 1 p d’où sup 0≤t≤1 |Fn(t)− t| ≤ max 1≤k≤p |Fn( k p )− k p |+ 1 p et lim supn sup0≤t≤1 |Fn(t) − t| ≤ 1p . Comme p est arbitraire, ceci implique que sup0≤t≤1 |Fn(t)− t| →n 0. (ii) On suppose qu’il existe des v.a. U1, . . . , Un, . . . indépendantes et de loi U(0, 1) telles que Xn = F−1(Un) où F−1(u) = inf(t, F (t) ≥ u). Rappelons (voir(4.15)) que u ≤ F (t) ssi F−1(u) ≤ t. On note G la fonction de répartition de U(0, 1) et on pose Gn = 1n ∑n k=1 1]−∞,t ](Uk). Vu que Uk ≤ F (t) ssi Xk ≤ t, on a Fn(t)−F (t) = 1 n n∑ k=1 1]−∞,t ](Xk)−F (t) = 1 n n∑ k=1 1]−∞,F (t) ](Uk)−F (t) = Gn(F (t))−F (t). On a donc supt∈R |Fn(t) − F (t)| = supt∈R |Gn(F (t)) − F (t)| ≤ sup0≤t≤1 |Gn(t) − t| avec égalité si F est continue car alors F (R) ⊃]0, 1[. Ceci montre que supt∈R |Fn(t)− F (t)| →n 0 p.s. et que sa loi est indépendante de F si F est continue. (iii) En fait on ne peut pas toujours écrire que Xn = F−1(Un) mais il existe un espace de probabilité (Ω′,A′,P′) et, sur cet espace, des v.a. U ′1, . . . , U ′n, . . . indépendantes et de loi U(0, 1) telles que les v.a. X ′n = F −1(U ′n) soient indépendantes et de même loi que Xn (prop. 4.3.2). On conclut alors grâce à: Lemme 8.1.5. Soient, pour i = 1, 2, (Xin, n ≥ 1) des v.a.r. définies sur (Ωi,Ai,Pi) telles que, pour tout n, (X11 , . . . , X 1 n) et (X 2 1 , . . . , X 2 n) aient même loi et Φn ∈ B+(Rn). Alors, si Φn(X11 , . . . , X 1 n) →n 0 P1 p.s., Φn(X21 , . . . , X2n) →n 0 P2 p.s. 101 Preuve: Ceci résulte de ce que Zin = Φn(X i 1, . . . , X i n) →n 0 Pi p.s ssi, pour tout ε > 0, sup m Pi( max n≤k≤n+m |Zin| > ε) →n 0.  8.1.3. Moments empiriques. Soit µ une probabilité sur R telle que ∫ |x|p dµ < +∞, p ≥ 2. On note m = ∫ x dµ(x), σ2 = ∫ (x−m)2 dµ(x). On pose, pour r ∈ N, r ≤ p, M rn = ∫ xr dµXn (x) = 1 n n∑ k=1 Xrk . (8.3) Alors M rn s’appelle le moment empirique d’ordre r. En particulier, on note Xn = M1n = 1 n n∑ k=1 Xk, (8.4) quantité qui s’appelle la moyenne empirique. On a E(Xn) = m, Var(Xn) = 1 n2 n∑ k=1 Var(Xk) = σ2 n et (loi des grands nombres) Xn →n m p.s. Lemme 8.1.6. Soient a, x1, . . . , xn ∈ R et x = 1n ∑n k=1 xk. Alors n∑ k=1 (xk − x)2 = n∑ k=1 (xk − a)2 − n(x− a)2 = n∑ k=1 x2k − n(x)2. Preuve: Il suffit de noter que ∑ (xk − x) = 0 et d’écrire xk − x = xk − a+ a− x.  Soit ŝ2n la variance de la répartition empirique µ X n . On a, vu le lem.8.1.6, ŝ2n = 1 n n∑ k=1 X2k − (Xn)2 = 1 n n∑ k=1 (Xk −Xn)2 = 1 n n∑ k=1 (Xk −m)2 − (Xn −m)2 et E(ŝ2n) = σ2−σ 2 n 6= σ 2. C’est pourquoi on préfère en général appelé variance empirique la quantité s2n = 1 n− 1 n∑ k=1 (Xk −Xn)2 (8.5) qui vérifie E(s2n) = σ2. Noter (lem. 8.1.6) que s2n = 1 n− 1 n∑ k=1 X2k − n n− 1 (Xn)2 →n E(X21 )−m2 = σ2 p.s. Si n est fixé, on écrit simplement X et s2 pour Xn et s2n. 102 Notions de statistique 8.1.4. Modèle statistique. Soit X = (X1, . . . , Xn) un n-échantillon d’une loi µ sur R. En statistique, la loi µ est totalement ou partiellement inconnue, ce qu’on modèlise en disant que µ appartient à la famille (µθ, θ ∈ Θ). Dans ce polycopié, le plus souvent on aura Θ ⊂ Rp. Alors X = (X1, . . . , Xn) est une v.a. de loi µ⊗nθ . Ceci est un cas particulier de la situation plus générale suivante. Définition 8.1.7. On appelle modèle statistique un terme (X ,A, (Pθ)θ∈Θ) où (Pθ)θ∈Θ est une famille de probabilités sur l’espace mesurable (X ,A). L’ensemble Θ s’appelle l’espace des paramètres et on note X l’application iden- tique de X dans X . On appellera statistique à valeurs (E, E) toute application mesurable de (X ,A) dans (E, E). Evidemment, pour chaque θ ∈ Θ, (X ,A,Pθ) est un espace de probabilité. On note alors Eθ l’espérance pour Pθ. Très grossièrement le problème est le suivant. On tire x ∈ X selon Pθ, θ ∈ Θ étant inconnu et, à la vue du point x tiré, on cherche à dire quelque chose sur θ. Exemple. Soit X1, . . . , Xn) un n-échantillon de la loi N1(m,σ2), m et σ2 étant incon- nus. Décrivons le modèle statistique correspondant. On a X = Rn, A = B(Rn), θ = (m,σ2), Θ = R×]0,∞[, Pθ = qθ.λ avec qθ(x1, . . . , xn) = (2πσ2)−n/2 exp(− 1 2σ2 n∑ k=1 (xk −m)2). Plus généralement: Définition 8.1.8. Soit (µθ, θ ∈ Θ) une famille de probabilités sur Rd. On ap- pelle modèle statistique associé à un échantillon de taille infinie de µθ le modèle (X ,A, (Pθ)θ∈Θ) où X = (Rd)N, x = (x1, . . . , xn, . . .), Xn(x) = xn, A = σ(Xn, n ≥ 1) et où, pour chaque θ ∈ Θ, Pθ est une probabilité sur (X ,A) telle que les v.a. X1, . . . , Xn, . . . soient indépendantes et de loi µθ. On admet l’existence d’une telle probabilité Pθ qui est unique vu le cor. 3.2.3 appliqué à C = ∪nσ(X1, . . . , Xn). 8.2. Estimation Soient (X ,A, (Pθ)θ∈Θ) un modèle statistique et f une application mesurable de Θ dans R. On veut estimer f(θ) à la vue de x ∈ X résultat d’un tirage selon Pθ, θ inconnu. Un estimateur de f(θ) est donc une application mesurable T de X dans R. Si on a tiré x, on estime f(θ) par T (x). Il reste à préciser ce qu’est un “bon” estimateur. 8.2.1. Risque quadratique. 105 Posant ρ = 1 2σ2 , x = 1 n n∑ k=1 xk, s 2 0 = 1 n− 1 n∑ k=1 (xk − x)2, on a, puisque (lem.8.1.6) ∑n k=1(xk −m)2 = ∑n k=1(xk − x)2 + n(x−m)2, qθ(x1, . . . , xn) = ( ρ π )n/2 exp(−ρ(n− 1)s20 − nρ(x−m)2). Soit U = U(x1, . . . , xn) telle que Eθ(U) ≡ 0. Alors, pour tous m, ρ,∫ U(x1, . . . , xn) exp(−ρ(n− 1)s20 − nρ(x−m)2) dx1 . . . dxn = 0. (8.8) Dérivant (8.8) en m, on a, pour tous tous m, ρ,∫ U(x1, . . . , xn)(x−m) exp(−ρ(n− 1)s20 − nρ(x−m)2) dx1 . . . dxn = 0. (8.9) Soit encore Eθ(U(X −m)) ≡ 0 et, vu que Eθ(U) ≡ 0, Eθ(UX) ≡ 0. Comme X est un e.s.b. de m, la prop. 8.2.4 implique que c’est un e.s.b.v.m. Dérivant (8.9) en m, on a, pour tous tous m, ρ,∫ U(x1, . . . , xn)(1 + 2nρ(x−m)2) exp(−ρ(n− 1)s20 − nρ(x−m)2) dx1 . . . dxn = 0, d’où Eθ((1 + 2nρ(X −m)2)U) ≡ 0 et Eθ((X −m)2U) ≡ 0. Dérivant (8.8) en ρ, on a, pour tous tous m, ρ,∫ U(x1, . . . , xn)((n−1)s20 +n(x−m)2) exp(−ρ(n−1)s20−nρ(x−m)2) dx1 . . . dxn = 0 i.e. Eθ(U((n − 1)s2 + n(X −m)2)) ≡ 0 où s2 = 1n−1 ∑n k=1(Xk − X)2. On a vu que Eθ((X −m)2U) ≡ 0, on a donc Eθ(Us2) ≡ 0. On sait (8.1.2) que s2 est un e.s.b. de σ2, c’est donc un e.s.b.v.m. (prop.8.2.4). 8.2.5. Consistance. Soit (X ,A, (Pθ)θ∈Θ) un modèle statistique. Définition 8.2.5. Une suite Tn d’estimateurs de f(θ) est dite consistante si, pour tout θ ∈ Θ, Tn →n f(θ) Pθ p.s. Il est clair que cette définition a un sens si f est à valeurs Rp et alors Tn est une suite d’applications de X dans Rp. Elle est surtout utile pour un modèle statistique associé (voir la def. 8.1.8) à un échantillon de taille infinie X1, . . . , Xn, . . . d’une loi µθ et des estimateurs Tn de la forme Tn = φn(X1, . . . , Xn). Par exemple, si µ est une loi sur R admettant un moment d’ordre 2, Xn et sn sont des estimateurs consistants de la moyenne et la variance de µ. 106 Notions de statistique 8.2.6. Méthode des moments. Soient (µθ, θ ∈ Θ) une famille de probabilités sur Rd, (X ,A, (Pθ)θ∈Θ) le modèle statistique associé à un échantillon de taille infinie de µθ (def. 8.1.8) et f : Θ → Rp. On veut estimer f(θ). On considère des fonctions g1, . . . gr de Rd dans R telles que, pour tout θ ∈ Θ et pour i = 1, . . . , r, Eθ(|gi(X1)|) < +∞ et on pose mi(θ) = Eθ(gi(X1)). On suppose que f(θ) peut s’écrire f(θ) = φ(m1(θ), . . . ,mr(θ)) avec φ continue. D’après la loi forte des grands nombres, pour tout θ ∈ Θ, pour i = 1, . . . , r, m̂ni = 1 n n∑ k=1 gi(Xk) →n mi(θ) Pθ p.s.. Donc, si on pose, Tn = φ(m̂n1 , . . . , m̂ n r ), (8.10) pour tout θ ∈ Θ, Tn →n f(θ), Pθ p.s. i.e. Tn est une suite consistante d’estimateurs de f(θ). Donc, si n est asez grand, on peut utiliser Tn comme estimateur de f(θ). Si d = 1, on peut choisir g1(u) = u, g2(u) = u2 . . . , gr(u) = ur et l’on a mi(θ) = Eθ(Xr1) d’où le nom de méthode des moments. Exemple 1. Soit X1, . . . , Xn un n-échantillon de la loi sur R+ G(a, c), θ = (a, c) inconnu. On a (voir 4.3.1.d): m1(θ) = Eθ(X1) = a c , m2(θ) = Eθ(X21 ), σ2(θ) = Varθ(X1) = m2(θ)− (m1(θ))2 = a c2 . Donc a = (m1(θ))2 σ2(θ) , c = m1(θ) σ2(θ) . On a m̂1 = 1n ∑n k=1Xk = X, m̂2 = 1 n ∑n k=1X 2 k et, posant σ̂2 = m̂2 − (m̂1)2 = 1 n n∑ k=1 X2k − (X)2 = 1 n n∑ k=1 (Xk −X)2, on obtient comme estimateurs de a et c: â = (X)2 σ̂2 , ĉ = X σ̂2 . Exemple 2. Soit X1, . . . , Xn un n-échantillon de la loi sur R de densité qθ donnée par qθ(x) = θ q1(x) + (1− θ) q2(x), où q1 et q2 sont des densités connues et θ ∈ [0, 1] un paramètre inconnu qu’on veut estimer. Soit (∆i, i = 1, . . . , r) une partition de R en intervalles. On pose µi,1 = ∫ ∆i q1(u) du, µi,2 = ∫ ∆i q2(u) du 107 et on suppose µi,1 6= µi,2 pour tout i. On choisit gi(u) = 1{u∈∆i} et on a mi(θ) = Pθ(X1 ∈ ∆i) = θµi,1 + (1− θ)µi,2. Il y a de multiple façon d’exprimer θ comme fonction des mi(θ) puisque, pour chaque i, θ = mi(θ)−µi,2µi,1−µi,2 . On choisit θ = 1 r r∑ k=1 mi(θ)− µi,2 µi,1 − µi,2 . On obtient alors comme estimateur de θ: θ̂ = 1 r r∑ k=1 m̂i − µi,2 µi,1 − µi,2 , m̂i = 1 n n∑ k=1 1{Xk∈∆i}. 8.2.7. Méthode du maximum de vraisemblance. Considérons le modèle statistique suivant. X = {x1, x2}, Θ = {θ1, θ2}, Pθ1(x1) = 1 100 , Pθ1(x2) = 99 100 , Pθ2(x1) = 99 100 , Pθ2(x2) = 1 100 . On tire un point de X selon Pθi , i = 1, 2, inconnu. Supposons qu’on obtienne x1. Il est naturel d’estimer θ par θ2. Qu’a-t-on fait ? On a comparé Pθ1(x1) = 1100 et Pθ2(x1) = 99100 et on a choisi la valeur de θ rendant maximum la fonction θ 7→ Pθ(x1). C’est le principe de la méthode du maximum de vraisemblance. Soit (X ,A, (Pθ)θ∈Θ) un modèle statistique. On suppose qu’il existe une mesure σ-finie µ sur (X ,A) telle que, pour tout θ, Pθ = fθ.µ et on pose L(x; θ) = fθ(x). (8.11) La fonction θ 7→ L(x; θ) s’appelle la fonction de vraisemblance associée à x. Définition 8.2.6. Soit T : X → Θ. On dit que T est un estimateur du maximum de vraisemblance de θ (en abrégé e.m.v.) si, pour tout x ∈ X , L(x;T (x)) = sup θ∈Θ L(x; θ). (8.12) Pour calculer un e.m.v., on est donc amené à chercher, pour tout x ∈ X , pour quelle(s) valeur(s), θ 7→ L(x; θ) ou, ce qui revient au même, θ 7→ logL(x; θ) est maximum. Si Θ est un ouvert de Rd, si L(x; θ) → 0 lorsque θ tend vers le bord de Θ et si L est dérivable en θ, ces valeurs sont à chercher parmi les solutions de ∂ ∂θi logL(x; θ) = 0, i = 1, . . . , d. (8.13) 110 Notions de statistique Définition 8.3.3. Soient X et Y deux v.a.r. indépendantes avec X ∼ N1(0, 1) et Y ∼ χ2n. On appelle loi de Student à n degrés de liberté et on note tn la loi de T = X√ Y/n . Un calcule facile montre que la loi tn a pour densité: h(t) = Γ(n+12 )√ n+ 1 Γ(n2 ) (1 + t2 n )− n+1 2 (8.15) Théorème 8.3.4. Soit X1, . . . , Xn un n-échantillon de N1(m,σ2). Alors X et s2 définis par (8.4) et (8.5) sont indépendants, X ∼ N1(m, σ 2 n ) et (n− 1) s2 σ2 ∼ χ2n−1. En particulier √ n X−ms ∼ tn−1. Preuve: A. On suppose m = 0 et σ2 = 1. Alors X = (X1, . . . , Xn) ∼ Nn(0, In). Soient A une matrice orthogonale n× n de la forme A =  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1√ n 1√ n . . . 1√ n  et Y = (Y1, . . . , Yn) = AX. On a Y ∼ Nn(0, In) puisque K(Y ) = AK(X)AT = AAT = In, Yn = 1√n(X1 + . . .+Xn) = √ nX et, vu que ||X||2 = ||AX||2 = ||Y ||2, (n− 1)s2 = n∑ k=1 (Xk −X)2 = n∑ k=1 X2k − n(X)2 = n∑ k=1 Y 2k − Y 2n = n−1∑ k=1 Y 2k . Ceci implique queX = 1√ n Yn ∼ N1(0, 1√n) et est indépendant de (n−1)s 2 = ∑n−1 k=1 Y 2 k qui suit χ2n−1. B. On revient au cas général. On pose Zk = σ−1(Xk −m). Alors Z = (Z1, . . . , Zn) un n-échantillon de N1(0, 1), X = m+ σZ et (n− 1)s2X = n∑ k=1 (Xk −X)2 = σ2 n∑ k=1 (Zk − Z)2 = σ2(n− 1)s2Z . D’où √ n X−mσ ∼ N1(0, 1), (n − 1) s2 σ2 ∼ χ2n−1 et sont indépendants. Appliquant la def. 8.3.3, on obtient la dernière affirmation.  Application. Soit X1, . . . , Xn un n-échantillon de N1(m,σ2), θ = (m,σ2) inconnu. On cherche des intervalles de confiance pour m et σ2. 111 (i) On choisit c = c(α) tel que P(|T | < c) = 1−α où T ∼ tn−1. Alors (th.8.3.4), pour tout θ = (m,σ2), Pθ( √ n |X −m s | < c) = Pθ(m ∈ ]X − cs√ n ,X + cs√ n [) = 1− α. (ii) On choisit a < b tels que P(a < Y < b) = 1 − α où Y ∼ χ2n−1. Alors (th.8.3.4), pour tout θ = (m,σ2), Pθ(a < (n− 1) s2 σ2 < b) = Pθ(σ2 ∈ ] (n− 1)s2 b , (n− 1)s2 a [) = 1− α. 8.3.4. Intervalle de confiance asymptotique. Un intervalle de confiance asymptotique de niveau 1− α pour f(θ) est une suite de familles d’intervalles (In(x), x ∈ X ) telle que, pour tout θ, Pθ(f(θ) ∈ In(X) ) →n 1− α. Pour construire de tels intervalles, on peut utiliser (rappelons que Xn et sn ont été définis en (8.4) et (8.5)): Proposition 8.3.5. Soit (Xn, n ≥ 1) une suite de v.a.r. de carré intégrable indépendantes et de même loi. On pose m = E(X1), σ2 = Var(X1) qu’on suppose > 0. Alors√ n Xn−msn 1{sn>0} converge en loi vers N1(0, 1). Preuve: On a √ n Xn −m sn 1{sn>0} = √ n Xn −m σ . σ sn 1{sn>0}. D’une part √ n Xn−mσ converge en loi vers N1(0, 1) (th. 7.3.1). D’autre part sn →n σ p.s. (8.1.3) et donc σsn 1{sn>0} →n 1 p.s. On conclut par la prop. 7.2.7.  Soit (Xn, n ≥ 0) un échantillon de taille infinie d’une loi µ sur R de densité q de moyenne m avec ∫ x2 dµ(x) < +∞. On a alors P(X1 = X2) = 0 et, a fortiori, P (sn > 0) = 1. On choisit c = c(α) tel que (2π)−1/2 ∫ c −c e −t2/2 dt = 1 − α. Donc, vu les prop. 8.3.5 et 7.2.4, P( √ n |Xn −m| sn < c) = P(m ∈ ]Xn − csn√ n ,Xn + csn√ n [ ) →n 1− α. On a construit un intervalle de confiance asymptotique de niveau 1− α pour m. 8.4. Tests 8.4.1. Généralités. Soit (X ,A, (Pθ)θ∈Θ) un modèle statistique. On suppose que Θ = H0 ∪H1 avec H0 ∩H1 = ∅. Il s’agit, à la vue du point x tiré selon Pθ, θ inconnu, de décider si θ ∈ H0 ou non. Cela s’appelle tester l’hypothèse H0 contre l’hypothèse H1. Un test de H0 contre H1 est donc un sous-ensemble W de X , appelé région critique 112 Notions de statistique ou région de rejet. Si le point tiré x appartient à W , on rejette l’hypothèse H0, si x /∈W , on l’accepte. Il y a deux types d’erreur. (i) Si θ ∈ H0, Pθ(W ) représente la probabilité de rejeter à tort H0, c’est l’erreur de première espèce. (ii) Si θ ∈ H1, Pθ(W c) = 1 − Pθ(W ) représente la probabilité d’accepter à tort H0, c’est l’erreur de deuxième espèce. Dans la théorie classique des tests, on fixe un seuil maximum à l’erreur de première espèce à savoir 0, 1, 0, 05, 0, 01 . . . ce qui conduit à la définition: Définition 8.4.1. Soit W la région critique d’un test de H0 contre H1. La quantité α = α(W ) = sup θ∈H0 Pθ(W ) (8.16) s’appelle le niveau du test. La fonction de H1 dans [0, 1], θ 7→ Pθ(W ), s’appelle la fonction puissance du test. Le niveau étant fixé, il s’agit de trouver des régions W telles que, pour θ ∈ H1, Pθ(W ) soit le plus grand possible. Comme en estimation, il est quasiment impossible de trouver un test optimal si on ne restreint pas la classe considérée. Définition 8.4.2. Soit W la région critique d’un test de H0 contre H1. On dit que le test est sans biais au seuil α s’il est de niveau inférieur ou égal à α et si, pour tout θ ∈ H1, Pθ(W ) ≥ α. Définition 8.4.3. Un test de région critique W de niveau α de H0 contre H1 est dit uniformément plus puissant sans biais (en abrégé U.P.P.S.B.) s’il est sans biais au seuil α et si, pour tout test de région critique W ′ sans biais au seuil α de H0 contre H1, on a, pour tout θ ∈ H1, Pθ(W ) ≥ Pθ(W ′). Terminons ces généralités par un mot de la théorie asymptotique. Définition 8.4.4. Une suite de tests de H0 contre H1 de région critique Wn est dite consistante de niveau asymptotique α si, pour tout θ ∈ H0, Pθ(Wn) →n α et si, pour tout θ ∈ H1, Pθ(Wn) →n 1. 8.4.2. Le lemme de Neyman-Pearson. Dans le cas d’hypothèses simples i.e. réduites à un point, il est facile d’avoir un test optimal. Lemme 8.4.5. On suppose Θ = {θ0, θ1} et Pθ0 = h0.µ, Pθ1 = h1.µ. Alors W = {x, h1(x) ≥ λh0(x)} est, pour tout λ > 0, la région critique de θ = θ0 contre θ = θ1 le plus puissant à son niveau. 115 Les vecteurs aléatoires U1, . . . , Un, . . . sont indépendants de même loi avec E(U1) = 0 et un calcul facile montre que K(U1) = Ir − aaT, aT = ( √ p1 . . . √ pr). Le th. 7.3.1 implique que 1√ n ∑n k=1 Uk converge en loi vers Nr(0, Ir − aaT). Alors (prop. 7.2.3) Tn = | 1√nUn| 2 converge en loi vers |Y |2 où Y ∼ Nr(0, Ir − aaT). Vu que |a| = 1, il existe une matrice A orthogonale r× r telle que Aa = (0 . . . 01)T et posons Z = AY . On a K(Z) = AK(Y )AT = Ir − (Aa)(Aa)T = ( Ir−1 0 0 0 ) et |Y |2 = |Z|2 ∼ χ2r−1. (ii) Supposons π 6= p. D’après la loi des grands nombres, N j n n − pj →n πj − pj qui est 6= 0 pour au moins un j et Tn →n +∞ p.s.  Considérons maintenant la région critique Wn = {Tn ≥ c} où c = c(α) est tel que P(X ≥ c) = α, X ∼ χ2r−1. On a, vu les prop. 8.4.7 et 7.2.4, Pp(Wn) →n α et, pour π 6= p, Pπ(Wn) →n 1. On a construit un test consistant de niveau asymptotique α (def. 8.4.4) de H0 : π = p contre H1; π 6= p. Ce test est susceptible de nombreuses généralisations pour lesquelles nous ren- voyons aux ouvrages spécialisés. Par exemple, soit X1, . . . , Xn un échantillon d’une loi µ inconnue sur (E, E). On veut tester µ = µ0 contre µ 6= µ0, µ0 probabilité donnée. On peut partager E en r ensembles disjoints E1, . . . , Er d’union E (on a intérêt à choisir µ0(Ej) voisin de 1r ) et tester à l’aide du test précédent H0 : µ(Ej) = µ0(Ej) pour j = 1, . . . , r contre H1 : µ(Ej) 6= µ0(Ej) pour au moins un j. 116 Notions de statistique Annexe A Index des notations 1.2.3 renvoie chapitre 1, section 2, sous-section 3. AT (A matrice) 4.5.1 . F∞(X) 6.2.1 1A 3.1.5 Ac 1.1.2 gσ(x) 5.1.2 gX 2.3.1 B(n, p) 2.2.5 G(a, c) 4.3.1 B 3.2.2 G(a) 2.2.5 [B], bB, B+ 3.1.5 B(R) 3.1.2 h.µ 3.4.3 B(R) 3.1.2 B(R+) 3.1.2 J(φ) 4.6.2 B1 ⊗ B2 3.5.1 K(X) 4.5.3 C0 3.5.5 Cb 7.1 lim supAn 4.1.3 Ck 3.5.5 lim sup fn 3.1.4 C∞k 3.5.5 lim inf fn 3.1.4 Cov(X,Y ) 4.4.3 Lp, LpC 3.3.5 Lpd 4.5.1 E 4.2.3 L(x; θ) 8.2.7 Eθ 8.1.4 Lp 3.3.5 e.s.b. 8.2.1 e.s.b.v.m. 8.2.1 M rn 8.1.3 eB+ 3.1.5 M1 7.1 Mb 5.1.2 FX 4.3.2
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved