Download Compte rendu du canal génital de Paris en and more Schemes and Mind Maps Compiler Construction in PDF only on Docsity! Analyse de la variance M2 Statistiques et Econométrie Fanny MEYER Morgane CADRAN Margaux GAILLARD Analyse de la variance Plan du cours I. Introduction II. Analyse de la variance à un facteur III. Analyse de la variance à deux facteurs IV. Analyse de la covariance V. Problèmes spécifiques Analyse de la variance à un facteur Présentation des données : Plantation d’arbres dans 3 forêts Comparaison de la hauteur des arbres Analyse de la variance à un facteur Présentation des données : Les forêts : Variable qualitative contenant trois modalités, appelée facteur (à effets fixes). Hauteur des arbres : Réponse, notée Y. L’analyse de variance à un facteur teste l’effet d’un facteur contrôlé A ayant p modalités sur les moyennes d’une variable quantitative Y. Analyse de la variance à un facteur Les échantillons sont de même taille => expérience équilibrée. Moyenne de chaque échantillon : Variance de chaque échantillon : .,...,1 ,)²( 1 )(² 1 Iiyy J ys i J j iji .,...,1 , 1 1 Iiy J y J j iji Analyse de la variance à un facteur Modèle: et Test de comparaison des moyennes : Hypothèse nulle (H0) : Contre (H1) : Les ne sont pas tous égaux. => Utilisation de l’analyse de la variance à un facteur. ,ijiijy Ii ,...1 Jj ,...,1 I...21 i Analyse de la variance à un facteur II. Analyse de la variance à un facteur 1) Modèle 2) Vérification des conditions 3) Anova 4) Comparaisons multiples Analyse de la variance à un facteur Les trois conditions pour l’ANOVA: 1. Les p échantillons comparés sont indépendants. 2. La variable quantitative étudiée suit une loi normale dans les p populations comparées. 3. Les p populations comparées ont même variance : Homogénéité des variances ou homoscédasticité. Analyse de la variance à un facteur 3. Homogénéité : Test de Bartlett : Comparaison multiple de variances (H0) : (H1) : les ne sont pas toutes égales Statistique de test : avec et suit une loi du Khi-Deux à I-1 ddl. Décision : Si < c (H0) vraie I² I²...²² 21 )]²ln()1()²ln()1[( 1 , 1 ic I i iRobs snsn C B ) 1 1 ) 1 1 (( )1(3 1 1 1 nnI C I i i obsB obsB Analyse de la variance à un facteur Retour à l’exemple : Normalité (Shapiro) : nombre d'observations trop faible pour tester sur chaque forêt donc on va tester sur tout l'échantillon. p-value = 0.882 > 0.05 donc on accepte H0 => normalité. Homogénéité (Bartlett) : nombre d'observations trop faible pour tester sur chaque forêt donc on va tester sur tout l'échantillon. p-value = 0.2432 donc on accepte H0 => homogénéité des variances Test de Bartlett B=2.8279 Df=2 P-value= 0.2432 Test de Shapiro-Wilk W=0.9748 P-value=0.882 Analyse de la variance à un facteur II. Analyse de la variance à un facteur 1) Modèle 2) Vérification des conditions 3) Anova 4) Comparaisons multiples Analyse de la variance à un facteur RFtot SCSCSC Variation totale : dispersion des données autour de la moyenne générale. Variation résiduelle : dispersion des données à l’intérieur de chaque échantillon autour de sa moyenne. Variation due au facteur : dispersion des moyennes autour de la moyenne générale. Analyse de la variance à un facteur Retour à l’exemple : (calculs avec R) Sc_tot = 51.31 SC_F = 31.88 SC_R = 19.43 On retrouve bien la relation précédente. Analyse de la variance à un facteur 1I SC CM F F 1n SC CM R R FSC FSC RSC RSC (H0) : (H1) : Les ne sont pas tous égaux. Si (H0) est vraie alors la variation due au facteur doit être petite par rapport à la variation résiduelle . Par contre, si (H1) est vraie alors la variation due au facteur doit être grande par rapport à la quantité . Pour comparer ces quantités, Fisher a considéré le rapport des carrés moyens. Carré moyen associé au facteur : Carré moyen résiduel : => estimateur sans biais de la variance des erreurs qu’on appelle variation résiduelle notée aussi Sr². I...21 i Analyse de la variance à un facteur Tableau de l’ANOVA : Application à notre exemple : p-value < 0.05 donc les hauteurs moyennes sont significativement différentes dans chaque forêt. Variation SC ddl CM Fobs Fc Due au facteur 2 0.0007 Résiduelle 15 Totale 17 Analyse de la variance à un facteur II. Analyse de la variance à un facteur 1) Modèle 2) Vérification des conditions 3) Anova 4) Comparaisons multiples Analyse de la variance à un facteur But : classer les traitements par groupes qui sont significativement différents. Test de Tukey : test de la différence franchement significative (HSD= honestly significative difference) S'applique sur un facteur si : - Les 3 conditions fondamentales sont vérifiées, - Le facteur est à effet fixe, avec au moins 3 modalités, - Le facteur a un effet significatif sur la réponse. Analyse de la variance à deux facteurs III. Analyse de la variance à deux facteurs 1) Modèle 2) Vérification des conditions 3) Anova 4) Comparaisons multiples 5) Facteurs sans répétitions Analyse de la variance à deux facteurs Variables étudiées : - facteur à I modalités - facteur à J modalités - variable quantitative Y Dans la population correspondant à la modalité d’ordre i du premier facteur et à la modalité d’ordre j du deuxième facteur : pour i=1,...,I et j=1,...,J. Analyse de la variance à deux facteurs Echantillons indépendants de même taille K de la variable Y dans chacune des IJ populations, soit au total un n-échantillon avec n = IJK. Modèle : pour tout i=1,...,I ; j=1,...,J ; k=1,...,K sous contraintes: Hypothèse : Analyse de la variance à deux facteurs I=4, J=5, K=2 → échantillon de n=40 observations. Machines à écrire Secrétaires 1 2 3 4 5 1 33 31 34 34 31 36 31 36 33 31 2 32 37 39 33 35 35 35 36 36 36 37 35 34 31 37 39 35 37 35 39 4 29 31 33 31 33 31 33 34 27 33 3 Analyse de la variance à deux facteurs But : analyser l'influence de la machine à écrire et de la secrétaire sur le nombre moyen de mots tapés en une minute. Analyse de la variance à deux facteurs Représentation graphique des interactions : Le nombre moyen de mots tapés en une minute sur les machines diffère avec les secrétaires, et vice versa. Analyse de la variance à deux facteurs Exemple : 1) Indépendance Les données sont indépendantes. 2) Normalité des résidus > mod.int=lm(mots~machine*secretaire,data=texte) > residus=residuals(mod.int) > shapiro.test(residus) Ici on accepte H0 car p-value > 0,05 donc les résidus sont normaux. Shapiro-Wilk normality test data: residus W = 0.9464 p-value = 0.05702 Analyse de la variance à deux facteurs Exemple : 3) Homoscédasticité > bartlett.test(residus~machine,data=texte) > bartlett.test(residus~secretaire,data=texte) Ici les p-value > 0,05 donc on accepte H0. Ainsi les variances des machines et des secrétaires sont homogènes. Ces deux résultats ne nous garantissent pas l'égalité des 20 (4*5) variances théoriques mais sont de bons indicateurs pour l'homoscédasticité. Bartlett test of homogeneity of variances data: residus by machine Bartlett's K-squared = 1.8254 df = 3 p-value = 0.6094 data: residus by secretaire Bartlett's K-squared = 8.9698 df = 4 p-value = 0.06186 Analyse de la variance à deux facteurs III. Analyse de la variance à deux facteurs 1) Modèle 2) Vérification des conditions 3) Anova 4) Comparaisons multiples 5) Facteurs sans répétitions Analyse de la variance à deux facteurs Equation d'analyse de la variance : dispersion due aux fluctuations individuelles mesure l'effet du premier facteur mesure l'effet du second facteur mesure l'effet de l'interaction entre les deux facteurs Analyse de la variance à deux facteurs Propriété sur les lois des statistiques : H0, sous ~ )1( )1( )1(),1( KIJI RR F CM CM KIJSC ISC H0, sous ~ )1( )1( )1(),1( KIJJ RR F CM CM KIJSC JSC H0. sous ~ )1( )1)(1( )1(),1)(1( KIJJI RR F CM CM KIJSC JISC Analyse de la variance à deux facteurs Tableau de l'ANOVA : Quand nous décidons H1, le facteur a un effet significatif sur la réponse. Variation SC ddl CM F_obs F_c Due à I-1 Due à J-1 Due à (I-1)(J-1) Résiduelle IJ(K-1) Totale n-1 Analyse de la variance à deux facteurs III. Analyse de la variance à deux facteurs 1) Modèle 2) Vérification des conditions 3) Anova 4) Comparaisons multiples 5) Facteurs sans répétitions Analyse de la variance à deux facteurs Comparaisons multiples : Lorsque l’effet d’un facteur a été mis en évidence : le test de Tukey s’applique. Si le nombre d’observations le permet. L'objectif est de comparer les moyennes de la variable réponse dans les différents groupes. Analyse de la variance à deux facteurs Exemple : > mod = aov(mots~machine*secretaire, data=texte) > TukeyHSD(mod, "machine", ordered = TRUE) Le nombre de mots tapés en une minute n'est en moyenne pas significativement différent pour les machines 1 et 4, ainsi que pour les machines 2 et 3. Tukey multiple comparisons of means 95% family-wise confidence level factor levels have been ordered $ machine diff lower upper p adj 1-4 1,5 -0,52 3,52 0,1936 2-4 3,9 1,88 5,92 0,0001 3-4 4,4 2,38 6,42 0,00003 2-1 2,4 0,38 4,42 0,0163 3-1 2,9 0,88 4,92 0,0034 3-2 0,5 -1,52 2,52 0,8984 Analyse de la variance à deux facteurs Facteurs sans répétition : deux facteurs à, respectivement, I et J modalités et une seule observation pour chaque population, c’est à dire K = 1. Les résultats précédents ne sont plus valables. Nous devons supposer que l’interaction entre les deux facteurs est nulle. Modèle additif : avec les contraintes Analyse de la variance à deux facteurs Equation d'analyse de la variance : La somme des carrés correspondant à l’interaction est associée ici à la somme des carrés de la résiduelle. Les valeurs ajustées sont données par : Les résidus sont donnés par : pour i=1,...,I et j=1,...,J. Analyse de la variance à deux facteurs Exemple : Expérience : traitement à base de vitamine B12 sur des animaux de races différentes Premier facteur : 3 races d'animaux notées Second facteur : 3 doses du traitement notées (5, 10 et 15 μg par ) Variable quantitative : = gain moyen de poids par jour à l’issue d’un traitement de 50 jours. Un seul animal est utilisé pour chaque couple «race- traitement» → K=1. iR jD 3cm ijY Analyse de la variance à deux facteurs Exemple : Vérification des conditions fondamentales : Normalité : test de Shapiro p-value = 0.9632 donc OK Homoscédasticité : test de Bartlett par race : p-value = 0.1961 par dose: p-value = 0.5822 donc les variances sont homogènes. OK Indépendance : les données sont indépendantes. OK Tester l’effet des facteurs race et dose par Anova : Fisher race : p-value = 0.029 < 0.05 donc la race a un effet significatif sur le gain de poids. Fisher dose : p-value = 0.088 > 0.05 donc la dose n’a pas d’effet significatif sur le gain de poids. Analyse de la variance à deux facteurs Exemple : Comparaisons multiples : par race Les gains de poids moyens des races 2 et 3 ne sont significativement pas différents. Tukey multiple comparisons of means 95% family-wise confidence level factor levels have been ordered Fit: aov(formula = gain ~ race + dose, data = poids) $race diff lower upper p adj 2-3 0.023 -0.058 0.104 0.6040 1-3 0.097 0.015 0.178 0.0288 1-2 0.073 -0.008 0.155 0.0687 Analyse de la covariance IV. Analyse de la covariance 1) Présentation 2) Modèle 3) Procédure d’analyse 4) Exemple d’application Analyse de la Covariance Modèle Illustration Graphique : modèle avec 1 facteur à 2 modalités et 1 covariable Réponse Covariable Modalité 1 Modalité 2 Réponse Covariable Modalité 1 Modalité 2 yij i ijyij ij -> Les moyennes entre les deux modalités ne sont pas significativement différentes. -> La covariable n’a pas d’effet significatif. -> Les moyennes entre les deux modalités sont significativement différentes. -> La covariable n’a pas d’effet significatif. ANOVA Analyse de la Covariance Modèle Illustration Graphique : modèle avec 1 facteur à 2 modalités et 1 covariable yij i ixij ijyij i xij ij -> La covariable a un effet significatif, mais n’influe pas différemment selon le niveau. ANCOVA Réponse Covariable Modalité 1 Modalité 2 Réponse Covariable Modalité 1 Modalité 2 -> La covariable a un effet significatif, et influe différemment selon le niveau. Analyse de la covariance IV. Analyse de la covariance 1) Présentation 2) Modèle 3) Procédure d’analyse 4) Exemple d’application Analyse de la Covariance Procédure d’analyse Modèle 1: Modèle 2: Modèle 3: 1ère hypothèse à tester sur la covariable: H0 : 1 2 ... k 0 H1 :au moins des i est différent de 0 yij i ixij ij yij i ij yij i xij ij Statistique de test: SCmodèle 3 SCmodèle 1 k SCmodèle 1 n 2k : F(k,n 2k) sous H0 retourDiapositive 68 Analyse de la Covariance Procédure d’analyse Modèle 1: Modèle 2: Modèle 3: 2ème hypothèse à tester sur la covariable: H0 : 1 2 ... k H1 :au moins des i est différent des autres yij i ixij ij yij i ij yij i xij ij Statistique de test: SCmodèle 2 SCmodèle 1 k 1 SCmodèle 1 n 2k : F(k 1,n 2k) sous H0 retour Analyse de la Covariance Procédure d’analyse Modèle 1: Modèle 2: Modèle 3: Hypothèse à tester sur les modalités: H0 : 1 2 ... k (où x 0) H1 :au moins des i est différent des autres (où x 0) yij i ixij ij yij i ij yij i xij ij La statistique de test est identique à celle de l’ANOVA. retour Analyse de la Covariance Exemple d’application poids_ gainij régimei poids_ iniixij ij poids_ gainij régimei ij On teste si la covariable a une influence: Analyse de la Covariance Exemple d’application > lm1 = lm (poids_gain ~ regime) > lm2 = lm (poids_gain ~ regime + poids_ini +regime:poids_ini) > anova(lm1,lm2) Analysis of Variance Table Model 1: poids_gain ~ regime Model 2: poids_gain ~ regime + poids_ini + regime:poids_ini Res Df RSS Def Sum of Sq F value Pr(>F) 1 14 5.10 2 12 1.29 2 3.81 17.66 0.000265 Ici la p-value < 0,05 donc on décide H1 → Ainsi le poids initial (la covariable) une influence significative sur le gain de poids. Analyse de la Covariance Exemple d’application On teste si les pentes sont toutes égales : poids_ gainij régimei poids_ ini xij ijpoids_ gainij régimei poids_ iniixij ij Analyse de la Covariance Exemple d’application > lm3 = lm (poids_gain ~ regime+ poids_ini) > lm4 = lm (poids_gain ~ poids_ini) > anova(lm4,lm3) Analysis of Variance Table Model 1: poids_gain ~ regime Model 2: poids_gain ~ regime+ poids_ini Res Df RSS Def Sum of Sq F value Pr(>F) 1 14 5.10 2 13 1.31 1 3.79 37.49 3.643e-05 Ici la p-value < 0,05 donc on décide H1 → Ainsi les régimes ont des effets significativement différents. On retient le modèle final: poids_ gainij régimei poids_ ini xij ij Analyse de la variance Problèmes spécifiques V. Problèmes spécifiques 1) Hypothèses non vérifiées 2) Modèles à plus de deux facteurs 3) Effets aléatoires Analyse de la variance Problèmes spécifiques Et si les hypothèses ne sont pas vérifiées? Transformation de la variable Y Par exemple : log, puissance Test non paramétrique Par exemple: Kruskal-Wallis ! Attention aux valeurs extrêmes ou aberrantes qui peuvent fausser les tests. Analyse de la variance Problèmes spécifiques V. Problèmes spécifiques 1) Hypothèses non vérifiées 2) Modèles à plus de deux facteurs 3) Effets aléatoires Analyse de la variance Problèmes spécifiques Effets fixes : Traitements déterminés par l’expérimentateur Modèle : Effets aléatoires : Pas sous le contrôle de l’expérimentateur Modèle : avec Différences : - Formulation du modèle - Effets que l’on peut « généraliser » à la population apparente ijiijY ijiijY ),0(~ 2Ni