Docsity
Docsity

Prépare tes examens
Prépare tes examens

Étudies grâce aux nombreuses ressources disponibles sur Docsity


Obtiens des points à télécharger
Obtiens des points à télécharger

Gagnz des points en aidant d'autres étudiants ou achete-les avec un plan Premium


Guides et conseils
Guides et conseils

Analyse de corrélation, Slides de Calcul

3.3 Comparaison de 2 coefficients de corrélation (même échantillon) - Cas 1 . ... Au bas de la feuille de calcul, en colonne C et D nous avons la moyenne de ...

Typologie: Slides

2021/2022

Téléchargé le 03/08/2022

Henriette_90
Henriette_90 🇫🇷

4.3

(51)

97 documents

Aperçu partiel du texte

Télécharge Analyse de corrélation et plus Slides au format PDF de Calcul sur Docsity uniquement! Ricco Rakotomalala Analyse de corrélation Étude des dépendances - Variables quantitatives Version 1.1 Université Lumière Lyon 2 Page: 1 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 Page: 2 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 Table des matières Partie I Analyse de Corrélation 1 Liaison entre 2 variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1 Objectif : analyser la liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Analyse graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 Coecient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Coecient de corrélation de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3 Coecient de corrélation empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.4 Test de signicativité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.5 Test de conformité et intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.6 Problèmes et cas pathologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3 Tests de comparaison de corrélations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.1 Comparaison de 2 coecients de corrélation (échantillons indépendants) . . . . . . . . . . . . . . . 25 3.2 Comparaison de K (K ≥ 2) coecients (échantillons indépendants) . . . . . . . . . . . . . . . . . . . 27 3.3 Comparaison de 2 coecients de corrélation (même échantillon) - Cas 1 . . . . . . . . . . . . . . . 29 3.4 Comparaison de 2 coecients de corrélation (même échantillon) - Cas 2 . . . . . . . . . . . . . . . 30 3.5 Test de nullité des corrélations croisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.6 Comparaison de 2 matrices des corrélations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.7 Commentaires sur la comparaison des coecients de corrélations . . . . . . . . . . . . . . . . . . . . . 38 4 Variations autour de la corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.1 Corrélation bisériale ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.2 Corrélation mutuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.3 Le coecient ϕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.4 ρ de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.5 τ de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Page: 5 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 6 Table des matières 4.6 Rapport de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Partie II Corrélations partielles et semi-partielles 5 Corrélation partielle paramétrique et non paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.1 Principe de la corrélation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.2 Corrélation partielle d'ordre 1 basé sur le r de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.3 Corrélation partielle d'ordre p (p > 1) basé sur le r de Pearson . . . . . . . . . . . . . . . . . . . . . . . 74 5.4 Corrélation partielle sur les rangs - ρ de Spearman partiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 6 Corrélation semi-partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.1 Principe de la corrélation semi-partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.2 Calcul et inférence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.3 Corrélation semi-partielle d'ordre p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 A Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 B Fichier de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 C L'analyse de corrélation avec Tanagra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 D L'analyse de corrélation avec R - Package 'psych' . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Littérature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Page: 6 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 Partie I Analyse de Corrélation Page: 1 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 4 1 Liaison entre 2 variables quantitatives Fig. 1.1. Quelques types de liaisons entre 2 variables  Liaison linéaire négative. X et Y évoluent en sens inverse. La pente est inchangée quelle que soit la valeur de X.  Liaison monotone positive non-linéaire. X et Y évoluent dans le même sens, mais la pente est diérente selon le niveau de X.  Liaison non-linéaire non-monotone. Il y a une relation fonctionnelle (de type sinusoïdale ici) entre X et Y . Mais la relation n'est pas monotone, Y peut augmenter ou diminuer selon la valeur de X.  Absence de liaison. La valeur de X ne donne indication sur la valeur de Y , et inversement. L'autre situation caractéristique est que X (ou Y ) est constant quelle que soit la valeur de la seconde variable. Page: 4 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 1.3 Notations 5 1.3 Notations Nous utiliserons les conventions suivantes dans ce support :  Une variable est notée en majuscules (X est une variable).  xi correspond à la valeur prise par l'observation numéro i pour la variable X.  La population parente est notée Ωpop.  L'échantillon est noté Ω, l'eectif de l'échantillon est n = card(Ω). Dans le cadre de la corrélation, nous travaillons sur un échantillon de n observations, constituées de couples (xi, yi) c.-à-d. Ω = {(xi, yi), i = 1, . . . , n}.  La moyenne empirique calculée sur l'échantillon est x̄ = 1 n ∑n i=1 xi  L'écart type empirique est sx = √ 1 n ∑n i=1(xi − x̄)2 Page: 5 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 Page: 6 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 2.1 Covariance 9 On montre que c'est un estimateur biaisé de la covariance, en eet E[Ŝxy] = n−1 n COV (X,Y ). L'estimateur sans biais de la covariance 1 s'écrit par conséquent : ˆCOV (X,Y ) = ∑n i=1(xi − x̄)(yi − ȳ) n− 1 = ∑n i=1 xiyi − nx̄ȳ n− 1 (2.4) Détails des calculs sur un exemple. Pour préciser les idées, détaillons les calculs dans le tableur EXCEL. Nous cherchons à calculer la covariance entre la cylindrée et la puissance de 28 véhicules (Figure 2.1) : Fig. 2.1. Détails des calculs - Estimation de la covariance  Au bas de la feuille de calcul, en colonne C et D nous avons la moyenne de chaque variable.  Dans la colonne E, nous calculons le produit (xiyi), dont la somme est 4451219.  Nous pouvons alors former la covariance empirique (formule 2.3), elle est égale à 18381.4133.  L'estimateur sans biais (formule 2.4) étant lui égal à 19062.2063. L'écart entre les deux valeurs s'amenuise à mesure que l'eectif n augmente.  Notons que la fonction "COVARIANCE(...)" du tableur EXCEL fournit la covariance empirique. Comparaison de covariances. Illustrons maintenant l'impossibilité de comparer des covariances lorsque les variables sont exprimées dans des unités diérentes. Nous souhaitons travailler sur un chier de 28 véhicules décrites à l'aide de la cylindrée, la puissance, le poids et la consommation (Figure 2.2 ; ce chier reviendra plusieurs fois dans ce support). 1. Faire le parallèle avec l'estimateur sans biais de la variance Page: 9 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 10 2 Coecient de corrélation Fig. 2.2. Fichier "consommation des automobiles" La covariance empirique de la variable "consommation" avec les autres variables nous donne respec- tivement : cylindrée = 1197.6 ; puissance = 61.7 ; poids = 616.3. Manifestement, les valeurs ne se situent pas sur la même échelle, toute comparaison n'a aucun sens. 2.2 Coecient de corrélation de Pearson 2.2.1 Dénition Le coecient de corrélation linéaire simple, dit de Bravais-Pearson (ou de Pearson), est une norma- lisation de la covariance par le produit des écarts-type des variables. rxy = COV (X,Y )√ V (X)× V (Y ) (2.5) = COV (X,Y ) σx × σy (2.6) Remarque 1 (Précisions sur la notation). Dans ce qui suit, s'il n'y a pas d'ambiguïtés, nous omettrons les indices X et Y . 2.2.2 Propriétés 1. Il est de même signe que la covariance, avec les mêmes interprétations. Page: 10 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 2.3 Coecient de corrélation empirique 11 2. X et Y sont indépendants, alors r = 0. La réciproque est fausse, sauf cas particulier que nous précisons maintenant. 3. Lorsque le couple de variables (X,Y ) suit une loi normale bi-variée, et uniquement dans ce cas, nous avons l'équivalence r = 0 ⇔ X et Y sont indépendants. Dans ce cas, le coecient de corrélation caractérise parfaitement la liaison entre X et Y . Dans les autres cas, le coecient de corrélation constitue une mesure parmi les autres de l'intensité de la corrélation. 4. Le coecient de corrélation constitue une mesure de l'intensité de liaison linéaire entre 2 variables. Il peut être égal à zéro alors qu'il existe une liaison fonctionnelle entre les variables. C'est le cas lorsque la liaison est non monotone. 5. La corrélation d'une variable avec elle même est rxx = 1. 2.2.3 Domaine de dénition Le coecient de corrélation est indépendant des unités de mesure des variables, ce qui autorise les comparaisons. La mesure est normalisée, elle est dénie entre 2 −1 ≤ r ≤ +1 (2.7) Lorsque :  r = +1, la liaison entre X et Y est linéaire, positive et parfaite c.-à-d. la connaissance de X nous fournit la valeur de Y (et inversement).  r = −1, la liaison est linéaire et négative. 2.2.4 Quelques exemples graphiques Reprenons les exemples graphiques présentés ci-dessus (section 1.2, gure 1.1), achons maintenant le coecient de corrélation (Figure 2.3). Si la liaison est non monotone, r n'est d'aucune utilité. Si la liaison est monotone mais non linéaire, r caractérise mal l'intensité de la liaison. 2.3 Coecient de corrélation empirique 2.3.1 Dénition Sur un échantillon de taille n, nous estimons le coecient de corrélation à l'aide de la formule suivante (Équation 2.8) : 2. Pour réaliser la démonstration, il faut s'appuyer sur deux pistes V ( X σx + Y σy ) ≥ 0 ⇒ r ≥ −1 V ( X σx − Y σy ) ≥ 0 ⇒ r ≤ +1 Page: 11 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 14 2 Coecient de corrélation Pour cette raison, certains logiciels proposent un coecient de corrélation ajusté 5 ([6], page 274) r̂aj = √ 1− n− 1 n− 2 (1− r̂2) (2.11) Bien entendu, l'ajustement est d'autant plus sensible que l'eectif est faible. Lorsque n est élevé, r̂ et r̂aj se confondent. 2.3.5 Exemples numériques Détails des calculs sur un exemple. Reprenons les variables cylindrée (X) et puissance (Y) de notre chier "voitures". Nous détaillons les calculs dans la feuille EXCEL (Figure 2.4) : Fig. 2.4. Détails des calculs - Estimation de la corrélation  Au bout des colonnes C et D, nous disposons toujours des moyennes empiriques.  Nous formons les quantités (xiyi), x2i et y2i . Nous calculons leurs sommes respectives : 4451219, 102138444 et 197200. 5. Voir le parallèle avec le coecient de détermination ajusté en régression linéaire multiple http://fr. wikipedia.org/wiki/Régression_linéaire_multiple Page: 14 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 2.3 Coecient de corrélation empirique 15  A partir de la formule 2.9, nous obtenons le numérateur = 514679.571 et le dénominateur = 543169.291.  Reste à former le rapport, la corrélation entre la cylindrée et la puissance est r̂ = 0.9475.  La fonction "COEFFICIENT.CORRELATION(...)" du tableur EXCEL propose la même valeur. Nuage de points. Il y a une forte liaison linéaire entre "cylindrée" et "puissance", ce que conrme le graphique nuage de points (Figure 2.5). On notera aussi, et le coecient de corrélation ne sait pas traduire ces informations, que 2 points semblent s'écarter des autres, mais pas de la même manière : Fig. 2.5. Nuage de points "Cylindrée vs. Puissance"  La "Lancia K 3.0 LS" est une grosse cylindrée, très puissante. Elle s'écarte du nuage certes, mais elle est dans la lignée de la liaison entre les deux variables.  La "Hyundai Sonata 3000" est aussi une grosse cylindrée, mais elle est relativement anémique. Le point est un peu à l'écart des autres, tout comme la Lancia, mais elle ne respecte pas, apparem- ment, l'apparente liaison (visuelle et numérique) entre cylindrée et puissance. Si on retire cette observation, la corrélation est renforcée, elle passe à 0.9635. Comparaison de coecients de corrélation. Maintenant, nous pouvons comparer les coecients de corrélation calculés sur diérentes variables. Reprenons notre exemple des voitures, calculons le coe- cient de corrélation de consommation avec les autres variables, nous obtenons respectivement : cylindrée = 0.892, puissance = 0.888 et poids = 0.926. La variable "consommation" est singulièrement corrélée avec l'ensemble des variables. Le lien avec poids semble plus élevé que le lien avec puissance. Mais sans l'arsenal de l'inférence statistique, nous ne pouvons pas armer s'il est signicativement plus élevé que les autres. Page: 15 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 16 2 Coecient de corrélation 2.4 Test de signicativité 2.4.1 Spécications du test Le premier test qui vient à l'esprit est la signicativité de la corrélation c.-à-d. le coecient de corrélation est-il signicativement diérent de 0 ? Le test s'écrit : H0 : r = 0 H1 : r ̸= 0 Remarque 2 (Autres hypothèses alternatives). On peut vouloir dénir une hypothèse alternative diérente (H1 : r < 0 ou H1 : r > 0). Les caractéristiques des distributions restent les mêmes. Pour un risque α donné, seul est modié le seuil de rejet de H0 puisque le test est unilatéral dans ce cas. Test exact. Le test étudié dans cette section est paramétrique. On suppose a priori que le couple (X,Y ) suit une loi normale bivariée 6. Dans ce cas : la distribution sous H0 de la statistique du test que nous présenterons plus bas est exacte ; le test de signicativité équivaut à un test d'indépendance. Test asymptotique. Cette restriction est moins contraignante lorsque n est susamment grand 7. A partir de 25 observations, l'approximation est bonne, même si nous nous écartons (un peu) de la distri- bution normale conjointe ([12], page 308). La distribution est asymptotiquement valable sous l'hypothèse r = 0. Mais le test de signicativité revient simplement à tester l'absence ou la présence de corrélation. Statistique du test. Sous H0, la statistique : t = r̂√ 1−r̂2 n−2 (2.12) suit une loi de Student à (n− 2) degrés de liberté. Région critique. La région critique (rejet de l'hypothèse nulle) du test au risque α s'écrit : R.C. : |t| > t1−α 2 (n− 2) où t1−α 2 (n− 2) est le quantile d'ordre 1− α 2 de la loi de Student à (n− 2) degrés de liberté. Il s'agit d'un test bilatéral. Probabilité critique (p-value). Plutôt que de comparer la statistique calculée avec la seuil théorique fournie par la loi de Student, les logiciels proposent souvent la probabilité critique (p-value) que l'on doit comparer au risque α que l'on s'est xé. Si la p-value est plus petite, alors nous rejetons l'hypothèse nulle. 6. Si (X,Y ) suit une loi normale bivariée, alors X et Y suivent individuellement une loi normale. En revanche, ce n'est pas parce que X et Y sont individuellement gaussiens que le couple (X,Y ) l'est forcément. Enn, si X ou Y n'est pas gaussien, le couple (X,Y ) ne l'est pas non plus. 7. Voir http://faculty.vassar.edu/lowry/ch4pt1.html et http://www2.chass.ncsu.edu/garson/PA765/ correl.htm#assume Page: 16 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 2.6 Problèmes et cas pathologiques 19 2.5.3 Comparaison à un standard (autre que 0) La transformation nous permet d'aller plus loin que le simple test de signicativité, nous avons la possibilité de comparer la valeur du coecient de corrélation avec une valeur de référence r0. La loi associée à z est valable quelle que soit la valeur de r dans la population parente. Nous passons par la transformation de Fisher, avec z0 = 1 2 ln 1+r0 1−r0 , l'hypothèse nulle du test s'écrit H0 : z = z0 La statistique du test U est U = ẑ − z0√ 1 n−3 = (ẑ − z0)× √ n− 3 (2.16) Elle suit une loi normale centrée réduite. Exemple : Corrélation cylindrée - puissance. Nous souhaitons eectuer le test unilatéral suivant au risque 5% H0 : r = 0.9 H1 : r > 0.9 Les étapes du calcul sont les suivantes  Nous calculons la valeur de référence transformée z0 = 1 2 ln 1+0.9 1−0.9 = 1.4722  Rappelons que r̂ = 0.9475 et ẑ = 1.8072  La statistique du test est U = (ẑ − z0)× √ n− 3 = (1.8072− 1.4722)× √ 28− 3 = 1.6750  Que nous devons comparer avec le quantile d'ordre 1 − α = 1 − 0.05 = 0.95 de la loi normale centrée réduite c.-à-d. u0.95 = 1.6449  Au risque α = 5%, l'hypothèse nulle n'est pas compatible avec nos données, nous acceptons H1 2.6 Problèmes et cas pathologiques "Corrélation n'est pas causalité". C'est une phrase maintes fois répétée dans tous les ouvrages. En eet, le coecient de corrélation est un indicateur statistique, avec ses forces et ses faiblesses. Il ne faut surtout pas en faire une référence absolue. Il importe de délimiter clairement son champ d'action et identier les cas où ses indications sont sujettes à caution. La qualité des interprétations consécutives aux calculs en dépend (voir aussi [3], pages 93-94, concernant les "petites corrélations"). 2.6.1 Corrélation fortuite La corrélation peut parfois être totalement fortuite. Johnston ([4], page 10) rapporte par exemple que sur les données annuelles de 1897 à 1985, des études ont montré une corrélation de 0.91 entre le revenu national américain et le nombre de tâches solaires (les zones sombres du soleil, ce sont des zones moins chaudes). Personne ne peut décemment soutenir qu'il y a une relation quelconque entre ces 2 grandeurs. Page: 19 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 20 2 Coecient de corrélation 2.6.2 Facteur confondant La corrélation peut aussi cacher l'inuence d'un autre facteur. On montre par exemple qu'il existe une relation négative entre la taille des personnes et la longueur de leur chevelure. On pourra toujours avancer des arguments plus ou moins psychologiques, mais avant de s'avancer outre mesure, on ferait mieux de revenir sur les conditions du recueil des données et vérier qu'il n'y a pas d'informations cachées derrière tout cela. Dans cet exemple, on se rend compte que les hommes et les femmes sont mélangés dans le chier de données. Or, en moyenne, les hommes sont plus grands que les femmes, et inversement, les femmes ont une chevelure plus longue que les hommes. Le sexe de la personne joue alors le rôle de facteur confondant. L'apparente liaison est un artefact lié à l'existence d'un facteur non maîtrisé. Dans le cas où le facteur confondant est qualitatif, on détecte facilement le problème en construisant un nuage de points en distinguant les sous-groupes. Étudions plus en détail notre exemple "taille vs. longueur de cheveux" chez les hommes et chez les femmes. Lorsque nous construisons le nuage de points, nous constatons que le nuage des hommes se distingue du nuage des femmes (Figure 2.6). Globalement, une liaison complètement factice apparaît. La corrélation est r̂1 = −0.074 chez les hommes, r̂2 = −0.141 chez les femmes, il passe à r̂ = −0.602 sur la totalité des individus. Fig. 2.6. Nuage de points "taille vs. longueur des cheveux" - Hommes et femmes confondus Lorsque le facteur est quantitatif, c'est un peu plus compliqué (exemple : vente de lunettes de soleil et de crèmes glacées, il n'y a pas de lien direct, c'est l'ensoleillement ou la température qui les font varier de Page: 20 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 2.6 Problèmes et cas pathologiques 21 manière concomitante). Nous étudierons plus en détail le calcul de la corrélation en contrôlant les eets d'une ou plusieurs tierces variables dans la partie consacrée à la corrélation partielle. 2.6.3 Points aberrants (atypiques) Dans certains cas, 1 ou 2 points peuvent totalement fausser les résultats. Ces points s'écartent signi- cativement des autres, on parle de points "aberrants" ou "atypiques", dans le sens où ils n'appartiennent (vraisemblablement) pas à la population parente. Les raisons de l'apparition de ce type d'observations sont multiples : erreur lors du recueil des données (exemple : une personne de 4 ans souscrit à une assurance-vie, en réalité elle a 40 ans) ; un comportement réellement diérent (exemple : un sportif tellement dopé qu'il porte les records du monde à des sommets jamais atteints) ; etc. Le positionnement de ces points par rapport au nuage global laisse croire (ou masque) l'existence d'une liaison manifeste entre les variables. Il existe certes des techniques statistiques destinées à identier automatiquement les données atypiques, mais force est de constater que des graphiques simples telles que les nuages de points permettent souvent de détecter rapidement les anomalies. Fig. 2.7. Inuence du point numéro 7 sur le coecient de corrélation Dans un premier exemple (Figure 2.7), on note le positionnement totalement atypique de l'individu numéro 7. Si on l'utilise dans les calculs, le coecient empirique est 0.9976, très proche de liaison linéaire parfaite. Si on le retire c.-à-d. on calcule le coecient sur les 6 points restants, la corrélation passe à 0.0185. Le point numéro 7 fausse complètement le calcul. Parfois, le point aberrant est particulièrement sournois. Il est conforme au domaine de dénition de X et Y . Mais sur la conjonction (X,Y ), il s'écarte du nuage principal (Figure 2.8). Dans cet exemple, le point atypique (entouré de rouge) masque en partie la forte liaison entre X et Y . Les techniques statistiques de détection univariée des points atypiques 9 sont totalement inopérantes ici. Il faut se tourner vers d'autres procédures. Certaines sont liées à la méthode statistique mise en oeuvre pour analyser les données 10. 9. Voir http://tutoriels-data-mining.blogspot.com/2008/05/dtection-univarie-des-points-aberrants. html 10. Pour la régression multiple, il existe toute une panoplie d'indicateurs assez ecaces - Voir http:// tutoriels-data-mining.blogspot.com/2008/04/points-aberrants-et-influents-dans-la.html Page: 21 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 Page: 24 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 3 Tests de comparaison de corrélations Dans cette section sont réunis quelques tests de comparaison de corrélations que l'on retrouve peu souvent dans la littérature francophone et qui, pourtant, répondent à des problématiques très concrètes. 3.1 Comparaison de 2 coecients de corrélation (échantillons indépendants) Autre possibilité qu'introduit la transformation de Fisher : la comparaison les corrélations dans deux populations diérentes. Mettons que nous souhaitons comparer la corrélation entre le poids et la taille chez les hommes et chez les femmes. Est-ce qu'elle est identique dans les deux populations ? Nous travaillons sur 2 échantillons indépendants, extraits au hasard dans chaque sous population. La corrélation théorique est r1 (resp. r2) chez les femmes (resp. chez les hommes). Le test d'hypothèses s'écrit : H0 : r1 = r2 H1 : r1 ̸= r2 Nous disposons de 2 échantillons de taille n1 et n2. Nous introduisons la statistique D = ẑ1 − ẑ2 (3.1) Sous H0, puisque les estimateurs r̂ (et par conséquent ẑ) sont indépendants (estimés sur des échan- tillons indépendants), la statique D suit asymptotiquement une loi normale de paramètres E[D] = 0 V [D] = 1 n1 − 3 + 1 n2 − 3 Au risque α, la région critique du test bilatéral s'écrit : R.C. : U = |ẑ1 − ẑ2|√ 1 n1−3 + 1 n2−3 ≥ u1−α 2 Page: 25 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 26 3 Tests de comparaison de corrélations Exemple numérique : comparer la corrélation taille - poids chez les hommes et chez les femmes. Nous disposons d'un échantillon de n1 = 15 femmes, et n2 = 20 hommes (Figure 3.1). Nous souhaitons tester l'égalité du coecient de corrélation entre le poids et la taille dans les deux sous-populations au risque de 5%. Les étapes du calcul sont énumérées ci-dessous. Fig. 3.1. Comparaison de 2 coecients de corrélation - Échantillons indépendants  Nous calculons les coecients de corrélation, nous obtenons r̂1 = 0.5661 et r̂2 = 0.4909  Nous appliquons la transformation de Fisher, ẑ1 = 0.6417 et ẑ2 = 0.5372  Nous calculons la statistique D = ẑ1− ẑ2 = 0.1045, puis sa variance V (D) = 1 15−3 + 1 20−3 = 0.1422  Nous en déduisons alors U = |0.1045|√ 0.1422 = 0.3652 0.3770 = 0.2771  Que nous comparons au quantile d'ordre 0.975 de la loi normale centrée réduite, soit u0.975 = 1.96  Conclusion : au risque de 5%, les données sont compatibles avec l'hypothèse nulle c.-à-d. le coe- cient de corrélation entre le poids et taille n'est pas signicativement diérent chez les hommes et les femmes. Page: 26 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 3.3 Comparaison de 2 coecients de corrélation (même échantillon) - Cas 1 29 eet n'oublions pas qu'il y a une relation entre la loi normale et la loi du χ2 à 1 degré de liberté c.-à-d. [N (0; 1)]2 ≡ χ2(1). Les deux tests sont totalement équivalents. 3.3 Comparaison de 2 coecients de corrélation (même échantillon) - Cas 1 Autre analyse intéressante dans la pratique, nous souhaitons comparer les corrélations respectives de deux variables X et Z avec la variable Y . La situation est un peu plus complexe car les corrélations sont calculées sur un seul et même échantillon. L'hypothèse nulle du test est naturellement H0 : ryx = ryz On peut vouloir construire un test unilatéral (ryx > ryz ou ryx < ryz) ou bilatéral (ryx ̸= ryz). Dans ce cadre, le test t de Williams est conseillé dès lors que n est assez grand (n ≥ 20). La statistique s'écrit ([2], page 24) t = (r̂yx − r̂yz) √ (n− 1)(1 + r̂xz) 2n−1 n−3 |R|+ r̄2(1− r̂xz)3 (3.3) où r̄ = (r̂yx + r̂yz)/2 ; |R| = 1− r̂2yx − r̂2yz − r̂2xz + 2r̂yxr̂yz r̂xz est le déterminant de la matrice (3× 3) des corrélations entre les variables. t suit une loi de Student à (n− 3) degrés de liberté. Remarque 4 (X et Z sont orthogonaux). Nous remarquons que le degré du lien entre les variables X et Z inue sur les résultats. Si X et Z sont orthogonaux (c.-à-d. rxz = 0), la statistique dépend uniquement des corrélations ryx et ryz. Exemple numérique : comparaison de la corrélation "consommation - puissance et consommation - cylindrée. Reprenons notre chier des voitures (Figure 2.2). Nous souhaitons savoir si, à 5%, la corrélation de la consommation (Y) avec la cylindrée (la taille du moteur, X) est comparable à sa corrélation avec la puissance (Z). Nous sommes sur un test bilatéral, on veut vérier si l'écart observé est statistiquement signicatif. Conformément à la formule 3.3, nous construisons la feuille EXCEL (Figure 3.3) :  Notre eectif est n = 28.  Nous calculons les corrélations à comparer r̂yx = 0.8919 et r̂yz = 0.8878. Nous voulons savoir si l'écart observé est signicatif c.-à-d. transposable dans la population (H1) ou uniquement du aux uctuations d'échantillonnage (H0).  Nous calculons la corrélation r̂xz = 0.9475. Nous constatons qu'elles sont très liées. Peut être d'ailleurs qu'elles amènent le même type d'information vis à vis de Y , nous vérierons cette asser- tion dans la partie de ce support consacrée aux corrélation partielles. Page: 29 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 30 3 Tests de comparaison de corrélations Fig. 3.3. Comparaison de 2 corrélations du même échantillon - Cas 1  Nous calculons l'écart A = (r̂yx − r̂yz) = 0.0041  B = (n− 1)(1 + r̂xz = 52.5838  |R| = 1− r̂2yx − r̂2yz − r̂2xz + 2r̂yxr̂yz r̂xz = 0.0191  r̄ = (r̂yx + r̂yz)/2 = 0.8898  C = (1− r̂xz) 3 = 0.0001  Nous obtenons la statistique du test t = A √ B 2 27 25 0.0191+0.8898×0.0001 = 0.1448  Que nous comparons au seuil critique T0.975(25) = 2.0595.  Au risque 5%, nos données sont compatibles avec l'hypothèse nulle, la consommation est identi- quement corrélée à la cylindrée et à la puissance.  La p-value du test égal à 0.8861 conduit bien évidemment à la même conclusion. 3.4 Comparaison de 2 coecients de corrélation (même échantillon) - Cas 2 Toujours à partir sur un même échantillon, ce second test consiste à opposer H0 : rxy = rzw H1 : rxy ̸= rzw Le test peut être unilatéral (c.-à-d. H1 : rxy < rzw ou rxy > rzw). De prime abord, ce test paraît assez étrange. Est-ce que comparer des corrélations calculées sur des concepts diérents a réellement un sens ? Prenons l'exemple des voitures, opposer la corrélation entre Page: 30 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 3.4 Comparaison de 2 coecients de corrélation (même échantillon) - Cas 2 31 la puissance et la consommation, d'une part, et la corrélation entre le poids et le prix, d'autre part, ne paraît pas très pertinent. On comprend mieux le sens de ce test à la lumière de l'exemple proposé par une des rares références qui le décrit (voir [2], page 24). Pour un ensemble d'électeurs, on calcule la corrélation entre les donations et les intentions de votes, une année donnée, puis 4 ans plus tard. L'objectif est de vérier si le lien entre ces deux variables a été modié entre temps. De cet exemple, nous retiendrons avant tout l'idée d'appariement. Nous voulons comparer l'intensité d'un lien avant et après l'occurrence d'un évènement, qui peut être simplement un certain délai, mais qui peut être aussi une action particulière. Mais la notion d'appariement est plus large. Il y a eectivement la situation "avant - après". Mais nous pouvons la dénir surtout comme des mesures eectuées sur une unité statistique : dans un ménage, mesurer et comparer une caractéristique chez l'homme et la femme ; comparer la même variable chez des jumeaux ; etc. 2. Le test de Clark et Dunn est conseillée pour cette conguration. Il suit asymptotiquement une loi normale centrée réduite, il est valable dès lors que n ≥ 20. Par commodités, nous numéroterons les variables X = 1, Y = 2, Z = 3 et W = 4. Nous écrirons par exemple r̂12 pour r̂xy, ou r̂34 pour r̂zw, etc. La statistique du test s'écrit U = (ẑ12 − ẑ34) √ n− 3 2− 2s̄ (3.4) avec  ẑ = 1 2 ln 1+r̂ 1−r̂ , la transformation de Fisher ;  s̄ = ψ (1−r̄2)2 ;  r̄ = r̂12+r̂34 2 ;  ψ = 0.5{[(r̂13 − r̂23r̄)(r̂24 − r̂23r̄)] + [(r̂14 − r̂13r̄)(r̂23 − r̂13r̄)] + [(r̂13 − r̂14r̄)(r̂24 − r̂14r̄)] + [(r̂14 − r̂24r̄)(r̂23 − r̂24r̄)]} Une autre formulation est possible. Elle s'appuie sur l'idée que nous pouvons simplier l'expression sous l'hypothèse nulle d'égalité des corrélations (voir [7], page 97). Exemple : les donations au parti. Reprenons directement l'exemple décrit dans l'ouvrage de Chen et Popovich ([2], page 25). Il s'agit de tester, pour n = 203 votants, si le lien entre les donations au parti et les intentions de vote a évolué dans un laps de temps de 4 années. Les corrélations à comparer sont r̂12 = 0.3 et r̂34 = 0.4. Nous disposons des corrélations croisées : r̂13 = 0.6, r̂14 = 0.2, r̂23 = 0.3, r̂24 = 0.7. A partir des équations ci-dessus, nous obtenons r̄ = 0.35, ψ = 0.3125 et s̄ = 0.4059. La statistique du test est égal à U = −1.48. Au risque 5%, pour un test bilatéral, nous comparons |U | = 1.48 avec le quantile de la loi normale centrée réduite u0.975 = 1.96. Les données sont compatibles avec l'hypothèse nulle, 4 années plus tard, le lien entre les intentions de vote et les donations n'a pas évolué signicativement. 2. Voir http://www.tufts.edu/~gdallal/paired.htm Page: 31 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 34 3 Tests de comparaison de corrélations Sous H0, elle suit une loi du χ2 à p×(p−1) 2 = 2×(2−1) 2 = 1 degré de liberté. La probabilité critique (p-value) est égale à 2.4×10−14. Tout comme pour le test de Student, nous rejetons l'hypothèse de nullité de la corrélation, mais avec une statistique diérente. 3.5.2 Test de Steiger : une statistique simpliée Une statistique alternative attribuée à Steiger (1980) est décrite dans l'ouvrage de Revelle ([7], page 95). Elle passe par la transformation de Fisher z. La variance de ẑ est connue, elle est égale à 1 n−3 . On sait de plus qu'elle est distribuée selon la loi normale. Son carré suit par conséquent une loi du χ2(1). Nous pouvons dès lors former la somme χ2 s = (n− 3) ∑ j ∑ k>j ẑ2jk (3.6) Où ẑjk est la transformation de Fisher de la corrélation estimée entre les variables Xj et Xk. Sous H0, la statistique χ2 s suit une loi du χ 2 à p×(p−1) 2 degrés de liberté. La procédure est indubitablement plus simple. Il nous évite de calculer le déterminant de la matrice des corrélations, exercice toujours périlleux sur les ordinateurs. Fig. 3.5. Test de sphéricité de Steiger - Fichier "Consommation des automobiles" Exemple : Reprenons notre exemple numérique du chier "Consommation des automobiles". Nous calculons la matrice des corrélations transformées par la formule de Fisher (section 2.5). Puis nous formons la statistique de test χ2 s (Figure 3.5) : χ2 s = (n− 3) ∑ j ∑ k>j ẑ2jk = (28− 3)× (1.08722 + 1.29942 + · · ·+ 1.63192) = 329.4190 La conclusion est la même, les corrélations croisées sont signicatives avec une p-value de 4.03×10−68. On notera néanmoins que la valeur de la statistique de test est particulièrement élevée. Plus encore que pour le test de Bartlett, nous devons être très prudent avec cet outil qui conclut quasi-systématiquement Page: 34 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 3.6 Comparaison de 2 matrices des corrélations 35 au rejet de l'hypothèse nulle dès que les eectifs n augmentent un tant soit peu (cf. documentation du package 'psych', [8] - procédure cortest.normal). 3.6 Comparaison de 2 matrices des corrélations 3.6.1 Test de Steiger Ce test consiste à confronter deux matrices des corrélations calculées sur deux sous-populations dis- tinctes. Il s'agit donc d'un test de comparaison de plusieurs corrélations - considérées simultanément - sur échantillons indépendants. Par exemple, pour reprendre notre chier "Consommation des automobiles"(Figure 2.2), l'idée serait de vérier s'il y a une diérence dans la structure des relations entre les variables selon que l'on a aaire aux véhicules asiatiques (japonaises, sud-coréennes) ou européennes. Nous présentons la procédure cortest.normal du package 'psych' ([8], pages 59 à 61) dans cette section. La méthode est attribuée à Steiger (1980). Elle s'appuie sur le carré de l'écart entre les transfor- mations de Fisher des corrélations calculées sur les 2 sous-populations. Soit ẑm,jk est la transformation de Fisher de la corrélation estimée r̂m,jk entre les variables Xj et Xk dans la sous-population m (m ∈ {1, 2}). La statistique de test s'écrit : χ2 s = ( n1 × n2 n1 + n2 )∑ j ∑ k>j (ẑ1,jk − ẑ2,jk) 2 (3.7) Où n1 et n2 sont les eectifs dans les sous-échantillons. Sous H0, les corrélations sont globalement identiques dans les deux sous-populations, la statistique suit une loi du χ2 à p×(p−1) 2 degrés de liberté. Exemple numérique : Nous souhaitons comparer les structures de corrélations entre les véhicules asiatiques et européennes dans le chier "Consommation des automobiles" (Figure 2.2). Nous devons tout d'abord scinder en 2 parties les données puis calculer les matrices des corrélations croisées R1 et R2 dans les 2 sous-populations (Figure 3.6). Nous distinguons n1 = 10 automobiles asiatiques et n2 = 18 européennes. A première vue, les corré- lations semblent très similaires globalement. Voyons si les calculs conrment cela :  Les matrices Z1 et Z2 sont formées à partir des transformations de Fisher des corrélations. Par exemple, pour le croisement entre la cylindrée et la puissance chez les véhicules asiatiques, nous avons (Figure 3.7) : ẑ1,12 = 1 2 ln 1 + 0.9422 1− 0.9422 = 1.7571  La matrice D2 correspond à l'écart au carré entre les z c.-à-d. pour les mêmes variables d212 = (ẑ1,12 − ẑ2,12) 2 = (1.7571− 2.3846)2 = 0.3938  Nous sommons la partie triangulaire supérieure de la matrice : S = 0.3938 + 0.0133 + 0.0030 + · · ·+ 0.0218 = 0.4421 Page: 35 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 36 3 Tests de comparaison de corrélations Fig. 3.6. Matrices des corrélations dans les sous-populations - Fichier "Consommation des automobiles"  Nous calculons le terme de pondération c = n1×n2 n1+n2 = 6.4286  Et nous obtenons nalement la statistique de test χ2 = 6.4286× 0.4421 = 1.5159 Sous l'hypothèse nulle, cette statistique suit une loi du χ2 à p×(p−1) 2 = 4×3 2 = 6 degrés de liberté. La probabilité critique est égale à 0.9584. Au risque 5%, l'hypothèse d'égalité des corrélations n'est pas contredite par les données. 3.6.2 Test de Jennrich Revelle ([7], page 98) décrit un second test pour la même nalité. Le test de Jennrich (1970) s'ap- puie sur une formulation autrement plus complexe. Le texte n'est pas vraiment précis. Il est heureu- sement possible de retracer les formules en explorant le code source du package 'psych' ([8], procédure cortest.jennrich 4). La statistique de test s'écrit : 4. On peut très facilement obtenir le code source d'une fonction en introduisant son nom dans la ligne de commande R. Une autre piste est de charger le code source du package sur le serveur CRAN et de le dézipper - http://cran.r-project.org/web/packages/psych/index.html Page: 36 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 3.7 Commentaires sur la comparaison des coecients de corrélations 39 très souple : les tests restent valables pour les mesures de corrélation dérivées du coecient de Pearson, mesures que nous décrirons dans le chapitre 4 de ce support. Page: 39 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 Page: 40 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 4 Variations autour de la corrélation Dans certaines situations, relatives au type des variables, ou consécutives à une transformation des variables, le coecient de corrélation est simplié. Son interprétation peut être modiée et/ou enrichie. Dans cette partie, nous énumérons quelques unes de ces variantes, les formules et les tests associées. Puis nous montrons leur utilisation et leur interprétation sur un jeu de données. Quelques références pour cette partie, donnant un positionnement clair des diérentes techniques, sont les sites de Garson - http://www2.chass.ncsu.edu/garson/PA765/correl.htm, toujours aussi ex- cellents, et de Calkins, de l'Université d'Andrews (USA) - http://www.andrews.edu/~calkins/math/ edrm611/edrm13.htm 4.1 Corrélation bisériale ponctuelle 4.1.1 Formulation Le coecient de corrélation bisériale ponctuelle (Point biserial correlation coecient en anglais 1) est utilisé pour mesurer la liaison entre une variable dichotomique (X pour xer les idées) et une variable continue. La variable binaire peut l'être naturellement (ex. sexe = H ou F) ou suite à un découpage en 2 intervalles (ex. revenu, découpé en 2 intervalles). Bien que dans ce second cas, son utilisation ne soit pas très recommandée 2, on préfèrera des indicateurs plus puissants (voir chapitre 4.2). L'objectif est de mesurer l'association entre Y et X. En calculant le coecient de Pearson, X étant codé 0/1, nous obtenons exactement le coecient bisériale ponctuelle. En y regardant de plus près, on se rend compte rapidement qu'il s'agit en réalité de la statistique de la comparaison de moyenne entre 2 échantillons indépendants. On cherche à savoir si dans les sous-groupes dénis par X, Y est diérent en moyenne. La corrélation bisériale ponctuelle est dénie comme suit pour échantillon de taille n, avec n1 individus du premier groupe, et n0 individus du second groupe (n = n1 + n0) 1. Voir http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/ eurostat/research/isi/index_fr.htm&1 pour la traduction des termes statistiques 2. Voir http://en.wikipedia.org/wiki/Point-biserial_correlation_coefficient Page: 41 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 44 4 Variations autour de la corrélation  Nous en déduisons s2 = 19×0.0712+14×0.0612 20+15−2 ( 1 20 + 1 15 ) = 0.0005  Puis tc = 1.733−1.589√ 0.0005 = 6.4749. Nous retrouvons exactement la valeur de tr  La distribution et les degrés de liberté étant les mêmes, la p-value du test et la conclusion associée sont identiques. 4.2 Corrélation mutuelle 4.2.1 Formulation et tests La corrélation mutuelle, que l'on désigne aussi par corrélation bisériale 4, est connue sous l'appellation biserial correlation en anglais 5. Elle mesure le lien entre une variable dichotomique X et une variable quantitative Y . La principale diérenciation avec la corrélation bisériale ponctuelle est qu'ici, la variable X doit être issue d'un découpage en 2 intervalles d'une variable continue gaussienne (voir [2], page 36 ; par exemple : poids bas ou élevé, tension artérielle supérieure à un seuil ou pas, etc.). Attention, dans ce cas le codage de X n'est plus anodin. La valeur 1 correspond naturellement à la fraction élevée (supérieure au seuil de découpage) de la variable sous-jacente. Remarque 5 (Laquelle privilégier : corrélation bisériale ponctuelle ou corrélation mutuelle ?). La corréla- tion mutuelle est plus restrictive, si la condition n'est pas respectée, l'inférence statistique est sujette à caution. En revanche, si la condition est remplie, la corrélation mutuelle est plus puissante c.-à-d. elle détectera mieux l'existence d'une relation entre X et Y . Le coecient de corrélation mutuelle s'écrit r̂b = ȳ1 − ȳ0 sn−1 × n1 × n0 n2 × λn1/n (4.4) où  s2n−1 = 1 n−1 ∑ i(yi − ȳ)2 est l'estimation de la variance ;  λn1/n est l'ordonnée de la fonction de densité de la loi normale centrée réduite à la coordonnée égale au quantile d'ordre n1/n (ouf !). Remarque 6 (Calcul de la quantité λn1/n). Manifestement, mal compris, le calcul de λ est le principal frein à l'utilisation de cet indicateur, qui est très peu présent dans les logiciels. Essayons de détailler la démarche sur un exemple que nous retrouverons dans la section suivante.  Soit n1/n = 23/28 = 0.8214.  Nous calculons le quantile d'ordre 0.8214 de la loi normale centrée réduite u0.8214 = 0.9208.  Nous appliquons alors la fonction de densité de la loi normale pour obtenir λ c.-à-d. λ = fN (0.9208) = 1√ 2π e− 0.92082 2 = 0.2611 4. Nous éviterons cette dénomination pour ne pas la confondre avec la corrélation bisériale ponctuelle (ah ces linguistes je vous jure, hein..). 5. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/ eurostat/research/isi/index_fr.htm&1 Page: 44 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 4.2 Corrélation mutuelle 45 Remarque 7 (Violation de l'hypothèse de normalité sous-jacente). Dans certains cas, lorsque la distribu- tion continue sous-jacente de X s'éloigne fortement de la loi normale, bimodale ou très aplatie, r̂b peut prendre des valeurs supérieures à 1. Ce sont quand même des situations extrêmes. Lorsque la distribution sous-jacente de X est unimodale et raisonnablement symétrique, la procédure est robuste. Test de signicativité. Pour tester la signicativité de la corrélation ou calculer les intervalles de conance, nous pouvons utiliser l'arsenal développé dans les sections 2.4 et 2.5, en substituant la corrélation mutuelle au coecient de Pearson. 4.2.2 Exemple Nous cherchons à calculer la corrélation entre la cylindrée dichotomisée (X = 1 lorsque cylindrée > 1200, 0 sinon) et la puissance (Y ). Dans les études réelles, nous ne disposons que des valeurs binaires de X, nous n'avons pas les valeurs originelles qui ont servi à construire X même si nous savons par ailleurs que la variable sous-jacente est continue. Détaillons les calculs (Figure 4.2) :  Nous disposons des eectifs n = 28, n1 = 23 et n0 = 5  A partir du rapport n1/n = 0.8214, nous obtenons le quantile d'ordre 0.8214, soit u0.8214 = 0.9208. Nous calculons alors l'ordonnée de la fonction de densité de la loi normale centrée réduite à cette coordonnée fN (0.9208) = 0.2611  Parallèlement à cela, nous calculons l'estimation (non biaisée) de l'écart type sn−1 = 32.2569, puis les moyennes conditionnelles m1 = 87.43 et m0 = 33.00  Nous disposons maintenant de tous les éléments pour former la corrélation mutuelle, nous obtenons r̂b = 0.9481  Le t pour le test de signicativité est calculé à l'aide de la formule usuelle t = r̂b√ 1−r̂2 b n−2 = 15.2016  La corrélation est très hautement signicatif, la p-value est très petite. Les données ne sont pas compatibles avec l'hypothèse de nullité du coecient. Remarque 8 (Choix de la borne de découpage de la variable continue). Attention, le choix de la borne de découpage (nous avons choisi la valeur 1200 pour cylindrée dans notre exemple) est primordiale. S'il est malheureux, nous pouvons totalement masquer les informations importantes ou, pire, produire des valeurs qui posent problème. Un coecient de corrélation supérieur à 1 notamment ne manquerait pas de jeter le discrédit sur les techniques que l'on manipule. Il faut donc avoir de bonnes raisons pour eectuer le découpage. Dans la plupart des cas, ce sont les contraintes du domaine ou les exigences de l'étude qui le xent arbitrairement. Dans notre exemple, on pourrait avancer qu'au delà de la cylindrée 1200, la scalité est particulièrement désavantageuse. 4.2.3 Commentaires sur la puissance de r̂b par rapport r̂pb Par rapport à la corrélation bisériale ponctuelle, la corrélation mutuelle tient compte explicitement du fait que la variable sous-jacente à X est continue et gaussienne. Ce surcroît d'information utilisé dans Page: 45 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 46 4 Variations autour de la corrélation Fig. 4.2. Corrélation mutuelle : cylindrée vs. puissance les calculs la rend particulièrement puissante lorsque l'assertion est vraie. Dans la pratique, on se rend compte qu'il y a une formule de passage entre les 2 indicateurs ([2], page 37) r̂b = r̂pb √ n1n0(n− 1) λ2n1/n × n3 (4.5) Nous avons eectué plusieurs vérications pour notre exemple précédent (Figure 4.2). Détaillons les résultats :  En calculant le coecient de Pearson sur les données originelles (la variable X non dichotomisée), nous obtenons r̂ = 0.9475. Rappelons que la corrélation mutuelle est r̂b = 0.9481. Il est quand Page: 46 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 4.3 Le coecient ϕ 49 Fig. 4.3. Corrélation ϕ : cylindrée vs. puissance dichotomisées pour ce type d'indicateur. Il faut faire très attention. Mais a contrario, un choix judicieux des bornes peut être protable à l'analyse. Si la relation est fortement non linéaire, le coecient de Pearson sur les variables originelles est faussé. Le découpage en intervalles peut aider à mieux mettre en évidence l'existence de la liaison. 4.3.3 Corrélation tetrachorique Lorsque les deux variables ont été dichotomisées à partir d'un couple de variables distribuées selon une loi normale bivariée, on privilégiera le coecient tetrachorique qui est plus puissant (Tetrachoric coecient en anglais 7). Ce coecient s'appuie sur l'hypothèse de normalité sous jacente pour corriger le coecient ϕ (équation 4.6). Grosso modo, le numérateur reste le même, le dénominateur doit tenir compte en revanche de la distribution normale en intégrant de nouveau l'ordonnée de la loi normale centrée et réduite pour les 7. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/ eurostat/research/isi/index_fr.htm&1 Page: 49 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 50 4 Variations autour de la corrélation quantiles des proportions a+b n et a+c n . Le calcul est loin d'être trivial cependant 8, on peut avoir des problèmes lorsque l'on s'éloigne trop de l'hypothèse de normalité. Ce coecient est très peu utilisé dans la pratique. 4.4 ρ de Spearman Fondamentalement, le coecient de Spearman est aussi un cas particulier du coecient de Pearson, calculé à partir des transformations des variables originelles. Mais il présente l'avantage d'être non para- métrique. L'inférence statistique ne repose plus sur la normalité bivariée du couple de variables (X,Y ). Nous pouvons bien entendu mettre en oeuvre tous les tests mis en avant dans la section 2.5, y compris ceux relatifs à la comparaison de coecients. 4.4.1 Principe L'idée est de substituer aux valeurs observées leurs rangs. Nous créons donc deux nouvelles colonnes dans notre tableau : Ri = Rang(xi), correspond au rang 9 de l'observation xi dans la colonne des X ; et Si = Rang(Yi). Le ρ de Spearman est ni plus ni moins que le coecient de Pearson calculé sur les rangs. ρ̂ = ∑n i=1(Ri − R̄)(Si − S̄)√∑ i(Ri − R̄)2 √∑ i(Si − S̄)2 (4.7) Compte tenu de certaines propriétés des rangs (par ex. S̄ = R̄ = n+1 2 ; voir [3], pages 105 à 108), nous pouvons déduire une expression simpliée ρ̂ = 12 ∑n i=1RiSi n(n2 − 1) − 3(n+ 1) n− 1 (4.8) Enn, si nous dénissons Di telle que Di = Ri − Si est l'écart entre les rangs, nous obtenons une autre expression équivalente ρ̂ = 1− 6 ∑n i=1D 2 i n(n2 − 1) (4.9) Attention, pour ces équations simpliées, il est nécessaire d'introduire une correction lorsqu'il y a des ex-aequo dans les données, surtout s'ils sont assez nombreux. Nous reviendrons en détail sur les corrections à introduire plus loin (section 4.4.5). Le ρ de Spearman est une variante du coecient de Pearson, il en reprend les propriétés essentielles, à savoir : −1 ≤ ρ ≤ +1 ; il prend la valeur 0 lorsque les variables sont indépendantes. 8. Voir http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm concernant les fondements et les interprétations de la mesure ; voir http://lib.stat.cmu.edu/apstat/116 sur son mode de calcul dans les logiciels de statistique 9. La plus petite valeur prend le rang 1, la plus grande le rang n Page: 50 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 4.4 ρ de Spearman 51 4.4.2 Un exemple Fig. 4.4. Calcul du ρ de Spearman sur une relation "taille - poids" Nous reprenons notre exemple du lien entre la taille et le poids. Nous avons modié les données de manière à éviter les ex-aequo :  Nous avons tout d'abord formé le nuage de points. Il semble y avoir une liaison entre les 2 variables.  Le coecient de corrélation de Pearson est de r̂ = 0.58452.  Dans la colonne D et E, nous calculons respectivement les rangs Ri et Si  Nous calculons alors le ρ avec la formule 4.7 c.-à-d. en appliquant directement la formule de Pearson sur les rangs. Nous obtenons ρ̂ = 0.61786  Dans la colonne F, nous formons le produit Ri × Si, nous obtenons la somme ∑ iRiSi = 1133. A partir de la formule 4.8, nous produisons ρ̂ = 0.61786. La même valeur que précédemment.  Enn, en colonne G, nous calculons l'écart Di et nous formons la colonne D2 i . La somme ∑ iD 2 i = 214. En appliquant la formule 4.9, la troisième estimation ρ̂ = 0.61786 est totalement cohérente avec les précédentes. 4.4.3 Distribution et tests Nous pouvons utiliser la transformation de Fisher pour calculer les intervalles de conance et réaliser les tests de comparaison. Page: 51 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 54 4 Variations autour de la corrélation Reprenons l'exemple présenté plus haut (section 2.6, gure 2.7). Nous avions noté que le coecient de Pearson pouvait être fortement aecté par l'existence d'un point extrême. Nous avons transformé les données en rangs, ce faisant nous avons lissé les écarts entre les valeurs. Nous calculons ρ sur l'en- semble des observations, nous obtenons ρ̂ = 0.39286, et nous notons surtout que le coecient n'est pas signicativement diérent de 0, avec t = 0.95526 et une p-value = 0.38332. 4.4.5 Traitement des ex aequo Lorsqu'il y a beaucoup d'ex-aequo dans les données, nous aectons les rangs moyens aux observations portant des valeurs identiques. Il faut alors ajuster le coecient de Spearman lorsque nous voulons utiliser l'équation 4.9 (voir [11], pages 239 à 241). La correction est d'autant plus sensible que le nombre de valeurs identiques est élevé pour X et Y . Dans ce qui suit, nous explicitons le processus pour la variable X. Les calculs sont exactement les mêmes pour la variable Y . Rangs moyens. Lors de la transformation des données en rangs, nous devons tenir compte main- tenant des ex-aequo. Pour un échantillon de taille n, admettons qu'il n'y ait que G valeurs diérentes. Remarquons que si G = n, cela veut dire qu'il n'y pas d'ex aequo dans nos données. Au départ nous aectons les rangs aux observations selon la procédure habituelle. Dans un deuxième temps, nous eectuons un nouveau passage sur les données, nous attribuons aux individus portant des valeurs identiques la moyenne des rangs associés. Fig. 4.7. Calcul des rangs moyens Prenons un petit exemple pour détailler cela (Figure 4.7). Nous avons 12 observations triés selon la valeur de X. Nous attribuons le rang normalement (Rangs bruts) en utilisant la fonction RANG(...) d'EXCEL. Nous notons que plusieurs observations ont des valeurs identiques (A,B), (D,E,F) et (J,K) 10. Nous eectuons un second passage sur les données, nous calculons et attribuons la moyenne de leur rangs aux individus portant les mêmes valeurs. Ici, A et B ont la même valeur, ils portent respectivement les rangs 1 et 2, nous leur aectons au nal le rang moyen 1+2 2 = 1.5. Pour D, E et F nous eectuons le calcul 4+5+6 3 = 5. Et pour J et K, nous calculons 10+11 2 = 10.5. 10. La procédure est totalement générique bien sûr, nous pouvons avoir 10 valeurs identiques Page: 54 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 4.4 ρ de Spearman 55 Facteur de correction. Pour calculer le facteur de correction Tx, nous recensons les G valeurs distinctes parmi les rangs moyens, pour chaque valeur nous comptons son nombre d'apparition tg. Nous produisons alors la quantité Tx qui sera introduite dans la formule du coecient de Spearman (il en sera de même pour Ty, facteur de correction pour Y ) Tx = G∑ g=1 (t3g − tg) (4.10) Reprenons notre exemple ci-dessus (Figure 4.7). Nous avons n = 12 et G = 8. Pour chaque valeur du rang moyen, nous associons le nombre d'occurrence tg. Nous appliquons la formule 4.10 pour obtenir Tx = 36 (Figure 4.8). Fig. 4.8. Calcul du facteur de correction pour le ρ de Spearman Coecient de Spearman corrigé. Enn, il nous faut introduire le facteur de correction dans le calcul du ρ de Spearman (Equation 4.9) (voir [11], page 239, équation 9.7) ρ̂ = (n3 − n)− 6 ∑n i=1 d 2 i − (Tx + Ty)/2√ (n3 − n)2 − (Tx + Ty)(n3 − n) + TxTy (4.11) Remarquons que s'il n'y a pas d'ex-aequo en X et en Y , nous aurons Tx = Ty = 0, la formule 4.11 sera totalement équivalente (après quelques simplications) à la formule 4.9. Complétons notre exemple avec les valeurs de Y . Pour rendre l'exposé plus clair, il n'y a pas d'ex aequo sur cette seconde variable, de facto Ty = 0 (Figure 4.8). Nous construisons les rangs Si, nous calculons les écarts Di = Ri − Si. Reste à produire D2 i que nous introduisons dans l'équation 4.11 : ρ̂ = (123 − 12)− 6× 129− (36 + 0)/2√ (123 − 12)2 − (36 + 0)(123 − 12) + 36× 0 = 0.5442 Remarque 11 (Traitement des ex-aequo pour le coecient de Pearson sur les rangs). Comme nous le signalions plus haut, il est possible d'obtenir le ρ de Spearman en calculant le r de Pearson sur les rangs. Avec cette stratégie, lorsqu'il y a des ex aequo dans les données, nous utilisons toujours le principe des rangs moyens. En revanche il n'est pas nécessaire de corriger le coecient obtenu 11. Dans notre exemple 11. http://en.wikipedia.org/wiki/Spearman's_rank_correlation_coefficient Page: 55 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 56 4 Variations autour de la corrélation Fig. 4.9. Tableau de calcul du ρ de Spearman lorsqu'il y a des ex-aequo ci-dessus (Figure 4.9), si nous appliquons la formule de la corrélation empirique (Equation 2.8) sur les colonnes des rangs moyens R et S, nous obtenons directement la bonne valeur de ρ̂ = 0.5442. 4.5 τ de Kendall Le τ de Kendall n'est pas à proprement parler une variante du coecient de Pearson. On n'applique pas la formule sur des données recodées. Il repose sur un principe très diérent, il s'interprète également de manière diérente. Nous le présentons dans ce support car il est très largement diusé, et certains auteurs s'accordent à dire qu'il est meilleur que le ρ de Spearman 12. Nous ne rentrerons pas dans cette polémique. En revanche, nous ne pouvons pas passer à côté de cette mesure, d'autant plus qu'elle est aussi non paramétrique. 4.5.1 Principe et interprétation Le τ de Kendall est déni pour mesurer l'association entre variables ordinales, typiquement des clas- sement (ou rangs) aectés par des juges. Son champ d'application couvre donc parfaitement celui du ρ de Spearman. Le coecient de Kendall repose sur la notion de paires discordantes et concordantes 13 : 1. On dit que les paires observations i et j sont concordantes si et seulement si (xi > xj alors yi > yj) ou (xi < xj alors yi < yj). Nous pouvons simplier l'écriture avec (xi − xj)× (yi − yj) > 0 2. On dit que les paires sont discordantes lorsque (xi > xj alors yi < yj) ou (xi < xj alors yi > yj), en d'autres termes (xi − xj)× (yi − yj) < 0 Pour un échantillon de taille n, soit P (resp. Q) le nombre de paires concordantes (resp. discordantes). Le τ de Kendall est déni de la manière suivante τ̂ = P −Q 1 2n(n− 1) (4.12) 12. Voir par exemple http://www.rsscse.org.uk/ts/bts/noether/text.html ; voir aussi [6], page 332 13. http://en.wikipedia.org/wiki/Concordant_pairs Page: 56 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 4.5 τ de Kendall 59 |U | > u1−α 2 Un exemple. L'approximation est bien évidemment mauvaise (n = 6) pour notre exemple ci-dessus (Figure 4.10). Nous allons quand même l'utiliser pour illustrer simplement la démarche. Rappelons que τ̂ = −0.0667. Nous obtenons U avec U = 3× (−0.0667)× √ 6(6− 1) 2(2× 6 + 5) = −0.1879 En comparant |U | avec le seuil critique du test u0.975 = 1.96, nous concluons que les données sont compatibles avec l'hypothèse d'absence de lien entre X et Y . 4.5.3 Relation avec le ρ de Spearman τ de Kendall et ρ de Spearman sont tous les deux des coecients de corrélation de rangs. Ils reposent sur les mêmes hypothèses et exploitent les mêmes informations, il est logique qu'ils aient une puissance similaire (la capacité à détecter à juste titre l'hypothèse H1). La diérence se joue surtout sur l'inter- prétation des valeurs proposées par les statistiques : ρ2 s'interprète comme une proportion de variance expliquée, à l'instar du coecient de Pearson, τ s'interprète comme une probabilité 14. Il y a cependant une relation entre les valeurs estimées, on montre que (voir [11], page 251) que −1 ≤ 3τ̂ − 2ρ̂ ≤ +1 Lorsque n est assez grand, et les coecients pas trop proches de 1 (en valeur absolue), on constate également la relation suivante (voir [1], page 114) ρ̂ ≈ 3 2 τ̂ Enn, lorsque le (X,Y ) suit une loi normale bivariée, nous avons la relation (voir [9], page 138) τ = 2 π arcsin ρ 4.5.4 Traitement des ex-aequo Lorsque les données comportent des ex aequo, la formule 4.15 doit être corrigée. Calcul de νij . Pour le calcul des écart entre paires concordantes et discordantes S, nous devons réaménager la quantité νij en introduisant un nouveau cas : νij = 0 si (xi = xj) ou (yi = yj). Facteur de correction. Détaillons la procédure de calcul du facteur de correction Ex pour X ( la démarche est identique pour Ey de Y ) :  Pour un échantillon de taille n, nous recensons les valeurs distinctes de X, elle est égale à Gx. Si Gx = n, il n'y a pas d'ex aequo. 14. http://www.unesco.org/webworld/idams/advguide/Chapt4_2.htm Page: 59 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 60 4 Variations autour de la corrélation  Pour chaque valeur xg de X, nous comptabilisons le nombre d'occurrences tg.  Le facteur de correction Ex s'écrit alors Ex = Gx∑ g=1 tg(tg − 1) (4.17) Remarque 13 (Facteur de correction). Attention, le facteur de correction Ex est diérent de celui utilisé pour le ρ de Spearman (Tx). Ici aussi, nous remarquons que Ex = 0 si les données ne comportent pas d'ex-aequo. Coecient de Kendall corrigé. Il faut maintenant introduire les facteurs de corrections pour les données comportant des ex-aequo τ̂ = 2× S√ n(n− 1)− Ex × √ n(n− 1)− Ey (4.18) Exemple. On demande à 2 enseignants de noter de manière indépendante des dissertations de n = 8 étudiants. Le premier est expérimenté (X), le second est novice dans la profession (Y ). On chercher à savoir si les notes attribuées sont indépendantes, auquel cas il y aurait matière à s'inquiéter concernant le degré de subjectivité que peut comporter la notation des copies. Fig. 4.11. Tableau de calcul du τ de Kendall en présence d'ex aequo De nouveau nous construisons le tableau de calcul sous EXCEL (Figure 4.11) :  n = 8 observations.  Nous trions les données selon les valeurs de X.  Il y a Gx = 5 valeurs distinctes de X, nous comptons les occurrences (6.5 : 1; 9 : 2; 12 : 3; 13 : 1; 14 : 1). A l'aide de la formule 4.17, nous produisons Ex = 8.  Nous procédons de la même manière pour Y . Il a Gy = 6 valeurs distinctes, nous obtenons Ey = 4.  Il faut maintenant produire la valeur de S. Nous prenons comme référence l'individu no1 avec (x1 = 6.5; y1 = 8.5). Regardons les paires concordantes et discordantes : Page: 60 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 4.6 Rapport de corrélation 61  no2 est ex-aequo, en eet y2 = y1 → ν12 = 0  no3 est discordant car y2 = 6.5 < y1 → ν13 = −1  Etc.  Pour l'individu no1, nous obtenons ainsi ν1 = 4  Prenons maintenant comme référence l'individu no2 avec (x2 = 9; y2 = 8.5)  no3 est ex-aequo car x2 = 9 = x1 → ν23 = 0 ; il n'est même pas nécessaire de considérer la valeur de Y pour cette paire.  no4 est concordant car x4 = 12 > x2 et y4 = 11 > y2 → ν24 = +1  Etc.  Pour l'individu no2, nous obtenons ν2 = 5  Etc. Pour aboutir au nal à S = 19 Nous utilisons la formule corrigée (Equation 4.18) τ̂ = 2× 19√ 8(8− 1)− 8× √ 8(8− 1)− 4 = 0.76061 Pour tester la signicativité du coecient, nous utilisons l'approximation normale U = 3× 0.76061 √ 8(8− 1) 2(2× 8 + 5 = 2.63483 La p-value est 0.00842. Au risque 5%, on peut conclure à l'existence d'un lien positif entre un cor- recteur expérimenté et un correcteur novice. Mieux même, puisque nous pouvons interpréter le τ de Kendall comme une probabilité, nous dirions que 76.06% correspond au surcroît de chances que les deux correcteurs rangent de la même manière 2 copies prises au hasard (ouf !). 4.6 Rapport de corrélation Lorsque la relation s'écarte de la linéarité, nous constatons que le coecient de corrélation n'est plus adapté, particulièrement lorsque la relation est non monotone. Dans cette section, nous présentons un indicateur, le rapport de corrélation 15, dont l'interprétation et l'ecacité ne dépend pas de la forme de la relation étudiée. En particulier, il permet de rendre compte de la liaison même si elle est non monotone. 4.6.1 Principe et interprétation Le rapport de corrélation 16 est une mesure asymétrique, elle repose sur la notion d'espérance conditionnelle. Nous notons E[Y/X = x] l'espérance de la variable Y lorsque X = x, elle nous fournit un résumé de Y lorsque X prend la valeur x. Dans la régression linéaire simple par exemple, nous faisons l'hypothèse que cette espérance est une fonction linéaire de X c.-à-d. E[Y/X = x] = a×X + b. 15. en anglais, coecient of nonlinear relationship, ou eta coecient, ou encore eta correlation ratio 16. Voir http://biblioxtrn.uqar.qc.ca/stat/Fichesstat/multivariable/quanti/rapport.htm Page: 61 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 64 4 Variations autour de la corrélation Sous l'hypothèse nulle, et sous condition que les distributions conditionnelles soient gaussiennes et de variance identique (hypothèse d'homoscédasticité) 21, la statistique : F = η̂2 K−1 1−η̂2 n−K = n−K K − 1 × η̂2 1− η̂2 (4.22) Suit une loi de Fisher à (K − 1, n−K) degrés de liberté. Pour un risque α, la région critique du test s'écrit : R.C. : F > F1−α(K − 1, n−K) où F1−α(K − 1, n−K) est le quantile d'ordre (1− α) de la loi de Fisher à (K − 1, n−K) degrés de liberté. 4.6.3 Un exemple Nous essayons de vérier, au risque de 10%, l'inuence de la consommation de cigarettes (en nombre de paquets par jour) sur le risque d'apparition de la leucémie chez 43 gros fumeurs. L'analyse est bien asymétrique, dans l'autre sens, a priori, elle n'aurait pas trop d'intérêt 22. A partir de ces n = 43 observations, nous menons dans un premier temps une analyse de corrélation classique en calculant le coecient de Pearson (Figure 4.12, colonnes A et B de la feuille de calcul). Nous obtenons :  Le coecient de corrélation empirique est r̂ = −0.01876, son carré r̂2 = 0.00035  Pour tester la signicativité, nous formons le t de Student, t = −0.12016  La p-value du test nous fournit p-value = 0.90493  Au risque de 10%, il semble patent qu'il n'y a aucun lien entre les deux variables. On peut fumer en paix. S'arrêter à ce stade serait une grave erreur, un petit graphique mettant en relation les deux variables éclaire la relation sous un autre jour. Calculons maintenant le rapport de corrélation (Figure 4.12, colonnes D à F de la feuille de calcul) :  Dans le graphique, on se rend compte que pour chaque valeur de X, les nuages de points corres- pondant sont assez décalés. Impression conrmée par les moyennes conditionnelles en rouge que nous avons reliées. S'il y avait eu absence de relation, les moyennes seraient au même niveau, nous aurions obtenu un droite horizontale. Il semble que ce ne soit pas le cas ici, vérions cela numériquement.  Pour calculer le rapport de corrélation, nous devons tout d'abord former les moyennes condition- nelles, nous avons réalisé cela à l'aide de l'outil "tableaux croisés dynamiques" d'EXCEL, nous avons à la fois les eectifs et les moyennes par valeur de X. Par exemple, pour X = 1, nous avons n1 = 6 et ȳ1 = 6.45 21. l'ANOVA est quand même bien robuste par rapport à ces hypothèses 22. Les données sont ctives, que le lecteur médecin ne s'aole pas. Page: 64 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 4.6 Rapport de corrélation 65 Fig. 4.12. Rapport de corrélation - Risque de leucémie vs. Consommation de cigarettes  L'eectif global est bien n = 43 et la moyenne ȳ = 6.87.  Nous calculons le numérateur de la formule 4.20, nous obtenons B = 2.63695  De la même manière, nous formons le dénominateur, nous obtenons T = 13.70647  Le rapport de corrélation estimé est égal à η̂2 = B T = 0.19239. A comparer avec r̂2 = 0.00035 obtenu précédemment. Si liaison il y a, elle n'est absolument pas linéaire en tous les cas.  Voyons justement ce qu'il en est de la signicativité. Nous formons la statistique F (équation 4.22), elle est égale à F = 2.26307.  Pour un risque α = 0.1, nous la comparons à F0.9(4, 38) = 2.09896. Au risque α = 10%, le rapport de corrélation est diérent de 0, résultat conrmé par la p-value égale à 0.08032. Page: 65 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 66 4 Variations autour de la corrélation  Il y a donc bien un lien entre la consommation de cigarettes et le risque de leucémie, mais la liaison est assez complexe. On a des sérieux problèmes quand on en consomme 2 paquets par jour, au delà, on dirait que la situation s'améliore (ah bon ? ! ). Mais il ne faut pas se faire d'illusions, à mon avis, c'est parce qu'on va mourir d'autre chose avant de contracter une leucémie. Page: 66 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 5 Corrélation partielle paramétrique et non paramétrique 5.1 Principe de la corrélation partielle Il n'est pas rare qu'une ou plusieurs autres variables viennent fausser la corrélation entre 2 variables, laissant à penser à tort l'existence (ou l'absence) d'une liaison. On parle de facteur confondant (voir section 2.6, Problèmes et cas pathologiques). La littérature statistique regorge d'exemples plus ou moins loufoques de corrélations numériquement élevées, mais qui ne résistent pas une seconde à l'interprétation :  Corrélation entre les ventes de lunettes noires et les ventes de glaces (c'est pour ne pas voir les calories qu'on engoure...). Il faut surtout y voir l'eet de la chaleur ou de l'ensoleillement.  Corrélation entre le nombre d'admissions à l'hôpital et les ventes de glaces (ça y est, les calories ont encore frappé...). Encore une fois, la canicule y est pour quelque chose peut être.  Corrélation entre la longueur des cheveux et la taille des personnes (et oui, on compense comme on peut...). On a mélangé les hommes et les femmes dans les données. En moyenne, les hommes sont plus grands que les femmes avec, a contrario, des cheveux plus courts (Figure 2.6).  Corrélation entre le prix des voitures et leur consommation (tant qu'à payer, autant le faire ad vitam ...). Les voitures luxueuses, chères, sont aussi souvent de lourdes grosses cylindrées. Toute la lière automobile vous dit merci.  Corrélation entre la hausse des prix et le budget alimentation des ménages (les soucis donnent faim, c'est bien connu...). Il faudrait plutôt exprimer la consommation alimentaire en volume, autrement en tous les cas.  Etc. L'idée de la corrélation partielle est de mesurer la corrélation entre X et Y en annulant (en contrôlant) l'eet d'une troisième variable Z. Lorsque cette dernière est qualitative, la stratégie est simple, il s'agit de calculer r̂ dans chaque groupe du point de vue numérique, et de distinguer explicitement les groupes dans le graphique nuage de points (Figure 2.6 par exemple pour la corrélation taille et longueur de cheveux). Page: 69 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 70 5 Corrélation partielle paramétrique et non paramétrique L'aaire se complique lorsque la variable de contrôle Z est elle aussi numérique 1. Il faudrait alors retrancher de X et Y la variance expliquée par Z, puis calculer la corrélation en utilisant l'information résiduelle. C'est exactement la démarche de la corrélation partielle. Le rôle de Z est complexe. Parfois elle exacerbe la corrélation entre X et Y , parfois elle la masque. Garson ([5], http://www2.chass.ncsu.edu/garson/pa765/partialr.htm) résume dans un graphique les diérentes interaction qu'il peut y avoir entre X, Y et Z (Figure 5.1). Fig. 5.1. Typologie de l'inuence de Z sur la corrélation rxy On parle de corrélation brute lorsque l'on souhaite mesurer la relation directe rxy. On parle de corréla- tion partielle lorsque l'on souhaite faire intervenir une ou plusieurs variables de contrôle : plus précisément, corrélation partielle d'ordre p lorsque l'on a p variables de contrôle. 1. Dans les sciences expérimentales où nous contrôlons la production des données, nous pourrions, pour chaque valeur de Z, répéter l'expérimentation de manière à recueillir plusieurs observations (xi, yi). On retrouve ainsi le schéma de la variable de contrôle discrète. Mais dans les sciences sociales, souvent le triplet (xi, yi,zi) est unique dans le chier, la seule solution est de passer par la corrélation partielle. Page: 70 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 5.2 Corrélation partielle d'ordre 1 basé sur le r de Pearson 71 Corrélation (même partielle) n'est toujours pas causalité. Précisons encore et tou- jours qu'il s'agit toujours là de procédures numériques destinées à mesurer l'existence et l'intensité d'une liaison. La corrélation partielle ne déroge pas à cette règle. La mise en évidence d'une éventuelle causalité ne peut et ne doit reposer que sur les connaissances du domaine. En revanche, et c'est pour cela qu'elle peut être très bénéque dans une analyse, la corrélation partielle peut permettre de clarier la relation qui existe (ou qui n'existe pas) entre 2 variables. Remarque 14 (Quelques éléments sur les notations). Dans cette partie du support, nous noterons en priorité r le coecient partiel, sauf s'il y a ambiguïté, auquel cas nous indiquerons les indices adéquats. Concernant la transformation de Fisher, pour éviter la confusion avec la (ou les) variable(s) de contrôle, nous la noterons f . 5.2 Corrélation partielle d'ordre 1 basé sur le r de Pearson Dans un premier temps, étudions le coecient de corrélation partielle d'ordre 1 basée sur le coecient de Pearson. Les hypothèses relatives à l'inférence statistique restent de mise ici, on postule notamment que la distribution de (X,Y ) conditionnellement à Z suit une loi normale bivariée (voir [9], page 133). Fort heureusement, les propriétés asymptotiques sont conservées. Il n'en reste pas moins que le coecient partiel ne caractérise que les relations linéaires. 5.2.1 Dénition - Estimation La consommation partielle rxy.z peut être dénie à partir des corrélations brutes rxy.z = rxy − rxzryz√ 1− r2xz × √ 1− r2yz (5.1) L'idée est assez limpide, on retranche de la relation directe (X,Y ) les relations respectives de X et Y avec Z. Puis un terme de normalisation (symétrique, X vs. Z et Y vs. Z) est introduit de manière à ce que −1 ≤ rxy.z ≤ +1 Remarquons plusieurs résultats intéressants. Pour xer les idées, sans que cela ne réduise la portée du propos, nous dirons que rxy > 0 :  Lorsque Z est indépendant de X et Y (rxz = ryz = 0), rxy.z = rxy c.-à-d. Z ne pèse en aucune manière dans la relation entre X et Y  Lorsque Z est fortement lié positivement avec X et Y , on peut aboutir au résultat rxy.z ≈ 0 c.-à-d. il n'y a rien dans la relation (X,Y ) qui ne soit pas déjà expliquée par Z  Lorsque les liaisons entre Z d'une part, X et Y d'autre part, sont de signe opposés (ex. rxz > 0 et ryz < 0), le produit rxz.ryz < 0, on constate que rxy.z > rxy Page: 71 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 74 5 Corrélation partielle paramétrique et non paramétrique L'estimateur f̂ est calculée à l'aide de l'estimation de la corrélation partielle, il est asymptotiquement sans biais, distribué selon une loi normale, et de variance 2 σ2 f = 1 n− 1− 3 = 1 n− 4 (5.4) Dans notre exemple (Figure 5.2), nous souhaitons construire l'intervalle de conance à 95% :  Nous calculons la transformation de Fisher f = 1 2 ln 1+0.29553 1−0.29553 = 0.30461  L'écart type associé est égale à σf = √ 1 28−3 = 0.20412  Le quantile d'ordre 975% est u0.975 = 1.95996  La borne basse (resp. haute) pour f est bbf = 0.30461 − 1.95996 × 0.20412 = −0.09546 (resp. bhf = 0.30461 + 1.95996× 0.20412 = 0.70469)  Il ne reste plus qu'à appliquer la transformation inverse pour obtenir la borne basse (resp. haute) du coecient bbr = e2×(−0.09546)−1 e2×(−0.09546)+1 = −0.09517 (resp. bhr = 0.60734).  Nous constatons que l'intervalle englobe la valeur 0, c'est une autre manière de détecter la non- signicativité de r. 5.3 Corrélation partielle d'ordre p (p > 1) basé sur le r de Pearson 5.3.1 Dénition La corrélation partielle d'ordre p est une généralisation de la corrélation partielle. L'objectif est d'in- troduire plusieurs variables de contrôle. Dans notre exemple des voitures (Figure 2.2), nous savons per- tinemment que le "poids" est un aspect important que la consommation. Nous souhaitons également annuler son éventuelle action dans la relation "consommation" - "puissance". Comment estimer la corrélation partielle rxy.z1z2...zp ? Calcul récursif On montre qu'il est possible de calculer les corrélations partielles d'ordre p+1 à partir des corrélations partielles d'ordre p. On utilise pour cela la formule de passage suivante, qui n'est pas sans rappeler d'ailleurs le passage des corrélations brutes vers la corrélation partielle d'ordre 1 rxy.z1...zpzp+1 = rxy.z1z2...zp − rxzp+1.z1z2...zp × ryzp+1.z1z2...zp√ 1− r2xzp+1.z1z2...zp × √ 1− r2yzp+1.z1z2...zp (5.5) Pour la corrélation partielle d'ordre 2 que nous mettrons en oeuvre sur un exemple ci-dessous, la formulation adéquate est 2. voir http://en.wikipedia.org/wiki/Partial_correlation ; http://www.stat.psu.edu/online/ development/stat505/07_partcor/06_partcor_partial.html Page: 74 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 5.3 Corrélation partielle d'ordre p (p > 1) basé sur le r de Pearson 75 rxy.z1z2 = rxy.z1 − rxz2.z1 × ryz2.z1√ 1− r2xz2.z1 × √ 1− r2yz2.z1 (5.6) Si l'écriture est simple, le calcul est assez complexe. En eet, pour obtenir la corrélation partielle d'ordre p, nous devons dans un premier temps calculer les corrélations brutes de toutes les variables 2 à 2 à partir des données c.-à-d. ( p+1 2 ) corrélations. Puis mettre à jour de proche en proche cette matrice de corrélation en introduisant la première variable de contrôle z1, puis la seconde z2, etc. jusqu'à ce qu'on obtienne la profondeur souhaitée. Exemple : Mesurer la relation "puissance (X) - consommation (Y )" en contrôlant "cy- lindrée" (Z1) et "poids" (Z2) - Approche n o1. Corsons notre aaire de voitures en introduisant 2 variables de contrôle. Nous voulons produire le résultat à partir de l'équation 5.6. La séquence des calculs est la suivante (Figure 5.3) : Fig. 5.3. Corrélation partielle d'ordre 2 - Approche récursive - Fichier "voitures" Page: 75 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 76 5 Corrélation partielle paramétrique et non paramétrique  Tout d'abord nous calculons les corrélations brutes croisées : rxy = 0.8878, rxz1 = 0.8819, rxz2 = 0.9263, etc. C'est l'objectif de la matrice "Corrélations brutes croisées" dans la partie basse de la feuille EXCEL.  Ensuite, nous devons calculer toutes les corrélations croisées d'ordre 1 où Z1 (cylindrée) joue le rôle de variable de contrôle. Nous obtenons rxy.z1 = 0.2955, rxz2.z1 = 0.6878 et ryz2.z1 = 0.1663 (cf. la matrice "Corrélations partielles / Z1")  Enn, dernière étape, à partir de la matrice précédente nous appliquons l'équation 5.6 pour intro- duire la seconde variable de contrôle Z2 (poids). Nous obtenons rxy.z1z2 = 0.2955− 0.6878× 0.1663√ 1− 0.68782 × √ 1− 0.16632 = 0.25309 Il n'y a plus qu'un seul chire dans la matrice "Corrélations partielles /Z1,Z2", nous sommes arrivés au bout du processus récursif. Tant que le nombre de variables reste faible, ce processus est intéressant, surtout pédagogiquement. Lorsqu'il devient élevé, nous utilisons une autre approche, plus ecace, plus directe, pour obtenir la valeur de la corrélation partielle d'ordre p. Calcul par les résidus de la régression Cette approche s'appuie sur un autre point de vue pour aboutir au même résultat. Rappelons que la corrélation partielle consiste à mesurer le lien entre l'information résiduelle de X et Y qui ne soit pas déjà expliquée par les variables de contrôle. En prenant au pied de la lettre cette description, on s'attache à calculer le résidu ex (resp. ey) de la régression de X (resp. Y ) sur (Z1, Z2, . . . , Zp). Estimer la corrélation partielle d'ordre p revient tout simplement à calculer la corrélation brute entre les résidus r̂xy.z1...zp = r̂exey (5.7) Exemple : Mesurer la relation "puissance (X) - consommation (Y )" en contrôlant "cy- lindrée" (Z1) et "poids" (Z2) - Approche n o2 La feuille de calcul est organisée de manière diérente maintenant (Figure 5.4).  Tout d'abord, nous devons produire les équations de régression, nous obtenons X̂ = 0.00443Z2 + 0.00130Z1 + 1.41755. Nous en déduisons la nouvelle colonne de résidus ex = X − X̂ (colonne G dans la feuille de calcul)  De la même manière, nous déduisons le résidu ey = Y − Ŷ après la régression Ŷ = 0.01093Z2 + 0.04434Z2 − 15.58838 (colonne H dans la feuille EXCEL)  Il ne nous reste plus qu'à calculer la corrélation entre les résidus pour obtenir la corrélation partielle d'ordre 2, relativement à Z1 et Z2, r̂ = 0.25309.  Exactement la même valeur qu'avec l'approche récursive. Avec les logiciels d'économétrie usuels, nulle doute que cette seconde approche est quand même très facile à mettre en oeuvre, les risques de mauvaises manipulations sont réduits. Page: 76 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 5.4 Corrélation partielle sur les rangs - ρ de Spearman partiel 79 2. Calculer le résidu ϵx (resp. ϵy) de la régression des rangs de X (resp. rangs de Y ) avec les rangs des variables de contrôle. 3. Le ρ partiel est tout simplement le coecient de corrélation de Pearson appliqué sur ces 2 résidus c.-à-d. ρ̂xy.z1...zp = r̂ϵxϵy 4. Le dispositif inférentiel reste inchangé, on doit tenir compte de p dans le calcul des degrés de liberté. 5.4.2 ρ partiels via les formules de récurrence De la même manière que pour le coecient de Pearson, nous pouvons utiliser les formules de récurrence (équations 5.1, 5.6 et 5.5) pour calculer les ρ de Spearman partiels de proche en proche. Cette technique est plus simple tant que p est faible (de l'ordre de 1 ou 2 maximum). 5.4.3 Exemple : corrélation entre 2 types de cancer en contrôlant l'eet de la cigarette Hé ben non, ce n'est pas un exemple sur les voitures ! On cherche à déterminer sur cet exemple s'il existe une part non expliquée par la consommation de cigarettes dans la relation entre l'occurrence du cancer du poumon et celui du cancer de la vessie. Les individus sont des états des USA, CIG (Z) est le nombre de cigarettes par tête fumées, BLAD (X) est le nombre de personnes mortes du cancer de la vessie par 100.000 habitants, et LUNG est le nombre de personnes mortes du cancer de la vessie par 100.000 habitants 5. La corrélation brute entre BLAD et LUNG est de r̂xy = 0.6251, assez forte. Essayons de relativiser cela en contrôlant le rôle de la cigarette. Décrivons l'organisation de la feuille de calcul (Figure 5.5).  Les variables sont transformées en rangs, nous créons les variables R, S et T à partir de X, Y et Z. Attention, en cas d'ex-aequo, nous utilisons les rangs moyens.  Nous disposons de n = 42 observations.  La corrélation brute entre X et Y est ρ̂xy = 0.6251.  Les corrélations brutes avec la variable de contrôle sont ρ̂xz = 0.6213 et ρ̂yz = 0.7264.  Nous appliquons la formule 5.2 pour obtenir ρ̂xy.z = 0.6251− 0.6213× 0.7264√ 1− 0.62132 × √ 1− 0.72642 = 0.32280  Le t de Student associé est t = 0.32280√ 1−0.322802 42−1−2  Avec la loi de Student à (n− 1− 2 = 39) degrés de liberté, nous obtenons une p-value de 0.0395 5. http://lib.stat.cmu.edu/DASL/Stories/cigcancer.html - Nous avons supprimé du chier les 2 états signalés atypiques. Page: 79 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 80 5 Corrélation partielle paramétrique et non paramétrique Fig. 5.5. ρ de Spearman partiel d'ordre 1 - Approche récursive  Au risque 5%, on rejette l'hypothèse nulle. Il semble qu'il y ait autre chose non expliquée par la cigarette dans la liaison entre les 2 types de cancer (ceci étant à 1% la liaison n'est pas signicative, la liaison partielle est assez tenue). A titre de comparaison, voici les commandes et sorties SAS (Figure 5.6). Les résultats concordent. C'est préférable étant donné qu'on a suivi à la lettre le descriptif de la documentation en ligne. Remarque 15 (Corrélation partielle basée sur le τ de Kendall). Il est possible de calculer le τ partiel de Kendall à partir des τ bruts en utilisant la formule de passage analogue à celle du coecient de Pearson (équation 5.1) (voir [11], page 254 à 262 ; ou son résumé en français sur le site http://www.cons-dev. org/elearning/stat/stat7/st7.html). On peut très bien la mettre en oeuvre lorsque les données sont intrinsèquement des classements (des rangs aectés). Malheureusement, les avis divergent quant au calcul Page: 80 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 5.4 Corrélation partielle sur les rangs - ρ de Spearman partiel 81 Fig. 5.6. ρ de Spearman partiel d'ordre 1 - Commandes et sorties SAS de la distribution de la statistique, le test de signicativité est dicile, ce qui est un frein considérable à son utilisation. Page: 81 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 84 6 Corrélation semi-partielle Notons d'ores et déjà que ry(x.z) = ryx si X et Z sont orthogonaux rxz = 0. Tout l'information de X peut être utilisée pour expliquer Y . Si X et Z sont parfaitement corrélés c.-à-d. rxz = 1, l'équation 6.1 est indénie, mais on comprend aisément qu'il ne reste plus rien dans le résidu de X pour expliquer Y . En faisant le parallèle avec la formule de la corrélation partielle (équation 5.1), on constate de manière générale que ryx.z ≥ ry(x.z) Estimation. Sur un échantillon de taille n, pour estimer la corrélation semi-partielle, il sut de remplacer les corrélation théoriques de la formule 6.1 par les corrélations empiriques. Test de signicativité. Pour tester la signicativité de la corrélation i.e. H0 : ry(x.z) = 0 (test unilatéral ou bilatéral), nous utilisons le t de Student qui est a la même expression que celle de la corrélation partielle, avec la même distribution et les mêmes degrés de liberté (n− 3), à savoir t = r̂√ 1−r̂2 n−3 (6.2) Exemple : utiliser l'information résiduelle de la puissance (relativement à la cylindrée) pour expliquer la consommation. Reprenons notre fameux chier des voitures, réalisons les calculs (Figure 6.1) : Fig. 6.1. Coecient semi-partiel - Exemple des voitures  Nous avons n = 28  La corrélation brute entre Y et X est r̂yx = 0.88781, la liaison semble forte.  Les autres corrélations brutes sont r̂xz = 0.94755 et r̂yz = 0.89187 Page: 84 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 6.3 Corrélation semi-partielle d'ordre p 85  Nous formons l'équation 6.1 r̂y(x.z) = 0.88781− 0.89187× 0.94755√ (1− 0.947552 = 0.13367  le t de Student pour le test de signicativité est t = 0.13367√ 1−0.133672 28−3 = 0.67439  Au risque 5%, le seuil critique est t0.975(25) = 2.38461. Nous acceptons l'hypothèse de nullité du coecient. Manifestement, une fois retranchée de "puissance" l'information portée par "cylindrée", il ne reste plus rien pour expliquer la "consommation". 6.3 Corrélation semi-partielle d'ordre p Il est possible de généraliser la notion de corrélation semi-partielle à p variables de contrôle. Il s'agit de calculer la liaison entre Y et X, une fois retranchée de cette dernière l'inuence de Z1 . . . Zp variables. Pour réaliser le calcul pratique du coecient, nous utilisons la régression, ça nous permet de comprendre autrement, de manière plus générique, le mécanisme d'évaluation de la liaison. Concernant l'inférence statistique, le test de signicativité est très similaire à la corrélation partielle, notamment en ce qui concerne le calcul des degrés de liberté. Pour tester la signicativité, nous utiliserons la statistique t qui, sous l'hypothèse de nullité du coecient, suit une loi de Student à (n− p− 2) degrés de liberté t = r̂√ 1−r̂2 n−p−2 (6.3) 6.3.1 Utilisation des résidus de la régression Une bonne manière de construire la corrélation partielle est de prendre au pied la lettre la dénition en utilisant les résidus de la régression. Voici la séquence des traitements :  Dans un premier temps, nous calculons la régression linéaire multiple X = a0 + a1Z1 + . . . apZp + ϵ  A partir des coecients estimés âj , nous déduisons les valeurs prédites X̂  Nous construisons alors les résidus de la régression qui représente la fraction de X (l'information que porte X) qui n'est pas déjà expliquée par les variables de contrôle. ei = xi − x̂i  La corrélation semi partielle estimée est obtenue à l'aide de la corrélation empirique entre Y et le résidu e r̂y(x.z1···zp) = r̂ye (6.4) Page: 85 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 86 6 Corrélation semi-partielle 6.3.2 Comparaison de régressions Une approche alternative pour calculer la corrélation semi-partielle est de comparer diérentes régres- sions expliquant Y . En eet, on cherche à quantier le pouvoir explicatif additionnel de X par rapport aux variables de contrôle. Le carré du coecient s'interprète lui-même comme une proportion de variance expliquée supplémentaire. A partir de ce point de vue, on peut proposer une autre manière d'estimer le coecient de corrélation semi-partielle. Voici la séquence de calculs :  On eectue une première régression de Y sur les variables de contrôle Z1, . . . , Zp, nous obtenons le coecient de détermination R2 y.z1···zp , il correspond à la proportion de variance expliquée par la régression.  On réaliser une seconde régression intégrant la variable supplémentaire X parmi les explicatives, un nouveau coecient de détermination R2 u.xz1···zp est dégagé.  Le surcroît d'information qu'apporte X dans l'explication de Y , par rapport aux variables de contrôle, est la diérence entre les R2. C'est aussi le carré du coecient de corrélation semi- partielle r̂2y(x.z1···zp) = R2 y.xz1···zp −R2 y.z1···zp (6.5)  La racine carrée de cette quantité est le résultat souhaité. 6.3.3 Exemple d'application La démarche est générique pour (p ≥ 1). Néanmoins, pour illustrer notre propos, nous reprenons notre exemple de la section consacrée à la corrélation semi-partielle d'ordre 1 (section 6.2). L'intérêt est de pouvoir comparer les coecients obtenus selon les diérents approches. Les calculs sont regroupés dans une nouvelle feuille (gure 6.2). Détaillons tout d'abord l'approche basée sur la comparaison de régressions :  La régression de Y sur la variable de contrôle Z fournit R2 y.z = 0.79543. Nous avons utilisé la fonction DROITEREG() d'EXCEL.  La régression de Y sur X et Z fournit R2 y.xz = 0.81329  Le gain d'explication consécutif à l'introduction de X dans la régression est donc ∆ = 0.81329− 0.7953 = 0.01787  Et sa racine carrée est la corrélation semi-partielle r̂y(x.z) = √ 0.01787 = 0.13367. Nous obtenons exactement la même valeur qu'avec la méthode directe décrite dans la section 6.2. Détaillons maintenant l'approche basée sur les résidus de la régression :  Nous réalisons la régression de X sur la variable de contrôle Z. Nous utilisons les coecients pour calculer la colonne des résidus qui correspond à la fraction de X non expliquée par Z ei = xi − (0.04901× zi − 10.94646) Page: 86 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 A Gestion des versions Ce document évolue au l du temps. Voici les principales versions et leur date de mise en ligne. Des corrections très mineures sont parfois eectuées. Il faut se référer à la date de compilation située au bas de chaque page pour vous repérer.  Version 1.0 en Mai 2008. Première version du document. De nombreuses sources ont été utilisées. Les tests de comparaisons des corrélations et les variations autour des corrélations se sont beaucoup nourris de l'excellent ouvrage de Chen et Popovitch ([2]).  Version 1.1 en Mars 2015. Le document s'est enrichi de la lecture de l'ouvrage de Revelle ([7], notamment le chapitre 4 "Correlation and Covariance"). Les sections consacrées aux tests portant sur les matrices de corrélations ont été introduites : test de nullité des corrélations croisées et test de comparaison de 2 matrices des corrélations. Les calculs sur les exemples ont été confrontés avec les sorties des procédures - lorsqu'elles existent - disponibles dans le package 'psych' ([8]) pour R, un des très rares outils à proposer les diérents tests de comparaison des corrélations. Page: 89 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 Page: 90 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55 B Fichier de données Tout au long de ce support, nous illustrons notre propos à l'aide d'exemples numériques. Les données et les calculs associés sont disponibles dans un classeur EXCEL accessible en ligne. L'URL du chier est http://eric.univ-lyon2.fr/~ricco/cours/cours/dataset_analyse_correlation.xls. A chaque feuille du classeur correspond un thème du support. Pour faire la correspondance, le plus simple est de se référer à l'onglet de la feuille (Figure B.1). Fig. B.1. Classeur EXCEL - Analyse de corrélation Page: 91 job: Analyse_de_Correlation macro: svmono.cls date/time: 27-Dec-2017/1:55
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved