Statistique
ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2
Dominique LAFFLY Maître de Conférences, Université de Pau UMR 5603 du CNRS et Université de Pau
Laboratoire Société Environnement Territoire Domaine Universitaire, IRSAM, 64000 PAU Tél : 05 59 92 31 23 Fax : 05 59 80 83 39 Mail : [email protected]
Le test du Chi2 consiste à mesurer l’écart entre une situation observéeet une situation théorique et d’en déduire l’existence et l’intensité d’une liaison mathématique. Par exemple, en théorie il y a autant de chance d’obtenir « pile » que « face » au lancer d’une pièce de monnaie, en pratique il n’en est rien. Le Chi2 mesure alors l’écart entre la distribution théorique (une chance sur 2) est celle observée à la suite des lancements successifs. En sciences sociales– notamment en géographie – on utilise le test du Chi2 dans la même logique que celle appliquée au calcul du coefficient de corrélation linéaire pour des variables quantitatives : existe-t-il une liaison entre deux variables, si oui quelle est son intensité ? Avec des données qualitatives (tranche d’âge, mode de déplacement, CSP…) il est nécessaire de reformuler les hypothèses initiales. D’un pointde vue mathématique, il existe une situation théorique d’indépendance de deux variables qualitatives (notons dès à présent qu’ici on démontrera l’indépendance pour démontrer a contrario la dépendance éventuelle). On confronte une situation observée et une situation théorique d’indépendance mathématique. La première représente les effectifs observés lorsque l’on croise les différentes modalités desdeux variables initiales, la seconde les effectifs théoriques. Les tests qui suivront seront fondés sur les écarts – distances – entre ces deux cas.
1
D’un point de vue mathématique on dit que la variable X est indépendante de la variable Y si la proportion des unités qui sont dans Xi et Yj parmi toutes celles qui sont dans Yj est la même que la proportion de celles qui sont dans Xi, dansla population totale, ceci étant vrai pour toutes valeurs de i et j, ce qui s’écrit :
ni , j ni = pour i = 1, 2, …, h et j = 1, 2, …, k nj n
Ou encore
ni , j =
(n * n )
i j
n••
En pratique, afin de tenir compte des fluctuations d’échantillonnage, on calcule des effectifs théoriques n’ij en tenant compte des distributions conditionnelles notées
ni. pour somme des lignes, n.jpour la somme des colonnes
et n.. pour la somme de toutes les cellules. Soit :
n’i , j =
(n
i•
* n• j ) n••
2
HOM FEM 65ans SA Agri Artisa CadSup ProfInt Empl Ouv Etud Retrai HOM FEM 65ans SA Agri Artisa CadSup ProfInt Empl Ouv Etud Retrai 69 68 19 20 39 19 18 34 10 17 10 9 8 10 17 17 5 5 10 7 7 13 4 5 4 4 2 1 20 8 10 15 8 17 7 33 19 1 6 1 2 4 3 1 1 5 3 5 5 11 4 1 1 3 10 2 1 4 44 7 10 3 4 4 5 1 6 1 1 3 1 1 1 1 1 4 14 15 18 30 2 9 10
Le tableau ci-dessus présente un extrait d’une matrice de Burt – de contingences multiples – issue d’une enquête auprès d’une population de 137 individus. Pour réaliser l’analyse bivariée on sélectionne dans cette matrice les cellules correspondant aux modalités des deux variables retenues. Par exemple, les CSP (SA, Agri, CadSup, PorfInt,Empl, Ouv, Etud et Retrai) et les classes d’âge (moins de 25 ans, de 25 à 35, de 35 à 45, de 45 à 55, de 55 à 65 et plus de 65 ans). Soit la matrice observée suivante : Tableau observé SA 65ans n.j 5 4 4 2 1 20 8 10 15 1 6 1 2 4 3 1 1 8 17 7 Agri Artisa CadSup 1 1 3 10 2 1 4 ProfInt Empl 3 4 4 5 1 Ouv 1 3 1 1 1 1 33 1 4 14 19 Etud Retrai ni. 30 2 39 19 18 34 10 17 137
3
On calcule alors lamatrice théorique. Par exemple, effectif théorique pour la modalité 65
CadSup Empl Etud Arti ProfInt Ouv Retrai < 25 25 - 35 35 - 45 45 - 55 55 - 65 > 65
Agri SA
CadSup Empl Etud Arti ProfInt Ouv Retrai
Cartogramme des effectifs observés
Cartogramme des effectifs théoriques
L’étape suivante consiste à dresser une matrice des différences entre situation observée et situation…