Analyse des donnees : analyse en composantes principales

décembre 17, 2018 Non Par admin

04 Janvier

10

ANALYSE DES DONNEES : Analyse en composantes principales
YE Mimi EMELYANOVA Nadya TRECHAUD Amélie

IAE M1 MP

ANALYSE DES DONNEES : Analyse en composantes principales

PARTIE 1. ANALYSE EN COMPOSANTES PRINCIPALES AVEC R
L’Analyse en Composantes Principales(ACP) est une méthode de la famille de l’analyse des données et plus généralement de la statistique multivariée.Objet de la méthode : La méthode a pour objet de décrire les données contenues dans un tableau d’individus et de caractères. Ce tableau s’appelle matrice des données. Il se compose : – de lignes d’individus : des personnes, des entreprises, des journaux, etc., – de colonnes de variables : quantitatives (âge, taille, nombre d’employés, etc.). Pour obtenir une meilleur représentation des données, onprend les premières composantes principales. L’ACP peut être faite sur des données brutes ou sur des données réduites. Le but de cette méthode est de : – décrire et représenter les ressemblances entre les individus par rapport à l’ensemble des variables – décrire et représenter les corrélations linéaires entre variables. On applique usuellement une ACP sur un ensemble de N variables aléatoires X1,…, XN connues à partir d’un échantillon de K réalisations conjointes de ces variables. Cet échantillon de ces N variables aléatoires peut être structuré dans une matrice M à K lignes et N colonnes.

Chaque variable aléatoire Xn = (X1, n, …, XK, n)’ a une moyenne

et un écart type óXn.

Chaque composante est un vecteur propre de la matrice de covariance des données dont la variance est /i .Les combinaisons des composantes expliquent le plus possible la variabilité entre les individus. Les composantes principales ne sont pas corrélées et rangées par ordre de l’importance. L’inertie expliquée par la i-ème composante principale, qui est associée à la i-ème plus

grande valeur propre, est calculée avec la formule:

.

La méthode ACP permet de calculer la covariance et lacorrélation entre les variables. Le degré de corrélation entre au moins deux variables liées est représenté par le nuage de points (plot(tab)) et par le graphique biplot(acp). IAE M1 MP Mimi YE, Nadya EMELYANOVA, Amélie TRECHAUD
2

ANALYSE DES DONNEES : Analyse en composantes principales
Les différentes observations des nuages de points et des graphiques permettent de déterminer :
• • • • • •

Destendances Des dépendances. Des relations positives, négatives, directes, indirectes ou inverses. Des répartitions plus ou moins homogènes. Des données aberrantes s’écartant de l’écart type. Des sous groupes pouvant correspondre à l’application d’une loi normale.

Les graphiques réalisés sont très lisibles. En même temps, la corrélation ne suffit pas pour autant la causalité, d’autres facteurspouvant entrer en ligne de compte. La puissance de l’ACP est qu’elle sait aussi prendre en compte des données de nature hétérogène: par exemple un tableau des différents pays du monde avec le PNB par habitant, le taux d’alphabétisation, le taux d’équipement en téléphones portables, le prix moyen du hamburger, etc…Elle permet d’avoir une intuition rapide des effets conjoints entre ces variables.EXEMPLES Pendant les cours TP (scéance 4), on a choisi l’échantillon LifeCycleSavings comme exemple (on a fait aussi le jeu de données USArrests). L’analyse en composantes principales avec le logiciel R. 1. La commande help. Cette commande permet de consulter l’information sur l’échantillon statistique. >help(LifeCycleSavings) Intercountry Life-Cycle Savings Data Description Data on the savingsratio 1960–1970. Usage LifeCycleSavings Format A data frame with 50 observations on 5 variables. [,1] sr numeric aggregate personal savings [,2] pop15 numeric % of population under 15 IAE M1 MP Mimi YE, Nadya EMELYANOVA, Amélie TRECHAUD
3

ANALYSE DES DONNEES : Analyse en composantes principales
[,3] pop75 numeric % of population over 75 [,4] dpi numeric real per-capita disposable income [,5]…