Test econometriques
Régression linéaire – Aide mémoire
Types de variables
Variable dépendante : Y Variables explicatives : X1, X2, X3, …, Xp
Modèle : Y = ? 0 + ? 1 X 1 + ? 2 X 2 + ? 3 X 3 + … + ? p X p + ? Hypothèses
– sur la forme du modèle : (H1) linéarité du modèle et choix des régresseurs (hypothèse de bonne spécification) – sur les erreurs : (H2) ? 1 , ? 2 , … , ? T ont une moyenne nulle, c’est-à-dire ?(?t ) = 0 ?t = 1, … , T (H3) homoscédasticité : Var (? t ) = ? 2
?t = 1,…, T
(H4) non autocorrélation : Cov(? t , ? t ‘ ) = 0 ?t ? t ‘ (H5) normalité : les erreurs sont distribuées suivant une loi normale. – sur les variables explicatives : (H6) les variables X1, X2, X3, …, Xp sont non aléatoires. Néanmoins la théorie se généralise facilement pour des variables aléatoires. (H7) exogénéité :les variables X1, X2, X3, …, Xp sont indépendantes du terme d’erreurs (H8) non multicolinéarité : les variables X1, X2, X3, …, Xp sont linéairement indépendantes, ce qui assure l’unicité de l’estimateur OLS. En cas de presque linéarité, les estimations obtenues seront instables.
Implications des violations d’hypothèse
(H1) Linéarité du modèle : mauvais ajustement (H3) Homoscédasticité :L’estimateur LS des ? est non biaisé mais non efficace. L’estimateur LS de ? 2 est biaisé. L’estimateur de la matrice de variance-covariance des estimateurs LS des ? est biaisé (donc problème pour construire des intervalles de confiance). (H4) Non autocorrélation L’estimateur LS des ? est non biaisé mais non efficace. L’estimateur LS de la matrice de variance-covariance des ? est biaisé. (H5) Normalité deserreurs Hypothèse nécessaire pour avoir des tests exacts. Hypothèse qui n’est pas nécessaire pour la partie estimation.
1
(H7) Exogénéité L’estimateur LS des ? est biaisé et non convergent. (H8) Multicolinéarité En cas de multicolinéarité parfaite, les estimations sont rendues impossibles. En cas de quasi multicolinéarité, de petites variations dans les données peuvent faire fortementvarier les estimations des paramètres ? .
Vérification des hypothèses et remèdes (utilisation des résidus comme estimations des erreurs)
(H1) Linéarité du modèle
Régression simple : scatter plot Régression multiple : plus difficile, faire les graphiques en 2 dimensions entre la variable Y et les variables X.
Remède :
linéariser la fonction en transformant les variables ou changer le modèle.(H2) ?(? t ) = 0 ?t = 1,…, T
Toujours vérifié par LS
(H3) Homoscédasticité
plot des résidus, scatter plot (résidus, valeurs estimées), test de White
Remède :
utiliser GLS
(H4) Non autocorrélation
plot des résidus, scatter plot (résidus, index des années), test de Durbin-Watson Remède : trouver une nouvelle variable explicative qui pourrait expliquer l’information qui reste dansle terme d’erreur, ou trouver la « forme de l’erreur ».
(H5) Normalité des erreurs
histogramme des résidus, moyenne, médiane, skewness, kurtosis, test de Jarque-Béra (combi de skewness et kurtosis)
(H8) Multicolinéarité
matrice de corrélation des variables explicatives, scatter plot deux à deux des variables explicatives, signe des estimations contre intuitif, variable non significativecontre intuitif
message d’erreur « near singular matrix » Remède : enlever la variable non significative,
utiliser une ACP pour trouver des facteur qui sont indépendants, revenir à la définition des variables et essayer de comprendre pourquoi certaines variables sont fortement corrélées.
2
Info tests
Test de la qualité d’ajustement du modèle R² Compris entre 0% et 100%. Augmente avec lepouvoir explicatif du modèle. Inconvénient : cette statistique augmente systématiquement avec le nombre de variables explicatives introduites dans le modèle utiliser le R² ajusté R² ajusté Compris entre 0% et 100%. Augmente avec le pouvoir explicatif du modèle et diminue avec les pertes en degrés de liberté. Critère d’Akaike (ou Akaike information criterion – AIC)
Entre deux modèles, il…