DOMAINES 

1. Modèles stochastiques d'apprentissage   
2. Analyse de la variance & Données structurées
3. Inférence  Combinatoire - Test du hasard
4. Inférence bayésienne - Inférence fiduciaire
5. Analyse Géométrique  des données
6. Régression

Il ya ce que nous savons,
et il y a ce que nous voudrions savoir.

   REGRESSION

L'état de l'art en Régression


La régression  est  de loin   le domaine  le plus volumineux de la statistique, tant théorique qu'appliquée. C'est la méthode privilégiée de l'économétrie; et avec la pratique des sciences sociales calquée sur l'économétrie, "modèle économétrique" en vient à désigner tout modèle de régression,  même sans référence à une  problématique économique.

Le modèle-cadre d'une régression est défini par une variable à prédire (ou "dépendante", notation consacrée y),  et une  variable (régression simple) ou plusieurs variables  (régression multiple) dites variables prédictrices (ou "indépendantes"). La régression consiste à construire une variable régressée ^y combinaison des variables prédictrices,  aussi proche que possible  (dans un sens à préciser) de  la  variable dépendante.

Aux procédures classiques de la régression linéaire, applicables aux variables numériques, sont venues récemment s'adjoindre la régression logistique et ses variantes, applicables aux variables catégorisées. Les considérations de ce module, centrées sur la régression linéaire, sont applicables (mutatis mutandis) aux diverses formes de régression.

En statistique des données expérimentales, la régression peut être considérée comme un cas particulier de l'analyse de variance, dans le cas de  variables indépendantes  numériques. Pour les données d'observation, des problèmes nouveaux apparaissent,  liés au fait  qu'en règle générale les variables prédictrices ne sont pas statistiquement indépendantes. C'est sur ces problèmes que se sont concentrés mes travaux récents, poursuivis avec Brigitte Le Roux, et depuis 2002 avec Frédéric Lebaron.

La pratique courante de la Régression

La pratique de la régression se borne le plus souvent à la  variante expéditive de la fit & test practice (à laquelle poussent  les logiciels qui crachent  leurs p-values): on fait tourner les programmes avec un bon nombre de variables, et on retient  les coefficients  qui sont significatifs. Cette pratique conduit à une double sur-interprétation: un  effet est tenu pour "vrai" parce qu'il est  conditionnel (" toutes choses égales  par ailleurs") et parce qu'il est statistiquement significatif.  Dans cette épaisse pollution, on ne discerne plus  les conclusions valables. Voir Rouanet & Lebaron (2006).

Ce n'est que ces dernières années que j'ai abordé  le domaine de la régression (pour les  données d'observation),  en adoptant systématiquement  la perspective de la statistique des chercheurs, à l'aide des  idées-forces mises en place antérieurement.  Cette étude s'est  révélée  étonnamment féconde; je ne m'attendais pas  (étant donnée la quantité de travaux sur la régression) à pareille moisson de résultats inédits. 

La formalisation linéaire de la régression

En régression linéaire, une combinaison linéaire de variables est une variable. L'ensemble des variables  sur un ensemble d'individus se formalise  en espace vectoriel, que l'on munit d'une structure euclidienne à l'aide de la mesure-effectif et/ou de la mesure-fréquence. Plus précisément, avec la mesure-fréquence,  le sous-espace des variables centrées admet  la covariance comme produit scalaire (cf. Rouanet  & Le Roux (1993). Les propriétés statistiques de la régression découlent directement des propriétés des projections (orthogonales et obliques) classiques en algèbre linéaire. La construction fondamentale, dans le cas de deux variables prédictrices x1 et  x2, est représentée par la figure empruntée à Rouanet & Le Roux (1993) FigReg.

Résultats acquis

Effets de structure: rose des vents des effets

A  toute variable prédictrice on peut attacher d'une part  son effet conditionnel, défini par le coefficient de régression dans la régression multiple,  d'autre part son effet global, défini par le coefficient de régression simple sur cette variable. Lorsque les variables prédictrices sont corrélées, les effets conditionnels diffèrent en général  des effets  globaux, et peuvent même  changer de signe.  Nous dénommons  ce phénomène  effet de structure en régression, généralisant la notion d'effet de structure classique en économétrie. 

L'étude, pour chaque variable prédictrice d'intérêt,  du rapport Effet conditionnel / Effet global, conduit  à discerner dans l'espace des variables  des  zones d'atténuation (|effet conditionnel| < |effet global|), d'accentuation (|effet conditionnel| > |effet global|) et de renversement (effet conditionnel de sens opposé à l'effet global). Dans le cas de deux variables,   les zones ainsi délimitées dessinent une "rose des vents" des effets (d'après Rouanet & al, 2002). A notre connaissance, ce   résultat est inédit.  

Quasi-colinéarité et le dilemme "exhaustivité" vs "parcimonie"; 

Dans la situation de quasi-colinéarité, c'est-àdire lorsque certaines variables prédictrices sont fortement corrélées,  apparaissent des propriétés hautement indésirables; d'où le dilemme exhaustivité (prendre un ensemble de variables pertinentes aussi complet que possible,  au risque de coefficients ininterprétables) versus parcimonie (prendre peu de variables mais qui peut-être ne sont pas les bonnes).  Dans un travail en cours, nous proposons des solutions à ce dilemme.

Grandeur des effets; paradoxe de Frédéric

Du point de vue de la  statistique des chercheurs, un autre  problème  majeur est, à l'évidence, d'évaluer  la grandeur de l'effetd'une variable prédictrice, ou au moins de pouvoir dire, en prenant deux variables, laquelle a l'effet le plus grand.  Or ce problème est jusqu'ici resté sans solution claire. Dans la pratique, les chercheurs  comparent tantôt les coefficients de régression des variables réduites (beta-weights),  tantôt les p-values de ces coefficients. Or on peut  montrer  - et vérifier sur des cas concrets - que dès qu'il y a plus de deux variables prédictrices, les deux procédures peuvent conduire à des résultats divergents: c'est ce que nous appelons familièrement le "paradoxe de Frédéric". Dans un travail en cours, nous proposons  des solutions à ce problème.

Intégration de la régression dans l'Analyse Géométrique des Données: 

  Une importante entreprise en cours est  l'intégration de la régression dans l'Analyse Géométrique des Données (AGD).

En régression,  les variables sont formalisées comme des vecteurs d'un espace vectoriel,  alors qu'en AGD, les objets fondamentaux (modalités ou individus) sont formalisés comme des points  d'un espace géométrique. Mais du fait qu'un espace vectoriel  peut  être représenté par un espace géométrique, la formalisation linéaire  met  en  lumière les structures mathématiques communes à la  régression et à  l'Analyse Géométrique des Données.  

Plus précisément:

. La  régression linéaire usuelle (variables numériques) peut être intégrée dans l'Analyse en Composantes Principales; voir article cité (Rouanet & al, 2002)

. La régression linéaire sur  variables indicatrices peut être intégrée directement dans l'Analyse des Correspondances Multiples (ACM) (travail en cours)   

. La régression logistique peut aussi, quoique moins directement, être intégrée dans l'ACM (travail en cours).

Implications en Sciences Sociales

Dans les sciences sociales, la régression a partie liée avec la "sociologie des variables", qui à l'heure actuelle  est  le "mainstream" des sciences sociales, et à laquelle Bourdieu s'est opposé vigoureusement, en préférant l'approche géométrique.  Plutôt que d'opposer deux "écoles concurrentes", l'intégration de la régression dans l'Analyse Géométrique des Données devrait conduire  à réinterpréter les résultats valables   de la  sociologie des variables en termes d'espace social.


Guide de lecture

  • Rouanet, Le Roux (1993) .  Analyse des Données Multidimensionnelles.  [On y trouve la représentation géométrique fondamentale des effets globaux et conditionnels  (projections orthogonales et obliques) avec la figure  FigReg) ]
     
  • Rouanet H., Lebaron F., Le Hay V., Ackermann W, Le Roux B. (2002). Régression et Analyse géométrique des données: réflexions et suggestions, Mathématiques  et Sciences Humaines , p. 13-45. 

Notes complémentaires sur REGRESSION


Retour à la page d'accueil

Début de page