Régression

La régression est de loin le domaine le plus volumineux de la statistique, tant théorique qu'appliquée. C'est la méthode privilégiée de l'économétrie; et avec la pratique des sciences sociales calquée sur l'économétrie, "modèle économétrique" en vient à désigner tout modèle de régression, même sans référence à une problématique économique.

Le modèle-cadre d'une régression est défini par une variable à prédire (ou "dépendante", notation consacrée y), et une variable (régression simple) ou plusieurs variables (régression multiple) dites variables prédictrices (ou "indépendantes"). La régression consiste à construire une variable régressée ^y combinaison des variables prédictrices, aussi proche que possible (dans un sens à préciser) de la variable dépendante.

Aux procédures classiques de la régression linéaire, applicables aux variables numériques, sont venues récemment s'adjoindre la régression logistique et ses variantes, applicables aux variables catégorisées. Les considérations de ce module, centrées sur la régression linéaire, sont applicables (mutatis mutandis) aux diverses formes de régression.

En statistique des données expérimentales, la régression peut être considérée comme un cas particulier de l'analyse de variance, dans le cas de variables indépendantes numériques. Pour les données d'observation, des problèmes nouveaux apparaissent, liés au fait qu'en règle générale les variables prédictrices ne sont pas statistiquement indépendantes. C'est sur ces problèmes que se sont concentrés mes travaux récents, poursuivis avec Brigitte Le Roux, et depuis 2002 avec Frédéric Lebaron.

La pratique courante de la Régression

La pratique de la régression se borne le plus souvent à la variante expéditive de la fit & test practice (à laquelle poussent les logiciels qui crachent leurs p-values): on fait tourner les programmes avec un bon nombre de variables, et on retient les coefficients qui sont significatifs. Cette pratique conduit à une double sur-interprétation: un effet est tenu pour "vrai" parce qu'il est conditionnel (" toutes choses égales par ailleurs") et parce qu'il est statistiquement significatif. Dans cette épaisse pollution, on ne discerne plus les conclusions valables. Voir Rouanet & Lebaron (2006).

Ce n'est que ces dernières années que j'ai abordé le domaine de la régression (pour les données d'observation), en adoptant systématiquement la perspective de la statistique des chercheurs, à l'aide des idées-forces mises en place antérieurement. Cette étude s'est révélée étonnamment féconde; je ne m'attendais pas (étant donnée la quantité de travaux sur la régression) à pareille moisson de résultats inédits.

En régression linéaire, une combinaison linéaire de variables est une variable. L'ensemble des variables sur un ensemble d'individus se formalise en espace vectoriel, que l'on munit d'une structure euclidienne à l'aide de la mesure-effectif et/ou de la mesure-fréquence. Plus précisément, avec la mesure-fréquence, le sous-espace des variables centrées admet la covariance comme produit scalaire (cf. Rouanet & Le Roux (1993). Les propriétés statistiques de la régression découlent directement des propriétés des projections (orthogonales et obliques) classiques en algèbre linéaire. La construction fondamentale, dans le cas de deux variables prédictrices x1 et x2, est représentée par la figure empruntée à Rouanet & Le Roux (1993) FigReg.

A toute variable prédictrice on peut attacher d'une part son effet conditionnel, défini par le coefficient de régression dans la régression multiple, d'autre part son effet global, défini par le coefficient de régression simple sur cette variable. Lorsque les variables prédictrices sont corrélées, les effets conditionnels diffèrent en général des effets globaux, et peuvent même changer de signe. Nous dénommons ce phénomène effet de structure en régression, généralisant la notion d'effet de structure classique en économétrie.

L'étude, pour chaque variable prédictrice d'intérêt, du rapport Effet conditionnel / Effet global, conduit à discerner dans l'espace des variables des zones d'atténuation (|effet conditionnel| < |effet global|), d'accentuation (|effet conditionnel| > |effet global|) et de renversement (effet conditionnel de sens opposé à l'effet global). Dans le cas de deux variables, les zones ainsi délimitées dessinent une "rose des vents" des effets (d'après Rouanet & al, 2002). A notre connaissance, ce résultat est inédit.

Dans la situation de quasi-colinéarité, c'est-àdire lorsque certaines variables prédictrices sont fortement corrélées, apparaissent des propriétés hautement indésirables; d'où le dilemme exhaustivité (prendre un ensemble de variables pertinentes aussi complet que possible, au risque de coefficients ininterprétables) versus parcimonie (prendre peu de variables mais qui peut-être ne sont pas les bonnes). Dans un travail en cours, nous proposons des solutions à ce dilemme.

Du point de vue de la statistique des chercheurs, un autre problème majeur est, à l'évidence, d'évaluer la grandeur de l'effetd'une variable prédictrice, ou au moins de pouvoir dire, en prenant deux variables, laquelle a l'effet le plus grand. Or ce problème est jusqu'ici resté sans solution claire. Dans la pratique, les chercheurs comparent tantôt les coefficients de régression des variables réduites (beta-weights), tantôt les p-values de ces coefficients. Or on peut montrer - et vérifier sur des cas concrets - que dès qu'il y a plus de deux variables prédictrices, les deux procédures peuvent conduire à des résultats divergents: c'est ce que nous appelons familièrement le "paradoxe de Frédéric". Dans un travail en cours, nous proposons des solutions à ce problème.

Une importante entreprise en cours est l'intégration de la régression dans l'Analyse Géométrique des Données (AGD).

En régression, les variables sont formalisées comme des vecteurs d'un espace vectoriel, alors qu'en AGD, les objets fondamentaux (modalités ou individus) sont formalisés comme des points d'un espace géométrique. Mais du fait qu'un espace vectoriel peut être représenté par un espace géométrique, la formalisation linéaire met en lumière les structures mathématiques communes à la régression et à l'Analyse Géométrique des Données.

. La régression linéaire usuelle (variables numériques) peut être intégrée dans l'Analyse en Composantes Principales; voir article cité (Rouanet & al, 2002)

. La régression linéaire sur variables indicatrices peut être intégrée directement dans l'Analyse des Correspondances Multiples (ACM) (travail en cours)

. La régression logistique peut aussi, quoique moins directement, être intégrée dans l'ACM (travail en cours).

Dans les sciences sociales, la régression a partie liée avec la "sociologie des variables", qui à l'heure actuelle est le "mainstream" des sciences sociales, et à laquelle Bourdieu s'est opposé vigoureusement, en préférant l'approche géométrique. Plutôt que d'opposer deux "écoles concurrentes", l'intégration de la régression dans l'Analyse Géométrique des Données devrait conduire à réinterpréter les résultats valables de la sociologie des variables en termes d'espace social.

Guide de lecture