Marc Métivier



Accueil / Home

Recherche / Research

Apprentissage par renforcement et imitation dans le cadre des Systèmes de Classeurs.

L'apprentissage par renforcement étudie les techniques permettant à un agent en interaction avec un environnement, à priori inconnu, d'adapter automatiquement son comportement afin de maximiser une fonction objectif propre à cet environnement. L'agent considéré est un système de décision. Il peut influencer l'environnement par l'exécution d'actions dont les séquences définissent son comportement. L'information dont il dispose pour décider des actions à exécuter est le renforcement : une rétribution occasionnelle reçue en conséquence de certaines actions et qui fournit une évaluation de la pertinence des prises de décision passées. L'objectif de l'agent est alors de trouver le comportement optimal : celui dont les actions permettent de maximiser le renforcement à venir.

Parmi les méthodes d'apprentissage par renforcement, je m'intéresse particulièrement aux systèmes de classeurs. Il s'agit de systèmes à base de règles issus du domaine de recherche des méthodes évolutionnaires. Dans ces systèmes, la perception de l'environnement est associée aux actions sous la forme de règles de type condition-action, appelées classeurs, intégrant des mécanismes permettant de généraliser sur les régularités observées dans la perception. Leur principe général consiste à générer et manipuler les règles en fonction des interactions avec l'environnement et d'utiliser différents mécanismes, généralement stochastiques, pour explorer l'espace des classeurs possibles. En particulier, la méthode de recherche classique consiste à considérer l'ensemble de règles comme un population d'individus et d'appliquer un algorithme génétique sur cette population. Dans ce contexte, la valeur sélective d'une règle (fitness) est basée sur les récompenses qu'elle permet d'obtenir dans l'environnement.

Mon second élément d'intérêt est l'imitation pour l'apprentissage par renforcement. L'imitation peut être vue comme un moyen d'améliorer l'apprentissage. Dans l'apprentissage par renforcement, elle peut permettre à un agent d'augmenter ses capacités à maximiser une fonction de renforcement grâce à l'observation du comportement d'un autre agent. Tout processus d'imitation suppose l'existence d'un agent observateur et d'un, ou plusieurs, agent(s) mentor(s). Le mentor est celui qui a le comportement qui doit être imité ou copié. L'observateur est celui qui essaie d'apprendre quelques caractéristiques du comportement du mentor.

Au cours de ma thèse, je me suis intéressé à l'étude de la mise en oeuvre de mécanismes d'imitation permettant à un agent dirigé par un système de classeur d'améliorer son comportement grâce à l'observation du comportement d'un mentor. Une particularité de ce travail a été de considérer que le mentor n'agit pas en professeur. Plus précisément, je considère des mentors ne pouvant pas, ou ne souhaitant pas, altérer leur comportement afin d'aider l'apprentissage de l'observateur. Parallèlement, je considère des mentors pouvant avoir des objectifs différents de celui de l'observateur. L'hypothèse de ce travail est alors qu'il existe de nombreux cas où l'observation d'un tel mentor peut tout de même apporter des informations utiles pour l'apprentissage de l'observateur. Plusieurs méthodes sont étudiées et testées dans différents environnements d'étude classiques du domaine des systèmes de classeurs. Ces études sont faites en utilisant les trois systèmes de classeurs actuellement considérés comme les systèmes de référence dans les trois formes de systèmes de classeurs majoritairement étudiés dans ce domaine de recherche. Il s'agit des systèmes : ZCS pour les systèmes basés sur la force, XCS pour les systèmes basés sur la précision, et ACS pour les systèmes basés sur l'anticipation. Ces expériences ont permis de mettre en évidence l'importance d'utiliser un modèle du comportement du mentor observé, avec une prise en compte de ce modèle par l'intermédiaire d'une action interne spécifique à l'imitation.