![]() |
|
![]() |
| Accueil
Membres Thèmes de recherche Projets Ressources Liens |
Thèmes de recherche Notre objet d'étude actuel est la décision dans la conduite des agro-écosystèmes, au sens de la gestion technique des activités humaines, individuelles ou collectives, depuis le niveau de la parcelle jusqu'à celui de la petite région. Les modèles et méthodes que nous développons ont ainsi pour finalité de répondre aux deux familles de questions " que se passe-t-il si ... " et " que faut-il faire pour ..." usuellement rencontrées lorsque sont abordés des problèmes de décision et de conduite. Cela se traduit au niveau de l'activité de l'équipe par des recherches portant sur la modélisation, la simulation, l'évaluation et la conception de systèmes de conduite. La discipline dans laquelle s'inscrivent principalement nos recherches est l'intelligence artificielle (IA), et plus particulièrement ses composantes liées à l'étude de la décision : planification dans l'incertain, apprentissage par renforcement, décision possibiliste, ou encore représentation des connaissances. Cette orientation méthodologique se justifie par l'importance de la composante humaine (depuis le niveau de l'ouvrier agricole jusqu'au niveau collectif de gestion à l'échelle d'un bassin) dans les problèmes de décision que nous considérons, composante particulièrement abordée dans l'ensemble des recherches menées en IA dont une des problématiques centrales concerne l'étude et la construction de modèles d'agents humains ou artificiels qui sont à même de décider en fonction d'une perception de l'environnement et en utilisant des connaissances, des croyances et des préférences. Pour une certaine part toutefois, des développements techniques
particuliers nécessitent l'appel à des disciplines voisines,
telles l'automatique ou la recherche opérationnelle, mais aussi
les mathématiques appliquées, les statistiques, les processus
stochastiques. Cette pratique est chose courante en intelligence artificielle,
discipline récente qui s'est construite en empruntant beaucoup à
d'autres champs scientifiques.
Modèles et simulation de stratégies de conduite Depuis la création de l'équipe, un investissement important a été réalisé sur le problème de la représentation du comportement décisionnel d'un agriculteur dans sa tâche de conduite d'un ou plusieurs ateliers de production dans son exploitation. L'objectif est ici de construire des modèles formels se prêtant à une expérimentation virtuelle par simulation informatique du fonctionnement interactif entre le système biophysique piloté et les organes assurant le pilotage et les interventions techniques sur ce système. Ce thème s'est appuyé sur plusieurs projets applicatifs qui portent sur des systèmes de production présentant des aspects contrastés, et qui permettent de couvrir un large spectre de cas possibles. Ce travail a permis de formaliser et d'étendre la notion de stratégie
de conduite introduite par des agronomes dans les années 80 et de
construire un objet plus élaboré que celui de plan en IA
où l'objectif premier est d'en faire une construction automatique.
Plus spécifiquement, il s'agissait :
Le couplage entre modèles décisionnels et modèles
biophysiques permet de simuler l'application d'une stratégie de
conduite pour différents contextes environnementaux. Il est en particulier
possible d'étudier l'effet de l'aléa climatique sur différentes
variables d'intérêt obtenues en sortie de simulation d'une
stratégie de conduite, comme par exemple le rendement, la marge
économique, les résidus azotées après culture,
la quantité d'eau consommée par irrigation, etc. Après
un premier travail en collaboration avec l'équipe Modélisation
des grands systèmes de notre unité sur la classification
de séries climatiques permettant de prévoir ou d'expliquer
les années à fort ou à faible rendement pour une culture
de blé, nous travaillons actuellement sur la question plus générale
de la prédiction de quantiles de ces variables d'intérêt
conditionnellement à des observations climatiques ou physiologiques
en cours de conduite. Sur la base de données issues de la simulation
de stratégies d'irrigation nous avons développé une
approche par arbre de régression.
Décision spatialisée multi-acteurs Plus récemment, l'équipe a commencé à s'intéresser
à l'aspect distribué spatialement des décideurs. Actuellement,
nos travaux consistent en l'extension du cadre des processus décisionnels
de Markov (PDM) à des problèmes dans lesquels les variables
d'état et de décision sont multidimensionnelles, et la récompense
immédiate peut être une fonction de plusieurs récompenses
"locales''. Un PDM est défini par un processus dynamique Markovien
contrôlé par un processus de décision. Dans ce formalisme,
les stratégies décisionnelles sont représentées
par des politiques associant à chaque état du système
une action à appliquer. L'application d'une politique à partir
d'un état initial définit alors un ensemble de trajectoires
possibles, auxquelles sont associés des coûts additifs. Le
problème d'optimisation posé consiste à rechercher
la politique maximisant pour chaque état initial l'espérance
de ce coût sur l'ensemble des trajectoires possibles. Les cas de
grande taille se rencontrent en particulier dans la modélisation
de problèmes de gestion environnementale (où les différentes
variables d'états peuvent correspondre à l'état de
cellules placées sur une grille i.e. présence/absence d'une
espèce animale, âge des arbres d'une parcelle et les variables
de décision consistent par exemple à couper ou non une certaine
parcelle...). Dans ce cadre, nous avons étudié la résolution
de PDMs multidimensionnels faiblement couplés dans lesquels la partition
du problème est évidente. Cette méthode a été
illustrée par un problème jouet de gestion forestière.
Parallèlement, nous étudions aussi la décomposition
automatique des PDMs de grande taille pour lesquels il n'existe pas de
partition évidente.
Apprentissage par renforcement Une part importante de l'activité de recherche de l'équipe depuis 1996 concerne le développement et la mise en application de méthodes d'optimisation pour la conception de stratégies de conduite innovantes d'agro-écosystèmes. L'apprentissage par renforcement est un ensemble de méthodes et d'algorithmes ayant pour objectifs de résoudre des problèmes décisionnels de Markov (PDM) de grande dimension sur la base de simples simulations. Des algorithmes efficaces de résolution des PDM existent (programmation dynamique stochastique). Toutefois, pour des problèmes de grande dimension ou pour lesquels on ne dispose pas a priori du modèle Markovien de la dynamique (probabilités de transition), il s'avère souvent plus efficace d'employer des méthodes stochastiques de résolution basées sur l'emploi de la simulation de trajectoires du processus et sur des techniques d'approximation stochastique. C'est ainsi que fonctionne l'apprentissage par renforcement. Suite à nos travaux entrepris à partir de 1996 dans le domaine de l'apprentissage par renforcement, nous nous sommes intéressés à mieux comprendre le fonctionnement de quelques algorithmes fondamentaux (Q-learning, TD(l), Q(l)), en appliquant des résultats théoriques relatifs à la conception optimale d'algorithmes adaptatifs à gains décroissants par emploi d'un gain matriciel. Ces travaux sont actuellement poursuivis en collaboration avec Manuel Samuelides, Professeur à Sup'Aero. En parallèle à ces développements théoriques, dans le cadre des projets Xitek (conduite d'une culture de blé) et Moderato (conduite d'une culture de maïs irrigué), nous avons implémenté plusieurs algorithmes d'apprentissage par renforcement dans le but de les évaluer et de les comparer. L'étude de ces cas pratiques nous a conduit à aborder la question de la représentation des politiques pour des problèmes à domaines continus. Dans la lignée des travaux menés dans le cadre de la thèse de S. Ndiaye jusqu'en 1998, nous avons ainsi profité d'une visite post-doctorale au sein de notre équipe pour aborder l'apprentissage par renforcement de règles de décision floues. Optimisation stochastique L'optimisation stochastique, ou optimisation par simulation, est une
discipline récente qui s'est considérablement développée
avec l'avancée des techniques de simulation ces dernières
années. Il s'agit ici d'effectuer l'optimisation de l'espérance
d'une fonction stochastique d'un paramètre multi-dimensionnel, sur
la simple base de réalisations de cette fonction obtenues par l'emploi
d'un code de simulation. Depuis le début des années 90, de
nombreuses méthodes ont été développées
pour traiter efficacement le cas des paramètres à domaine
discret ou continu, de petite ou grande dimension.
Planification en ligne par recherche arborescente stochastique La démarche classique suivie en apprentissage par renforcement
consiste à apprendre hors-ligne et par simulation une fonction de
valeur optimale approchée du problème décisionnel
de Markov à résoudre. Cette fonction de valeur permet alors
de définir de manière directe une politique réactive
Processus Décisionnels Markoviens possibilistes Les PDMs possibilistes sont une contrepartie qualitative des PDMs (complètement
et partiellement observables) basée sur la théorie des possibilités,
que nous avons introduite à partir de 1999. Dans ce cadre les préférences
et incertitudes sur les transitions d'un système sont modélisées
via des niveaux d'une échelle finie, complètement ordonnée,
au lieu d'utilités réelles et de probabilités.
|
|
| 19 août 2004 |
Centre INRA de Toulouse, Auzeville BP27, 31326 Castanet Tolosan cedex, France |