Equipe Méthodes Mathématiques et Informatiques pour la Décision
     
Accueil
Membres
Thèmes de recherche
Projets
Ressources
Liens

Contact

Thèmes de recherche 

Notre objet d'étude actuel est la décision dans la conduite des agro-écosystèmes, au sens de la gestion technique des activités humaines, individuelles ou collectives, depuis le niveau de la parcelle jusqu'à celui de la petite région. Les modèles et méthodes que nous développons ont ainsi pour finalité de répondre aux deux familles de questions " que se passe-t-il si ... " et " que faut-il faire pour ..." usuellement rencontrées lorsque sont abordés des problèmes de décision et de conduite. Cela se traduit au niveau de l'activité de l'équipe par des recherches portant sur la modélisation, la simulation, l'évaluation et la conception de systèmes de conduite. 

La discipline dans laquelle s'inscrivent principalement nos recherches est l'intelligence artificielle (IA), et plus particulièrement ses composantes liées à l'étude de la décision : planification dans l'incertain, apprentissage par renforcement, décision possibiliste, ou encore représentation des connaissances. Cette orientation méthodologique se justifie par l'importance de la composante humaine (depuis le niveau de l'ouvrier agricole jusqu'au niveau collectif de gestion à l'échelle d'un bassin) dans les problèmes de décision que nous considérons, composante particulièrement abordée dans l'ensemble des recherches menées en IA dont une des problématiques centrales concerne l'étude et la construc­tion de modèles d'agents humains ou artificiels qui sont à même de décider en fonction d'une perception de l'environnement et en utilisant des connaissances, des croyances et des préférences.

Pour une certaine part toutefois, des développements techniques particuliers nécessitent l'appel à des disciplines voisines, telles l'automatique ou la recherche opérationnelle, mais aussi les mathématiques appliquées, les statistiques, les processus stochastiques. Cette pratique est chose courante en intelligence artificielle, discipline récente qui s'est construite en empruntant beaucoup à d'autres champs scientifiques.
 

Modèles et simulation de stratégies de conduite

Depuis la création de l'équipe, un investissement important a été réalisé sur le problème de la représentation du comportement décisionnel d'un agriculteur dans sa tâche de conduite d'un ou plusieurs ateliers de production dans son exploitation. L'objectif est ici de construire des modèles formels se prêtant à une expérimentation virtuelle par simulation informatique du fonctionnement interactif entre le système biophysique piloté et les organes assurant le pilotage et les interventions techniques sur ce système. Ce thème s'est appuyé sur plusieurs projets applicatifs qui portent sur des systèmes de production présentant des aspects contrastés, et qui permettent de couvrir un large spectre de cas possibles.

Ce travail a permis de formaliser et d'étendre la notion de stratégie de conduite introduite par des agronomes dans les années 80 et de construire un objet plus élaboré que celui de plan en IA où l'objectif premier est d'en faire une construction automatique. Plus spécifiquement, il s'agissait :
- d'identifier, caractériser et expliciter les concepts et structures pertinents dans la spécification d'une stratégie de conduite tels que, par exemple, activité, contrainte sur ou entre activités, plan, ajustement de plan, indicateur, opération, règle opératoire, ressource ou événement ; 
- de modéliser les mécanismes par lesquels une stratégie peut être mise en oeuvre dans le temps pour générer pas-à-pas une séquence d'actions techniques répondant aux conditions rencontrées. 
Du point de vue de l'intelligence artificielle, ce thème s'inscrit dans la problématique générale de la représentation de connaissances. Les bases génériques de modélisation de systèmes de production agricoles ont été développées sous la forme d'une ontologie des concepts du domaine et d'un ensemble de mécanismes d'interprétation dynamique des structures de représentation ; une bibliothèque logicielle control-diese permettant de construire et simuler des modèles fondés sur ce cadre générique est en cours réalisation.


Modèles de prédiction

Le couplage entre modèles décisionnels et modèles biophysiques permet de simuler l'application d'une stratégie de conduite pour différents contextes environnementaux. Il est en particulier possible d'étudier l'effet de l'aléa climatique sur différentes variables d'intérêt obtenues en sortie de simulation d'une stratégie de conduite, comme par exemple le rendement, la marge économique, les résidus azotées après culture, la quantité d'eau consommée par irrigation, etc. Après un premier travail en collaboration avec l'équipe Modélisation des grands systèmes de notre unité sur la classification de séries climatiques permettant de prévoir ou d'expliquer les années à fort ou à faible rendement pour une culture de blé, nous travaillons actuellement sur la question plus générale de la prédiction de quantiles de ces variables d'intérêt conditionnellement à des observations climatiques ou physiologiques en cours de conduite. Sur la base de données issues de la simulation de stratégies d'irrigation nous avons développé une approche par arbre de régression.
 

Décision spatialisée multi-acteurs

Plus récemment, l'équipe a commencé à s'intéresser à l'aspect distribué spatialement des décideurs. Actuellement, nos travaux consistent en l'extension du cadre des processus décisionnels de Markov (PDM) à des problèmes dans lesquels les variables d'état et de décision sont multidimensionnelles, et la récompense immédiate peut être une fonction de plusieurs récompenses "locales''. Un PDM est défini par un processus dynamique Markovien contrôlé par un processus de décision. Dans ce formalisme, les stratégies décisionnelles sont représentées par des politiques associant à chaque état du système une action à appliquer. L'application d'une politique à partir d'un état initial définit alors un ensemble de trajectoires possibles, auxquelles sont associés des coûts additifs. Le problème d'optimisation posé consiste à rechercher la politique maximisant pour chaque état initial l'espérance de ce coût sur l'ensemble des trajectoires possibles. Les cas de grande taille se rencontrent en particulier dans la modélisation de problèmes de gestion environnementale (où les différentes variables d'états peuvent correspondre à l'état de cellules placées sur une grille i.e. présence/absence d'une espèce animale, âge des arbres d'une parcelle et les variables de décision consistent par exemple à couper ou non une certaine parcelle...). Dans ce cadre, nous avons étudié la résolution de PDMs multidimensionnels faiblement couplés dans lesquels la partition du problème est évidente. Cette méthode a été illustrée par un problème jouet de gestion forestière. Parallèlement, nous étudions aussi la décomposition automatique des PDMs de grande taille pour lesquels il n'existe pas de partition évidente. 
Autour du même thème, nous nous intéressons également à l'approximation de processus stochasti­ques modélisant par exemple la propagation d'incendies, ou la dynamique spatialisée de populations animales. Ce dernier travail concernant des chaînes de Markov (et non des PDMs) multi-dimension­nels est en cours d'extension afin de prendre en compte la décision. Il est associé au projet finalisé sur l'étude des fonctions productives et environnementales des îlots boisés.

Apprentissage par renforcement

Une part importante de l'activité de recherche de l'équipe depuis 1996 concerne le développement et la mise en application de méthodes d'optimisation pour la conception de stratégies de conduite innovantes d'agro-écosystèmes. 

L'apprentissage par renforcement est un ensemble de méthodes et d'algorithmes ayant pour objectifs de résoudre des problèmes décisionnels de Markov (PDM) de grande dimension sur la base de simples simulations. Des algorithmes efficaces de résolution des PDM existent (programmation dynamique stochastique). Toutefois, pour des problèmes de grande dimension ou pour lesquels on ne dispose pas a priori du modèle Markovien de la dynamique (probabilités de transition), il s'avère souvent plus efficace d'employer des méthodes stochastiques de résolution basées sur l'emploi de la simulation de trajectoires du processus et sur des techniques d'approximation stochastique. C'est ainsi que fonctionne l'apprentissage par renforcement.

Suite à nos travaux entrepris à partir de 1996 dans le domaine de l'apprentissage par renforcement, nous nous sommes intéressés à mieux comprendre le fonctionnement de quelques algorithmes fondamentaux (Q-learning, TD(l), Q(l)), en appliquant des résultats théoriques relatifs à la conception optimale d'algorithmes adaptatifs à gains décroissants par emploi d'un gain matriciel. Ces travaux sont actuellement poursuivis en collaboration avec Manuel Samuelides, Professeur à Sup'Aero. 

En parallèle à ces développements théoriques, dans le cadre des projets Xitek (conduite d'une culture de blé) et Moderato (conduite d'une culture de maïs irrigué), nous avons implémenté plusieurs algorithmes d'apprentissage par renforcement dans le but de les évaluer et de les comparer. L'étude de ces cas pratiques nous a conduit à aborder la question de la représentation des politiques pour des problèmes à domaines continus. Dans la lignée des travaux menés dans le cadre de la thèse de S. Ndiaye jusqu'en 1998, nous avons ainsi profité d'une visite post-doctorale au sein de notre équipe pour aborder l'apprentissage par renforcement de règles de décision floues. 

Optimisation stochastique

L'optimisation stochastique, ou optimisation par simulation, est une discipline récente qui s'est considérablement développée avec l'avancée des techniques de simulation ces dernières années. Il s'agit ici d'effectuer l'optimisation de l'espérance d'une fonction stochastique d'un paramètre multi-dimensionnel, sur la simple base de réalisations de cette fonction obtenues par l'emploi d'un code de simulation. Depuis le début des années 90, de nombreuses méthodes ont été développées pour traiter efficacement le cas des paramètres à domaine discret ou continu, de petite ou grande dimension. 
Concernant les problèmes de conduite de systèmes agricoles, nous mené une approche expérimentale d'évaluation de différentes méthodes. Nous avons ainsi pu tester des algorithmes locaux de type Kiefer-Wolfowitz sur le problème d'optimisation de stratégies de pâturage, dans le cadre du projet Sepatou. Devant les limites de cette famille d'algorithmes, nous avons alors travaillé à la conception d'un algorithme d'optimisation globale (P2P) basé sur une décomposition hiérarchique de l'espace des paramètres et sur un échantillonnage des différents sous-domaines. Cet algorithme a été appliqué au cas du pâturage et au problème de l'optimisation de stratégies d'irrigation, dans le cadre du projet Moderato.

Planification en ligne par recherche arborescente stochastique

La démarche classique suivie en apprentissage par renforcement consiste à apprendre hors-ligne et par simulation une fonction de valeur optimale approchée du problème décisionnel de Markov à résoudre. Cette fonction de valeur permet alors de définir de manière directe une politique réactive
associant à tout état possible du système l'action à appliquer au cours de la conduite. Pourtant, l'application des techniques d'apprentissage par renforcement à des problèmes réalistes de planification dans l'incertain de grande dimension conduit nécessairement à une fonction de valeur apprise qui n'est alors qu'une approximation de la fonction de valeur optimale du problème, et donc généralement à des politiques réactives qui sont largement sous-optimales. Dans le cadre de la thèse de Laurent Péret, nous proposons d'améliorer en ligne une fonction de valeur approchée en développant un arbre de décision stochastique (les branches correspondent à des transitions aléatoires) pour chaque état rencontré sur un horizon de planification donné. La racine de l'arbre est l'état courant du système tandis que les feuilles sont évaluées par la fonction de valeur approchée. Une nouvelle valeur et une nouvelle action optimale sont alors calculés pour l'état courant selon un principe classique de programmation dynamique. Cette procédure algorithmique détermine ainsi une nouvelle politique stochastique, qui améliore sous certaines hypothèses la performance moyenne de la politique originale déduite de la fonction de valeur approché. Nous proposons dans la thèse une heuristique permettant de contrôler le développement de l'arbre et assurer un comportement anytime  correct. Son principe repose sur la simulation de trajectoires de longueurs croissantes, et sur des techniques d'exploration développées en apprentissage par renforcement.
 

Processus Décisionnels Markoviens possibilistes

Les PDMs possibilistes sont une contrepartie qualitative des PDMs (complètement et partiellement observables) basée sur la théorie des possibilités, que nous avons introduite à partir de 1999. Dans ce cadre les préférences et incertitudes sur les transitions d'un système sont modélisées via des niveaux d'une échelle finie, complètement ordonnée, au lieu d'utilités réelles et de probabilités. 
Suite au développement de cette approche originale, un effort a été lancé dans l'équipe afin de comparer, sur le plan théorique et à travers des applica­tions, ces approches "qualitatives" et l'approche plus traditionnelle de type Utilité Espérée et Processus Décision­nels de Markov. Les comparaisons théoriques (approches axiomatiques de type "Savage") sont menées en collaboration avec l'équipe "Planification, Décision et Méthodes de Preuve" du laboratoire IRIT de l'Université Paul-Sabatier.
En parallèle avec ces comparaisons "théoriques'' des cadres possibilistes et probabilistes pour la décision dans l'incertain, des comparaisons expérimentales ont été menées, dont une sur un problème de gestion de ressources naturelles : prise en compte de la menace exercée sur la survie du "Leadbeater's Possum" (marsupial australien endémique de l'état de Victoria) par la production de bois de construction. Ce cas d'étude pratique, typique des applications cibles des approches qualitatives (pauvreté des données, effets à très long terme) a été examiné en collaboration avec J.O.S. Kennedy, de l'Université La Trobe de Melbourne.
 

 
19 août 2004
Equipe Méthodes Mathématiques et Informatiques pour la Décision
Centre INRA de Toulouse, Auzeville
BP27, 31326 Castanet Tolosan cedex, 
France