• Réduire le texte

    Réduire le texte
  • Rétablir taille du texte

    Rétablir taille du texte
  • Augmenter le texte

    Augmenter le texte
  • Imprimer

    Imprimer

Les stratégies de recherche révélées par l’analyse des publications

Grâce à des outils puissants et innovants, l’analyse comparée des publications produites par l’Inra et l’USDA pendant quarante ans permet de comprendre l’histoire et le fonctionnement de ces deux grands mammouths de l’agronomie.

Présentation de CORTEX par Guy Riba Analyse de texte des publications Inra et USDA pendant la période 1976-2016 avec le logiciel CORTEX et la technologie WILDER.. © Inra, Bertrand Nicolas
Par Pascale Mollier
Mis à jour le 16/08/2016
Publié le 22/06/2016

On peut faire parler les traces laissées par les animaux pour mieux connaître leur comportement. On peut aussi faire parler les publications scientifiques, comme autant d'empreintes laissées par les institutions qui les produisent… C’est ce qu’a permis de faire le logiciel CorTexT en analysant 230 000 publications produites par l’Inra et l’USDA pendant quarante ans. Cette analyse a permis de comparer les traces de ces deux grands mammouths de la recherche agronomique : leurs préoccupations, leurs stratégies de recherche, mais aussi leur histoire et leur gouvernance…

 « Faire parler » les publications

 De 1976 à 2016, l’USDA publie près de 160 000 articles scientifiques, tandis que l’Inra en édite près de 70 000. Dans le champ de la recherche agronomique, ces deux organismes sont les deux premiers mondiaux en termes de nombre de publications mais aussi en termes de nombre cumulé de citations.

A partir de ces publications, le logiciel CorTexT dégage les termes les plus cités et la fréquence de leur co-citations. Les ensembles de mots ainsi obtenus, ou « clusters », représentent les grandes thématiques étudiées. La visualisation des clusters sous forme de nuages de très haute résolution, grâce à une technologie innovante, permet de comparer finement  les priorités de recherche des deux organismes.

Convergence des thématiques entre Inra et USDA

Quand on sélectionne les 500 mots les plus cités, on remarque que plus de 95% des mots sont identiques entre l’Inra et l’USDA. Par ailleurs, ces mots se répartissent en onze clusters analogues.

Des différences apparaissent cependant à l’intérieur des clusters analogues : par exemple, le cluster « Pathogens and diseases » regroupe des mots liés à la santé des animaux et à la sécurité sanitaire des produits agroalimentaires à l’USDA, tandis que ce cluster contient des mots liés à la santé des plantes à l’Inra.

Robustesse comparée des thématiques

Une manière de tester la robustesse d’une thématique consiste à faire varier la fréquence que l’on fixe comme seuil pour sélectionner les mots : en effet, si l’on retient les 200 mots les plus fréquents, on aura moins de clusters que si on retient les 500 mots les plus fréquents. Seuls les clusters les plus « robustes » se maintiendront. Des différences de robustesse apparaissent ainsi entre l’Inra et l’USDA. Ainsi, pour la thématique de l’eau, le cluster « water stress » est robuste pour l’Inra. Il regroupe un ensemble de mots liés à l’étude de la relation de la plante avec l’eau.  Alors que pour l’USDA, c’est le cluster « ground water » - c’est à dire l’étude des ruissellements, drainages, infiltrations, réserves d’eau, barrages, etc. - qui est robuste, alors que cette sous-thématique n’apparaît jamais à l’Inra.

Evolution des priorités au cours du temps

Enfin, une analyse de l’évolution des clusters au cours des 40 dernières années s’avère très révélatrice. Un exemple : à l’Inra, la thématique « bovins » se répartit dans les années 80 en deux clusters « viande » et « lait, génétique ». En 1990, ces deux clusters éclatent en 6 clusters liés à la spécialisation disciplinaire (génétique, génomique fonctionnelle, microbiologie etc.) et, en 2000, apparait un cluster « prairies et environnement », tandis que la génomique et la production fromagère recule.

A l’USDA, comme en France, la priorité est donnée à la production dans les années 80. Cependant, la problématique pâturage apparaît très tôt, comme une préoccupation propre aux USA qui en manque. Dans les années 90, apparaissent des termes liés à la sécurité sanitaire des produits, tandis que l’on voit un rapprochement entre les thématiques pâturages et sécheresse.

Convergences et divergences sont significatives de l’histoire des deux organismes

« La fouille de texte rejoint le « story telling » », analyse Guy Riba (1), qui a conduit l’étude. En observant les différents clusters de mots, on peut en effet comprendre l’histoire et le fonctionnement de l’Inra et de l’USDA. L’USDA s’intéresse à des questions très finalisées (labour, gestion locale de l’eau, etc.) et s’appuie sur les connaissances fondamentales développées par les universités américaines. Au contraire, l’Inra a le monopole de la recherche agronomique en France et développe des approches disciplinaires de recherche fondamentale (génétique, physiologie, pathologie, etc.). Cette différence de mission se reflète dans la gouvernance des deux organismes : l’USDA est placé sous la seule tutelle du ministère de l’agriculture américain, tandis que l’Inra est placé sous la double tutelle des ministères en charge de l’agriculture et de la recherche. La manière de travailler diffère également. Tandis que l’USDA travaille à des solutions locales en prise avec les acteurs de proximité et la ou les université(s) compétente(s), l’Inra traite les sujets dans ses centres régionaux les plus compétents, même si le problème finalisé à résoudre provient d’une autre région de France.

On peut ainsi brosser à grands traits les portraits de chaque organisme : l’USDA, à vocation plutôt finalisée, autonome localement et l’Inra, à vocation finalisée et fondamentale, inscrite dans une politique de recherche nationale, avec des programmes intégrés sur le long terme.

Au final, même si la bibliométrie est depuis longtemps un outil de veille des tendances scientifiques, les outils utilisés dans cette étude sont tout à fait exceptionnels par leur puissance d’analyse.  Ils préfigurent une rupture technologique qui va aller en s’amplifiant et qui permettra d’obtenir de plus en plus d’informations stratégiques par l’analyse de texte.

 

        (1) A l'Inra, Guy Riba a été successivement chef du département de Zoologie, directeur scientifique «Plante et Produits du Végétal» et directeur général délégué.

Cortex - approche manuelle.
L'analyse des clusters sur le papier est laborieuse et imprécise.. © Inra, Bertrand Nicolas

Combiner deux outils performants et innovants

CorTexT est un logiciel Inra qui établit des réseaux de termes à partir de leur fréquence et de leur co-occurrence dans les titres ou les résumés des articles. Les réseaux de mots se présentent sous forme de nuages. Sous forme condensée, ils composent une sorte de carte du ciel dont chaque planète est un cluster thématique. Voir le diaporama.

WILDER est une technologie Inria qui crée des images avec une résolution exceptionnelle à partir des résultats de CorTexT. Les images sont projetées sur un mur de 12m2 composé de 75 écrans élémentaires de 40cm de côté.

« Seule la combinaison du traitement de texte (CORTEXT) et de sa représentation visuelle avec une très haute résolution (WILDER) permet une analyse d’une telle profondeur », explique Guy Riba, qui a conduit l’étude. En effet, si vous voulez comparer le contenu de deux clusters qui contiennent chacun plus de 1000 mots, c’est impossible à faire « sur le papier », alors que l’écran le permet, car la résolution est assez forte pour que l’on voie tous les mots ».