FAIRification du Glossaire de panification au levain naturel

D’abord publié sous la forme d’un ouvrage par les éditions Quae (ISBN : 978-2-7592-3166-9), le glossaire de panification au levain naturel a été transposé en SKOS, un format exploitable par les applications informatiques, et publié en prenant en compte les principes FAIR avec l’appui du projet ANR FooSIN (https://anr.fr/Projet-ANR-19-DATA-0019).

Introduction

La panification au levain naturel : glossaire des savoirs

Le glossaire de « la panification au levain naturel » s’adresse à ceux qui souhaitent s’approprier les savoirs et les pratiques de la panification au levain. Les paysans, boulangers et scientifiques du projet de recherche participative BAKERY (https://anr.fr/Projet-ANR-13-ALID-0005) ont réfléchi à un langage commun qui permette de se comprendre et de partager les connaissances de la panification au levain naturel. Cette démarche a conduit à la construction d’un glossaire en français contenant 184 concepts et leurs définitions. Des relations de type “voir” entre les concepts offrent au lecteur un parcours de navigation au sein du glossaire.

La version du glossaire en SKOS publiée aujourd’hui sera prochainement enrichie avec des références aux illustrations du livre qui seront également accessibles en ligne, sous licence ouverte.

Le projet Bakery

L’ANR BAKERY est un projet de recherche fondé sur la participation et collaboration d’équipes INRA, d’Universités, de l’Institut Technique d’Agriculture Biologique, du Réseau Semences Paysannes et de plus de 30 boulangers/paysans-boulangers. Réalisé entre 2014 et 2018, il a permis d’étudier la diversité et les interactions d’un écosystème agro-alimentaire ‘ Blé/Homme/Levain’ à faible intrant pour mieux comprendre la durabilité de la filière boulangerie.

Pourquoi ce projet de FAIRification ?

Quelles étaient les motivations des auteurs pour s’engager dans la FAIRification du glossaire ?

Avec ce nouveau mode de publication du glossaire, les auteurs ont souhaité :

- Améliorer la visibilité de ce glossaire dont le contenu montre la valeur de la recherche participative et apporte à tous les savoirs co-construits autour de la filière boulangerie française au levain.
- Rendre le contenu exploitable par des applications informatiques en en faisant une ressource terminologique en ligne représentée selon les standards du web sémantique et disponible via des APIs.

Comment se présentait le glossaire initialement ?

Depuis la parution de l’ouvrage en 2020, le glossaire est disponible au téléchargement sur le site de l’éditeur Quae soit en PDF, soit en EPUB (format adapté pour les liseuses). Les versions numériques de l’ouvrage sont diffusées en accès libre sous licence CC-by-NC-ND. Sur le site Quae, l’ouvrage est accompagné d’un texte descriptif et des métadonnées usuelles pour un ouvrage publié par un éditeur.

L’éditeur a fourni à l’équipe un fichier encodé en XML-TEI (Text Encoding Initiative), un format standard très structuré et documenté, qui s’est avéré assez pratique pour récupérer les données du glossaire car :

« XML-TEI s’intéresse au sens du texte plutôt qu’à son apparence ».
« XML-TEI est indépendant de tout environnement logiciel particulier ».
« XML-TEI a été conçu par la communauté scientifique qui est aussi en charge de son développement continu »

Les entrées du glossaire disposaient d’identifiants locaux, utilisés au sein du document pour créer les renvois d’une entrée à l’autre. Ces identifiants, construits à partir des termes du glossaires, par exemple _Gène, n’ont pas été réutilisés. Ils ont été remplacés par des identifiants opaque, i.e. des codes n’ayant aucune signification, sous la forme d’URIs (Uniform Resource Identifier), en vigueur dans le contexte du web sémantique et des données liées.

Quelles étaient les principales limites de la ressource initiale vis à vis des principes FAIR ?

EPUB est un format ouvert et standardisé destiné aux livres numériques. Ce format a été conçu dans le but de faciliter la mise en page du contenu. Le PDF est également un standard ouvert, géré par l’ISO (International Organization for Standardization). Il permet de sécuriser la présentation d’un document quels que soient le logiciel, le matériel et le système d’exploitation utilisés. La limite de ces 2 formats réside dans le fait qu’ils ne permettent pas d’exploiter une sous-partie du document (une entrée particulière du glossaire par exemple). De fait, ces deux formats sont adaptés à la lecture par un humain.
Dans son nouveau format (SKOS), chaque entrée est identifiable, accessible et utilisable de manière individuelle par une machine. La ressource est plus facilement réutilisable.

Le processus de FAIRification

Quelles étaient les compétences requises ?

Les auteurs du glossaire se sont associés à deux ingénieurs du projet FooSIN également impliqués dans le service Vocabulaires Ouverts d’INRAE. Une connaissance approfondie de SKOS et des outils pour réaliser la transformation étaient en effet nécessaires. Leur expertise concernant les métadonnées et les entrepôts pour les vocabulaires a aussi facilité le travail. Les scientifiques auteurs du glossaire ont été mobilisés pour expliquer certains choix d’organisation et valider les modifications nécessaires à la restructuration des données en SKOS.

Quelle a été l’approche pour rendre le vocabulaire plus FAIR ?

Le projet FooSIN a proposé :

- De s’appuyer sur le standard SKOS, modèle de plus en plus utilisé pour représenter des vocabulaires simples, en particulier par les praticiens des principes FAIR. Ce modèle est largement documenté et dispose d’outils permettant de l’éditer et de le visualiser. Voir l’article du projet FooSIN sur le sujet. Une des difficultés cependant résidait dans le fait de passer d’une structuration en hiérarchie de “termes” (typique du glossaire) à une organisation autour de concepts (élément de base du SKOS).
- D’exposer le glossaire sur le portail de terminologies français Loterre (Linked open terminology resources). C’est une plateforme d’exposition et de partage de terminologies scientifiques multidisciplinaires et multilingues, conforme aux standards du web des données ouvertes et liées (LOD) ainsi qu’aux principes FAIR. Le portail comporte une interface de consultation ainsi que des APIs permettant à des applications informatiques d’exploiter le contenu du glossaire. Le portail Loterre a fait lui-même l’objet d’un diagnostic FAIR dans le cadre de FooSIN (lire l’interview).
- D’offrir des URIs déréférençables (c’est-à-dire que l’on puisse aller chercher les informations liées aux URIs) pour le glossaire et chacune de ses entrées. Les données sont donc accessibles indépendamment du portail Loterre, depuis le triple store (base de données RDF) administré par la DipSO INRAE.
- Une Licence Ouverte Etalab (équivalent CC-BY 4.0) a été choisie pour maximiser les contextes de réutilisation.

Quelles actions ont été menées pour transformer le glossaire en SKOS et le publier ?

Pour le traitement du fichier en TEI-XML, deux scripts en Python ont été développés pour extraire les informations utiles : uniquement les entrées du glossaire (termes, définitions, liens entre les entrées du glossaire). Ces scripts ont produit un fichier tabulé (i.e. en colonnes) que nous avons travaillé dans l’outil OpenRefine qui offre de nombreuses fonctionnalités pour tester et améliorer la qualité des données. Les opérations suivantes de curation de données ont été effectuées :

- séparation des termes préférentiels (ex: Amylases) et synonymes (ex : Amylasique) pour les entrées présentant deux termes séparés par une virgule ou une conjonction de coordination, (ex: Amylases, amylasique). Le premier terme est le préférentiel, les suivants sont considérés comme synonymes et placés dans la propriété skos:altLabel ;
- normalisation des termes “inversés” : Force (manque de) → Manque de force. Cette opération vise à rendre les termes plus utilisables par les applications informatiques ;
- suppression des parties textuelles faisant référence à des tableaux de l’ouvrage (ex : Proportion des ingrédients) ;
- remplacement des caractères spéciaux (mal interprétés par certains systèmes informatiques) : ≅ → approx. égal à ; α → alpha ; β → beta ;
- suppression des majuscules en début de termes pour faciliter leur réutilisation
- suppression des entrées sans définition. Le terme de l’entrée sans définition est ajouté comme synonyme (skos:altLabel) du concept indiqué par la mention “voir…”, uniquement dans le cas où le sens est le même. Exemples : Levée → Pousse; Dénombrement → Numération

Un outil d’extraction du texte contenu dans une structure TEI nous a manqué pour faciliter ce travail d’extraction du texte pertinent pour notre objectif.

Le fichier tabulé nettoyé a ensuite été chargé dans l’éditeur de vocabulaires Webstudio (outil propriétaire) pour être présenté aux auteurs du glossaire dans une interface conviviale. Cette interface a servi de support d’échange entre les ingénieurs des données et les scientifiques auteurs du glossaire. Elle a permis de retravailler certaines entrées du glossaire pour produire des concepts univoques (un concept = une seule signification) et uniques (une signification = un seul concept), deux conditions nécessaires à leur utilisation efficace par des applications informatiques notamment. Parmi les modifications, on peut mentionner :

- la suppression des 2 entrées Par l’observation et Par la mesure et leur fusion dans Activité d’un levain ;
- la division en 2 concepts de l’entrée Variétés de blé anciennes / modernes, ainsi que de Génotype et Phénotype. Cela a été possible car les définitions présentaient deux parties bien distinctes;
- la suppression des déterminants et d’informations entre parenthèses au niveau des termes. Par exemple Les albumines (solubles dans l’eau) a été simplifié en albumines et la mention du caractère “soluble” reporté dans la définition.

Pour finaliser la curation de la ressource et s’assurer d’avoir un XML et un SKOS valides, le vocabulaire a été chargé dans l’éditeur VocBench. Cet outil dispose notamment de la fonctionnalité Integrity Constraint Validator qui permet de vérifier la conformité au standard SKOS. Le vocabulaire a été exporté en RDF/XML et enrichi avec des métadonnées standards acceptées par le portail Loterre.

Avant publication, une dernière vérification de conformité avec SKOS Play ! Tester a été réalisée.

Beaucoup d’outils ont été mis en œuvre dans ce travail, ainsi que plusieurs interventions manuelles sur les données. Travailler sur des données peu structurées nécessite souvent des solutions sur mesure et il n’est pas toujours – pas souvent ? – possible de mettre en place des procédures de transformation facilement réutilisables sur de nouvelles données. Le processus de FAIRification présenté ici a permis d’appréhender plusieurs outils qui répondent à des besoins spécifiques à chaque étape (sélection des informations, nettoyage, transposition en SKOS, restructuration, enrichissement, validation…). L’enchaînement des étapes demande un savoir-faire particulier, autant dans la conception que dans la mise en œuvre. Ce travail a également mis en évidence le besoin de disposer d’outils facilitant les échanges entre ingénieurs des données et scientifiques.

Et maintenant…

Quel est le niveau d’Accessibilité du glossaire ?

Le Glossaire de panification au levain naturel est désormais accessible sur internet dans le portail terminologiques Loterre pour les humains ET les applications informatiques.
Le portail Loterre a l’avantage d’offrir :

- une interface de consultation intégrant un moteur de recherche : https://skosmos.loterre.fr/PAN/fr/
- une API Rest https://www.loterre.fr/api-1/
- un interface d’interrogation en SPARQL : https://www.loterre.fr/sparql-fr/

L’hébergement dans Loterre assure un certain niveau de conformité aux principes FAIR, en particulier sur les dimensions Accessible et Findable. Lire l’article de FooSIN : “De TermSciences à Loterre : comment l’Inist-CNRS a rendu les terminologies ouvertes plus conformes aux principes FAIR”.

En parallèle, le glossaire est publié dans le triple store de la DipSO INRAE qui assure le déréférencement des URIs : les informations sur le glossaire et chaque concept qui le constituent sont accessibles depuis leurs identifiants respectifs. Par exemple : le concept gélification de l’amidon : http://opendata.inrae.fr/PAN/page/C_30 ou le glossaire : https://opendata.inrae.fr/PAN/page/GlossairePanificationLevain

A quoi ce glossaire peut-il servir ?

Le glossaire propose des définitions pour 184 concepts du domaine rédigées par un collectif d’experts composé de professionnels de la filière et de scientifiques. Il constitue ainsi une ressource pédagogique fiable, couvrant les différents aspects de la panification au levain naturel. Il peut aussi servir de base commune au démarrage d’un projet pour s’assurer que les notions soient partagées par les différents acteurs.
Les termes et les définitions peuvent être intégrés à tout système d’information, modèle de base de données ou ontologie, ou encore un site web. L’intégration peut être faite soit en téléchargeant le fichier en RDF/XML depuis cette page soit en faisant appel à l’API Rest* du portail Loterre.

*Une API (Application Programming Interface) est une interface permettant à un agent logiciel distant d’interroger une base de données et de récupérer les données obtenues en réponse.
Un service d’accès par API aux données du triplestore de Loterre est disponible, par le biais de l’API REST développée pour Skosmos :
- l’URL de la racine de l’API de Loterre est : https://skosmos.loterre.fr/rest/v1/
- les modalités d’utilisation de l’API sont détaillées dans la documentation (en anglais) : http://api.finto.fi/doc/

Quelles sont les perspectives ?

Les auteurs et les membres du projet FooSIN souhaitent également mettre à disposition les images associées aux entrées du glossaire dans l’ouvrage publié par Quae. Dans une prochaine version, les données du glossaire contiendront des références aux images qui seront publiées au sein de la collection INRAE d’Internet Archive. Internet Archive “est à la fois une bibliothèque de documents, un outil de numérisation utilisé par certaines institutions, et un lieu d’archivage des sites internet.” (source : Savez-vous ce que l’on trouve dans l’Internet Archive, la bibliothèque de l’Internet ? France Inter). L’idée est d’expérimenter le stockage et l’exposition des images dans un entrepôt ouvert tiers pour pouvoir faire référence à ces images depuis une ressource publiée dans le cadre du web sémantique.