Porteur du cas d’étude : UNITÉ DE RECHERCHE MoISA (Montpellier Interdisciplinary center on Sustainable Agri-food systems – Social and nutritional sciences). Cédric Gaillard, Marlène Pérignon, Sophie Drogué, Dang Bahya-Batinda, Pierre Traissac.
Type de ressource FAIR(isé/isable) : DONNÉES D’ENQUÊTE SHS
Disciplines/thématiques : ÉCONOMIE, SCIENCES DES ALIMENTS, NUTRITION
Zones géographiques : TUNISIE , FRANCE
Le projet ANR MEDINA (2014-2018) promouvoir en Méditerranée des systèmes alimentaires durables (2013-2017)
MEDINA est un projet interdisciplinaire (économie, sciences des aliments, nutrition) qui repose sur une approche multi-échelle « de la fourchette à la fourche » (« fork to farm ») : partant des habitudes alimentaires actuelles, il examine comment certaines options visant à améliorer nutritionnellement ces habitudes pourraient affecter les systèmes alimentaires. Cette approche a été développée pour des activités de recherche dans le sud de la France et en Tunisie, deux régions où les liens entre alimentation, agriculture et environnement sont très différents.
Le projet MEDINA s’appuie sur des données nationales existantes et sur des données d’enquêtes récoltées, pour le projet, dans la région de Sidi Bouzid en Tunisie centrale.
Questionné par FooSIN, le groupe d’étude MEDINA s’est prêté à l’exercice d’une analyse FAIR à postériori, à travers quatre cas d’études portant sur les Données de consommation alimentaire (T1 : Données) du projet.
En savoir plus sur le projet MEDINA :
- Résumé sur le site de l’Agence Nationale pour la Recherche – ANR
- Site du projet sur Agropolis International, médiation sciences-société
Analyse des contextes FAIR des données du projet MEDINA
Une remarque préliminaire est de noter que le projet est antérieur au premier Plan national pour la Science ouverte lancé en juillet 2018. Cependant, nous utilisons le terme FAIRisation pour faire référence aux choix et actions liés à la mise en œuvre des principes FAIR, ceux-ci existant déjà au moment de la publication des principes en 2016.
Dans le cadre du projet FooSIN, l’analyse est centrée sur les éléments de contexte FAIR et les dynamiques et freins observés par le groupe projet MEDINA. La description des données est détaillée sur le support de présentation du projet MEDINA.
En dernier lieu des pistes exploratoires et d’améliorations sont proposées par FooSIN pour FAIRiser ces données.
Note : Par convention dans l’analyse nous utiliserons indifféremment jeu de données et base de données, les deux notions ne préjugeant pas des moyens techniques utilisés lors du projet pour traiter les données.
■ Données n°1 Enquête socio-économique dans le gouvernorat de Sidi-Bouzid, 2016
|
Gaillard, Cédric; Dury,Sandrine; Bosc, Pierre-Marie, 2017, « Exploration des liens entre agriculture et sécurité alimentaire : Une enquête auprès des femmes du gouvernorat de Sidi-Bouzid, en Tunisie centrale », doi:10.18167/DVN1/LWT7BG, CIRAD Dataverse, V3
Les données sont référencées à l’aide de leurs métadonnées sur un entrepôt de données institutionnel. Seuls les questionnaires de conduite d’enquêtes y sont déposés. Les fichiers de données, contenant des données à caractère personnel, ont fait l’objet d’une anonymisation. Ils sont conservés en interne sur l’entrepôt de données et sur l’ordinateur du chercheur avec les données brutes. Les données anonymisées sont disponibles sur demande via l’entrepôt de données. Leur mise à disposition est modérée par l’équipe du projet avec l’objectif de favoriser de nouveaux de partenariats. |
Motivation à documenter les données dans une approche FAIR
Le jeu de données d’enquête a bénéficié de la dynamique du projet Patrimoine Numérique Scientifique (2013-2017) mené au Cirad sur la capitalisation et la valorisation des données de recherche. Sensibilisés sur le sujet, les auteurs de l’enquête ont structuré, rendu anonymes et documenté leurs données pour favoriser une réutilisation future.
Mise en œuvre
La FAIRisation a pu s’opérer en référençant les données sur CIRAD Dataverse avec l’appui de la Délégation à l’Information Scientifique et technique (DIST) du Cirad.
Les données sont documentées à l’aide:
- d’une douzaine de domaines disciplinaires (subject) proposés nativement par la plateforme Dataverse ;
- d’une classification thématique (topic classification) champ libre, renseigné avec le plan de catégorisation Agris de la FAO adopté depuis de nombreuses années par le Cirad ;
- de mots-clés (keyword), champs libres renseignés par l’auteur. L’usage du Thésaurus Agrovoc de la FAO est recommandé par le Cirad en complétant si besoin à l’aide d’autres thésaurus.
Evaluation des résultats obtenus de la FAIRisation
Bénéfices
Le fait de documenter le jeu de données d’enquête a permis une meilleure valorisation des résultats de la recherche.
Ainsi ce jeu de données a fait l’objet d’un article de type Data paper en Open Access dans Cahiers Agricultures. Les auteurs ont bénéficié de l’appui de la DIST du Cirad pour cette nouvelle forme de publication.
Gaillard Cédric, Martin Sofyan, Bosc Pierre-Marie, El-Ati Jalila, Dop Marie-Claude, Trabelsi Tarek, Amiot Marie Josèphe, Dury Sandrine. 2018. Explorer les liens entre agriculture et sécurité alimentaire : une enquête auprès des femmes du gouvernorat de Sidi-Bouzid en Tunisie. Cahiers Agricultures, 27 (1):15501, 9 p. https://doi.org/10.1051/cagri/2018005
Le DOI du jeu de données est mentionné dans l’article.
Les bénéfices avérés sont les collaborations qui en sont facilitées :
- Les données brutes anonymisées sont disponibles en effectuant une demande en ligne sur la plateforme Dataverse du Cirad.
- Les auteurs ont été contactés pour une réutilisation dans un projet mené par l’International Water Management Institute (CGIAR), sur une thématique portant sur l’irrigation.
Freins
Le coût de l’anonymisation des jeux de données (200 variables) fut très (trop) élevé du fait du manque de connaissance d’outils informatique sur le marché et de recommandations dans les organismes.
Points forts et pistes d’amélioration
Chaque jeu de données relatif aux objets de recherche observés est préservé en interne sur la plateforme Dataverse, sans possibilité de mise en lien possible. Ainsi, la méthode de k-anonymisation utilisée pour anonymiser les données d’enquête a permis de n’établir aucun lien possible entre un ménage, une femme enquêtée et une exploitation.
■ Données n°2 – Enquête de consommation alimentaire dans le gouvernorat de Sidi-Bouzid, 2014-2015 | Un article scientifique a été publié à l’appui de ces données. https://doi.org/10.1017/S1368980019003409 Les données n’ont pas fait l’objet d’un référencement. |
■ Données n°3 – Enquête de consommation alimentaire Nationale Tunisie 2005 | Sous-ensemble d’une Enquête transversale nationale tunisienne en 2005 (projet UE TAHINA). Ce sous ensemble n’a pas fait l’objet d’un référencement. |
Freins à documenter les données dans une approche FAIR
Si les deux bases de données sont structurées à des fins de reproductibilité (travail de structuration des variables) elles ne sont pas complétement finalisées.
Une partie des travaux conduits sur les Données n°2 est valorisée par un article scientifique. Des copies de tableaux de données sont insérées sous forme d’images (figures) dans l’article, ce qui ne facilite pas leur réutilisation, sauf à retranscrire l’ensemble.
Les Données n°3 concernent une enquête très complète, conduite en 2005 en Tunisie dans le cadre d’un autre projet (UE TAHINA). Le sous dimensionnement des ressources humaines en « data management » et le statut de réutilisation non défini pour ces données sont de réelles difficultés pour les organiser et les remobiliser.
Les deux bases de données ne sont pas référencées mais ces ressources sont connues de l’équipe projet.
Les difficultés pointées sont à la fois une absence de moyens dédiés à la gestion des données au moment de l’étude, ainsi qu’une culture de partage des données à développer.
Points forts et pistes d’amélioration
Au moment du projet, il n’existait pas de solution d’entreposage et de diffusion des données scientifiques. Aujourd’hui, avec la disponibilité de plateformes dédiées, l’accompagnement par la formation sur la gestion FAIR des données de la recherche conduisent à une évolution progressive des pratiques en recherche.
Dans cette étude de cas, il n’y a pas d’intention de publier ces bases de données, mais plutôt de tirer des leçons pour les prochaines fois.
■ Données n°4 – Impact environnemental de l’alimentation, niveau national France et Tunisie
|
Sinfort, Carole; Amiot-Carlin, Marie Josephe; Perignon, Marlene; Drogue, Sophie, 2019, « Potential environmental impacts of water deprivation and land use for food consumption in France and Tunisia. », https://doi.org/10.15454/F37SLV, Portail Data INRAE, V3
Les données élaborées pour l’étude d’impact environnemental sont déposées sur un entrepôt de données institutionnel sous licence ouverte. |
Motivation à documenter les données dans une approche FAIR
L’objectif de ces travaux est de construire une base de données d’indicateurs d’impact environnemental des aliments à partir d’un appariement des bases de données existantes sélectionnées pour le projet suivant un raisonnement méthodologique scientifique.
Mise en œuvre
La FAIRisation a pu s’opérer en déposant et décrivant sur DataINRAE, la base de données d’indicateurs d’impact environnemental résultat.
Documenté à l’aide de métadonnées et diffusé sur la plateforme, le jeu de données bénéficie de l’attribution d’une citation avec un DOI :
- La citation nomme le jeu de données et crédite ses auteurs.
- Le DOI est un identifiant international qui offre un accès pérenne aux ressources numériques (publications, données, revues, rapports, etc.) grâce à un lien unique et stable.
Evaluation des résultats obtenus de la FAIRisation
Résultats et bénéfices
Les données sont retrouvables car exposées sur Data INRAE avec une description détaillée, une mention de citation et un DOI attribué. Elles sont accessibles par téléchargement et réutilisables car elles disposent d’une licence ouverte de réutilisation CC-BY avec devoir de les citer.
Les données ont fait l’objet d’un Data paper en open access sur Data in Brief, expliquant la méthode d’estimation des indicateurs, dans une perspective de reproductibilité.
Carole Sinfort, Marlene Perignon, Sophie Drogué, Marie Josèphe Amiot, Dataset on potential environmental impacts of water deprivation and land use for food consumption in France and Tunisia, Data in Brief,Volume 27,2019,104661,ISSN 2352-3409, https://doi.org/10.1016/j.dib.2019.104661
Les données sont citées via leur DOI dans l’article.
Concernant les bénéfices relevés :
- L’élaboration d’un Data paper facilite la publication d’un article en allégeant la partie « méthode ». La méthode est exposée dans le Data paper avec les données. Le Data paper doit être diffusé avant la publication de l’article scientifique qui s’appuie sur les données.
- Le Data paper impose une description plus rigoureuse et standardisée des données, qui doit faciliter par la suite leur réutilisation.
Freins
Du temps du projet, la pratique de dépôt et de référencement de jeux de données sur une plateforme permettant la diffusion et l’accès contrôlé aux données était mal connue.
Publier un Data paper nécessite un temps qu’il faut anticiper pour pouvoir :
- déposer, documenter et diffuser le jeu de données afin d’obtenir une citation avec un DOI.
- rédiger le Data paper en citant le jeu de données préalablement diffusé.
Points forts et pistes d’amélioration
Quelques enseignements :
■ Données n°5 – Optimisation des disponibilités alimentaires niveau national Tunisie | Appariement de bases de données existantes publiques (FAOSTAT, CIQUAL), accessibles en open data. |
Les données publiques Open Data ou données ouvertes, sont des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation. Ces données offrent de nombreuses opportunités pour étendre la connaissance et créer de nouveaux produits et services de qualité.
- La Food and Agriculture Organization Corporate Statistical Database (FAOSTAT) est une base de données composée d’un agrégat de bases de données de portée mondiale depuis 1961, disséminée sur 245 pays et qui est mise à jour et maintenue par l’Organisation des Nations unies pour l’alimentation et l’agriculture (FAO).
- data.gouv.fr est la plateforme de diffusion de données publiques (open data) de l’État français alimentée par différentes structures publiques et privées dans la perspective d’une réutilisation des données au-delà de leur utilisation première par leur producteur.
Plus spécifiquement la base de données sur l’optimisation des disponibilités alimentaires est élaborée à partir de la réutilisation de données publiques nationales suivantes :
- Base de données Food Balance Sheets (FBS), de la base de données FAOSTAT, sur les bilans alimentaires nationaux fournie avec son dictionnaire de variables. Elle est diffusée sous licence ouverte CC-BY-NC- SA 3.0 IGO.
- Base de données CIQUAL de l’Anses (Agence nationale de sécurité sanitaire de l’alimentation, de l’environnement et du travail) diffusée sur data.gouv.fr sous licence ouverte Etalab. La donnée CIQUAL (Centre d’information sur la qualité des aliments) est une table de composition nutritionnelle de 2 642 aliments mise à jour régulièrement, mise en ligne gratuitement par l’Anses, utilisée par les médecins nutritionnistes, les diététiciens et les chercheurs en nutrition et santé publique, qui délivre la teneur en calories, protides, lipides, glucides, vitamines et minéraux des aliments.
- Pour quatre aliments, les données de composition nutritionnelle ont été complétées par celles de l’étude Nutrinet-Santé.
Motivation à documenter les données dans une approche FAIR
Les plateformes de données en Open Data offrent une grande variété de données ouvertes, faciles d’accès et téléchargeables dans des formats ouverts pour la réutilisation.
La base de données produite dans ce cas est le résultat de l’appariement méthodologique des deux bases de données publiques et de recherche dont l’approche est notamment discutée dans une publication scientifique chez un éditeur et signalée sur Hal.
Sophie Drogue, Marlène Perignon, Nicole Darmon, Marie-Josephe Amiot. Does a better diet reduce dependence on imports? The case of Tunisia. Agricultural Economics, Wiley, 2020, 51, pp.567-575. ⟨10.1111/agec.12572⟩
La base de données résultat figure dans les matériels complémentaires de l’article. Les données sont stockées et téléchargeables depuis le site de l’éditeur au format Excel.
La base de données n’a fait l’objet d’aucun dépôt dans un entrepôt de données.
Evaluation du contexte FAIR
La FAO avec sa base de données mondiale FAOTSTAT diffusant des données nationales suivant un processus de fiabilité, offre la possibilité de rechercher de nombreux indicateurs dans différents domaines économiques, démographique, productions etc,
L’initiative française data.gouv.fr offre quant à elle un excellent moyen de rechercher des données socle comme les informations de recensement issues de l’INSEE, ou plus thématiques utiles à son domaine.
Ces données sont FAIR : décrites (Facile à trouver), sur une plateforme en ligne (Accessible), disponibles dans un format ouvert, respectant des standards -ex. données standardisées de statistiques nationales- (Interopérable) et sous licence ouverte (Réutilisable) dynamisant leur réutilisation.
Points forts et pistes d’amélioration
Consulter le support de présentation de l’étude de cas
Pour aller plus loin
- Les principes FAIR – Doranum
- Zoom sur le DOI – DoRANum
- Partager, publier ses données : Datapartage – Partager / Publier – INRAE
- Rendre publics ses jeux de données scientifiques : Dedieu L. ; Fily M.F. 2015. Rendre publics ses jeux de données scientifiques, en 6 points. Montpellier (FRA) : CIRAD, 6 p. https://doi.org/10.18167/coopist/0059
- En savoir plus sur les Data paper :
- Datapartage – Qu’est ce qu’un Data Paper ? (INRA)
- Dedieu, L. 2014. Rédiger et publier un data paper dans une revue scientifique, en 5 points. Montpellier (FRA) : CIRAD, 7 p. https://doi.org/10.18167/coopist/0057
Ont participé à cette étude de cas : Sophie Fortuno, Cédric Gaillard (Cirad) ; Pierre Traissac (IRD) ; Marlène Pérignon, Sophie Drogué, Sylvie Cocaud, Dominique L’Hostis, Jérémy Yon, Dimitri Szabo, Catherine Roussey, Sophie Aubin (INRAE)