Un peu d’histoire….
La directive INSPIRE
En 2007, naissait la directive Inspire incitant les états membres de l’union européenne à publier et partager sur internet les données géographiques acquises sur des fonds publiques. Cette directive décrivait un certain nombre de préconisations pour que soient mises en place des Infrastructures de Données Géographiques (IDG) permettant à un utilisateur d’accéder à l’information environnementale qu’il souhaite trouver. Pour cela, il fallait établir, entre les métadonnées et les différents services, un chaînage lui permettant :
- dans une première étape, de trouver les séries de données qu’il cherche à l’aide des métadonnées ;
- puis, une fois, ces séries identifiées, de voir si la série de données correspond à ses attentes, grâce à un service de consultation ;
- enfin, lorsque cela s’avère nécessaire, de télécharger la série de données grâce à un service de téléchargement.
A cette époque, les premiers à se lancer en France dans la mise en place de tels services furent les instances publiques régionales portées le plus souvent par les conseils régionaux et/ou par la Direction Régionale de l’Environnement, de l’Aménagement et du Logement (DREAL). C’est ainsi que naquirent GéoBretagne, CigAlsace ou le CRIGE PACA.
A la même époque, les injonctions émanant des instances de la recherche française comme le CNRS, l’INRA ou l’IRSTEA, pour suivre ces préconisations étaient quasi nulles. Seules quelques initiatives isolées venant de chercheurs ou d’ingénieurs conduirent à la mise en place d’IDG pour la publication et le partage de données géographiques produites par les équipes de recherche. Ces données provenaient de différentes sources comme les observatoires, les inventaires ou les simulations numériques générées par des modèles informatiques. Ce fut le cas à l’INRA avec la création du plateau géomatique du centre INRA-PACA d’Avignon et son infrastructure informatique mutualisée GeOpen4S. Certaines unités de recherche comme l’UMR LISAH de Montpellier et l’UMR SAS (Bera et al., 2015) de Rennes déployèrent la solution geOrchestra. Du côté du CNRS, le laboratoire Brestois Géomer, précurseur dans le catalogage des données, lança son IDG Indigeo. Par application du principe de subsidiarité tel que décrit par la directive Inspire, d’autres IDG apparurent à différents niveaux des organigrammes des EPST (Établissement public à caractère scientifique et technologique): unité, centre, département, institut.
Le FAIR data
en 2014, à Leiden aux Pays-Bas, lors d’un atelier mêlant universitaires et partenaires privés furent élaborés les principes fondamentaux du FAIR data. Ce big bang dans le monde scientifique posait les bases d’un ensemble minimal de principes et de pratiques pour que les données de la recherche soient Findable, Accessible, Interoperable et Reusable (FAIR) à la fois par les machines et par les personnes.
En 2016 et 2017, furent publiés deux documents de référence du FAIR data. Le premier dans la revue Nature constitue sa référence bibliographique fondatrice (Wilkinson et al., 2016). Le second, publié par la commission européenne incite les projets de recherche bénéficiaires du programe H2020 à rendre leurs données de recherche trouvables, accessibles, interopérables et réutilisables (FAIR) (European Commission, 2017)
INSPIRE, FAIR or not FAIR ?
Le fait que les programmes de recherche financés par la commission europééenne soient fortement incités à produire des données compatibles avec le FAIR data a complètement changé la donne. On est passé d’initiatives isolées répondant « vaguement » aux préconisations de la directive INSPIRE avec une forme de désintérêt des tutelles à de nouvelles et fortes injonctions émanant des instituts de recherche pour que leurs équipes produisent des FAIR data. Le financement des projets de recherche en est l’enjeu, pas moins.
Les quelques équipes qui ont emprunté depuis longtemps le chemin de l’Open Data sont en droit de questionner leurs systèmes d’information pour ce qui est de leur compatibilité ou de leur conformité avec le FAIR data. C’est donc le cas des IDG déployées pour certaines depuis plus d’une dizaine d’années. Le « trouver, voir, télécharger » de la directive Inspire est-il suffisant ? Trouve-t-il un prolongement dans le monde des données de la recherche avec le « Findable, Accessible, Interoperable, Reusable » du FAIR data ? A partir des travaux de Wilkinson, la communauté FORCE11 a défini un ensemble de 14 critères afin d’évaluer le niveau de compatibilité d’une donnée publiée avec les principes du FAIR data. Ci-dessous, nous tentons à notre tour d’évaluer la réponse des IDG et plus généralement de la directive Inspire à ces différents critères…
Findable : La première étape pour (ré)utiliser les données consiste bien évidemment à les trouver. Les métadonnées et les données associées doivent être aisément accessibles et trouvables à la fois par les humains et par les machines.
- F1. les (méta)données se voient attribuer un identificateur unique et persistant à l’échelle mondiale.
- Une métadonnée Inspire comporte également ce type d’information nommée URI (Uniform Ressource Identifier) sous la forme d’une chaine de caractère ainsi constituée fr:{code SIREN de l’organisme}:{bloc identifiant de la donnée} ou via un DOI (Digital Object Identifier). Par exemple INRAE propose la génération de DOI via l’outil DataCite.
- F2. les données sont décrites avec des métadonnées riches (définies par R1 ci-dessous).
-
les métadonnées Inspire sont des informations décrivant les données, afin de faciliter leur inventaire, leur recherche et leur utilisation : thèmes auxquels appartiennent ces dernières, mots-clés, situation géographique, date, qualité et validité, conformité aux règlements européens relatifs à l’interopérabilité, conditions d’utilisation, autorités publiques responsables, restrictions éventuelles… A priori, on peut évoquer une certaine richesse dans leur contenu.
-
- F3. les (méta)données sont enregistrées ou indexées dans une ressource consultable.
-
La directive Inspire impose que chaque série de donnéesgéographiques appartenant à son périmètre soit décrite par une ficheélectronique de métadonnées, que ces fiches de métadonnées soient tenues à jour et, comme les données, publiées sur Internet.
-
- F4. les métadonnées incluent clairement et explicitement l’identificateur des données qu’elles décrivent.
- La directive Inspire n’impose pas la présence d’un identifiant de la donnée . Cependant le champ « Identification du descripteur » de la rubrique « Distribution » de la métadonnée peut contenir des liens vers le téléchargement et/ou la visualisation de la donnée par exemple via les standards OGC appropriés (WFS,WCS,WMS).
Accessible : Une fois les données trouvées, l’utilisateur doit savoir comment y accéder, parfois via une autorisation et une authentification.
- A1. les (méta)données peuvent être récupérées par leur identificateur à l’aide d’un protocole de communication normalisé.
- A1.1 le protocole est ouvert, libre et universellement applicable.
- La directive Inspire préconise le déploiement d’outils de publication de données et de métadonnées conforme aux standards de l’Open Geospatial Consortium (OGC).
- CSW : Service de découverte et de recherche des métadonnées.
- WMS : Service de visualistion des données géographiques,
- WCS : Service de téléchargement de données raster,
- WFS : Service de téléchargement de données vecteur.
- La directive Inspire préconise le déploiement d’outils de publication de données et de métadonnées conforme aux standards de l’Open Geospatial Consortium (OGC).
- A1.2 le protocole permet une procédure d’authentification et d’autorisation, si nécessaire.
- La directive Inspire préconise l’accès libre aux données géographiques . Cependant les IDG permettent la sécurisation de l’accès à certains jeux de données comme ceux soumis à la RGPD.
- A1.1 le protocole est ouvert, libre et universellement applicable.
- A2. les métadonnées sont accessibles, même lorsque les données ne sont plus disponibles.
- A priori, il n’y a aucune préconisation de la directive Inspire sur ce point. Cela relève davantage d’une stratégie à définir et à suivre au sein des IDG. Dans ce cas, la métadonnée peut être conservée et accessible à tous avec la mention « obsolète » contenue dans le champ « Etat » de la rubrique « Identification ».
Interopérable : En général, les données doivent être utilisées avec d’autres jeux de données au sein d’applications ou de chaînes de traitement afin d’être stockées, analysées, traitées.
- I1. Les (méta)données utilisent un langage formel, accessible, partagé et largement applicable pour la représentation des connaissances.
- Les métadonnées Inspire reposent sur les normes dédiées aux données géographiques ISO 19139 et ISO 19115.
- I2. Les (méta)données utilisent des vocabulaires qui suivent les principes de FAIR.
- La directive Inspire impose l’utilisation d’un vocabulaire contrôlé par exemple par la sélection de mot-clés référencés dans le thésaurus thématique Inspire. Il est possible de reproduire ce procédé, par exemple, en sélectionnant des mot-clés issus du thésaurus ANAEE dédié à la description sémantique de l’étude des écosystèmes continentaux et de leur biodiversité.
- I3. Les (méta)données comprennent des références qualifiées à d’autres (méta)données.
- Les métadonnées INSPIRE ou ISO 19115 ne contiennent pas de champ décrivant ce type de référence. Cependant l’outil de catalogage GeoNetwork permet la définition d’un lien de filiation entre fiches de métadonnées. Cette information peut donc être comprise par des utilisateurs humains puisque présente dans l’interface mais pas par des machines puisqu’absente dans les métadonnées.
Reusable : Le but ultime du FAIR est d’optimiser la réutilisation des données. Pour atteindre ce but, Les métadonnées et les données doivent être suffisamment bien décrites de telle sorte quelle puisent être dupliquées et combinées dans différents contextes et pour différents usages.
- R1. les métadonnées sont richement décrites avec une pluralité d’attributs précis et pertinents.
- R1.1. Les (méta)données sont publiées avec une licence d’utilisation de données claire et accessible.
- La directive Inspire impose que les conditions applicable à l’accès et l’utilisation de la donnée soient définies par une licence et apparaissent dans la métadonnées dans le champ « Limites d’Utilisation » de la rubrique « Identification ».
- R1.2. Les (méta)données sont associées à une provenance détaillée.
- Les métadonnées Inspire permettent de répondre à ces 4 différentes questions :
- Par qui et ou a été produite la donnée ?
- La métadonnées Inspire permet d’y répondre dans le champs « Point de contact de la donnée » de la rubrique « Identification »,
- La citation peut apparaitre dans le champ « Limites d’Utilisation » de la rubrique « Identification ».
- Quand a été produite la donnée ?
- La métadonnées Inspire permet de renseigner 3 dates :
- La date de création,
- La date de publication,
- La date de révision.
- La métadonnées Inspire permet de renseigner 3 dates :
- Comment la donnée a-t-elle été produite ?
- La métadonnées Inspire permet d’y répondre dans le champ « Généalogie » de la rubrique « Qualité ».
- Pourquoi la donnée a-t-elle été produite ?
- Aucune exigence du côté d’Inspire mais la métadonnée ISO 19115 contient le champ « But » dans la rubrique « Identification ».
- Par qui et ou a été produite la donnée ?
- Les métadonnées Inspire permettent de répondre à ces 4 différentes questions :
- R1.3. Les (méta)données satisfont aux normes communautaires pertinentes dans le domaine.
- La norme ISO 19115 est depuis 2003 la norme internationale de référence pour les métadonnées concernant l’information géographique. Les IDG proposent presque systématiquement la publication de métadonnées conformes à cette norme et compatibles aux métadonnées Inspire.
- Les données sont publiées sur des serveurs cartographiques interopérables conformes aux standards de l’Open Geospatial Consortium (OGC)
- R1.1. Les (méta)données sont publiées avec une licence d’utilisation de données claire et accessible.
Inspire, la bonne afFAIRe !
On peut donc conclure que la directive Inspire est globalement compatible avec les différents critères d’évaluation du FAIR data. Le respect de ces critères peut être le fait de différents éléments parfois concomitants :
- directement par application des préconisation de la directive Inspire (F2, F3, A1.1, I2, R1.1, R1.2),
- par l’implémentation de normes comme les standards ISO19115 et ISO19139 (I1, R1.2, R.1.3),
- par le déploiement d’outil comme les IDG (A1.2, I3)
- par le respect de bonnes pratiques non imposées mais permises par la directive Inspire (F1, F4, A2, I2).
L’objectif principal du FAIR data est d’assister dans leur découverte de la connaissance les humains et les machines dans la recherche, l’accès, l’intégration et l’analyse des données scientifiques. La directive Inspire répond largement à cet objectif pour les humains. Pour les machines, à priori aussi, mais cela reste à quantifier précisément.
On pouvait le pressentir. On peut maintenant expliquer pourquoi et comment le pari fait par certaines équipes scientifiques en diffusant librement les données de la recherche en appliquant les préconisations de la directive INSPIRE (Trouver, Voir, Télécharger) à la fin de la décennie 2000-2010, permet aujourd’hui de répondre aux nouvelles exigences du FAIR (Findable, Accessible, Interoperable, Reusable) data.
Références bibliographiques
Bera R, Squividant H, Le Henaff G, Pichelin P, Ruiz L, et al. (2015) GeoSAS: A modular and interoperable Open Source Spatial Data Infrastructure for research. IAHS-AISH publication = International Association of Hydrological Sciences-Association Internationale des Sciences Hydrologiques publication, International Association of Hydrological Sciences, 368, pp.9-14. 10.5194/piahs-368-9-2015
European Commission (2017) Guidelines on FAIR Data Management in Horizon 2020 v3.2 (version anglaise, traduction française INIST-CNRS)
Wilkinson, Mark D et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3. 10.1038/sdata.2016.18