Plan de Gestion de Données (PGD) - Data Management Plan (DMP)
Un Plan de Gestion de Données (PGD ou DMP) : Qu’est qu’un DMP ? Pourquoi un DMP ?
Un DMP est un document formalisé qui explicite la manière dont sont obtenues et traitées les données tout au long de leur cycle de vie, de leur collecte à l’archivage.
Il doit indiquer :
- quel est le traitement des données de recherche avant, pendant et après la fin du projet,
- les données qui seront collectées, traitées et/ou générées,
- si les données sont partagées, rendues accessibles, comment les données seront organisées et conservées (y compris après la fin d’un projet).
Un DMP :
- Garantit la qualité de la recherche
- Contribue à des données FAIR « facilement accessibles, identifiables, reproductibles » (pour les projets H2020)
- Est un outil de fiabilité à l’ère du numérique et de connaissance pour permettre la potentielle réutilisation des données liée à l’Open access
- Répond à une demande des financeurs : Union européenne, ANR, … Les frais associés peuvent être intégrés dans les dépenses éligibles.
Les éléments relatifs à la protection des données personnelles n’alimentent qu’une partie des informations dans un DMP, même si la conformité à la règlementation concerne toutes les étapes d’un DMP.
Le PGD suit toutes les étapes du cycle de vie de la donnée pour les projets de recherche (voir figure 1)
A l’UPPA, DMP OPIDoR est l’outil recommandé pour la rédaction des PGD (voir Outils préconisés à l’UPPA).
- Je crée mon PGD dans l’outil DMP OPIDoR en suivant les recommandations UPPA (selon modèle Science Europe ou modèle financeur)
- Je crée, collecte et gère mes données selon le principe FAIR
- J’organise et je documente mes données (et métadonnées)
- Je dépose mes données de recherche sur un entrepôt disciplinaire ou sur Data UPPA (Recherche Data Gouv) selon le principe « aussi ouvert que possible, aussi fermé que nécessaire »
- Je partage mes codes sur Software Heritage (voir la page « Codes sources de la recherche »)
- Je dépose mes publications dans HAL (voir la page « Publications ouvertes »)
- Je réactualise mon PGD régulièrement.
(Pour les projets ANR et Européens le PGD est à fournir à 6 mois et à la fin de projet)
(question 6b du PGD ANR et onglet Budget du PGD Science Europe)
L'estimation des coûts permet d'anticiper les besoins. Par exemple le coût élevé de l’anonymisation des données est à anticiper le cas échéant. Il est aussi possible qu'il n'y ait pas de ressource spécifique dédiée hormis le temps de travail des membres de l'équipe.
Pour estimer le coût de la gestion des données, vous pouvez vous aider des outils suivants :
- https://doranum.fr/enjeux-benefices/le-cout-de-la-gestion-des-donnees_10_13143_hch2-h207/
- et modèle tableau : https://view.officeapps.live.com/
Pour en savoir plus :
- https://dam.ukdataservice.ac.uk/media/622368/costingtool.pdf Data management costing tool and checklist (UK Data Service)
- https://www.openaire.eu/how-to-comply-to-h2020-mandates-rdm-costsHow to identify and assess Research Data Management (RDM) costs
- https://costcalc.epfl.ch/Cost Calculator for Data Management (EPFL Library)
- https://ist.inrae.fr/wp-content/uploads/sites/21/2021/11/OpenClass-PGD-Octobre2021.pdf
Décrire tous les types de données du projet (collectées ou produites)
Produits de recherche
(Onglet Produits de recherche du PGD ANR et PGD Science Europe et question 1.1 du PGD Science Europe)
- Jeux de données*
- Logiciel
- Modèle
- Objet physique
- Workflow
- Audiovisuel
- Collection
- Image
- Ressource interactive
- Service
- Son
- Texte
- Autre
Jeu de données* : "Dans ce cadre, la notion de « jeu de données » (dataset) peut être définie comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent. " (Source : de-l-open-data-a-l-open-research-data-quelles-politiques-pour-les-donnees-de-recherche.pdf )
Ressource clé :https://guides.dataverse.org/en/4.18.1/user/dataset-management.html (Jeu de donnée)
Types de données
(question 1b du PGD ANR / question 1.3 du PGD Science Europe (nature des données))
Il est recommandé de synthétiser la description des données sous la forme d’un tableau.
Nom des données
TYPE DE DONNEES
données d'observations
données expérimentales
données computationnelles
ou de simulation
données compilées ou dérivées
données de référence
Ressources clés :
- https://www.enssib.fr p18
- https://sciencespo.libguides.com/
- https://dataarchivage.sciencesconf.org/ p6
Pour en savoir plus
Exemple de tableau de données (Sciences et techniques ST) : https://entrepot.recherche.data.gouv.fr/dataset.xhtml?persistentId=doi:10.57745/PK0WOR
source : Les principes FAIR (genial.ly)
Collecte des données
(question 1a du PGD ANR et question 1.3 du PGD Science Europe)
Les données seront gérées selon les principes FAIR (Facile à trouver, Accessibles, Interopérables, Réutilisables) pour faciliter la découverte, l’accès, l’interopérabilité et la réutilisation d’un jeu de données.
Présenter l'ensemble des produits de recherche du projet de façon précise et détaillée en précisant pour chaque jeu :
- la nature des données et le type de données (voir DATA DESCRIPTION)
- la provenance des données(conversion / transformation de données, partage / échange de données ou achat de données):
- données collectées
- données produites : nouvelles données
- la méthodologie de collecte des données utilisées au cours du projet :
- entretien face à face
- entretien à distance
- questionnaire
- observations de terrain
- réutilisation de données issues du web
- expérience de laboratoire...
- l'origine des données
- terrain
- instrument de mesure
- base de données disponibles en libre accès
- base de données disponibles via un abonnement
- données / base de données partagées avec des collègues
- articles scientifiques
- sites web et réseaux sociaux
- la forme des données
- données textuelles
- données numériques
- données audiovisuelles
- images 3D
- enregistrements
- données spécifiques à un instrument
- données spécifiques à une discipline
- modèles
- codes informatiques
Indiquer s'il y a réutilisation de données existantes et préciser s'il y a des restrictions (embargo...). Préciser les sources des données réutilisées.
Outils
Lister les OUTILS utilisés pour produire et traiter les données (Décliner la science ouverte) :
- Logiciels de type tableurs (Excel, Calc, etc.)
- Logiciels de type tableurs scientifiques (Origin, Igor, QtiPlot,…)
- Logiciels/plateformes de base de données intégrées (Acess, Libre office Base, FileMaker, etc.)
- Logiciels d’analyse et de visualisation de données (GraphPadPrism, Gephi, Power BI, QGis, etc.)
- Logiciels de traitement statistiques (Stata, SAS, SPSS, etc.)
- Logiciels de traitement d'images (Photoshop, Gimp, etc.)
- Logiciels/plateformes de type data science (Weka, workbenchdata, Tableau, etc.)
- Solutions basées sur l’usage de langages de programmation (R, python, SQL,Matlab, etc. )
- Plateformes d’entrepôts de données
Ressources clés :
- Pour la DESCRIPTION des données
- https://doranum.fr/plan-gestion-donnees-dmp/origine-description-donnees-recherche_10_13143_e9zh-w908/
- Pour trouver un logiciel libre adapté à vos besoins, vous pouvez consulter le Socle Interministériel de Logiciels Libres)
- https://sill.etalab.gouv.fr/fr/software
- Pour trouver des OUTILS :
- Décliner la science ouvertep40 /p122 et p130
- Pour nettoyer les données :
- OpenRefine
- Sur les principes FAIR :
- https://www.go-fair.org/fair-principles/
- https://view.genial.ly/5d64fbbd8352350fa3d22603/interactive-content-les-principes-fair
- https://datapartage.inrae.fr/Produire-des-donnees-FAIR
- Pour TROUVER des données pour la réutilisation de données existantes :
- https://coop-ist.cirad.fr/gerer-des-donnees/trouver-des-jeux-de-donnees-via-des-bases/1-l-interet-des-jeux-de-donnees
Pour en savoir plus :
- https://corli.huma-num.fr/inventaire-des-outils/ Inventaire des outils – Consortium HN CORpus, Langues et Interactions (huma-num.fr) SHS
(question 1b du PGD ANR et 1.1 et 6.1 du PGD Science Europe)
Dans la mesure du possible des formats libres et ouverts seront privilégiés à des fins d'interopérabilité et de réutilisation.
"Le Centre Informatique National de l’Enseignement Supérieur (CINES) qui est un acteur français dans le domaine de l’archivage pérenne des documents électroniques, dispose d’un service de validation de formats destiné à vérifier l'éligibilité de documents sur sa plate-forme d’archivage."
Ressource clé :
- https://facile.cines.fr/pour vérifier la validité des formats des données
Pour en savoir plus :
(question 5a du PGD ANR et 6.1 du PGD Science Europe)
"Un entrepôt de données de recherche (Research Data Repository ou Data Repository) est une base de données destinée à accueillir, conserver, rendre visibles et accessibles des données de recherche." ( https://coop-ist.cirad.fr/)
Tout d'abord vérifier ses données de recherche :
Préciser sur quel entrepôt de confiance sont déposées les données.
Il est conseillé de privilégier le dépôt de vos données dans un entrepôt disciplinaire. S’il n’en existe pas dans votre domaine, vous pouvez opter pour un entrepôt généraliste. Les données seront déposées dans un entrepôt AVANT de publier un article. Eviter de déposer dans un "Supplementary Data".
Exemples entrepôts disciplinaires :
- https://www.nakala.fr/en SHS
- https://www.pangaea.de/ dans le domaine Terre et sciences de l'Environnement
- https://www.softwareheritage.org/?lang=frpour les codes et logiciels
Exemples entrepôts généralistes :
- https://entrepot.recherche.data.gouv.fr/dataverse/univ-pau (espace Data UPPA dans Recherche Data Gouv)
- https://entrepot.recherche.data.gouv.fr/dataverse.xhtml?alias=univ-pau
- https://zenodo.org/(entrepôt généraliste recommandé par la Commission Européenne)
En résumé à l’UPPA pour déposer vos données dans un entrepôt :
1-rechercher entrepôt disciplinaire
2-sinon entrepôt Recherche Data Gouv (espace Data UPPA)Pour choisir un entrepôt disciplinaire
Ressources clés
Sur les entrepôts :
- https://coop-ist.cirad.fr/gerer-des-donnees/deposer-des-donnees-dans-un-entrepot/1-qu-est-ce-qu-un-entrepot-de-donnees-de-recherche
- https://hal.inrae.fr/hal-01595599
Pour en savoir plus
Autres répertoires d'entrepôts :
Recommandation des journaux et Commission Européenne :
- https://journals.plos.org/plosone/s/recommended-repositories
- https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#approvedrepositories
Entrepôts en sciences et tehcniques (ST) :
- https://www.datacc.org/ (liste du dispositif d’accompagnement sur les données de recherche en physique et chimie)
- https://public.tableau.com/app/profile/bibdesponts/
Entrepôts en SHS :
Pour les SHS, l’entrepôt de données Nakala (Huma-Num) permet l’éditorialisation des données, qui sont ensuite moissonnées et valorisées par le moteur de recherche Isidore.
- https://nakala.fr/
- https://www.huma-num.fr/
- https://www.ortolang.fr/fr/accueil/#%2Fmarket%2Fnews : entrepôt français en science du langage
- beQuali - Nos services (enquêtes)
Aide au choix des entrepôts :
Vérifier que l’entrepôt est certifié :
(question 5a du PGD ANR et 6.1 du PGD Science Europe)
Indiquer dans quel entrepôt seront déposées les données (voir "Data repository (Entrepôt de données)").
Les données produites dans le cadre du projet devront suivre le principe « Aussi ouvert que possible, aussi fermé que nécessaire » et se conformer aux principes regroupés sous l’appellation « FAIR data » (Faciles à trouver, Accessibles, Interopérables et Réutilisables). Les données rendues publiques dans le cadre de travaux de recherche financés à plus de 50 % par des fonds publics sont soumises à un principe de libre réutilisation (sauf exceptions).
ACCES
L’accès peut dépendre de la nature des données :
- accès fermé (confidentiel)
- accès limité
- accès restreint (embargo)
- accès ouvert (public)
Préciser quelles données ne seront pas partagées, pour quelle durée, pour quelle raison (raisons de publication, pour protéger la propriété intellectuelle, ou le dépôt de brevets...)
Ressources clés (logigrammes) :
- https://www.loginos.net/base/ylxxVO(Aide à la décision sur la diffusion des données de recherche (CIRAD))
- https://hal.inrae.fr/hal-03659484v1/document
Pour en savoir plus :
- https://mymarkmap.vercel.app/
- https://doranum.fr/aspects-juridiques-ethiques/communicabilite-donnees-recherche_10_13143_nece-va95/
- https://doranum.fr/aspects-juridiques-ethiques/lois-pour-open-data_10_13143_k917-g053/
- https://hal-lara.archives-ouvertes.fr/hal-03968218/document
Valorisation des données (DATA PAPERS)
Pour communiquer sur l’existence des données et permettre de les trouver, il est possible de rédiger des DataPapers en lien avec les données de l’entrepôt.
Ressource clé :
Identifiant pérenne
(question 5d du PGD ANR)
L'utilisation d'un identifiant pérenne est fortement recommandée afin d'améliorer la visibilité et l'accessibilité de votre jeu de données.
Un identifiant (type DOI=Digital Object Identifier) sera attribué lors du dépôt dans archive ouverte ou entrepôt de données de la recherche. Par exemple un DOI est attribué automatiquement sur l’espace institutionnel UPPA de l'entrepôt Recherche Data Gouv.
Il existe aussi un identifiant pérenne unique dédié aux logiciels : SWHID (Software Heritage)
Ressource clé :
Pour en savoir plus :
- https://opidor.fr/identifier/pour attribuer un identifiant pérenne aux données de la recherche (DOI) :
- https://doranum.fr/identifiants-perennes-pid/zoom-swhid_10_13143_3qqg-yx41/
(question 1b du projet ANR et 6.2 du PGD Science Europe)
La question du volume de données dans le cadre du projet permet de mieux appréhender le stockage des données (notamment en cas de données volumineuses). Indiquer le volume estimé en octets (Ko, Mo, Go, To, Po...).
Ressource clé :
Ordre de grandeur du volume des données : Qualite en recherche CNRS (pdf-3Mo)
Protection des données personnelles
(question 4a du PGD ANR et question 3.1 du PGD Science Europe)
Données à caractère personnel : toute information (au sens large) permettant d'identifier directement ou indirectement une personne physique.
Dans le cadre de vos travaux de recherche, vous pouvez être amenés à traiter des données à caractère personnel, par conséquent vous êtes tenus de respecter la réglementation à ce sujet.
Si cela est le cas, votre traitement doit être porté au registre des activités de traitement de l’Université, ou bien de la structure désignée par les UMR. Vous pouvez contacter le délégué à la protection des données (DPO).
Contact DPO
- UPPA : Vous pouvez contacter le délégué à la protection des données (DPO) de l'UPPA : dpo @ univ-pau.fr
- UMR : selon UMR se renseigner auprès du directeur d'unité
- Pour les UMR TREE / IPREM / IE2IA-DICE / IKER (UMR UPPA CNRS) le délégué à la protection des données désigné est le DPO du CNRS : dpd @ cnrs.fr
Registre des activités de traitement
Afin de constituer la fiche registre, plusieurs informations sont nécessaires :
- la base juridique qui autorise la collecte et le traitement des données (dans le cadre d’une recherche, ce sera le plus souvent l’exécution d’une mission d’intérêt public ; mais ce peut être parfois le consentement éclairé et préalable des personnes concernées ou une autre base légale prévue par le RGPD) ;
- la liste des catégories de données personnelles traitées dans le cadre de la recherche et les catégories de personnes concernées (participants et professionnels de la recherche), ainsi que les destinataires des données ;
- les conditions de stockage (supports) et durées de conservation des données de la recherche ;
- les modalités dans lesquelles les personnes concernées sont informées de la manière dont leurs données vont être traitées (notice d’information avec mentions RGPD sur l’exercice des droits ; formulaire de recueil de consentement, le cas échéant) ;
- les modalités d’exercice des droits des personnes concernées sur leurs données (définir une procédure interne et indiquer les coordonnées à contacter pour l’exercice des droits) ;
- en cas de recours à un prestataire qui traite les données personnelles (par ex. retranscription des entretiens, logiciel d’analyse des données, hébergeur de données si location de serveur externe à l’établissement), s’assurer de l’existence d’un contrat contenant les clauses RGPD ;
- l’existence de mesures de pseudonymisation (par ex. établir une table de correspondance entre l’identité des participants et un identifiant unique attribué pour une enquête) ou d’anonymisation des données ; et à quel moment du projet (dès la collecte des données ; lors de l’exploitation des données ou juste avant publication) ;
- la description des mesures de sécurité techniques et organisationnelles mises en œuvre pour assurer la protection des données personnelles (par ex. chiffrement) ;
En cas de collecte ou d’exploitation de données à caractère personnel, respecter la réglementation relative à la protection des données à caractère personnel (RGPD et Loi Informatique et Libertés). Recueillir le consentement éclairé de la personne participant à l’étude pour préservation et/ou partage de données personnelles.
Le formulaire de consentement UPPA (Formulaire de consentement pour la collecte de donnée(s) à caractère personnel dans le cadre de la recherche) est disponible sur : https://organisation.univ-pau.fr/fr/mentions-legales/donnees-personnelles.html
Les conditions exactes de cette collecte et de ce traitement seront décidées avec le Président de l'UPPA (responsable du traitement), s'appuyant sur la Déléguée à la protection des données de l'UPPA.
Cas des UMR
Dans le cas des unités mixtes de recherche (par exemple les UMR UPPA/CNRS), les traitements devront être renseignés dans le cadre de toutes les tutelles concernées. Au CNRS, le responsable de traitement est le directeur d'unité, qui s'appuie sur le DPO du CNRS. Certaines unités mixtes UPPA CNRS ont désigné le Service de la Protection des Données (SPD) du CNRS pour le suivi de la conformité de l’UMR à la réglementation en matière de protection des données personnelles (RGPD). (cf. Contact DPO et dans ce cas suivre les recommandations CNRS SPD).
Ressources clés
- Guide Les sciences humaines et sociales et la protection des données à caractère personnel dans le contexte de la science ouverte: https://www.ouvrirlascience.fr/
- Recommandations aux chercheurs sur la protection des données dans le cadre de leurs activités de recherche :https://supdpo.fr/
- https://www.cnil.fr/fr/comprendre-le-rgpd
Pour en savoir plus
- https://www.cnil.fr/fr/exemples-de-formulaire-de-collecte-de-donnees-caractere-personnel
- https://www.cnil.fr/sites/default/files/atoms/files/cnil_guide_securite_des_donnees_personnelles-2023.pdf
- Une nouvelle ressource DoRANum sur les données confidentielles – DoRANum
- https://data.ird.fr/cadre-juridique/#Cas_particuliersPoints_de_vigilance
Le cas échéant, indiquer si recours à des procédés de protection particuliers (pseudonymisation, anonymisation, chiffrement des données, stockage séparé des données permettant l’identification…)
- Techniques d'anonymisation https://hal.science/hal-01113412
- Outil Amnesia https://amnesia.openaire.eu/
- Pourquoi et comment pseudonymiser dans l'administration | guides.etalab.gouv.fr
Respect des questions éthiques et codes déontologiques
(question 4c du PGD ANR et question 3.3 du PGD Science Europe)
A l'UPPA, les questions éthiques se font dans les règles du comité d'éthique du site de l'UPPA. Chacun des participants est tenu de suivre la Charte d’Ethique, de Déontologie et d’Intégrité scientifique de l'UPPA :
Ressources clés :
- https://www.hceres.fr/fr/CharteFrancaiseIntegriteScientifique
- ANR-Charte-deontologie-et-integrite-scientifique-2019-v2.pdf (pour projets ANR)
Pour en savoir plus :
Propriété intellectuelle des données de la recherche
(question 4a du PGD ANR et 3.2 du PGD Science Europe)
Décrire qui est titulaire des droits de propriété intellectuelle sur les données.
Règle générale : Attribution de la propriété intellectuelle des données à l’établissement de tutelle des producteurs de données. (Source : https://callisto-formation.fr)
Pour les projets régis par un accord de consortium, indiquer "Cette question est précisée dans l'accord de consortium relatif au projet".
Les bases de données constituent un cas particulier : une législation spécifique s’applique, en plus de droit d’auteur, celle du droit sui generis du producteur de la base.
Ressources clés
Guide d’analyse du cadre juridique en France sur l’ouverture des données de la recherche répertorie les cas qui peuvent se poser en matière de propriété intellectuelle des jeux de données (p. 17-20).
Guide d'application de la Loi pour une République numérique pour les données de la recherche :
Pour les bases de données :
Pour en savoir plus :
- https://opendatacanvas.org/pgd-etape-1-acquisition-1-5
- L'ENPC (École des Ponts ParisTech) propose un logigramme à plat, pour aider à la prise de décision en matière de propriété et diffusion de données de recherche quantitatives (type base de données) : https://espacechercheurs.enpc.fr/sites/default/files/logigramme_a_plat.pdf
Licences
(question 4b du PGD ANR)
Attribuer une LICENCE au jeu de données permet de signaler les droits sur le jeu de données et de fixer ses conditions de diffusion et de réutilisation.
A l'UPPA, les données seront généralement publiées sous licence standard
- Licence Creative Commons CC-BY
- et/ou licence ouverte Etalab conformément au Décret n° 2017-638 du 27 avril 2017 relatif aux licences de réutilisation à titre gratuit des informations publiques et aux modalités de leur homologation.
Attention cependant aux licences d'origine des données existantes utilisées.
Pour les licences sur les logiciels voir les outils pour choisir une licence et page « Codes de la recherche »
Ressources clés :
Licences pour les données:
- https://choosealicense.com/
- https://creativecommons.org/licenses/?lang=fr
- https://www.etalab.gouv.fr/licence-ouverte-open-licence/
Outils pour choisir une licence :
- https://choosealicense.com/
- https://fabriquerel.org/licences/
- https://creativecommons.org/choose/?lang=fr
- https://doranum.fr/aspects-juridiques-ethiques/guide-des-licences-ouvertes
Licences pour les bases de données :
Licences pour les logiciels :
- Licences - Projet GNU - Free Software Foundation
- https://www.apache.org/licenses/
- https://www.freebsd.org/copyright/license/
- https://opensource.org/license/mit/
- Aladdin Free Public License | Software Package Data Exchange (SPDX)
- http://www.cecill.info/licences.fr.html
Pour en savoir plus :
(question 2a du PGD ANR et 2.1 du PGD Science Europe)
"Toutes les communautés devraient produire des définitions claires et précises des termes qu'elles utilisent, ainsi que de leurs métadonnées et schémas de données."(source : EOSC)
Les métadonnées (données sur les données) sont essentielles pour rendre les données faciles à trouver. Plus la description est précise, plus les données pourront être visibles, citées ou réutilisées.
Il est recommandé de :
- Décrire ses données à l’aide de métadonnées riches, et selon des standards (a minima les métadonnées au standard Dublin Core)
- Décrire l'organisation des données et métadonnées
- Utiliser des vocabulaires contrôlés (pour définir des mots-clés)
- Suivre des règles de nommage
- Accompagner les données d'un fichier "Readme" (Lisez-moi) pour décrire l'organisation des données.
- Partager les métadonnées même si l’accès aux données est restreint.
- Se renseigner sur les métadonnées (acceptées ou exigées) de l’entrepôt.
Ressources clés :
- Sur les données et métadonnées :
- Métadonnées, standards, formats : fiche synthétique – DoRANum
- https://anfdonnees2017.sciencesconf.org(métadonnées dans DMP)
- https://hal.science/hal-01275841v1/document (guide des bonnes pratiques : gestion et valorisation des données de la recherche)
- https://www.datacc.org/vos-besoins/documenter-ses-donnees/metadonnees/(pour les sciences et techniques ST)
Pour fournir une documentation détaillée :
- https://zenodo.org/record/1684941#.ZLeSqGfP2Un(guide Fuchs, S., & Kuusniemi, M. E. (2018). Making a research project understandable—Guide for data documentation.)
Exemples de STANDARDS de référence :
- https://www.dublincore.org/(générique)
- https://eml.ecoinformatics.org/(disciplinaire : science de la vie)
Répertoires de standard de métadonnées :
- https://www.dcc.ac.uk/guidance/standards/metadata(Disciplinary Metadata de DCC)
- https://rdamsc.bath.ac.uk/subject-index(Metadata Standards Catalog de RDA)
- https://fairsharing.org/ (standards dans tous les domaines)
Pour s'aider à trouver un standard de métadonnées :
- https://openscience.pasteur.fr/2022/06/15/comment-trouver-un-standard-de-metadonnees/
- https://datactivist.coop/sprint_pgd/Fiche-16.html
Pour trouver des vocabulaires contrôlés (ou ontologies) :
- https://fairsharing.org/search?fairsharingRegistry=Standard
- https://www.loterre.fr/
- https://campus.dariah.eu/resource/posts/controlled-vocabularies-and-skos
- https://bartoc.org/
Pour le nommage des fichiers :
- https://doranum.fr/stockage-archivage/comment-nommer-fichiers_10_13143_wgqw-aa59/
- https://www.datacc.org/bonnes-pratiques/
La création d’un FICHIER "README" est recommandé :
Pour en savoir plus :
Outils de création de métadonnées :
- Pour disposer d'outils d'aide à la création de métadonnées en général: https://datapartage.inrae.fr//Gerer/Documenter-les-donnees/Outils-d-aide-a-la-description-des-jeux-de-donnees
- Datacite Metadata Generator (proposé par Doranum, centre de ressources Recherche Data Gouv) : https://doranum.fr/wp-content/uploads/datacite_metadata_generator_4.0.html
- http://rd-alliance.github.io/metadata-directory/tools/
- Outils de création de métadonnées – DoRANum
Pour disposer d'outils d'aide à la création de métadonnées Dublin Core :
- Data accessioner : http://dataaccessioner.org/da-version-notes.htm
- DocuteamPacker : intègre le DC via BagIt https://docs.docuteam.ch/introduction/en/docuteamDublinCore1_0. Docuteam permet de générer des paquets d'archives. C'est un peu plus poussé que le précédent et c'est fait pour toute la chaîne de traitement archvistique. C'est plutôt bien documenté https://wiki.docuteam.ch/doku.php?id=fr:start.
- Tropy pour organiser ses photos de recherche et éditer leurs métadonnées (notamment DC) : https://tropy.org
- https://nsteffel.github.io/dublin_core_generator/generator_nq.html
- https://ockier.es/dublin-core/en-dublin-core.php
- https://www.emandarine.com/outils-webmarketing/generateur-dublincore/
Remarque : derrière ces outils, l'idée étant de pouvoir retrouver les métadonnées d'un fichier de données quel qu'il soit, où qu'il soit stocké. Il s'agit de :
- décrire les métadonnées d'une ressource
- associer le fichier de métadonnées ainsi produit à la ressource
- et ce indépendamment d'une étape de publication / dépôt d'une ressource dans un entrepôt .
Pour en savoir encore plus :
Sur les fichiers Read Me :
- https://data.4tu.nl/info//fileadmin/user_upload/Documenten/Guidelines_for_creating_a_README_file.pdf
- Fichier « Lisez-moi » (readme) - Gestion des données de recherche - Guides thématiques at Université de Sherbrooke (usherbrooke.ca)
Sur le nommage :
- https://qualite-en-recherche.cnrs.fr/wp-content/uploads/2021/08/guide_tracabilite_activites_recherche_gestion_connaissances.pdf(p14-15)
- https://bequali.fr/media/ckeditor/uploads/2017/02/03/cdsp_bq_plan_classement_siteweb_lSZdusz.pdf(SHS)
Mesures de contrôle de la qualité des données
(question 2b du PGD ANR et 2.2 du PGD Science Europe)
Indiquer si des procédures qualité (Ex : ISO-9001) existent pour définir le protocole d'intégration des données. Préciser quelles méthodes d'assurance qualité ont été mises en place pour la qualité scientifique des données.
Ressources clés
Vous pouvez vous reporter aux guides :
Pour en savoir plus
En Sciences et Techniques (ST), s'inspirer du guide des bonnes pratiques de DATACC pour tenir un cahier de labo :
Conservation - préservation des données
(question 5a du PGD ANR et 6.2 du PGD Science Europe)
Il est recommandé de faire un plan de conservation des données. Les données à conserver sont celles permettant la validation des résultats et celles ayant une valeur de preuve ou un potentiel de réutilisation. Préciser les principes qui permettront de choisir quelles données conserver/détruire à la fin du projet et qui en décidera.
Archivage pérenne = conservation à long terme et très long terme
(question 5b du PGD ANR)
- court et moyen terme : 5 à 10 ans
- long terme : plus de 10 ans
- très long terme : plus de 30 ans
L'archivage pérenne peut se faire sur des plateformes spécifiques (CINES) (service payant). Le CINES (Centre Informatique National de l’Enseignement Supérieur) a été mandaté par le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation pour mettre en place une solution d’archivage électronique du patrimoine scientifique pour toute la communauté ESR (Enseignement Supérieur et Recherche) française.
SHS :
L’IR* Huma-Num propose à la communauté des producteurs de données numériques en Sciences Humaines et Sociales un service d’archivage à long terme. Elle s’appuie, pour cette activité, sur le CINES.
Ressource clé :
- https://www.cines.fr/archivage/
- https://www.archivistes.org/pour la durée d'archivage consulter le guide de l'association des archivistes de France
- https://doranum.fr/stockage-archivage/stockage-partage-archivage-quelles-differences_10_13143_5dax-qp58/
Pour en savoir plus :
- https://www.cines.fr/archivage/un-concept-des-problematiques/le-concept-darchivage-numerique-perenne/
- https://www.huma-num.fr/les-services-par-etapes/
- https://www.programmevitam.fr/
Outils logiciels nécessaires pour accéder et utiliser les données
(question 5c du PGD ANR)
Il est recommandé d'utiliser des outils logiciels libres. Exemples d'OUTILS cf. thème Description des données (question 1a du PGD ANR)
A l'UPPA les logiciels associés au traitement des données seront versés sur Software Heritage.
La gestion des données sera assurée par les porteurs du projet.
Responsabilités (liste PGD Science Europe):
- Coordinateur du projet
- Personne contact pour les données
- Responsable de la conservation à long terme des données
- Responsable de la documentation des données
- Responsable de la production ou de la collecte des données
- Responsable de la protection des données
- Responsable de la qualité des données
- Responsable des questions éthiques
- Responsable du dépôt et de la diffusion des données
- Responsable du plan
- Responsable du stockage des données
- Responsable juridique
Ressources clés :
Stockage et sauvegarde des données
(question 3 du PGD ANR et question 5 du PGD Science Europe)
Pour optimiser la sécurité de vos données durant un travail de recherche :
- choisir un support de stockage sécurisé
- apporter une sécurité physique aux données de recherche
- sécuriser informatiquement des données.
Plus d'info : https://callisto-formation.fr/course/view.php?id=211
Stockage des données
À l'UPPA, il est conseillé de privilégier les solutions institutionnelles et sécurisées (ex : Nuage). Le stockage permanent de données sur des ordinateurs personnels, sur des clés USB ou des disques durs externes n’est pas recommandé pour des raisons de sécurité et de pérennité.
Le tableau ci-dessous décrit un ensemble de supports disponibles à l’UPPA pour le stockage de données. Cette liste n’est pas exhaustive, d’autres solutions peuvent exister dans vos unités de recherche ou en lien avec les tutelles associées ; auquel cas, il est conseillé de prendre contact directement avec leurs responsables.
Support de stockage
Données
Risques
Niveau de partage
Temporalité
Sauvegarde
Accès
Ordinateur professionnel
Tout type
Sujet au piratage, vol, détérioration
Individu
Court terme
Automatisée pour les postes de travail gérés par le Pôle Numérique
Lecteurs réseau (U:, S:, mesDocuments, etc.)
Tout type
Stockage fiable, durable et sécurisé par l’UPPA
Individu ou groupe, interne UPPA
Moyen / Long terme
Automatisée (quotidiennement)
À partir de l’explorateur de
fichiers : Mon Espace S: / Interservice U: ..)
Par bureau distant depuis l’extérieur de l’UPPA ou wifi
Cloud de l'UPPA (Nuage)
Tout type (quota 10 Go)
Stockage fiable, durable et sécurisé par l’UPPA
Individu ou groupe, interne ou externe UPPA
Moyen / Long terme
Automatisée (quotidiennement)
Depuis le réseau interne et l’extérieur de l’UPPA
Forge GitLab UPPA
Codes sources et données de recherche
Stockage fiable, durable et sécurisé par l’UPPA
Individu ou groupe, interne UPPA
Moyen / Long terme
Automatisée (quotidiennement)
Depuis le réseau interne et l’extérieur de l’UPPA
Gestion Électronique de Documents (GED)
Données institutionnelles et de référence
Stockage fiable, durable et sécurisé par l’UPPA
Individu ou groupe, interne UPPA
Moyen / Long terme
Automatisée (quotidiennement)
Depuis le réseau interne de l’UPPA et par VPN depuis l’extérieur
SAE VITAM
Gros volumes d’archives numériques définitives, intermédiaires, voire courantes
Sécurisé par le CINES
Individu ou groupe, interne UPPA
Moyen / Long terme
Automatisée
En déposant une demande de projet sur https://demande-projet.univ-pau.fr
iRODS-MCIA
Données volumineuses /données de calcul (quota 10 To)
Sécurisé par le Mésocentre de Calcul Intensif Aquitain (MCIA)
Individu ou groupe, interne ou externe UPPA
Moyen / Long terme
Répliques automatiques sur 2 sites géographiques de Nouvelle-Aquitaine
https://redmine.mcia.fr/projects/irods-v2/wiki/Utiliser_la_solution Accompagnement UPPA via le CSP Numérique Recherche
Entrepôt de données
Selon entrepôt
Sécurisé
Individu ou groupe, interne ou externe UPPA
Moyen / Long terme
Selon infrastructure
Politique de sauvegarde et de sécurité
Planifier la sauvegarde des données.
Pour la sécurité physique des données, suivez la règle de sauvegarde 3-2-1.
Ayez au moins trois copies de vos données; stockez les copies sur deux supports différents; conservez une copie de sauvegarde hors site.
La sauvegarde et la sécurité des données est actuellement assurée par le niveau de sécurité des serveurs qui les hébergent.
Les données hébergées sur les serveurs de l'UPPA bénéficient d’une semaine de sauvegarde.
Concernant les entrepôts de données, il faut vérifier que l'entrepôt choisi dispose de mesures de sauvegarde et sécurité (entrepôt de qualité). Un entrepôt souverain (exemples : Huma-Num, Recherche Data Gouv) ou qui bénéficie de la certification CoreTrustSeal peut être considéré comme un entrepôt de confiance.
Les données sensibles nécessitent une vigilance accrue.
Le stockage de données confidentielles, personnelles ou sensibles sur des plateformes privées de Cloud (type Dropbox, Google Drive…) n'est pas conseillé.
Exemples de mesures de sécurité
- Protection contre les virus et les intrusions.
- Restrictions sur le droit d’accès (authentification nécessaire pour accéder aux différentes ressources)
- Encryptage
- Anonymisation des données sensibles (mots de passe, données géographiques)
- Pseudonymisation
- Sauvegarde régulière
Ressource clé
Contact UPPA
https://organisation.univ-pau.fr/fr/securite/securite-numerique.html
Rédiger un PGD
- PGD pas à pas (avec exemples de réponses) : Le Plan de Gestion de Données pas à pas – DoRANum
- Rédiger un PGD (URFIST Bordeaux) : Rédiger un plan de gestion des données
- Rédiger un PGD (Sorbonne Université) : Rédiger un plan de gestion des données | Zenodo
- Guide d’aide à la rédaction d’un plan de gestion des données à Université Paris Cité : Nextcloud (parisdescartes.fr)
- Datactivist : Patchwork de construction d'un PGD
Bonnes pratiques
- TOUR OPIDOR (Bonnes pratiques gestion des données de recherche) : Microsoft PowerPoint - Bonnes-pratiques-gestion-donnees-recherche-2019-11-04.pptx (opidor.fr)
- GT inter-réseaux « Atelier Données » | Guide de bonnes pratiques 2023 : Guide de bonnes pratiques sur la gestion des données de la recherche (unistra.fr)
- Guide pratique pour une harmonisation des données de la recherche (Science Europe) : Ouvrir la Science - Bibliothèque de la science ouverte
- GTSO - fiches pratiques : Fiches pratiques < Groupe de travail science ouverte (couperin.org)
Organismes financeurs
Modules de formation
Introduction aux données de la recherche
Cette formation d'introduction aux données de la recherche, animée par Raphaëlle Bats, a eu lieu le 22 septembre 2022 à Pau. Elle a été organisée par l'Urfist de Bordeaux et l'Université de Pau et Pays de l'Adour (UPPA).
- Enregistrement : https://www.canal-u.tv/chaines/callisto/introduction-aux-donnees-de-la-recherche
- Support de présentation : https://zenodo.org/record/7104154#.Y9t9V-zMI-R
- Callisto : Tag - données de recherche (callisto-formation.fr)
- Cours : Webinaire Plan de gestion de données : bonnes pratiques de rédaction (callisto-formation.fr)