Plan de Gestion de Données (PGD) - Data Management Plan (DMP) - Recherche - Université de Pau et des Pays de l'Adour (UPPA)

1 - Contenu d’un PGD

On retrouve les thèmes suivants dans les PGD :

Fig. 2 : Thèmes du PGD (source : doranum.fr)

2 - Le PGD à l’UPPA en bref

A l’UPPA, DMP OPIDoR est l’outil recommandé pour la rédaction des PGD (voir Outils préconisés à l’UPPA).

Je crée mon PGD dans l’outil DMP OPIDoR en suivant les recommandations UPPA (selon modèle Science Europe ou modèle financeur)
Je crée, collecte et gère mes données selon le principe FAIR
J’organise et je documente mes données (et métadonnées)
Je dépose mes données de recherche sur un entrepôt disciplinaire ou sur Data UPPA (Recherche Data Gouv) selon le principe « aussi ouvert que possible, aussi fermé que nécessaire »
Je partage mes codes sur Software Heritage (voir la page « Codes sources de la recherche »)
Je dépose mes publications dans HAL (voir la page « Publications ouvertes »)
Je réactualise mon PGD régulièrement.

(Pour les projets ANR et Européens le PGD est à fournir à 6 mois et à la fin de projet)

3 - Budget

(question 6b du PGD ANR et onglet Budget du PGD Science Europe)

L'estimation des coûts permet d'anticiper les besoins. Par exemple le coût élevé de l’anonymisation des données est à anticiper le cas échéant. Il est aussi possible qu'il n'y ait pas de ressource spécifique dédiée hormis le temps de travail des membres de l'équipe.

Pour estimer le coût de la gestion des données, vous pouvez vous aider des outils suivants :

https://doranum.fr/enjeux-benefices/le-cout-de-la-gestion-des-donnees_10_13143_hch2-h207/
et modèle tableau : https://view.officeapps.live.com/

Pour en savoir plus :

https://dam.ukdataservice.ac.uk/media/622368/costingtool.pdf Data management costing tool and checklist (UK Data Service)
https://www.openaire.eu/how-to-comply-to-h2020-mandates-rdm-costsHow to identify and assess Research Data Management (RDM) costs
https://costcalc.epfl.ch/Cost Calculator for Data Management (EPFL Library)
https://ist.inrae.fr/wp-content/uploads/sites/21/2021/11/OpenClass-PGD-Octobre2021.pdf

4 - Data description (Description des données)

Fig. 3 : Source : https://dataarchivage.sciencesconf.org/ p6

Décrire tous les types de données du projet (collectées ou produites)

Produits de recherche

(Onglet Produits de recherche du PGD ANR et PGD Science Europe et question 1.1 du PGD Science Europe)

Jeux de données*
Logiciel
Modèle
Objet physique
Workflow
Audiovisuel
Collection
Image
Ressource interactive
Service
Son
Texte
Autre

Jeu de données* : "Dans ce cadre, la notion de « jeu de données » (dataset) peut être définie comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent. " (Source : de-l-open-data-a-l-open-research-data-quelles-politiques-pour-les-donnees-de-recherche.pdf )

Ressource clé :https://guides.dataverse.org/en/4.18.1/user/dataset-management.html (Jeu de donnée)

Types de données

(question 1b du PGD ANR / question 1.3 du PGD Science Europe (nature des données))

Il est recommandé de synthétiser la description des données sous la forme d’un tableau.

Nom des données	TYPE DE DONNEES
	données d'observations
	données expérimentales
	données computationnelles ou de simulation
	données compilées ou dérivées
	données de référence

Ressources clés :

Pour en savoir plus

Exemple de tableau de données (Sciences et techniques ST) : https://entrepot.recherche.data.gouv.fr/dataset.xhtml?persistentId=doi:10.57745/PK0WOR

5 - Data collection (Collecte des données)

source : Les principes FAIR (genial.ly)

Collecte des données

(question 1a du PGD ANR et question 1.3 du PGD Science Europe)

Les données seront gérées selon les principes FAIR (Facile à trouver, Accessibles, Interopérables, Réutilisables) pour faciliter la découverte, l’accès, l’interopérabilité et la réutilisation d’un jeu de données.

Présenter l'ensemble des produits de recherche du projet de façon précise et détaillée en précisant pour chaque jeu :

la nature des données et le type de données (voir DATA DESCRIPTION)
la provenance des données(conversion / transformation de données, partage / échange de données ou achat de données):
données collectées
données produites : nouvelles données
la méthodologie de collecte des données utilisées au cours du projet :
entretien face à face
entretien à distance
questionnaire
observations de terrain
réutilisation de données issues du web
expérience de laboratoire...
l'origine des données
terrain
instrument de mesure
base de données disponibles en libre accès
base de données disponibles via un abonnement
données / base de données partagées avec des collègues
articles scientifiques
sites web et réseaux sociaux
la forme des données
données textuelles
données numériques
données audiovisuelles
images 3D
enregistrements
données spécifiques à un instrument
données spécifiques à une discipline
modèles
codes informatiques

Indiquer s'il y a réutilisation de données existantes et préciser s'il y a des restrictions (embargo...). Préciser les sources des données réutilisées.

Outils

Lister les OUTILS utilisés pour produire et traiter les données (Décliner la science ouverte) :

Logiciels de type tableurs (Excel, Calc, etc.)
Logiciels de type tableurs scientifiques (Origin, Igor, QtiPlot,…)
Logiciels/plateformes de base de données intégrées (Acess, Libre office Base, FileMaker, etc.)
Logiciels d’analyse et de visualisation de données (GraphPadPrism, Gephi, Power BI, QGis, etc.)
Logiciels de traitement statistiques (Stata, SAS, SPSS, etc.)
Logiciels de traitement d'images (Photoshop, Gimp, etc.)
Logiciels/plateformes de type data science (Weka, workbenchdata, Tableau, etc.)
Solutions basées sur l’usage de langages de programmation (R, python, SQL,Matlab, etc. )
Plateformes d’entrepôts de données

Ressources clés :

Pour la DESCRIPTION des données
https://doranum.fr/plan-gestion-donnees-dmp/origine-description-donnees-recherche_10_13143_e9zh-w908/
Pour trouver un logiciel libre adapté à vos besoins, vous pouvez consulter le Socle Interministériel de Logiciels Libres)
https://sill.etalab.gouv.fr/fr/software
Pour trouver des OUTILS :
Décliner la science ouvertep40 /p122 et p130
Pour nettoyer les données :
OpenRefine

Sur les principes FAIR :
https://www.go-fair.org/fair-principles/
https://view.genial.ly/5d64fbbd8352350fa3d22603/interactive-content-les-principes-fair
https://datapartage.inrae.fr/Produire-des-donnees-FAIR
Pour TROUVER des données pour la réutilisation de données existantes :
https://coop-ist.cirad.fr/gerer-des-donnees/trouver-des-jeux-de-donnees-via-des-bases/1-l-interet-des-jeux-de-donnees

Pour en savoir plus :

https://corli.huma-num.fr/inventaire-des-outils/ Inventaire des outils – Consortium HN CORpus, Langues et Interactions (huma-num.fr) SHS

6 - Data Format (Format des données)

(question 1b du PGD ANR et 1.1 et 6.1 du PGD Science Europe)

Dans la mesure du possible des formats libres et ouverts seront privilégiés à des fins d'interopérabilité et de réutilisation.

"Le Centre Informatique National de l’Enseignement Supérieur (CINES) qui est un acteur français dans le domaine de l’archivage pérenne des documents électroniques, dispose d’un service de validation de formats destiné à vérifier l'éligibilité de documents sur sa plate-forme d’archivage."

Ressource clé :

https://facile.cines.fr/pour vérifier la validité des formats des données

Pour en savoir plus :

7 - Data repository (Entrepôt de données)

(question 5a du PGD ANR et 6.1 du PGD Science Europe)

"Un entrepôt de données de recherche (Research Data Repository ou Data Repository) est une base de données destinée à accueillir, conserver, rendre visibles et accessibles des données de recherche." ( https://coop-ist.cirad.fr/)

Tout d'abord vérifier ses données de recherche :

https://doranum.fr/depot-entrepots/verifier-donnees-recherche_10_13143_5rs6-4r06/

Préciser sur quel entrepôt de confiance sont déposées les données.

Il est conseillé de privilégier le dépôt de vos données dans un entrepôt disciplinaire. S’il n’en existe pas dans votre domaine, vous pouvez opter pour un entrepôt généraliste. Les données seront déposées dans un entrepôt AVANT de publier un article. Eviter de déposer dans un "Supplementary Data".

Fig. 4 : Partager des données (source : Guide partager les données web - ouvrirlascience.fr)

Exemples entrepôts disciplinaires :

https://www.nakala.fr/en SHS
https://www.pangaea.de/ dans le domaine Terre et sciences de l'Environnement
https://www.softwareheritage.org/?lang=frpour les codes et logiciels

Exemples entrepôts généralistes :

https://entrepot.recherche.data.gouv.fr/dataverse/univ-pau (espace Data UPPA dans Recherche Data Gouv)
https://entrepot.recherche.data.gouv.fr/dataverse.xhtml?alias=univ-pau
https://zenodo.org/(entrepôt généraliste recommandé par la Commission Européenne)

https://datadryad.org/stash

En résumé à l’UPPA pour déposer vos données dans un entrepôt :
1-rechercher entrepôt disciplinaire
2-sinon entrepôt Recherche Data Gouv (espace Data UPPA)

Pour choisir un entrepôt disciplinaire

Ressources clés

Sur les entrepôts :

Pour en savoir plus

Autres répertoires d'entrepôts :

Recommandation des journaux et Commission Européenne :

Entrepôts en sciences et tehcniques (ST) :

https://www.datacc.org/ (liste du dispositif d’accompagnement sur les données de recherche en physique et chimie)
https://public.tableau.com/app/profile/bibdesponts/

Entrepôts en SHS :

Pour les SHS, l’entrepôt de données Nakala (Huma-Num) permet l’éditorialisation des données, qui sont ensuite moissonnées et valorisées par le moteur de recherche Isidore.

https://nakala.fr/
https://www.huma-num.fr/
https://www.ortolang.fr/fr/accueil/#%2Fmarket%2Fnews : entrepôt français en science du langage
beQuali - Nos services (enquêtes)

Aide au choix des entrepôts :

Vérifier que l’entrepôt est certifié :

8 - Data sharing (Partage des données)

(question 5a du PGD ANR et 6.1 du PGD Science Europe)

Indiquer dans quel entrepôt seront déposées les données (voir "Data repository (Entrepôt de données)").

Les données produites dans le cadre du projet devront suivre le principe « Aussi ouvert que possible, aussi fermé que nécessaire » et se conformer aux principes regroupés sous l’appellation « FAIR data » (Faciles à trouver, Accessibles, Interopérables et Réutilisables). Les données rendues publiques dans le cadre de travaux de recherche financés à plus de 50 % par des fonds publics sont soumises à un principe de libre réutilisation (sauf exceptions).

ACCES

L’accès peut dépendre de la nature des données :

accès fermé (confidentiel)
accès limité
accès restreint (embargo)
accès ouvert (public)

Préciser quelles données ne seront pas partagées, pour quelle durée, pour quelle raison (raisons de publication, pour protéger la propriété intellectuelle, ou le dépôt de brevets...)

Ressources clés (logigrammes) :

https://www.loginos.net/base/ylxxVO(Aide à la décision sur la diffusion des données de recherche (CIRAD))
https://hal.inrae.fr/hal-03659484v1/document

Pour en savoir plus :

Valorisation des données (DATA PAPERS)

Pour communiquer sur l’existence des données et permettre de les trouver, il est possible de rédiger des DataPapers en lien avec les données de l’entrepôt.

Ressource clé :

https://doranum.fr/data-paper-data-journal/data-papers-et-data-journals-fiche-synthetique_10_13143_2wcb-fw52/

Identifiant pérenne

(question 5d du PGD ANR)

L'utilisation d'un identifiant pérenne est fortement recommandée afin d'améliorer la visibilité et l'accessibilité de votre jeu de données.

Un identifiant (type DOI=Digital Object Identifier) sera attribué lors du dépôt dans archive ouverte ou entrepôt de données de la recherche. Par exemple un DOI est attribué automatiquement sur l’espace institutionnel UPPA de l'entrepôt Recherche Data Gouv.

Il existe aussi un identifiant pérenne unique dédié aux logiciels : SWHID (Software Heritage)

Ressource clé :

https://doranum.fr/identifiants-perennes-pid/identifiants-perennes-fiche-synthetique_10_13143_7gw1-b340/

Pour en savoir plus :

https://opidor.fr/identifier/pour attribuer un identifiant pérenne aux données de la recherche (DOI) :
https://doranum.fr/identifiants-perennes-pid/zoom-swhid_10_13143_3qqg-yx41/

9 - Data Volume (Volume des données)

(question 1b du projet ANR et 6.2 du PGD Science Europe)

La question du volume de données dans le cadre du projet permet de mieux appréhender le stockage des données (notamment en cas de données volumineuses). Indiquer le volume estimé en octets (Ko, Mo, Go, To, Po...).

Ressource clé :

Ordre de grandeur du volume des données : Qualite en recherche CNRS (pdf-3Mo)

10 - Ethics & Privacy (Ethique et confidentialité)

Protection des données personnelles

(question 4a du PGD ANR et question 3.1 du PGD Science Europe)

Données à caractère personnel : toute information (au sens large) permettant d'identifier directement ou indirectement une personne physique.

Dans le cadre de vos travaux de recherche, vous pouvez être amenés à traiter des données à caractère personnel, par conséquent vous êtes tenus de respecter la réglementation à ce sujet.

Si cela est le cas, votre traitement doit être porté au registre des activités de traitement de l’Université, ou bien de la structure désignée par les UMR. Vous pouvez contacter le délégué à la protection des données (DPO).

Contact DPO

UPPA : Vous pouvez contacter le délégué à la protection des données (DPO) de l'UPPA : dpo @ univ-pau.fr
UMR : selon UMR se renseigner auprès du directeur d'unité

Pour les UMR TREE / IPREM / IE2IA-DICE / IKER (UMR UPPA CNRS) le délégué à la protection des données désigné est le DPO du CNRS : dpd @ cnrs.fr

Registre des activités de traitement

Afin de constituer la fiche registre, plusieurs informations sont nécessaires :

la base juridique qui autorise la collecte et le traitement des données (dans le cadre d’une recherche, ce sera le plus souvent l’exécution d’une mission d’intérêt public ; mais ce peut être parfois le consentement éclairé et préalable des personnes concernées ou une autre base légale prévue par le RGPD) ;
la liste des catégories de données personnelles traitées dans le cadre de la recherche et les catégories de personnes concernées (participants et professionnels de la recherche), ainsi que les destinataires des données ;
les conditions de stockage (supports) et durées de conservation des données de la recherche ;
les modalités dans lesquelles les personnes concernées sont informées de la manière dont leurs données vont être traitées (notice d’information avec mentions RGPD sur l’exercice des droits ; formulaire de recueil de consentement, le cas échéant) ;
les modalités d’exercice des droits des personnes concernées sur leurs données (définir une procédure interne et indiquer les coordonnées à contacter pour l’exercice des droits) ;
en cas de recours à un prestataire qui traite les données personnelles (par ex. retranscription des entretiens, logiciel d’analyse des données, hébergeur de données si location de serveur externe à l’établissement), s’assurer de l’existence d’un contrat contenant les clauses RGPD ;
l’existence de mesures de pseudonymisation (par ex. établir une table de correspondance entre l’identité des participants et un identifiant unique attribué pour une enquête) ou d’anonymisation des données ; et à quel moment du projet (dès la collecte des données ; lors de l’exploitation des données ou juste avant publication) ;
la description des mesures de sécurité techniques et organisationnelles mises en œuvre pour assurer la protection des données personnelles (par ex. chiffrement) ;

En cas de collecte ou d’exploitation de données à caractère personnel, respecter la réglementation relative à la protection des données à caractère personnel (RGPD et Loi Informatique et Libertés). Recueillir le consentement éclairé de la personne participant à l’étude pour préservation et/ou partage de données personnelles.

Le formulaire de consentement UPPA (Formulaire de consentement pour la collecte de donnée(s) à caractère personnel dans le cadre de la recherche) est disponible sur : https://organisation.univ-pau.fr/fr/mentions-legales/donnees-personnelles.html

Les conditions exactes de cette collecte et de ce traitement seront décidées avec le Président de l'UPPA (responsable du traitement), s'appuyant sur la Déléguée à la protection des données de l'UPPA.

Cas des UMR

Dans le cas des unités mixtes de recherche (par exemple les UMR UPPA/CNRS), les traitements devront être renseignés dans le cadre de toutes les tutelles concernées. Au CNRS, le responsable de traitement est le directeur d'unité, qui s'appuie sur le DPO du CNRS. Certaines unités mixtes UPPA CNRS ont désigné le Service de la Protection des Données (SPD) du CNRS pour le suivi de la conformité de l’UMR à la réglementation en matière de protection des données personnelles (RGPD). (cf. Contact DPO et dans ce cas suivre les recommandations CNRS SPD).

Ressources clés

Guide Les sciences humaines et sociales et la protection des données à caractère personnel dans le contexte de la science ouverte: https://www.ouvrirlascience.fr/
Recommandations aux chercheurs sur la protection des données dans le cadre de leurs activités de recherche :https://supdpo.fr/
https://www.cnil.fr/fr/comprendre-le-rgpd

Pour en savoir plus

Le cas échéant, indiquer si recours à des procédés de protection particuliers (pseudonymisation, anonymisation, chiffrement des données, stockage séparé des données permettant l’identification…)

Techniques d'anonymisation https://hal.science/hal-01113412
Outil Amnesia https://amnesia.openaire.eu/
Pourquoi et comment pseudonymiser dans l'administration | guides.etalab.gouv.fr

Respect des questions éthiques et codes déontologiques

(question 4c du PGD ANR et question 3.3 du PGD Science Europe)

A l'UPPA, les questions éthiques se font dans les règles du comité d'éthique du site de l'UPPA. Chacun des participants est tenu de suivre la Charte d’Ethique, de Déontologie et d’Intégrité scientifique de l'UPPA :

Comité éthique UPPA

Ressources clés :

Pour en savoir plus :

Guide Code de conduite européen pour l’intégrité en recherche (pdf)

11 - Intellectual Property Rights (Droits de propriété intellectuelle)

Propriété intellectuelle des données de la recherche

Fig. 5 : Propriété interllectuelle (source : Microsoft PowerPoint - Bonnes-pratiques-gestion-donnees-recherche-2019-11-04.pptx (opidor.fr) p26)

(question 4a du PGD ANR et 3.2 du PGD Science Europe)

Décrire qui est titulaire des droits de propriété intellectuelle sur les données.

Règle générale : Attribution de la propriété intellectuelle des données à l’établissement de tutelle des producteurs de données. (Source : https://callisto-formation.fr)

Pour les projets régis par un accord de consortium, indiquer "Cette question est précisée dans l'accord de consortium relatif au projet".

Les bases de données constituent un cas particulier : une législation spécifique s’applique, en plus de droit d’auteur, celle du droit sui generis du producteur de la base.

Ressources clés

Guide d’analyse du cadre juridique en France sur l’ouverture des données de la recherche répertorie les cas qui peuvent se poser en matière de propriété intellectuelle des jeux de données (p. 17-20).

https://www.ouvrirlascience.fr/ouverture-des-donnees-de-recherche-guide-danalyse-du-cadre-juridique-en-france-v2/

Guide d'application de la Loi pour une République numérique pour les données de la recherche :

https://hal-lara.archives-ouvertes.fr/OUVRIR-LA-SCIENCE/hal-03968218v1

Pour les bases de données :

https://doranum.fr/aspects-juridiques-ethiques/aspects-juridiques-des-bases-de-donnees_10_13143_zt5x-hm98/

Pour en savoir plus :

https://opendatacanvas.org/pgd-etape-1-acquisition-1-5
L'ENPC (École des Ponts ParisTech) propose un logigramme à plat, pour aider à la prise de décision en matière de propriété et diffusion de données de recherche quantitatives (type base de données) : https://espacechercheurs.enpc.fr/sites/default/files/logigramme_a_plat.pdf

Licences

(question 4b du PGD ANR)

Attribuer une LICENCE au jeu de données permet de signaler les droits sur le jeu de données et de fixer ses conditions de diffusion et de réutilisation.

A l'UPPA, les données seront généralement publiées sous licence standard

Licence Creative Commons CC-BY
et/ou licence ouverte Etalab conformément au Décret n° 2017-638 du 27 avril 2017 relatif aux licences de réutilisation à titre gratuit des informations publiques et aux modalités de leur homologation.

Attention cependant aux licences d'origine des données existantes utilisées.

Pour les licences sur les logiciels voir les outils pour choisir une licence et page « Codes de la recherche »

Ressources clés :

Fig. 6 : Choisir une licence (source : : Choose an open source license | Choose a License)

Licences pour les données:

Fig.7 : Licence (source : https://fabriquerel.org/licences/)

Outils pour choisir une licence :

Licences pour les bases de données :

https://opendatacommons.org/licenses/odbl/

Licences pour les logiciels :

Pour en savoir plus :

12 - Metadata & Documentation (Métadonnées et Documentation)

(question 2a du PGD ANR et 2.1 du PGD Science Europe)

"Toutes les communautés devraient produire des définitions claires et précises des termes qu'elles utilisent, ainsi que de leurs métadonnées et schémas de données."(source : EOSC)

Les métadonnées (données sur les données) sont essentielles pour rendre les données faciles à trouver. Plus la description est précise, plus les données pourront être visibles, citées ou réutilisées.

Il est recommandé de :

Décrire ses données à l’aide de métadonnées riches, et selon des standards (a minima les métadonnées au standard Dublin Core)
Décrire l'organisation des données et métadonnées
Utiliser des vocabulaires contrôlés (pour définir des mots-clés)
Suivre des règles de nommage
Accompagner les données d'un fichier "Readme" (Lisez-moi) pour décrire l'organisation des données.
Partager les métadonnées même si l’accès aux données est restreint.
Se renseigner sur les métadonnées (acceptées ou exigées) de l’entrepôt.

Ressources clés :

Sur les données et métadonnées :
Métadonnées, standards, formats : fiche synthétique – DoRANum
https://anfdonnees2017.sciencesconf.org(métadonnées dans DMP)
https://hal.science/hal-01275841v1/document (guide des bonnes pratiques : gestion et valorisation des données de la recherche)
https://www.datacc.org/vos-besoins/documenter-ses-donnees/metadonnees/(pour les sciences et techniques ST)

Pour fournir une documentation détaillée :

https://zenodo.org/record/1684941#.ZLeSqGfP2Un(guide Fuchs, S., & Kuusniemi, M. E. (2018). Making a research project understandable—Guide for data documentation.)

Exemples de STANDARDS de référence :

https://www.dublincore.org/(générique)
https://eml.ecoinformatics.org/(disciplinaire : science de la vie)

Répertoires de standard de métadonnées :

https://www.dcc.ac.uk/guidance/standards/metadata(Disciplinary Metadata de DCC)
https://rdamsc.bath.ac.uk/subject-index(Metadata Standards Catalog de RDA)
https://fairsharing.org/ (standards dans tous les domaines)

Pour s'aider à trouver un standard de métadonnées :

Figure 8 : Thésaurus LOTERRE (source : https://www.loterre.fr/)

Pour trouver des vocabulaires contrôlés (ou ontologies) :

Pour le nommage des fichiers :

La création d’un FICHIER "README" est recommandé :

https://recherche.data.gouv.fr/fr/categorie/33/guide/modele-de-readme

Pour en savoir plus :

Outils de création de métadonnées :

Pour disposer d'outils d'aide à la création de métadonnées en général: https://datapartage.inrae.fr//Gerer/Documenter-les-donnees/Outils-d-aide-a-la-description-des-jeux-de-donnees
Datacite Metadata Generator (proposé par Doranum, centre de ressources Recherche Data Gouv) : https://doranum.fr/wp-content/uploads/datacite_metadata_generator_4.0.html
http://rd-alliance.github.io/metadata-directory/tools/
Outils de création de métadonnées – DoRANum

Pour disposer d'outils d'aide à la création de métadonnées Dublin Core :

Data accessioner : http://dataaccessioner.org/da-version-notes.htm
DocuteamPacker : intègre le DC via BagIt https://docs.docuteam.ch/introduction/en/docuteamDublinCore1_0. Docuteam permet de générer des paquets d'archives. C'est un peu plus poussé que le précédent et c'est fait pour toute la chaîne de traitement archvistique. C'est plutôt bien documenté https://wiki.docuteam.ch/doku.php?id=fr:start.
Tropy pour organiser ses photos de recherche et éditer leurs métadonnées (notamment DC) : https://tropy.org
https://nsteffel.github.io/dublin_core_generator/generator_nq.html
https://ockier.es/dublin-core/en-dublin-core.php
https://www.emandarine.com/outils-webmarketing/generateur-dublincore/

Remarque : derrière ces outils, l'idée étant de pouvoir retrouver les métadonnées d'un fichier de données quel qu'il soit, où qu'il soit stocké. Il s'agit de :

décrire les métadonnées d'une ressource
associer le fichier de métadonnées ainsi produit à la ressource
et ce indépendamment d'une étape de publication / dépôt d'une ressource dans un entrepôt .

Pour en savoir encore plus :

Sur les fichiers Read Me :

Sur le nommage :

Mesures de contrôle de la qualité des données

(question 2b du PGD ANR et 2.2 du PGD Science Europe)

Indiquer si des procédures qualité (Ex : ISO-9001) existent pour définir le protocole d'intégration des données. Préciser quelles méthodes d'assurance qualité ont été mises en place pour la qualité scientifique des données.

Ressources clés

Vous pouvez vous reporter aux guides :

Pour en savoir plus

En Sciences et Techniques (ST), s'inspirer du guide des bonnes pratiques de DATACC pour tenir un cahier de labo :

https://www.datacc.org

13 - Preservation (Préservation)

Conservation - préservation des données

Fig. 9 : Stockage Partage Archivage (source : https://view.genial.ly)

(question 5a du PGD ANR et 6.2 du PGD Science Europe)

Il est recommandé de faire un plan de conservation des données. Les données à conserver sont celles permettant la validation des résultats et celles ayant une valeur de preuve ou un potentiel de réutilisation. Préciser les principes qui permettront de choisir quelles données conserver/détruire à la fin du projet et qui en décidera.

Archivage pérenne = conservation à long terme et très long terme

(question 5b du PGD ANR)

court et moyen terme : 5 à 10 ans
long terme : plus de 10 ans
très long terme : plus de 30 ans

L'archivage pérenne peut se faire sur des plateformes spécifiques (CINES) (service payant). Le CINES (Centre Informatique National de l’Enseignement Supérieur) a été mandaté par le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation pour mettre en place une solution d’archivage électronique du patrimoine scientifique pour toute la communauté ESR (Enseignement Supérieur et Recherche) française.

SHS :

L’IR* Huma-Num propose à la communauté des producteurs de données numériques en Sciences Humaines et Sociales un service d’archivage à long terme. Elle s’appuie, pour cette activité, sur le CINES.

Ressource clé :

https://www.cines.fr/archivage/
https://www.archivistes.org/pour la durée d'archivage consulter le guide de l'association des archivistes de France
https://doranum.fr/stockage-archivage/stockage-partage-archivage-quelles-differences_10_13143_5dax-qp58/

Pour en savoir plus :

Outils logiciels nécessaires pour accéder et utiliser les données

(question 5c du PGD ANR)

Il est recommandé d'utiliser des outils logiciels libres. Exemples d'OUTILS cf. thème Description des données (question 1a du PGD ANR)

A l'UPPA les logiciels associés au traitement des données seront versés sur Software Heritage.

14 - Roles & responsabilities (Rôles et responsabilités)

La gestion des données sera assurée par les porteurs du projet.

Responsabilités (liste PGD Science Europe):

Coordinateur du projet
Personne contact pour les données
Responsable de la conservation à long terme des données
Responsable de la documentation des données
Responsable de la production ou de la collecte des données
Responsable de la protection des données
Responsable de la qualité des données
Responsable des questions éthiques
Responsable du dépôt et de la diffusion des données
Responsable du plan
Responsable du stockage des données
Responsable juridique

Ressources clés :

https://github.com/OPIDoR/DMPOPIDoR/blob/dmpopidor-master/public/files/DMPOPIDoR/DMPOPIDOR_Guide_Contributeurs.pdf

15 - Storage & Security (Stockage et sécurité)

Fig. 10 : Tableau comparatif support de stockage (source : https://doranum.fr)

Fig. 11 : règle de sauvegarde des données 3-2-1 (source : https://callisto-formation.fr)

Stockage et sauvegarde des données

(question 3 du PGD ANR et question 5 du PGD Science Europe)

Pour optimiser la sécurité de vos données durant un travail de recherche :

choisir un support de stockage sécurisé
apporter une sécurité physique aux données de recherche
sécuriser informatiquement des données.

Plus d'info : https://callisto-formation.fr/course/view.php?id=211

Stockage des données

À l'UPPA, il est conseillé de privilégier les solutions institutionnelles et sécurisées (ex : Nuage). Le stockage permanent de données sur des ordinateurs personnels, sur des clés USB ou des disques durs externes n’est pas recommandé pour des raisons de sécurité et de pérennité.

Le tableau ci-dessous décrit un ensemble de supports disponibles à l’UPPA pour le stockage de données. Cette liste n’est pas exhaustive, d’autres solutions peuvent exister dans vos unités de recherche ou en lien avec les tutelles associées ; auquel cas, il est conseillé de prendre contact directement avec leurs responsables.

Support de stockage	Données	Risques	Niveau de partage	Temporalité	Sauvegarde	Accès
Ordinateur professionnel	Tout type	Sujet au piratage, vol, détérioration	Individu	Court terme	Automatisée pour les postes de travail gérés par le Pôle Numérique
Lecteurs réseau (U:, S:, mesDocuments, etc.)	Tout type	Stockage fiable, durable et sécurisé par l’UPPA	Individu ou groupe, interne UPPA	Moyen / Long terme	Automatisée (quotidiennement)	À partir de l’explorateur de fichiers : Mon Espace S: / Interservice U: ..) Par bureau distant depuis l’extérieur de l’UPPA ou wifi
Cloud de l'UPPA (Nuage)	Tout type (quota 10 Go)	Stockage fiable, durable et sécurisé par l’UPPA	Individu ou groupe, interne ou externe UPPA	Moyen / Long terme	Automatisée (quotidiennement)	https://nuage.univ-pau.fr Depuis le réseau interne et l’extérieur de l’UPPA
Forge GitLab UPPA	Codes sources et données de recherche	Stockage fiable, durable et sécurisé par l’UPPA	Individu ou groupe, interne UPPA	Moyen / Long terme	Automatisée (quotidiennement)	https://git.univ-pau.fr/ Depuis le réseau interne et l’extérieur de l’UPPA
Gestion Électronique de Documents (GED)	Données institutionnelles et de référence	Stockage fiable, durable et sécurisé par l’UPPA	Individu ou groupe, interne UPPA	Moyen / Long terme	Automatisée (quotidiennement)	https://ged.univ-pau.fr/ Depuis le réseau interne de l’UPPA et par VPN depuis l’extérieur
SAE VITAM	Gros volumes d’archives numériques définitives, intermédiaires, voire courantes	Sécurisé par le CINES	Individu ou groupe, interne UPPA	Moyen / Long terme	Automatisée	En déposant une demande de projet sur https://demande-projet.univ-pau.fr
iRODS-MCIA	Données volumineuses /données de calcul (quota 10 To)	Sécurisé par le Mésocentre de Calcul Intensif Aquitain (MCIA)	Individu ou groupe, interne ou externe UPPA	Moyen / Long terme	Répliques automatiques sur 2 sites géographiques de Nouvelle-Aquitaine	https://redmine.mcia.fr/projects/irods-v2/wiki/Utiliser_la_solution Accompagnement UPPA via le CSP Numérique Recherche
Entrepôt de données	Selon entrepôt	Sécurisé	Individu ou groupe, interne ou externe UPPA	Moyen / Long terme	Selon infrastructure

Politique de sauvegarde et de sécurité

Planifier la sauvegarde des données.

Pour la sécurité physique des données, suivez la règle de sauvegarde 3-2-1.

Ayez au moins trois copies de vos données; stockez les copies sur deux supports différents; conservez une copie de sauvegarde hors site.

La sauvegarde et la sécurité des données est actuellement assurée par le niveau de sécurité des serveurs qui les hébergent.

Les données hébergées sur les serveurs de l'UPPA bénéficient d’une semaine de sauvegarde.

https://intranet.univ-pau.fr/fr/mes-outils/s-organiser-s-equiper/stockage-sauvegarde.html

Concernant les entrepôts de données, il faut vérifier que l'entrepôt choisi dispose de mesures de sauvegarde et sécurité (entrepôt de qualité). Un entrepôt souverain (exemples : Huma-Num, Recherche Data Gouv) ou qui bénéficie de la certification CoreTrustSeal peut être considéré comme un entrepôt de confiance.

Les données sensibles nécessitent une vigilance accrue.

Le stockage de données confidentielles, personnelles ou sensibles sur des plateformes privées de Cloud (type Dropbox, Google Drive…) n'est pas conseillé.

Exemples de mesures de sécurité

Protection contre les virus et les intrusions.
Restrictions sur le droit d’accès (authentification nécessaire pour accéder aux différentes ressources)
Encryptage
Anonymisation des données sensibles (mots de passe, données géographiques)
Pseudonymisation
Sauvegarde régulière

Ressource clé

https://doranum.fr/stockage-archivage/stockage-donnees_10_13143_z0ge-nc29/

Contact UPPA

https://organisation.univ-pau.fr/fr/securite/securite-numerique.html

https://services-numeriques.univ-pau.fr/

16 - Ressources autour des PGD

Rédiger un PGD

PGD pas à pas (avec exemples de réponses) : Le Plan de Gestion de Données pas à pas – DoRANum

Rédiger un PGD (URFIST Bordeaux) : Rédiger un plan de gestion des données

Rédiger un PGD (Sorbonne Université) : Rédiger un plan de gestion des données | Zenodo

Guide d’aide à la rédaction d’un plan de gestion des données à Université Paris Cité : Nextcloud (parisdescartes.fr)

Datactivist : Patchwork de construction d'un PGD

ANR : FAQ Plan de Gestion des Données (PGD)

Bonnes pratiques

TOUR OPIDOR (Bonnes pratiques gestion des données de recherche) : Microsoft PowerPoint - Bonnes-pratiques-gestion-donnees-recherche-2019-11-04.pptx (opidor.fr)

GT inter-réseaux « Atelier Données » | Guide de bonnes pratiques 2023 : Guide de bonnes pratiques sur la gestion des données de la recherche (unistra.fr)

Guide pratique pour une harmonisation des données de la recherche (Science Europe) : Ouvrir la Science - Bibliothèque de la science ouverte

GTSO - fiches pratiques : Fiches pratiques < Groupe de travail science ouverte (couperin.org)

ANR : Faire entrer la science ouverte dans son projet ANR : un guide pratique – DoRANum

Organismes financeurs

Modules de formation

Introduction aux données de la recherche

Cette formation d'introduction aux données de la recherche, animée par Raphaëlle Bats, a eu lieu le 22 septembre 2022 à Pau. Elle a été organisée par l'Urfist de Bordeaux et l'Université de Pau et Pays de l'Adour (UPPA).

Enregistrement : https://www.canal-u.tv/chaines/callisto/introduction-aux-donnees-de-la-recherche
Support de présentation : https://zenodo.org/record/7104154#.Y9t9V-zMI-R
Callisto : Tag - données de recherche (callisto-formation.fr)
Cours : Webinaire Plan de gestion de données : bonnes pratiques de rédaction (callisto-formation.fr)