Mariannig Le Béchec
MCF-HDR en SIC
Coresponsable Urfist de Lyon
02/02/2024
Pour exporter cette page au format PDF: Ctrl+P et imprimer en tant que pdf…
Présentation du stage
Mariannig Le Béchec
Maîtresse de conférences-HDR en Sciences de l’Information et de la Communication
Coresponsable Urfist de Lyon
@marilebechec@mamot.fr | @UrfistLyon
Attestation de présence
Disponible d’ici 48h
RDV dans votre espace
Mon compte > mes formations suivies > télécharger
Introduction
L’Humanité est à un tournant de son histoire. La masse des données acquises est formidable. Il faut de nouveaux instruments pour les simplifier, les condenser ou jamais l’intelligence ne saura ni surmonter les difficultés qui l’accablent, ni réaliser les progrès qu’elle entrevoit et auxquels elle aspire.
Reproductibilité
Facteurs de non-reproductibilité :
-
méthodes, code manquants > 40%
-
données "brutes" manquantes > 40%
Définitions
A data paper is a searchable metadata document, describing a particular dataset or a group of datasets, published in the form of a peer-reviewed article in a scholarly journal
Lien avec l’éditeur Pensoft
une seconde définition
Produit de publication de données, pouvant apparaître dans un data journal ou dans une revue académique classique. Contrairement aux articles de recherche classiques, les data papers ont pour but de rendre les données accessibles, interprétables et réutilisables, plutôt que de tester des hypothèses ou présenter de nouvelles analyses.
Valoriser un travail invisibilisé et de qualité
-
Rendre accessibles à mes collègues et au-delà
-
Identifier de façon unique et persistante
-
Décrire un ou des jeux de données
-
Montrer leur potentiel de réutilisation
-
Améliorer la "qualité" des données en associant documentation, code logiciel (RDA) → data curation
Qualité et exhaustivité des données
Variations des réponses en fonction des parties prenantes
source: Dan Sholler, Karthik Ram, Carl Boettiger, Daniel S. Katz, 2019
Variations dans les politiques éditoriales
Valoriser son PGD
Du DMP au data paper, juste un pas à franchir?
Valoriser sa gestion des données
Etapes |
pour un data paper |
1,2,3 |
collecte, documentation et qualité |
4 |
RGPD, anonymisation, chiffrement, éthique |
5 |
réutilisation et qualité |
5.c |
logiciels, entrepôts |
5.d |
DOI |
Description synthétique des données
Sous l’abstract
Discipline: informatique, économie, sociologie…
Thématique: catégorie disciplinaire
Type de données: tableaux, images, textes…
Méthode d’acquisition des données: enquête, observation, instrumentales…
Format des données: "Raw", Analyzed, Filtered
Pré-traitement: bref description (ex. création de sous-ensemble)
Lieu d’acquisition des données: pays, région, ville…
Type d’accès aux données: licences, entrepôt, citation…
Hétérogénéité des structures et lacunes
Kim J. (2020)
Analyse 15 templates et guidelines de 24 datajournals du WoS
Présence : formats; nommage des fichiers, projet de recherche, identifiants pérennes
Absence : réputation des dépôts et pratiques de conservation
Réutilisation des Données : conseil et conditions mais manque d’informations contextuelles
Données partagées et publiées
Quelle différence entre déposer sur zenodo et écrire un data paper?
Curation de données
Des acteurs aux finalités différentes
-
archivistes: conservation
-
scientifiques: publication. (Buenan, 2004)
Enjeux:
-
L’archivage : qualité, intégrité, sécurité et authenticité
-
La préservation : archivage pour une accessibilité même avec les changements techniques (Lord, MacDonald, 2003)
La recommandation de l’entrepôt
Le passage des recommandations des éditeurs est d’aller vers le dépôt dans un entrepôt de données
Elsevier ou Springer Nature recommandent de lier les données et les publications
-
explorer pour trouver un entrepôt de données
-
récupérer un DOI
-
faire le lien avec l’entrepôt de données
-
lier les données à l’article
autre: Nature
Petit exercice d’intelligence collective
Ingénierie
https://www.sciencedirect.com/science/article/pii/S2352340919306675
Humanités et sciences sociales
https://brill.com/view/journals/rdj/4/1/article-p55_55.xml
Ecologie
https://esj-journals.onlinelibrary.wiley.com/doi/10.1111/1440-1703.1266
Biomed
exercice à venir
Les réponses sont dans la présentation.
Pour un autre processus de relecture ouvert, voir https://essd.copernicus.org/articles/13/1939/2021/essd-13-1939-2021-assets.html
Choisir une revue
Résumons
-
usages dans ma discipline ?
-
visibilité de la revue ?
-
peer-reviewing ?
-
accessibilité et lieu de stockage des données ?
-
pérennité et fiabilité des données ?
-
publics, lectorats ?
Liste non exhaustive
- Social sciences, humanities & arts
-
-
Research Data Journal for the Humanities and Social Sciences (Brill)
-
Health & Justice (Springer)
-
Open humanities data (Ubiquity Press)
-
RFSIC (OpenEdition)
-
- Environmental science
-
-
Earth System Science Data (Copernicus Publications)
-
Ecological Processes (Springer)
-
HardwareX (Elsevier)
-
- Others
-
-
Kindling, M., & Strecker, D. (2022). List of data journals (1.0) [Data set]. Zenodo. Liste issue de re3data
exemple soumission Data in brief
- Guide pour autrices et auteurs
-
https://www.sciencedirect.com/journal/data-in-brief/publish/guide-for-authors
- Data policies
- template
C’est à vous !
- PAD 1
- article
-
T. Le Corre, « Une base de données pour étudier vingt années de dynamiques du marché immobilier résidentiel en Île-de-France », Cybergeo : European Journal of Geography, Data Papers, DOI : https://doi.org/10.4000/cybergeo.37430
Recommandations
Entrepôts et métadonnées
À affiner selon choix revue
data repository or digital repository
définitions / fonctionnalités
Attention ! Vérifier l’organisation des accès durant l’évaluation
Distinctions
Dataset
Différents fichiers
Agrégation des données
Fichiers
Données et métadonnées et code et documentation
Nettoyage des données
- Pour l’entrepot Nakala, voir la documentation "préparer les données"
-
https://documentation.huma-num.fr/nakala-preparer-ses-donnees/
- Guide pour décrire les données
Métadonnées
Idée de classement, d’inscription
Les métadonnées, que l’on peut définir simplement comme « des données sur les données », sont un moyen de nommer les choses et de représenter les données et leurs relations.
DDI, Document, discover and interoperate
Choisir des standards de métadonnées
-
Description des données dans votre discipline ?
-
Standard ? http://www.dcc.ac.uk/resources/metadata-standards
-
logiciels, procédures, outils ? Penser web de données : lisibles humains (fichier readme.txt) et machines (métadonnées embarquées)
Dublin Core
source Wikipédia https://fr.wikipedia.org/wiki/Dublin_Core
Quels intérêts pour moi ?
-
être visible dans ma communauté: F1000Research recommande XML Schema, Xlink, MathML, NLM Journal
-
Faciliter les usages ultérieurs : reproductibilité, réutilisations
-
Mon public ? Pour qui je publie ?
Restrictions diffusion
Données communicables sous conditions
Données à caractère personnel (RGPD)
Droits de propriété intellectuelle
Données de santé, données provenant d’un tiers privé, données statistiques ou relevant du potentiel scientifique et technique de la nation
Données non communicables
Confidentialité des informations commerciales ou industrielles
Secret de la défense nationale et sécurité publique
source: Becardet al. (décembre 2017). Ouverture des données de la recherche : Guide d’analyse du cadre juridique en France.
Pour soumettre
process et modèles
-
Suivre les recommandations
-
Utiliser les templates
Créer un fichier « Lisez-moi » (université de Montréal)
Un fichier Lisez-moi (Readme) donne des informations sur la façon d’interpréter un fichier de données et diminue les chances que les données soient mal comprises et/ou improprement utilisées par d’autres chercheurs. Il contient autant d’informations que possible sur les fichiers de données pour permettre aux autres de comprendre les données.
titre de l’ensemble de données
résumé, aperçu de l’ensemble de données
structure des fichiers et relations entre les fichiers
méthodes de collecte des données
logiciels et versions utilisés
normes
informations spécifiques sur les données (unités de mesure, explications des abréviations et codes, etc.)
possibilités et limites de la réutilisation des données
coordonnées du créateur du jeu de données (facultatif)
Nommez-le toujours README.txt ou README.md (Markdown).
Créer un fichier README.txt pour chaque jeu de données
Variations des modèles de relecture par les pairs
Exemples de processus innovant :
-
Suggestion des examinateurs par les auteurs (F1000Research)
-
examen par les pairs de la communauté (Biodiversity Data Journal)
-
examen public interactif par les pairs (Earth System Science Data)
Source : Schöpfel et al, 2019, p. 11
Critique et potentiel
vers une production automatique
Pourquoi publier un data paper ?
Car c’est une bonne pratique pour la gestion de ses données de recherche
aide de la machine
Outils de rédaction en ligne (Arpha_Pensoft Writing Tool)
Écriture par des machines pour des machines
À qui attribue-t-on les droits ?
Qui prend la responsabilité de la qualité des données et des métadonnées ?
Potentiels
Des nains sur des épaules de géants
Merci aux collègues !
Marie Puren, Le data paper. URFIST de Rennes – 2018
Wilfried Heintz, Gestion pérenne des données
Scientifiques. Du DMP au data paper - 2018
Dominique L’Hostis, Publier un data paper – 2020
Louis Manière, Mettre en valeur ses données avec les data papers – 2022
Thanks!
mariannig.le-bechec@univ-lyon1.fr | @marilebechec@mamot.fr