Mariannig Le Béchec
MCF-HDR en SIC
Coresponsable Urfist de Lyon
02/02/2024

cc cc by cc sa CC BY-SA 4.0

Pour exporter cette page au format PDF: Ctrl+P et imprimer en tant que pdf…​

Présentation du stage

Mariannig Le Béchec

mari
urfist lyon

Maîtresse de conférences-HDR en Sciences de l’Information et de la Communication

Coresponsable Urfist de Lyon

mastodon logo @marilebechec@mamot.fr | twitter-logo @UrfistLyon

Nos formations

icon chat

Échanger,
s’informer,
se former à l’information scientifique

Attestation de présence

Disponible d’ici 48h
RDV dans votre espace
Mon compte > mes formations suivies > télécharger

icon cloud files

Plan

Introduction 25'
Valoriser son PGD 15'
C’est à vous! 30'
Choisir sa revue 15'

icon hot beverage

C’est à vous! 15'
Entrepôt et métadonnées 20'
Soumettre 20'
Critique et potentiel 15'
Conclusion 5'

Introduction

L’Humanité est à un tournant de son histoire. La masse des données acquises est formidable. Il faut de nouveaux instruments pour les simplifier, les condenser ou jamais l’intelligence ne saura ni surmonter les difficultés qui l’accablent, ni réaliser les progrès qu’elle entrevoit et auxquels elle aspire.

— Otlet (1934)

Objectifs

objectifs datapaper

Reproductibilité

Facteurs de non-reproductibilité :

  • méthodes, code manquants > 40%

  • données "brutes" manquantes > 40%

Attentes éditoriales

Accessibilité et ouverture des données comme préalable à la publication
Problèmes
- Limitation au niveau des matériaux supplémentaires
- Gestion de la curation et du stockage

Définitions

A data paper is a searchable metadata document, describing a particular dataset or a group of datasets, published in the form of a peer-reviewed article in a scholarly journal

— GBIF

Lien avec l’éditeur Pensoft

une seconde définition

Produit de publication de données, pouvant apparaître dans un data journal ou dans une revue académique classique. Contrairement aux articles de recherche classiques, les data papers ont pour but de rendre les données accessibles, interprétables et réutilisables, plutôt que de tester des hypothèses ou présenter de nouvelles analyses.

— RDA traduit par doranum

Valoriser un travail invisibilisé et de qualité

  • Rendre accessibles à mes collègues et au-delà

  • Identifier de façon unique et persistante

  • Décrire un ou des jeux de données

  • Montrer leur potentiel de réutilisation

  • Améliorer la "qualité" des données en associant documentation, code logiciel (RDA) → data curation

Qualité = qui vérifie ?

icon editor

éditeurs ?

icon reviews

relecteurs ?

icon authors

auteurs ?

Qualité et exhaustivité des données

Variations des réponses en fonction des parties prenantes
source: Dan Sholler, Karthik Ram, Carl Boettiger, Daniel S. Katz, 2019

Variations dans les politiques éditoriales

pda policies roches 2015
source: public data archiving (PDA) policies, Scholler et al. (2019)

Valoriser son PGD

Du DMP au data paper, juste un pas à franchir?

Valoriser sa gestion des données

Etapes

pour un data paper

1,2,3

collecte, documentation et qualité
métadonnées, code book

4

RGPD, anonymisation, chiffrement, éthique

5

réutilisation et qualité

5.c

logiciels, entrepôts

5.d

DOI

Description synthétique des données

Sous l’abstract

Discipline: informatique, économie, sociologie…​
Thématique: catégorie disciplinaire
Type de données: tableaux, images, textes…​
Méthode d’acquisition des données: enquête, observation, instrumentales…​
Format des données: "Raw", Analyzed, Filtered
Pré-traitement: bref description (ex. création de sous-ensemble)
Lieu d’acquisition des données: pays, région, ville…​
Type d’accès aux données: licences, entrepôt, citation…​

Hétérogénéité des structures et lacunes

Kim J. (2020)
Analyse 15 templates et guidelines de 24 datajournals du WoS
Présence : formats; nommage des fichiers, projet de recherche, identifiants pérennes
Absence : réputation des dépôts et pratiques de conservation
Réutilisation des Données : conseil et conditions mais manque d’informations contextuelles

Structure d’un data paper

structure datapaper

Données partagées et publiées

Quelle différence entre déposer sur zenodo et écrire un data paper?

Données publiées

accessibles de façon pérennes, citables, documentées et évaluées

Curation de données

Des acteurs aux finalités différentes

  • archivistes: conservation

  • scientifiques: publication. (Buenan, 2004)

Enjeux:

  • L’archivage : qualité, intégrité, sécurité et authenticité

  • La préservation : archivage pour une accessibilité même avec les changements techniques (Lord, MacDonald, 2003)

curationnationalinstitutecancer
Photo by National Cancer Institute on Unsplash

et sinon en vrai on fait comment? questions

icon calendar

Question 1: le temps ?

icon upload

Question 2 : l’accès ?

et sinon en vrai on fait comment? réponse

exemple1

La recommandation de l’entrepôt

Le passage des recommandations des éditeurs est d’aller vers le dépôt dans un entrepôt de données

Elsevier ou Springer Nature recommandent de lier les données et les publications

  1. explorer pour trouver un entrepôt de données

  2. récupérer un DOI

  3. faire le lien avec l’entrepôt de données

  4. lier les données à l’article

autre: Nature

Petit exercice d’intelligence collective

Les réponses sont dans la présentation.

Choisir une revue

datajournals leuven
source: Hole, Brian (2012) Poster: The Journal of Open Archaeology Data. Figshare. https://doi.org/10.6084/m9.figshare.96890.v1

Où je publie?

PURE ou MIXED

icon warning

créations mais arrêts ou absences de publications

exemple Journal of open archaelogy data

exemple archeology altmetric

Data paper concept map

Critères choix revue

criteres choix

Coûte que coûte ?

Résumons

  • usages dans ma discipline ?

  • visibilité de la revue ?

  • peer-reviewing ?

  • accessibilité et lieu de stockage des données ?

  • pérennité et fiabilité des données ?

  • publics, lectorats ?

Open access à privilégier

Liste non exhaustive

General data journal

Scientific Data (Nature) ou Data in brief (Elsevier)

STEM

GigaScience (OUP)

Medicine

BioMedCentral Research Notes

Physique Chimie

datacc

Social sciences, humanities & arts
  • Research Data Journal for the Humanities and Social Sciences (Brill)

  • Health & Justice (Springer)

  • Open humanities data (Ubiquity Press)

  • RFSIC (OpenEdition)

Environmental science
Others

Focus sur deux revues

cybergeo
revue demc

To do

  • Choisir sa revue

  • Estimer les coûts

  • Déposer dans entrepôt et récupérer les DOI

  • Rédiger son article et la cover letter

  • Lier le data paper au jeu de données

  • Laisser les évaluateurs travailler

  • Diffuser le DOI

en anglais: vérifier si obligation données traduites

C’est à vous !

PAD 1

rediger et publier un data paper (framapad)

article

T. Le Corre, « Une base de données pour étudier vingt années de dynamiques du marché immobilier résidentiel en Île-de-France », Cybergeo : European Journal of Geography, Data Papers, DOI : https://doi.org/10.4000/cybergeo.37430

exemple Cybergéo

exo4 cybergeo 2

Recommandations

cybergeo guidelines
Utiliser le dataverse

Entrepôts et métadonnées

À affiner selon choix revue

data repository or digital repository
définitions / fonctionnalités
Attention ! Vérifier l’organisation des accès durant l’évaluation

Entrepôt de données

choix entrepot

Distinctions

Dataset
Différents fichiers
Agrégation des données

Fichiers
Données et métadonnées et code et documentation

Nettoyage des données

nettoyage data

Métadonnées

Idée de classement, d’inscription

Les métadonnées, que l’on peut définir simplement comme « des données sur les données », sont un moyen de nommer les choses et de représenter les données et leurs relations.

DDI, Document, discover and interoperate

Exemple guides Dataverse

dataverse datafile
dataverse codebook
dataverse supporteddata
dataverse tabulardatafiles

.exif

lemonde exif
source: Martin Vindberg, Lemonde
formatexif

→ humains ou machines

Choisir des standards de métadonnées

  • Description des données dans votre discipline ?

  • Standard  ? http://www.dcc.ac.uk/resources/metadata-standards

  • logiciels, procédures, outils ? Penser web de données : lisibles humains (fichier readme.txt) et machines (métadonnées embarquées)

Dublin Core

exemple Dryad

dryad1
dryad2

Quels intérêts pour moi ?

  • être visible dans ma communauté: F1000Research recommande XML Schema, Xlink, MathML, NLM Journal

  • Faciliter les usages ultérieurs : reproductibilité, réutilisations

  • Mon public ? Pour qui je publie ?

Possibilité

accès libre aux métadonnées
accès conditionné aux données

Restrictions diffusion

Données communicables sous conditions
Données à caractère personnel (RGPD)
Droits de propriété intellectuelle
Données de santé, données provenant d’un tiers privé, données statistiques ou relevant du potentiel scientifique et technique de la nation
Données non communicables
Confidentialité des informations commerciales ou industrielles
Secret de la défense nationale et sécurité publique
source: Becardet al. (décembre 2017). Ouverture des données de la recherche : Guide d’analyse du cadre juridique en France.

icon personal data

Ecosystème GBIF

Darwin Core archives

gbif1

exemple Biodiversity Data Journal

Pour soumettre

process et modèles

  • Suivre les recommandations

  • Utiliser les templates

Créer un fichier « Lisez-moi » (université de Montréal)

Un fichier Lisez-moi (Readme) donne des informations sur la façon d’interpréter un fichier de données et diminue les chances que les données soient mal comprises et/ou improprement utilisées par d’autres chercheurs. Il contient autant d’informations que possible sur les fichiers de données pour permettre aux autres de comprendre les données.

titre de l’ensemble de données
résumé, aperçu de l’ensemble de données
structure des fichiers et relations entre les fichiers
méthodes de collecte des données
logiciels et versions utilisés
normes
informations spécifiques sur les données (unités de mesure, explications des abréviations et codes, etc.)
possibilités et limites de la réutilisation des données
coordonnées du créateur du jeu de données (facultatif)

Nommez-le toujours README.txt ou README.md (Markdown).
Créer un fichier README.txt pour chaque jeu de données

Modèle IFFSTAR

iffstar template

Modèle Cybergéo

cybergeo template

Modèle Data In Brief

dib template

Modèle F1000Research

f1000research template

Rédiger une cover letter

Grille relecture pour évaluateurs

Grille relecture pour évaluateurs_suite

Variations des modèles de relecture par les pairs

Exemples de processus innovant :

  • Suggestion des examinateurs par les auteurs (F1000Research)

  • examen par les pairs de la communauté (Biodiversity Data Journal)

  • examen public interactif par les pairs (Earth System Science Data)

Source : Schöpfel et al, 2019, p. 11

Critique et potentiel

vers une production automatique

Pourquoi publier un data paper ?

Car c’est une bonne pratique pour la gestion de ses données de recherche

Avantages et freins

illustration data

aide de la machine

Outils de rédaction en ligne (Arpha_Pensoft Writing Tool)
Écriture par des machines pour des machines
À qui attribue-t-on les droits ?
Qui prend la responsabilité de la qualité des données et des métadonnées ?

data authorship

Qui seront les auteurs des articles sur données partagées ?
2017, concept de 'data author' par NEJM
2020, Nature souligne l’importance d’une égalité entre paternité article et paternité données

Potentiels

Des nains sur des épaules de géants

Merci aux collègues !

Marie Puren, Le data paper. URFIST de Rennes – 2018
Wilfried Heintz, Gestion pérenne des données Scientifiques. Du DMP au data paper - 2018
Dominique L’Hostis, Publier un data paper – 2020
Louis Manière, Mettre en valeur ses données avec les data papers – 2022

Thanks!

mariannig.le-bechec@univ-lyon1.fr | mastodon logo @marilebechec@mamot.fr

thanks

ressources

Icônes

Mastodon: github mastodon

Twitter: github twitter

Autres: unDraw