Mariannig Le Béchec
MCF-HDR en SIC
Coresponsable Urfist de Lyon
10/11/2022

cc cc by cc sa CC BY-SA 4.0

Pour exporter cette page au format PDF: Ctrl+P et imprimer en tant que pdf…​

Présentation du stage

Mariannig Le Béchec

mari
urfist lyon

Maîtresse de conférences-HDR en Sciences de l’Information et de la Communication

Coresponsable Urfist de Lyon

mastodon logo @marilebechec@mamot.fr | twitter-logo @UrfistLyon

Nos formations

icon chat

Échanger,
s’informer,
se former à l’information scientifique

Attestation de présence

Disponible d’ici 48h
RDV dans votre espace
Mon compte > mes formations suivies > télécharger

icon cloud files

Plan

Introduction 25'
Valoriser son PGD 15'
C’est à vous! 30'
Choisir sa revue 15'

icon hot beverage

C’est à vous! 15'
Entrepôt et métadonnées 20'
Soumettre 20'
Critique et potentiel 15'
Conclusion 5'

Introduction

« L’Humanité est à un tournant de son histoire. La masse des données acquises est formidable. Il faut de nouveaux instruments pour les simplifier, les condenser ou jamais l’intelligence ne saura ni surmonter les difficultés qui l’accablent, ni réaliser les progrès qu’elle entrevoit et auxquels elle aspire. »

— Otlet (1934)

Objectifs

objectifs datapaper

Reproductibilité

Facteurs de non-reproductibilité :

  • méthodes, code manquants > 40%

  • données "brutes" manquantes > 40%

Attentes éditoriales

Accessibilité et ouverture des données comme préalable à la publication
Problèmes
- Limitation au niveau des matériaux supplémentaires
- Gestion de la curation et du stockage

Limitation des matériaux supplémentaires

supplementarymaterials1
exemple Data in brief

Une première définition

“ A data paper is a searchable metadata document, describing a particular dataset or a group of datasets, published in the form of a peer-reviewed article in a scholarly journal ”
— GBIF

Lien avec l’éditeur Pensoft

une seconde

" Produit de publication de données, pouvant apparaître dans un data journal ou dans une revue académique classique. Contrairement aux articles de recherche classiques, les data papers ont pour but de rendre les données accessibles, interprétables et réutilisables, plutôt que de tester des hypothèses ou présenter de nouvelles analyses. "
— RDA traduit par doranum

Valoriser un travail invisibilisé et de qualité

  • Rendre accessibles à mes collègues et au-delà

  • Identifier de façon unique et persistante

  • Décrire un ou des jeux de données

  • Montrer leur potentiel de réutilisation

  • Améliorer la "qualité" des données en associant documentation, code logiciel (RDA) → data curation

Qualité = qui vérifie ?

icon editor

éditeurs ?

icon reviews

relecteurs ?

icon authors

auteurs ?

Qualité et exhaustivité des données

Variations des réponses en fonction des parties prenantes
source: Dan Sholler, Karthik Ram, Carl Boettiger, Daniel S. Katz, 2019

Variations dans les politiques éditoriales

pda policies roches 2015
source: public data archiving (PDA) policies, Scholler et al. (2019)

Valoriser son PGD

Du DMP au data paper, juste un pas à franchir?

Valoriser sa gestion des données

dmpanr
PGD-ANR

Etapes

pour un data paper

1,2,3

collecte, documentation et qualité
métadonnées, code book

4

RGPD, anonymisation, chiffrement, éthique

5

réutilisation et qualité

5.c

logiciels, entrepôts

5.d

DOI

Description synthétique des données

Discipline: informatique, Economie, sociologie
Thématique: catégorie disciplinaire
Type de données: tableaux, images, textes
Méthode d’acquisition des données: enquête, observation, instrumentales
Format des données: "Raw", Analyzed, Filtered
Pré-traitement: brève description comme création de sous-ensemble
Lieu d’acquisition des données: pays, région, ville
Type d’accès aux données: licences, entrepôt, citation

Hétérogénéité des structures et lacunes

Kim J. (2020)
Analyse 15 templates et guidelines de 24 datajournals du WoS
Présence : formats; nommage des fichiers, projet de recherche, identifiants pérennes
Absence : réputation des dépôts et pratiques de conservation
Réutilisation des Données : conseil et conditions mais manque d’informations contextuelles

Structure d’un data paper

Données partagées et publiées

Quelle différence entre déposer sur zenodo et écrire un data paper?

Données publiées

accessibles de façon pérennes, citables, documentées et évaluées

Curation de données

Des acteurs aux finalités différentes

  • archivistes: conservation

  • scientifiques: publication. (Buenan, 2004)

Enjeux:

  • L’archivage : qualité, intégrité, sécurité et authenticité

  • La préservation : archivage pour une accessibilité même avec les changements techniques (Lord, MacDonald, 2003)

curationnationalinstitutecancer
Photo by National Cancer Institute on Unsplash

et sinon en vrai on fait comment? questions

icon calendar

Question 1: le temps ?

icon upload

Question 2 : l’accès ?

et sinon en vrai on fait comment? réponse

exemple1

Data Policy

Petit exercice d’intelligence collective

pour compléter les informations: voir le .odt ou .docx (via chat ou mail)

Les réponses sont dans la présentation.

Choisir une revue

datajournals leuven
source: Hole, Brian (2012) Poster: The Journal of Open Archaeology Data. Figshare. https://doi.org/10.6084/m9.figshare.96890.v1

Où je publie?

PURE ou MIXED

icon warning

créations mais arrêts ou absences de publications

exemple Journal of open archaelogy data

exemple archeology altmetric

Data paper concept map

Critères

criteres choix

Coûte que coûte ?

Résumons

  • usages dans ma discipline ?

  • visibilité de la revue ?

  • peer-reviewing ?

  • accessibilité et lieu de stockage des données ?

  • pérennité et fiabilité des données ?

  • publics, lectorats ?

Open access à privilégier

Liste non exhaustive

General data journal
  • Scientific Data (Nature)

  • Data in brief (Elsevier)

STEM

GigaScience (OUP)

Medicine

BioMedCentral Research Notes

Physique Chimie

datacc

Social sciences, humanities & arts
  • Research Data Journal for the Humanities and Social Sciences (Brill)

  • Health & Justice (Springer)

  • Open humanities data (Ubiquity Press)

Environmental science
Others

Focus sur deux revues

cybergeo
rfsic

To do

  • Choisir sa revue

  • Estimer les coûts

  • Déposer dans entrepôt et récupérer les DOI

  • Rédiger son article et la cover letter

  • Lier le data paper au jeu de données

  • Laisser les évaluateurs travailler

  • Diffuser le DOI

en anglais: vérifier si obligation données traduites

C’est à vous !

PAD 1

rediger et publier un data paper (framapad)

article

T. Le Corre, « Une base de données pour étudier vingt années de dynamiques du marché immobilier résidentiel en Île-de-France », Cybergeo : European Journal of Geography, Data Papers, DOI : https://doi.org/10.4000/cybergeo.37430

exemple Cybergéo

exo4 cybergeo 2

Recommandations

cybergeo guidelines
Utiliser le dataverse

Entrepôts et métadonnées

À affiner selon choix revue

Entrepôt de données

data repository or digital repository
définitions / fonctionnalités
Attention ! Vérifier l’organisation des accès durant l’évaluation

Distinctions

Data set
Différents fichiers
Agrégation des données

Data package
Données et métadonnées

Métadonnées

Idée de classement, d’inscription

« Les métadonnées, que l’on peut définir simplement comme « des données sur les données », sont un moyen de nommer les choses et de représenter les données et leurs relations. »

DDI, Document, discover and interoperate

Exemple guides Dataverse

dataverse datafile
dataverse codebook
dataverse supporteddata
dataverse tabulardatafiles

.exif

lemonde exif
source: Martin Vindberg, Lemonde
formatexif

→ humains ou machines

Choisir des standards de métadonnées

  • Description des données dans votre discipline ?

  • Standard  ? http://www.dcc.ac.uk/resources/metadata-standards

  • logiciels, procédures, outils ? Penser web de données : lisibles humains (fichier readme.txt) et machines (métadonnées embarquées)

Dublin Core

exemple Dryad

dryad1
dryad2

Quels intérêts pour moi ?

  • être visible dans ma communauté: F1000Research recommande XML Schema, Xlink, MathML, NLM Journal

  • Faciliter les usages ultérieurs : reproductibilité, réutilisations

  • Mon public ? Pour qui je publie ?

Possibilité

accès libre aux métadonnées
accès conditionné aux données

Restrictions diffusion

Données communicables sous conditions
Données à caractère personnel (RGPD)
Droits de propriété intellectuelle
Données de santé, données provenant d’un tiers privé, données statistiques ou relevant du potentiel scientifique et technique de la nation
Données non communicables
Confidentialité des informations commerciales ou industrielles
Secret de la défense nationale et sécurité publique
source: Becardet al. (décembre 2017). Ouverture des données de la recherche : Guide d’analyse du cadre juridique en France.

icon personal data

Ecosystème GBIF

Darwin Core archives

gbif1

exemple Biodiversity Data Journal

Pour soumettre

process et modèles

  • Suivre les recommandations

  • Utiliser les templates

structure type

structure type datapaper

Description synthétique du jeu de données

Sous l’abstract

Discipline: informatique, Economie, sociologie…​
Thématique: catégorie disciplinaire
Type de données: tableaux, images, textes…​
Méthode d’acquisition des données: enquête, observation, instrumentales…​
Format des données: "Raw", Analyzed, Filtered
Pré-traitement: bref description (ex. création de sous-ensemble)
Lieu d’acquisition des données: pays, région, ville…​
Type d’accès aux données: licences, entrepôt, citation…​

Modèle IFFSTAR

iffstar template

Modèle Cybergéo

cybergeo template

Modèle Data In Brief

dib template

Modèle F1000Research

f1000research template

Rédiger une cover letter

Grille relecture pour évaluateurs

Grille relecture pour évaluateurs_suite

Variations des modèles de relecture par les pairs

Exemples de processus innovant :

  • Suggestion des examinateurs par les auteurs (F1000Research)

  • examen par les pairs de la communauté (Biodiversity Data Journal)

  • examen public interactif par les pairs (Earth System Science Data)

Source : Schöpfel et al, 2019, p. 11

Critique et potentiel

vers une production automatique

Pourquoi publier un data paper ?

Car c’est une bonne pratique pour la gestion de ses données de recherche

Avantages et freins

illustration data

aide de la machine

automaticproduct

Outils de rédaction en ligne (Arpha_Pensoft Writing Tool)
Écriture par des machines pour des machines
À qui attribue-t-on les droits ?
Qui prend la responsabilité de la qualité des données et des métadonnées ?

data authorship

Qui seront les auteurs des articles sur données partagées ?
2017, concept de 'data author' par NEJM
2020, Nature souligne l’importance d’une égalité entre paternité article et paternité données

Potentiels

Des nains sur des épaules de géants

Merci aux collègues !

Marie Puren, Le data paper. URFIST de Rennes – 2018
Wilfried Heintz, Gestion pérenne des données Scientifiques. Du DMP au data paper - 2018
Dominique L’Hostis, Publier un data paper – 2020

Thanks!

mariannig.le-bechec@univ-lyon1.fr | mastodon logo @marilebechec@mamot.fr

thanks

ressources

Icônes

Mastodon: github mastodon

Twitter: github twitter

Autres: unDraw