Mariannig Le Béchec
MCF-HDR en SIC
Coresponsable Urfist de Lyon
10/11/2022
Pour exporter cette page au format PDF: Ctrl+P et imprimer en tant que pdf…
Présentation du stage
Mariannig Le Béchec


Maîtresse de conférences-HDR en Sciences de l’Information et de la Communication
Coresponsable Urfist de Lyon
@marilebechec@mamot.fr |
@UrfistLyon
Attestation de présence
Disponible d’ici 48h
RDV dans votre espace
Mon compte > mes formations suivies > télécharger
Introduction
« L’Humanité est à un tournant de son histoire. La masse des données acquises est formidable. Il faut de nouveaux instruments pour les simplifier, les condenser ou jamais l’intelligence ne saura ni surmonter les difficultés qui l’accablent, ni réaliser les progrès qu’elle entrevoit et auxquels elle aspire. »
Reproductibilité
Facteurs de non-reproductibilité :
-
méthodes, code manquants > 40%
-
données "brutes" manquantes > 40%
Une première définition
“ A data paper is a searchable metadata document, describing a particular dataset or a group of datasets, published in the form of a peer-reviewed article in a scholarly journal ”
Lien avec l’éditeur Pensoft
une seconde
" Produit de publication de données, pouvant apparaître dans un data journal ou dans une revue académique classique. Contrairement aux articles de recherche classiques, les data papers ont pour but de rendre les données accessibles, interprétables et réutilisables, plutôt que de tester des hypothèses ou présenter de nouvelles analyses. "
Valoriser un travail invisibilisé et de qualité
-
Rendre accessibles à mes collègues et au-delà
-
Identifier de façon unique et persistante
-
Décrire un ou des jeux de données
-
Montrer leur potentiel de réutilisation
-
Améliorer la "qualité" des données en associant documentation, code logiciel (RDA) → data curation
Qualité et exhaustivité des données
Variations des réponses en fonction des parties prenantes
source: Dan Sholler, Karthik Ram, Carl Boettiger, Daniel S. Katz, 2019
Variations dans les politiques éditoriales

Valoriser son PGD
Du DMP au data paper, juste un pas à franchir?
Valoriser sa gestion des données

Etapes |
pour un data paper |
1,2,3 |
collecte, documentation et qualité |
4 |
RGPD, anonymisation, chiffrement, éthique |
5 |
réutilisation et qualité |
5.c |
logiciels, entrepôts |
5.d |
DOI |
Description synthétique des données
Discipline: informatique, Economie, sociologie
Thématique: catégorie disciplinaire
Type de données: tableaux, images, textes
Méthode d’acquisition des données: enquête, observation, instrumentales
Format des données: "Raw", Analyzed, Filtered
Pré-traitement: brève description comme création de sous-ensemble
Lieu d’acquisition des données: pays, région, ville
Type d’accès aux données: licences, entrepôt, citation
Hétérogénéité des structures et lacunes
Kim J. (2020)
Analyse 15 templates et guidelines de 24 datajournals du WoS
Présence : formats; nommage des fichiers, projet de recherche, identifiants pérennes
Absence : réputation des dépôts et pratiques de conservation
Réutilisation des Données : conseil et conditions mais manque d’informations contextuelles
Données partagées et publiées
Quelle différence entre déposer sur zenodo et écrire un data paper?
Curation de données
Des acteurs aux finalités différentes
-
archivistes: conservation
-
scientifiques: publication. (Buenan, 2004)
Enjeux:
-
L’archivage : qualité, intégrité, sécurité et authenticité
-
La préservation : archivage pour une accessibilité même avec les changements techniques (Lord, MacDonald, 2003)

Petit exercice d’intelligence collective
Ingénierie
https://www.sciencedirect.com/science/article/pii/S2352340919306675
Humanités et sciences sociales
https://brill.com/view/journals/rdj/4/1/article-p55_55.xml
Ecologie
https://esj-journals.onlinelibrary.wiley.com/doi/10.1111/1440-1703.1266
Biomed
https://gigascience.biomedcentral.com/articles/10.1186/2047-217X-3-3
pour compléter les informations: voir le .odt ou .docx (via chat ou mail)
Les réponses sont dans la présentation.
Pour un autre processus de relecture ouvert, voir https://essd.copernicus.org/articles/13/1939/2021/essd-13-1939-2021-assets.html
Choisir une revue

Résumons
-
usages dans ma discipline ?
-
visibilité de la revue ?
-
peer-reviewing ?
-
accessibilité et lieu de stockage des données ?
-
pérennité et fiabilité des données ?
-
publics, lectorats ?
Liste non exhaustive
- Social sciences, humanities & arts
-
-
Research Data Journal for the Humanities and Social Sciences (Brill)
-
Health & Justice (Springer)
-
Open humanities data (Ubiquity Press)
-
- Environmental science
-
-
Earth System Science Data (Copernicus Publications)
-
Ecological Processes (Springer)
-
HardwareX (Elsevier)
-
- Others
-
-
Data Journals: A Survey Candela et al (2016)
-
exemple soumission Data in brief
- vérifier Aims and scopes
-
https://www.sciencedirect.com/journal/data-in-brief/about/aims-and-scope
- Guide for author data in brief
-
https://www.elsevier.com/wps/find/journaldescription.cws_home/734558?generatepdf=true
- l’article en bref
C’est à vous !
- PAD 1
- article
-
T. Le Corre, « Une base de données pour étudier vingt années de dynamiques du marché immobilier résidentiel en Île-de-France », Cybergeo : European Journal of Geography, Data Papers, DOI : https://doi.org/10.4000/cybergeo.37430
Recommandations

Entrepôts et métadonnées
Métadonnées
Idée de classement, d’inscription
« Les métadonnées, que l’on peut définir simplement comme « des données sur les données », sont un moyen de nommer les choses et de représenter les données et leurs relations. »
DDI, Document, discover and interoperate

Choisir des standards de métadonnées
-
Description des données dans votre discipline ?
-
Standard ? http://www.dcc.ac.uk/resources/metadata-standards
-
logiciels, procédures, outils ? Penser web de données : lisibles humains (fichier readme.txt) et machines (métadonnées embarquées)
Dublin Core
source Wikipédia https://fr.wikipedia.org/wiki/Dublin_Core
Quels intérêts pour moi ?
-
être visible dans ma communauté: F1000Research recommande XML Schema, Xlink, MathML, NLM Journal
-
Faciliter les usages ultérieurs : reproductibilité, réutilisations
-
Mon public ? Pour qui je publie ?
Restrictions diffusion
Données communicables sous conditions
Données à caractère personnel (RGPD)
Droits de propriété intellectuelle
Données de santé, données provenant d’un tiers privé, données statistiques ou relevant du potentiel scientifique et technique de la nation
Données non communicables
Confidentialité des informations commerciales ou industrielles
Secret de la défense nationale et sécurité publique
source: Becardet al. (décembre 2017). Ouverture des données de la recherche : Guide d’analyse du cadre juridique en France.
Pour soumettre
process et modèles
-
Suivre les recommandations
-
Utiliser les templates
Description synthétique du jeu de données
Sous l’abstract
Discipline: informatique, Economie, sociologie…
Thématique: catégorie disciplinaire
Type de données: tableaux, images, textes…
Méthode d’acquisition des données: enquête, observation, instrumentales…
Format des données: "Raw", Analyzed, Filtered
Pré-traitement: bref description (ex. création de sous-ensemble)
Lieu d’acquisition des données: pays, région, ville…
Type d’accès aux données: licences, entrepôt, citation…
Variations des modèles de relecture par les pairs
Exemples de processus innovant :
-
Suggestion des examinateurs par les auteurs (F1000Research)
-
examen par les pairs de la communauté (Biodiversity Data Journal)
-
examen public interactif par les pairs (Earth System Science Data)
Source : Schöpfel et al, 2019, p. 11
Critique et potentiel
vers une production automatique
Pourquoi publier un data paper ?
Car c’est une bonne pratique pour la gestion de ses données de recherche
aide de la machine

Outils de rédaction en ligne (Arpha_Pensoft Writing Tool)
Écriture par des machines pour des machines
À qui attribue-t-on les droits ?
Qui prend la responsabilité de la qualité des données et des métadonnées ?
Potentiels

Des nains sur des épaules de géants
Merci aux collègues !
Marie Puren, Le data paper. URFIST de Rennes – 2018
Wilfried Heintz, Gestion pérenne des données
Scientifiques. Du DMP au data paper - 2018
Dominique L’Hostis, Publier un data paper – 2020
Thanks!
mariannig.le-bechec@univ-lyon1.fr | @marilebechec@mamot.fr
