bandeau

GRAND FORMAT

Data incognita

Avec cette exposition, le Pôle Information Scientifique et Technique (IST) de l'École des Ponts ParisTech veut montrer aux chercheurs que les données ont toujours été au cœur de l'activité des ingénieurs et chercheurs de l'École. On en trouve la trace dans son fonds patrimonial et par conséquent, les chercheurs doivent les valoriser aujourd'hui, et ne pas attendre d'avoir intégré le fonds ancien pour les partager !

Cette exposition aborde les divers aspects de la gestion des données de la recherche, depuis leur collecte et leur traitement, jusqu’à leur analyse et leur valorisation. Elle s’appuie sur les travaux des anciens des Ponts pour établir un parallèle saisissant entre les pratiques actuelles et passées et montrer comment Prony, Surell, Minard, de Chézy, Malézieux, Vauthier, d'Ocagne, Bourdalouë et d’autres illustres ingénieurs de l'École avaient déjà saisi l’importance du partage des données pour le bien de la science.

Cette exposition virtuelle prolonge l'exposition physique installée dans le Hall de l'École des Ponts du 23 octobre au 17 novembre 2017, à l'occasion de l'Open Access Week.

01

Data Incognita

Les données, une histoire ancienne !

Au XVIIe siècle, Francis Bacon évoquait déjà dans son Novum Organum la nécessité de recourir aux données dans une virulente critique de la manière dont la science était faite jusqu’alors, un véritable plaidoyer en faveur de l'Open Science !

"Notre histoire naturelle ne recherche rien suivant les véritables règles, ne vérifie, ne compte, ne pèse, ne mesure rien. Mais tout ce qui est indéterminé et vague dans l’observation, devient inexact et faux dans la loi générale."
Francis Bacon, Novum Organum, 1620

Avec cette exposition, le Pôle Information Scientifique et Technique (IST) de l'École des Ponts ParisTech veut montrer aux chercheurs que les données ont toujours été au cœur de l'activité des ingénieurs et chercheurs de l'École. On en trouve la trace dans son fonds patrimonial et par conséquent, les chercheurs doivent les valoriser aujourd'hui, et ne pas attendre d'avoir intégré le fonds ancien pour les partager !

Cette exposition aborde les divers aspects de la gestion des données de la recherche, depuis leur collecte et leur traitement, jusqu’à leur analyse et leur valorisation. Elle s’appuie sur les travaux des anciens des Ponts pour établir un parallèle saisissant entre les pratiques actuelles et passées et montrer comment Prony, Surell, Minard, de Chézy, Malézieux, Vauthier, d'Ocagne, Bourdalouë et d’autres illustres ingénieurs de l'École avaient déjà saisi l’importance du partage des données pour le bien de la science.

Cette exposition virtuelle prolonge l'exposition physique installée dans le Hall de l'École des Ponts du 23 octobre au 17 novembre 2017, à l'occasion de l'Open Access Week.

Bacon_FOL_279 (portrait2)
Frontispice de l'ouvrage de Francis Bacon, 1638, Operum moralium et civilium tomus...

Data is the new oil

Nous sommes désormais dans l'ère de l'exploration des données, celles capturées par des instruments ou générées par des simulations et on parle de "data-intensive science". On considère les data comme le nouveau pétrole. Clive Humby, mathématicien britannique a popularisé la formule en 2006 :

Data is the new oil. It’s valuable, but if unrefined it cannot really be used. It has to be changed into gas, plastic, chemicals, etc to create a valuable entity that drives profitable activity; so must data be broken down, analyzed for it to have value."
Clive Humby, 2006

Pourquoi partager ?

La revue ou le financeur l'exigent dans leur Data policy pour fiabiliser leurs publications.

Pour le bien de la science et favoriser ainsi la réplicabilité, déclencher de nouvelles collaborations et favoriser l'innovation mais aussi pour retrouver plus facilement les données (parfois même les siennes). Une étude a montré en 2014 (Vines et al) que la disponibilité des données d’articles scientifiques diminuait de façon vertigineuse au fil du temps : 25% des auteurs qui répondent aux demandes confirment les avoir conservées au bout de 20 ans ; seules 5% des données sont récupérées en tenant compte de ceux qui ne répondent pas.

Pour augmenter sa visibilité ; les études montrent en effet que partager ses données, à l'instar de publier en Open Access, a un impact positif sur le taux de citations (+9% citations selon l'étude de Piwowar & Vision, 2013, Data reuse and the open data citation advantage, PeerJ, e175). Par ailleurs, le Comité d’éthique du CNRS a émis la préconisation suivante en 2015 : "Le travail de mise à disposition de données utilisables à partir de données brutes doit être reconnu dans l'évaluation et les décisions de promotion des personnels qui s’y impliquent."

2 graph
Graphique issu de l'étude : Vines TH el al, 2014, The Availability of Research Data Declines Rapidly with Article Age, Current Biology, Vol 24(1)

"The days of keeping our research results to ourselves are over. There is far more to gain from sharing data and letting others access and analyse that data."
Carlos Moedas, European Commissioner for Research, Science and Innovation, 2015

N'attendez pas d'avoir intégré le fonds ancien pour partager vos données !

02

Des données ? Quelles données ?

Les données de la recherche peuvent revêtir diverses formes (données chiffrées, texte, son, image, questionnaire d’enquête, logiciel, etc.) et provenir de sources différentes impliquant un mode d’archivage spécifique

Les données d'observation

Ce sont par exemple des relevés de température ou de précipitations, des données de télédétection, des photos, des données d’enquêtes. Ces données uniques sont à conserver précieusement et indéfiniment. Le document 1 et le document 2, extraits du fonds ancien, témoignent du laborieux travail de recensement que cela représentait au XIXe siècle

1_MS_1980_Minard_vs_Surrell_[4]_repris
Document 1 : Lettre du 10 mai 1857 de Alexandre Surell à Charle-Jospeh Minard relative aux hauteurs d’eau du Rhône à son embouchure pour la période 1856-1857
2_MS_1980_Minard_vs_Surrell_[11]_repris
Document 2 : Frise sur les hauteurs d’eau du Rhône à son embouchure (la Barre) de 1855 à 1863 faite à partir des renseignements envoyés par les ingénieurs sur le terrain et reçus par l’ingénieur Minard à la retraite

Les données expérimentales

Elles sont générées par un équipement en laboratoire ou ce sont des mesures de performance d’une machine. Elles sont à conserver avec soin (le coût pour les reproduire peut en effet être rédhibitoire). Dans ses travaux de recherche sur les chaux, Vicat a laissé des tableaux très précis sur la nature des chaux qu’il a testées et ses conclusions sur leur qualité (document 4).

4_Vicat_7738_blanchi
Document 4 : Comparaison des diverses espèces de chaux qui ont servi aux expériences

Les données de simulation

Elles sont produites par des logiciels (par exemple, des modèles climatiques ou économiques). Il faut les documenter et archiver aussi les informations qui permettront leur exploitation et leur réutilisation.

Au XVIIIe siècle, avec des moyens bien moins confortables que ceux à disposition des chercheurs d'aujourd'hui, Prony a réalisé de grandes tables de logarithmes des nombres 1 à 200 000. Près de 500 000 calculs ont été réalisés en 2 ans seulement (document 3).

MS_746_vs_4_2353_Prony (2)_repris
Document 3 : Tables des logarithmes, sinus et tangentes pour la division décimale du quart de cercle calculées avec 8 ou 9 décimales pour être imprimées avec 7 décimales exactes au bureau du Cadastre, sous la direction de M. de Prony

Pour mener à bien ce travail phénoménal, Prony a appliqué les principes de la division du travail aux opérations intellectuelles sans quoi il avait estimé que la plus grande durée présumable de sa vie n’aurait pas suffi… Il mit alors en place une “usine à calculer” avec deux équipes de “calculateurs”, les calculs étant ainsi faits 2 fois, puis comparés par une équipe de “vérificateurs". Les résultats obtenus se sont avérés être très fiables malgré une équipe peu compétente. En effet, les perruques n’étant plus vraiment à la mode à cette époque, il a profité de la disponibilité d’un grand nombre de perruquiers désœuvrés pour les embaucher dans son "usine".

03

Des données bien ordonnées

Le carnet de laboratoire évolue

En 1790 Prony tenait un carnet de terrain (document 5), crayon en main ; il y consignait les mesures relatives au nivellement des quais de la Seine. On voit qu’il recopie par-dessus ses notes à l’encre en ajoutant des dessins et en omettant les calculs.

1_Prony_carnet_MS_1625_etiage_[8]_repris
Document 5 : Carnet de terrain de Prony, 1790

Nous avons également retrouvé les procès-verbaux d’analyses du laboratoire de l’École des Ponts et Chaussées (document 6) : on y consignait des analyses avec les noms des commanditaires, la date des demandes et les résultats obtenus. Ce document illustre une analyse demandée le 18 octobre 1756 par l’ingénieur Mille, portant sur le goût du lait d’une vache nourrie de fourrage provenant de cultures arrosées par les eaux du Dépotoir Municipal de Paris. Mille préconisait en effet d’utiliser les eaux d’égouts comme engrais liquide. Les résultats sont d’ailleurs la source d’un article scientifique (extrait du document 7).

PV-labos_Ms_2014_011_02_92-93_repris
Document 6 : extrait du volume 2 des procès verbaux d'analyses du laboratoire de l'École des ponts et chaussées, 2014/011/02
JAP_1858 (extrait)
Document 7 : Extrait de l'article de Félix Vidalin paru en janvier 1858 dans le Journal  d'Agriculture pratique et domestique

Aujourd'hui, le chercheur peut utiliser un carnet de laboratoire électronique, un outil qui permet de centraliser les données et les métadonnées qui les décrivent. Il en existe différents types (voir ci-dessous), leurs fonctionnalités principales sont :

  • La sauvegarde et le versionnage des fichiers pour conserver l’historique des données ou sources de données et aider à prouver si besoin une antériorité ;
  • L’intégration dans un workflow de gestion de données : création de datasets, aide à la publication de data papers, dépôt en entrepôt, etc. ;
  • L’association de texte et de code qu’on peut exécuter à la volée dans certains outils ;
  • Le partage et contrôle d’accès pour du travail collaboratif.

Les carnets de labo électroniques

Les carnets de labo électroniques
Quelques exemples de carnets de laboratoire électroniques :
Open Science Framewok : https://osf.io
Hivebench : https://www.hivebench.com
Jypiter Notebook : http://jupyter.org
Hydroshare : https://www.hydroshare.org
LabArchive : http://www.labarchives.com
Labfolder : https://www.labfolder.com

Le plan de gestion de données

Le Plan de Gestion de données (PGD) ou Data Management Plan (DMP) est un document élaboré au tout début du projet pour définir le rôle et la responsabilité de chacun dans la gestion des données et pour identifier les types de données produites ou collectées, lesquelles pourront être partagées, à quelle date, et selon quelles conditions.
L'objectif est de pouvoir s’y référer à tout moment au cours du cycle de vie des données. Il existe des outils d’aide à la rédaction d’un DMP comme par exemple DMP OPIDoR.

04

Prenez soin de vos données

Organisation

Pendant toute la durée du projet, il faut prendre soin de ses données et notamment les organiser d’une façon logique/hiérarchique, que ce soit au sein d’un carnet de labo électronique (voir section "Des données bien ordonnées"), d’un espace de stockage partagé ou sur sa propre machine. L’organisation peut se faire en fonction du type de données (textes, images, vidéos, etc.), de l’activité de recherche associée (enquête, utilisation d’un outil, etc.), ou encore de la nature des documents (documentation, publication, etc.). Quant aux données personnelles, elles doivent en général faire l’objet d’une anonymisation.

Nommage

Les fichiers doivent respecter une charte de nommage décrite dans le DMP (Data Management Plan, voir voir section "Des données bien ordonnées") afin de pouvoir être facilement triés selon les besoins, tout en restant intelligibles aux collaborateurs du projet. Il est important d'inclure les éléments suivants, en évitant les espaces et les caractères spéciaux, constitue une bonne pratique.

Exemple : 2017_01_01-ECOANR-presentation_materiel-v1.5.txt
(date-code d'identification du projet-élément descriptif-version)

"Pour être à portée de comparer au premier coup d’œil les diverses proportions de tous les ponts, épars dans ce recueil, on a cru convenable d’en donner le tableau suivant."
Louis Bruyère, 1774/1809

Sous-ensembles - Datasets

Avant de partager, il peut être utile de constituer des sous-ensembles et de mettre à disposition des datasets séparés ou au contraire de réunir plusieurs jeux de données en un seul, en pensant à ce qui sera le plus pratique pour les personnes ou les machines qui auront à les exploiter par la suite. C'était déjà la démarche adoptée par Émile Malézieux et Louis Bruyère.

En 1878, le ministère des Travaux publics sollicite l’avis du Conseil général des Ponts et Chaussées sur le classement des lignes du réseau complémentaire des chemins de fer d’intérêt général. Pour l’aider dans sa tâche, le Conseil a devant lui un ensemble de données collectées par 6 commissions techniques chargées de couvrir toutes les régions de France. Le résultat constitue un plan d’ensemble à portée économique qui fournit le moyen d’estimer même approximativement l’étendue des dépenses à envisager. Une sous-commission, dont le secrétaire est Émile Malézieux, est ensuite chargée de synthétiser ces données dans des tableaux. Cette sous-commission dégage 3 catégories de priorité en fonction de la nature d’intérêt (civil, militaire ou les deux à la fois) (document 8).

1 Malezieux_16851_C891_repris
Document 8 : Émile Malézieux. Tableau de classement des lignes du réseau complémentaire des chemins de fer d'intérêt général, arrêté par le Comité dans ses séances des 25, 26 et 27 avril 1878

Quant à Louis Bruyère, dans ses recueils consacrés aux ponts, il a rassemblé toute une documentation sur les ponts rédigés par lui ou par d’autres ingénieurs. Dans le tableau reproduit ci-contre, il synthétise les principaux attributs des ponts cités dans un volume, son but étant de permettre à toute personne intéressée de comprendre rapidement les caractéristiques techniques d’un pont (document 9).

J0000077
Document 9 : Louis Bruyère et al.,Etat des divers mémoires, rapports et dessins relatifs à l'art de l'ingénieur et recueillis par M.  Bruyère. Volume 21, Théorie des ponts, 1774/1809
Notes sur les ponts de la Perse Antique et sur les ponts de la Perse moderne
J0000078
Document 9 : Louis Bruyère et al.,Etat des divers mémoires, rapports et dessins relatifs à l'art de l'ingénieur et recueillis par M.  BruyèreVolume 21, Théorie des ponts, 1774/1809
Notes sur les ponts chinois et les ponts romains.

 

05

Cartographie statistique et dataviz : perpétuer la tradition de l'École

La datavisualisation et ses outils

L’interprétation des données est rendue plus efficace par des techniques de représentation visuelle, connues aujourd’hui sous le nom de datavisualisation. Cela permet de communiquer plus facilement ses résultats, d’avoir un support à l’analyse et peut aussi faciliter l’émergence de nouvelles hypothèses.
Cette section de l'exposition est un encouragement aux chercheurs à perpétuer la tradition de l’École des Ponts en la matière. En effet, le fonds ancien témoigne du rôle majeur de nos ingénieurs et professeurs dans l’essor de la datavisualisation. Si les cartes statistiques apparaissent au XVIIe siècle avec Edmond Halley, elles prennent en fait leur essor au XIXe siècle, avec la révolution industrielle en France et l'immense contribution des ingénieurs des Ponts. Pour faciliter l’analyse, ils recourent en effet à des moyens graphiques pour intégrer à leurs cartes des données liées à la mobilité de la population et à l'aménagement du territoire.

"Ils peuvent renfermer implicitement des résultats pour la détermination desquels ils n'avaient pas été préparés." 
Léon Lalanne, 1846, à propos de ses graphiques

Calcul graphique

Les courbes isoplèthes sont nées à l'École, grâce à Léon Lalanne, ingénieur touche-à-tout, qui, à l’occasion de la traduction d’un document allemand de météorologie, a proposé un diagramme innovant permettant de traduire sur le papier des lois naturelles à 3 variables, générant ainsi des lignes de niveaux (document 10). De même, les diagrammes à coordonnées parallèles (qui aident à la comparaison de variables) trouvent également leur origine à l'École des Ponts avec Maurice d’Ocagne qui y enseigna la géométrie. Il est l’inventeur de la résolution graphique d’équations (nomographie ou théorie des abaques).

1_Lalanne_APC_1846-1_[1]
Document 10 : Léon Lalanne. Mémoire sur les tables graphiques et sur la géométrie anamorphique appliquée à diverses questions qui se rattachent à l'art de l'ingénieur, Annales des Ponts et Chaussées, 1er semestre 1846, pp.1-69

Minard, le pionnier

Charles-Joseph Minard, professeur à l'École, est considéré comme pionnier dans l’utilisation des graphiques appliqués au génie civil. Il enrichit considérablement les méthodes de cartographie avec le recours à la variation de taille et il est surtout à l’origine de la représentation des flux. Il est l’inspirateur des diagrammes de Sankey.
Il se lance tout d’abord dans une étude statistique du trafic sur les routes et canaux existants et transforme ces statistiques en graphiques "pour mieux appréhender la situation globale". 
Un des premiers résultats de cette approche est résumé dans le Tableau figuratif du mouvement commercial du Canal du Centre en 1844 (document 11).

2 Minard_4_3386_C161_canal-Centre_repris
Document 11 : Tableau figuratif du mouvement du canal du centre en 1844 dréssé par Charles-Joseph Minard

Sa Carte figurative et approximative des quantités de coton en laine importées en Europe en 1858 et en 1863 (document 12) est accompagnée d’une note explicative qui éclaire le lecteur sur ces choix graphiques. Et les données brutessont également disponibles !

"Non seulement mes cartes parlent, mais, de plus, elles calculent par l’œil ; c’est là le point capital."
Charles-Joseph Minard, 1869.

3 Minard_Fol_10975_coton-laine58
Document 12 : Charles-Joseph Minard. Carte figurative et approximative des quantités de coton en laine importées en Europe en 1858 et en 1863, 1861

Cartes administratives - Démocartographie

Louis-Léger Vauthier (document 13) et Émile Cheysson, chargé de la direction des cartes et plans au sein du ministère des Travaux publics avec l’édition régulière de 1879 à 1899 de L’Album de Statistique graphique, ont ainsi produit des cartes reprenant les procédés initiés par Lalanne et Minard.

Vauthier_carte_repris
Document 13 : Vauthier, Louis-Léger. Carte statistique figurant la répartition de la population de Paris. 1874

Les revues apprécient les données visuelles

Certaines revues demandent un graphical abstract (document 14) pour résumer visuellement le contenu d’un article. Par ailleurs, au-delà des supplementary materials, certaines revues exploitent toute la puissance d’une datavisualisation dynamique en ligne en permettant au lecteur de faire varier des paramètres (comme la revue Distill).

graphical abstract
Document 14 : F. Gorlier, Y. Khidas, O. Pitois. Coupled elasticity in soft solid foams, Journal of Colloid and Interface Science, Vol 501, pp. 103-111. 2017

 

06

Évitez de tout perdre !

La conservation des données répond aux 3 objectifs de sauvegarde pendant le projet, de partage lors de leur publication, et d’archivage à long terme. Leur perte peut passer par leur destruction physique, leur égarement, ou la perte de sens.

Destruction physique

La destruction peut être causée par des facteurs externes ou internes.
Le document 15 présente un exemple de destruction externe : il a pris l’eau et des moisissures se sont développées à sa surface. Sans une restauration, nous risquons de perdre à jamais les informations qu’il contient.

1_ENPC00_MS_1876_[5]_repris
Document 15  : Proportion que doivent avoir les citernes, XVIIIe siècle, sans mention d'auteur

Le document 17 montre une cause de destruction interne. Le papier calque acide sur lequel il a été tracé devient sombre et cassant avec le temps : il est alors difficile d’empêcher son autodestruction à moyen terme. On peut lire la légende, mais le plan qui y est dessiné est devenu complètement illisible. Un mémoire manuscrit conservé avec ce plan nous permet d'avoir quelques informations à son sujet : il s'agit d'une pompe hydraulique nommée "machine paradoxale" fonctionnant sur le principe d'Archimède.

3_ENPC00_MS_960-5_repris
Document 17 : "Machine paradoxale", sans mention d'auteur, circa 1810

Pour limiter les risques de perte, le principe du “Here, Near, Far” consiste à sauvegarder des copies dans 3 lieux physiques différents, localement et à distance. Idéalement, les procédures de backup et récupération devraient être automatisées.

"Hypotheses come and go but data remain".
Ramon y Cajal, "Neuroanatomiste espagnol", dans son ouvrage Advice for a young investigator, 1897.

Égarement

L’égarement peut faire suite au changement de poste d’un chercheur, la fin d’une thèse, la perte d’une clé USB, une URL cassée, etc. Une étude montre qu’après 20 ans, les données de 80% des articles ne sont plus disponibles faute d’avoir été partagées dès la publication, et parce que les chercheurs n’étaient plus joignables.

Perte de sens

Les données dont le sens est perdu ne sont pas égarées ni détruites, mais c’est leur support, leur format, ou la compréhension des informations qu’elles contiennent qui posent problème.

Les supports ou les moyens pour les lire peuvent devenir obsolètes. Par exemple nous avons retrouvé des disques d’enregistrements audio sur les pieux précontraints qui nécessitent d’utiliser une aiguille spéciale pour leur lecture : ce support demande donc d’identifier le bon matériel et de retrouver une machine en état de marche. Quant à l'anaglyphe (document 16), il nécessite le recours à des lunettes spécifiques pour en distinguer le relief.

2_ENPC00_33820_[2]_repris
Document 16 : Anaglyphe extrait de l'ouvrage d'Hugo Casper, La photogrammétrie et le calcul électronique pour l'étude des projets de routes

Les formats de fichiers peuvent être illisibles même lorsqu’ils sont enregistrés sur un support courant : c’est le cas d’extensions de fichiers utilisées par d’anciens logiciels abandonnés, ou par des logiciels propriétaires auxquels tous n’ont pas accès.

Enfin la compréhension des données même lisibles peut être rendue difficile, par exemple s’il y a des tableaux sans intitulés, des variables inconnues, un manque de contexte, etc.

C’est pourquoi il faut veiller à joindre une description contextuelle aux données (provenance, matériels et logiciels utilisés, etc.) et une description interne (relations entre fichiers, commentaires de code, etc.). Idéalement, ces informations sont reprises dans un data paper (voir Section "As open as possible, as closed as necessary"). Il est recommandé de choisir un format de sauvegarde ouvert et pérenne (voir Section "Prenez soin de vos données"). Enfin, à long terme, des organismes d’archivage comme le CINES prévoient un transfert régulier des données sur de nouveaux supports avant leur défaillance.

07

As open as possible, as closed as necessary

Partager ses données n’implique pas de tout diffuser au monde entier et sans délai. Tout est dit dans la punchline de l’Union Européenne sur le sujet : "As open as possible, as closed as necessary", il s’agit de les rendre disponibles au plus grand nombre pour faire progresser la science tout en respectant le cadre juridique, éthique et contractuel du projet.

Les supplementary materials, oui mais...

Les supplementary materials constituent un premier effort louable de partage mais qui pose un problème concernant la conservation à long terme, l’impossibilité fréquente de pouvoir identifier ces données indépendamment de la publication et enfin les problèmes de droits cédés à l’éditeur de la revue. Enfin, l’accès à ces données est parfois bloqué par un abonnement payant.

Le triangle d'or : data, paper, data paper !

Il est préférable de déposer ses données dans un entrepôt de données (data repository) et d’y appliquer une licence (voir section "Aux données bien partagées, la valeur n'attend pas le nombre des années"). Pensez à utiliser le tableau dynamique mis au point par le Pôle IST (document 18) pour identifier un entrepôt parmi des entrepôts institutionnels (Harvard Dataverse, Sextant pour l’IFREMER), des entrepôts thématiques (Pangaea, EarthChem, Materials Data Facility), des entrepôts multi-disciplinaires (Figshare, Zenodo, Dryad, Nakala). Les dépôts sont décrits par des métadonnées standardisées qui facilitent le repérage et la citation des données dans la mesure où un DOI leur est attribué. Pour identifier un entrepôt de confiance (trusted repository), il existe une certification, CoreTrustSeal, qui a entrepris de certifier à la demande les entrepôts répondant à des critères de qualité concernant le stockage, l’intégrité et les modalités de mise à disposition.

1_tableau_data_dynamique
Document 18 : Pôle IST de l'École des Ponts ParisTech. Tableau dynamique d'aide à la sélection d'entrepôts et de revues, 2017

Grâce au DOI de la ou des publications qui exploitent un dataset et à celui du dataset lui-même, un lien bidirectionnel pérenne est ainsi créé pour que chacun signale l’autre.
Enfin, pour une meilleure valorisation d’un jeu de données, son producteur pourra publier un data paper (ou software paper pour un logiciel). L’objectif est de décrire les données, comment elles ont été produites ou collectées. La publication de ce data paper (soumise au processus classique de peer-reviewing) permettra d’informer la communauté de l’existence du dataset et d’en faciliter la réutilisation. Le data paper tout comme le dataset pourront faire l’objet de citations.

Inspirez-vous de Mouret, qui, en 1885, a produit une description précise de ses essais sur les chaux et ciments, sa méthodologie et les appareils utilisés (document 19), un véritable data paper avant l’heure!

J0000003
Document 19 : Mouret, Georges. Description des essais sur les chaux et ciments, 1885

Soyez FAIR ! 

Pendant toute la durée de votre recherche, pensez à respecter les principes FAIR afin de garantir que vos données puissent être trouvées et exploitées par des humains et des machines.

3_FAIR_data_principles
Document 20 : Les principes Fair de gestion des données de la recherche

 

08

Aux données bien partagées, la valeur n'attend pas le nombre des années

"Nous n'étions guidés que par le désir de faciliter, au moyen de traces sûres et soigneusement vérifiées, les études qui pourraient être faites plus tard."
Paul-Adrien Bourdalouë, 1847

"The best thing to do with your data will be thought of by someone else."
Rufus Pollock, 2017

Comme le disent Bourdalouë et Pollock à 150 ans d’écart, vos données seront peut-être mieux exploitées par d’autres !

Cadre juridique

Si une association, une entreprise ou n’importe quel individu en France ou à l’étranger a connaissance de l’existence d’un jeu de données non publié, il lui sera possible d’en faire la demande (loi CADA) et, sauf exceptions, l’établissement concerné sera dans l’obligation de fournir les données.
Par ailleurs, la loi pour une République Numérique (2016) introduit par décret la liste des licences applicables au code informatique et aux données.

Les licences prévues par la loi

Pour les données rendues publiques, la Loi pour une République Numérique dit que leur réutilisation est libre (à condition qu’elles ne soient pas protégées par un droit spécifique). On peut les réutiliser même de façon commerciale, même sans nommer les auteurs. Inutile de choisir une licence trop restrictive, le décret en propose deux :

Pour le code (considéré comme un document administratif comme les autres), le décret prévoit deux types de licences :

  • Les licences permissives : BSDL, Apache, CeCILL-B et MIT License. Les utilisateurs peuvent réutiliser le code même de façon commerciale et en changer la licence.
  • Les licences avec obligation de réciprocité, ou “copyleft fort” : Mozilla Public License, GNU GPL et CeCILL. Les utilisateurs doivent conserver la licence du code, et l’appliquer (la propager) à tout le logiciel dans lequel il est inclus.

Un cas d’École

Lors de la campagne d’Égypte en 1799, l’ingénieur Lepère mesure la différence de niveau entre la mer Rouge et la mer Méditerranée et trouve 8 mètres. C’est une erreur car les niveaux sont égaux, ce qui impacte les tracés possibles d’un canal. Bourdalouë refait les mesures en 1847 (document 21) et ne trouve aucune différence de niveau : il y a donc controverse scientifique.

1_ENPC00_OUV2_4_4320_C221_repris
Document 21: Bourdalouë, Paul-Adrien. Travaux de la brigade française pour l'isthme de Suez dirigés par M. Bourdaloue : Etudes de 1847 : Ligne des deux mers (Plan détaillé et nivellement), 1847.
Notez les observations dans la colonne de droite.

Au XIXe siècle, la validation de la recherche comporte implicitement une dimension sociale. Les résultats de Lepère sont étayés par sa qualité d’ingénieur que n’a pas Bourdalouë, simple conducteur des Ponts et Chaussées, et par des arguments propres à la culture littéraire de l’époque basés sur l’habileté des ingénieurs ou la tradition des anciens. Face à cela, Bourdalouë met en avant l’amélioration des instruments et décrit un mode opératoire extrêmement rigoureux ; il fournit à l’Académie des Sciences un tableau très détaillé de ses données et observations.

À une époque où cette campagne de mesures est difficilement reproductible et la hiérarchie des preuves encore en discussion, c’est grâce à la description rigoureuse de sa méthode que Bourdalouë emporte la conviction. Sans éteindre la controverse, ses conclusions sont de facto retenues lors des premiers projets de percements du canal en 1855.

09

Pour aller plus loin

Hall of fame

Bacon, Francis (1561-1621), scientifique et philosophe anglais.

Bourdalouë, Paul-Adrien (1798-1868), conducteur des Ponts et Chaussées, topographe, inventeur du premier système de nivellement orthométrique de la France

Bruyère, Louis (1758-1830), ingénieur des Ponts et Chaussées, professeur de stéréotomie de 1799 à 1811

Cheysson, Émile (1836-1910), ingénieur des Ponts et Chaussées, Directeur des cartes, plans et statistique graphique en 1878

Chézy, Antoine de (1718-1798), ingénieur des Ponts et Chaussées, Directeur de l'École des Ponts et Chaussées de 1797 à 1798

Halley, Edmond (1656-1742), astronome et ingénieur britannique, surtout connu pour avoir le premier déterminé la périodicité de la comète qui porte aujourd'hui son nom

Humby, Clive (1955-), Data Science Innovator à Starcount, Sheffield University

Lalanne, Léon (1811-1892), ingénieur des Ponts et Chaussées, Directeur de l'École des Ponts et Chaussées de 1877 à 1881

Malézieux, Émile (1822-1885), ingénieur des Ponts et Chaussées, professeur du cours de navigation intérieure à l’École des Ponts et Chaussées de 1868 à 1877

Mangon, Hervé (1821-1846), ingénieur des Ponts et Chaussées, professeur de chimie appliquée de 1864 à 1879 à l’École des Ponts et Chaussées, directeur du laboratoire de l’École des Ponts et Chaussées

Mille, Adolphe-Auguste  (1812-1894), ingénieur des Ponts et Chaussées

Minard, Charles-Joseph (1781-1870), ingénieur des Ponts et Chaussées, professeur à l'École des Ponts et Chaussées de navigation et de chemins de fer de 1832 à 1842, créateur et propagateur de la statistique graphique

Moedas, Carlos (1970-) banquier, homme politique portugais, Commissaire européen à la recherche, à l’innovation et à la science depuis le 1er novembre 2014

Mouret, Georges (1850-1936), ingénieur des Ponts et Chaussées, professeur d’hydraulique de 1913 à 1930

Ocagne, Maurice d’ (1862-1938), ingénieur des Ponts et Chaussées, professeur de géométrie à l’École des Ponts et Chaussées de 1895 à 1936, a signé aussi des essais et vaudevilles sous le pseudonyme de Pierre Delix

Pollock, Rufus (1980- 19..), économiste, enseignant à l’Université de Cambridge, fondateur et président de Open Knowledge Foundation

Santiago Ramon y Cajal (1852-1934), histologiste et neuroscientifique espagnol, colauréat du Prix Nobel de physiologie en 1906

Prony, Gaspard Marie Riche de (1755-1839), ingénieur des Ponts et Chaussées, Directeur de l'École des Ponts et Chaussées de 1798 à 1839

Alexandre Charles Surell (1813-1887), ingénieur des Ponts et Chaussées

Louis-Léger Vauthier (1815-1901), ingénieur des Ponts et Chaussées

Vicat, Louis Joseph (1786-1861), ingénieur des Ponts et Chaussées

Vidalin, Félix (1831-1887), ancien élève de Polytechnique, agriculteur.

À consulter

Bacon, Francis. Novum Organum, trad. en français, 1857
Disponible sur Gallica : http://gallica.bnf.fr/ark:/12148/bpt6k201287p/f61.image

Bourdalouë, Paul Adrien. Travaux de la brigade française pour l’isthme de Suez dirigés par M. Bourdalouë : Études de 1847,  1847
Cote : Fol.4320

Bruyère, Louis. État des divers mémoires, rapports et dessins relatifs à l’art de l'ingénieur et recueillis par M. Bruyère. Volume 21, Théorie Des Ponts.
Disponible sur la bibliothéque numérique "Hèritage des ponts" : https://heritage.ecoledesponts.fr/ark:/12148/btv1b10481311k/f1.item

Friendly, Michael. Milestones in the history of thematic cartography, statistical graphics, and data visualization, 2009
Disponible sur datavis : http://www.datavis.ca/milestones/

Girard, Bernard. Histoire des théories du management en France du début de la révolution industrielle au lendemain de la Première Guerre Mondiale.,L’Harmattan., 2015

Hankins, Thomas L. "Blood, dirt, and nomograms: a particular history of graphs". Isis ,90(1): 50–80, 1999
Disponible sur Jstor : http://www.jstor.org/stable/237474

Kasper, Hugo. La photogrammétrie et le calcul électronique pour l’étude des projets de routes, Imprimerie Vogt-Schild, 1959

Lalanne, Léon. "Mémoire sur les tables graphiques et sur la géométrie anamorphique appliquée à diverses questions qui se rattachent à l’art de l'ingénieur". Annales des Ponts et Chaussées , 1er semestre 1846, 1–69
Disponible sur la bibliothéque numérique "Hèritage des ponts" : https://heritage.ecoledesponts.fr/ark:/12148/bpt6k4084656/f5.item

Malézieux, Émile. Tableau de classement des lignes du réseau complémentaire des chemins de fer d’intérêt général, Arrêté par le comité dans ses séances des 25, 26 et 27 Avril 1878., 1878.
Disponible sur la bibliothéque numérique "Hèritage des ponts" : https://heritage.ecoledesponts.fr/ark:/12148/bpt6k1090538t/f17.item.r=Mal%C3%A9zieux,%20Emile

Minard, Charles-JosephLa statistique, 1869
Disponible sur la bibliothéque numérique "Hèritage des ponts" : https://heritage.ecoledesponts.fr/ark:/12148/bpt6k1290601m/f1.item

Minard, Charles-Joseph. Carte figurative et approximative des quantités de coton en laine importées en Europe en 1858 et en 1863, 1864
Disponible sur la bibliothéque numérique "Hèritage des ponts" : https://heritage.ecoledesponts.fr/ark:/12148/btv1b104811770?rk=536483;2

Minard, Charles-Joseph. Tableau figuratif du mouvement commercial du canal du centre en 1844., 1844
Disponible sur la bibliothéque numérique "Hèritage des ponts" : https://heritage.ecoledesponts.fr/ark:/12148/btv1b53074870p/f10.item

Montel, Nathalie. Établir la vérité scientifique au XIXe siècle. La controverse sur la différence de niveau des deux mers (1799-1869), 1998, Genèses 32(1): 86–109.
Disponible sur Persée : https://doi.org/10.3406/genes.1998.1525

Mouret, Georges. Description des essais sur les chaux et ciments, 1885
Disponible sur la bibliothéque numérique "Hèritage des ponts" : https://heritage.ecoledesponts.fr/ark:/12148/bpt6k10905397.r=Mouret%2C%20Georges?rk=64378;0

Piwowar, Heather A., & Todd J. Vision. Data reuse and the open data citation advantage. PeerJ 1: e175, 2013
Disponible sur PeerJ : https://doi.org/10.7717/peerj.175

Palsky, Gilles. Des chiffres et des cartes : naissance et développement de la cartographie quantitative française au XIXe siècle. Comité des travaux historiques et scientifiques, 1996. - (Mémoires de la section de géographie ; 19).

Prony, Gaspard Riche de. Tables des logarithmes, sinus et tangentes pour la division décimale du quart de cercle calculées avec 8 ou 9 décimales pour être imprimées avec 7 décimales exactes au bureau du Cadastre sous la direction de M. de Prony.
Disponible sur https://bibliotheque.enpc.fr/exl-php/cadcgp.php?CMD=CHERCHE

Ramon y Cajal, Santiago. Advice for a young investigator, MIT Press., 1897*

Tournès, Dominique. "Pour une histoire du calcul graphique". Revue d’histoire des mathématiques (6): 127–61, 2000
Disponible sur le site de la Société Mathématique de France : http://smf4.emath.fr/Publications/RevueHistoireMath/6/html/smf_rhm_6_127-161.html

Vauthier, Louis-Léger. Carte statistique figurant la répartition de la population de Paris., 1874.
Disponible sur la Bibliothèque numérique patrimoniale des Ponts : http://bibliotheque.enpc.fr/exl-php/vues/enpc___recherche_avancee/ANC17050.html

Vicat, LouisRecherches expérimentales sur les chaux de construction, les bétons et les mortiers ordinaires, 1818
Cote : 4°7738

Procès-verbaux d’analyses du laboratoire de l'École des Ponts et Chaussées
Cote : 2014/011

Pôle IST

Si cette exposition vous a convaincu de l’intérêt de partager vos données, le Pôle IST est à votre disposition pour vous assister dans le processus de dépôt et de valorisation. Par ailleurs, l’équipe peut aussi travailler avec vous sur des projets de visualisation de données (réseaux, graphiques et tableaux dynamiques).
Pour plus d’informations, consultez l’Espace Chercheurs (http://espacechercheurs.enpc.fr) et notamment :
• les pages consacrées aux données de la recherche
• les pages du Lab