Lire cet article au format PDF
PHILOSOPHIE DE LA DONNÉE
Selon les études de Bruno TEBOUL[1], la numérisation du monde a pour conséquence de placer les données numériques au centre des échanges économiques et sociaux. Nous produisons une quantité croissante de données, que des technologies de plus en plus sophistiquées permettent de faire circuler, de sécuriser, danalyser. Une économie de la donnée tente de rendre compte de la valeur de ces opérations. Des politiques de la donnée sont mises en uvre par les États et les grandes corporations. Un business se développe, notamment autour du Big Data. Mais la nature précise de la donnée reste floue. Une approche philosophique, comme celle menée par Luciano FLORIDI, peut en affiner la définition.
Quest-ce quune donnée ? Lavènement du numérique a amené à reprendre et préciser cette question longtemps négligée, qui émerge à la fin du XIXe siècle, quand la philosophie se partage entre la prise en compte des « données immédiates de la conscience » (Bergson) et une méthode expérimentale privilégiant la mesure indirecte de données « objectives ».
Le connu et linconnu
La philosophie des sciences, avec QUINE, mettra vite en doute cette prétention à lobjectivité.
Mais toute pensée pratique soucieuse de précision et de réalisme, dun côté, toute approche scientifique, de lautre, ne sen appuient pas moins, jusquà aujourdhui, sur des données.
Le terme même de « donnée » suggère un don qui est en réalité une contrainte : la donnée simpose. Cest précisément ce qui lui permet de servir de socle à une réflexion partagée, de permettre le développement technique, de fonder des politiques publiques ou daccroître les connaissances scientifiques. Lingénieur, léconomiste, le physicien, le botaniste, lagronome, le chimiste raisonnent données en main.
La donnée, dans ce contexte, cest du connu, sur lequel on peut sappuyer pour aller vers linconnu.
Le connu suppose un accord, une reconnaissance, bref un régime dévidence ou de convention qui fait que lensemble des participants à une réflexion sentendent sur ce qui est « donné ». On parle ainsi de données scientifiques, techniques, ou sociologiques : données intelligibles et valides, qui sont publiques ou à tout le moins partageables au sein dune communauté dutilisateurs qui reconnaissent leur valeur.
Dans cette perspective les données quantitatives ont un avantage indéniable sur les données qualitatives. Il est plus facile de sentendre sur les nombres que sur les qualités. Aussi une bonne partie de la science et de lingénierie modernes cherchent-elles à quantifier le qualitatif, à le décomposer en chiffres. Entre le noir et le blanc, il ny a pas le gris, mais du noir à 25%, à 70%, etc. Une image se décompose en pixels, et chaque pixel peut se voir indexer sur laxe qui va des infra-rouges aux ultra-violets.
La numérisation du monde, ainsi, ne commence pas au « numérique », à la traduction de signaux en séries de 0 et de 1. Elle caractérise la vaste traduction du monde sensible et en son sein de lhumanité en séries de données, traduction entamée au début de lère moderne et qui connaît aujourdhui une accélération vertigineuse.
Mais cette accélération porte en elle une seconde évolution, celle qui passe de lanalyse à la stochastique, de la réduction précise et rigoureuse des mécanismes à la révélation ex post, au moyen du datamining, de lois statistiques. Cette révolution, qui vient de commencer, pourrait se caractériser comme le triomphe de la pensée inductive sur la pensée déductive. Dans des domaines de plus en plus nombreux, la connaissance est produite à partir des corrélations extraites de grandes masses de données. Il sagit moins de prouver que de voir apparaître des lois.
La statistique et lalgorithmique saffirment ainsi désormais comme les outils fondamentaux de la connaissance, mais aussi de la décision.
Cette révolution, dans laquelle nous sommes plongés, oblige à interroger le statut de ce qui la nourrit, de ces data innombrables, stockées dans de gigantesques centres de stockage. En commençant par des questions aussi simples que radicales, comme celle-ci : les données sont-elles de linformation ?
Atomes dinformation
La distinction importe, et elle sinscrit dans une chaîne allant des faits au savoir.
Sven Ove HANSSON, professeur de philosophie à lInstitut royal de technologie de Stockholm, résume dans un article de 2002 le jeu des différences entre données, information et savoir : « Les données diffèrent de linformation en ce quelles nont pas à se présenter sous une forme qui se prête à lassimilation. Si au lieu de louvrage [de sociologie que je suis en train de lire], javais sur mon bureau les dix mille questionnaires sur lesquels il repose, jaurais des données au lieu dinformation. En résumé, il faut que des données soient assimilables pour pouvoir constituer de linformation et quelles soient assimilées pour pouvoir constituer du savoir. »
HANSSON reprend une distinction déjà faite par Roger BOHN dans un article de la Sloan Review of Management (1994) entre donnée, information et connaissance.
Les données sont des éléments provenant des capteurs, elles sont relatives au niveau mesuré dune variable quelconque.
Linformation consiste en des données organisées dans une structure donnée et qui, placée dans un contexte, est dotée de sens.
La connaissance va plus loin : elle permet de faire des prédictions, détablir des liens de causalité ou de prendre des décisions. Ce qui a de la valeur, cest la connaisssance. Mais comme le note BOHN linformation est plus facile à stocker, à décrire et à manipuler. La même chose est-elle vraie des données ? En termes numériques, oui : une données serait en quelque sorte un atome dinformation, une mesure minimale, à un instant et en un point de lespace. Bref, quelque chose qui peut se réduire à un 0 ou un 1.
En termes philosophiques, la donnée est également plus facile à caractériser que linformation. Cest un concept plus simple, moins glissant. La donnée serait la traduction la plus immédiate, la plus brute, dun fait. Elle nest pas le fait, mais lunité minimale dobservation qui permet de le caractériser.
Il serait illusoire de prétendre à son objectivité, et de soutenir quil ny a pas dintention ni de projet dans la donnée. La mesure, en elle-même, procède dune discrimination entre toutes les données mesurables dun phénomène : vous choisissez de mesurer telle variable plutôt que telle autre, et par ce filtre vous définissez ainsi une réalité, celle, en quelque sorte, que vous avez besoin de connaître.
Mais dans le cas de la donnée, typiquement produite par un capteur, une apparence dobjectivité est retrouvée, par deux voies : la très faible quantité dinformation contenue dans la donnée, et la présence dautres capteurs (qui permettent de construire une représentation plus riche du phénomène observé, comme par exemple létat du pneumatique avant droit de votre voiture : la chaleur, les vibrations, la pression de lair, lâge du pneumatique, la durée dutilisation aujourdhui, permettent à votre ordinateur de bord de construire une information extrêmement fiable).
Une définition sémantique de la donnée
Les considérations qui précèdent peuvent être renversées. Dun côté, elles aboutissent à assumer la nécessité dopérer des choix, de filtrer les données et ainsi de reconstruire une représentation très réductrice de la réalité.
Dun autre côté, la recherche dobjectivité, la multiplication des captures de données et la croissance exponentielle de la masse de données recueillies ouvrent vers ce fantasme scientifique dune représentation complète des phénomènes, dune numérisation absolue du monde. Version scientifique : quand on étudie telle pathologie osseuse, on mobilise 100 000 ensembles de données très complètes provenant de 100 000 patients différents, et on se donne ainsi une chance inédite de comprendre un phénomène, ou tout au moins de tout enregistrer, de ne rien laisser de côté. Version quotidienne, cest lhomme connecté : votre pression sanguine est analysée chaque seconde par des capteurs, votre position dans lespace est captée en permanence, etc. Vous vous transformez en un producteur de masses de données toujours plus abondantes. Avec à la clé une interrogation sur ce que peuvent valoir ces données. En dautres termes, quest-ce qui peut leur permettre dentrer dans la chaîne qui va des faits au savoir, en passant par linformation ?
Une approche de la donnée comme atome dinformation trouve ici ses limites, car elle ne dit rien de ce passage. Luciano FLORIDI, professeur de philosophie et directeur de recherche à lOxford Internet Institute, propose une réflexion qui permet de dépasser cette limite.
Il sinterroge sur la possibilité de fonder une théorie de linformation sur la donnée (« a data-based definition of information »). En dautres termes, de définir sémantiquement la donnée, en se demandant ce qui lui permet de produire de linformation.
Il retient dabord une définition rigoureuse de la donnée : « une donnée est un fait supposé qui procède dune différence ou dun manque duniformité dans un contexte » (a datum is a putative fact regarding some difference or lack of uniformity within some context).
Cette diaphore, cette différence dans le tissu du réel, ouvre sur la possibilité dune information, mais à certaines conditions. FLORIDI identifie trois réquisits. Il faudrait
a) une ou plusieurs données ;
b) que ces données soient bien formées (« well-formed »), cest-à-dire assemblées selon certaines règles ;
c) et quelles soient porteuses de sens (« meaningful »), cest-à-dire à même dêtre interprétées ou, si lon préfère, aptes à être traduites, ou exprimées autrement.
Il sensuit, et cest là le point essentiel, que la donnée peut se définir comme une entité relationnelle (relational entity).
Léclairage théorique de FLORIDI permet de comprendre ce point, en faisant surgir toute la portée des notions de « différence » et de « manque duniformité ». Ces deux notions renvoient, dit-il, à ce que les Grecs nommaient « diaphora », un écart. FLORIDI poursuit en proposant une « définition diaphorique de la donnée » qui peut être appliquée suivant trois niveaux.
Il distingue dabord la donnée comme « diaphora de re », cest-à-dire comme manque duniformité dans le monde réel. Il nexiste pas de nom spécifique pour de telles « données dans la nature ». Une suggestion possible est de se référer aux données comme des « dédomen » (traduction en grec ancien de « données »). On peut noter dailleurs dun point étymologique, que le mot « datum » est apparu en latin à partir de la traduction dune uvre dEuclide, Dedomena. On ne peut connaître directement la donnée, mais simplement linférer à partir de lexpérience. FLORIDI explique que les « Dedomena » sont des données pures ou des données proto-épistémiques, cest-à-dire des données avant quelles ne soient épistémiquement interprétées. En tant que « Fractures dans la fabrique de lêtre », elles ne sont jamais accessibles ni élaborés indépendamment dun certain niveau dabstraction. Elles ne sont pas épistémiquement expérimentées, mais leur présence est empiriquement déduite de (et requise par) lexpérience.
À ces données proto-épistémiques sajoute la donnée comme « diaphora de signo », cest-à-dire le manque duniformité (ou la perception dun manque duniformité) entre deux états physiques, comme le niveau plus ou moins élevé dune batterie, un signal électrique dans une conversation téléphonique, ou un point dans lalphabet morse.
Vient enfin la « diaphora de dicto », cest-à-dire le manque duniformité entre deux symboles, par exemple les lettres A et B dans lalphabet latin. La notion centrale de diaphora, qui réunit ces trois versions de la donnée, renvoie à une divergence, un moment où quelque chose se met à différer, une différence qui appelle un sens. La donnée est lentité symbolique qui code cette différence. Elle est le lien entre cet écart, quon serait tenté de dire insignifiant, et le sens. Le point de passage de linsignifiant au signifiant.
[1] Senior VP, Science & Innovation, Groupe Keyrus / avril 2017
Auteur de « La donnée n'est pas donnée - Stratégie & Big Data », de juin 2016,