Quelles solutions pour libérer les organisations de l’emprise étouffante de la dark data ?

Les solutions face à la dark data

La dark data : une pieuvre au développement exponentiel

C’est l’institut d’analyse Gartner qui a contribué à mettre à la mode la terminologie « Dark Data ». Dans un article datat de septembre 2017, Sony Shetty en donne la définition suivante : « le patrimoine informationnel que les organisations recueillent, traitent et entreposent à l’occasion de leur travail au quotidien, mais qu’elles n’utilisent plus par la suite. »

Avec la transformation numérique massive de la société, et la démultiplication des échanges digitaux qui l’accompagne, on pressent bien que la quantité de dark data a été amenée à se multiplier ces dernières années. Mais quelle est exactement l’ampleur du phénomène ?

Le caractère multiforme de la production et de la conservation de données dans les organisations fait qu’il n’est pas simple de le mesurer précisément. Plusieurs études ont néanmoins cherché à le quantifier, et évaluent à plus de 50% la part de dark data dans le patrimoine de données mondial : pas moins de 52% d’après Statista en 2020, et jusqu’à 65% d’après le site Digital Decarb.

Outre le fait que la dark data occupe donc aujourd’hui une part majoritaire dans les SI, ce qui est également certain c’est que cette proportion ne fait qu’augmenter. Pourquoi ? Tout simplement parce que la numérisation des entreprises et des administrations n’est pas encore terminée, et que la multiplication des sources donne un profil exponentiel au nombre d’interactions qu’elles entretiennent, et par là même au volume de données qu’elles génèrent.

Au fait, c’est quoi le problème de la dark data ?

En fait, la prolifération de ce qu’en français on appelle aussi les « données froides » ne pose pas un problème, mais plusieurs : sécuritaire, financier, et – last but not least – environnemental. Il n’échappera à personne que si la « dark data » correspond à la part des données que l’organisation qui les a produites n’a pas su classifier, il est plus que probable qu’une proportion non négligeable de cette zone d’ombre comporte des risques latents, qui s’exprimeront brutalement à l’occasion d’une exposition imprévisible : piratage, audit externe, malveillance interne, etc.

Ces risques eux-mêmes sont de diverses natures, en fonction de ce que contient la donnée :

  • Risque réglementaire en cas de non-conformité à des référentiels de plus en plus nombreux (on pense tout de suite au RGPD, mais chaque secteur économique ou presque ajoute ses propres couches normatives).
  • Risque concurrentiel en cas d’information sensible de type R&D ou commercial.
  • Risque réputationnel notamment si les données concernent les personnes, etc. La matérialisation de n’importe lequel de ces risques se traduit immanquablement par une perte financière, directement en cas d’amende pour non-respects des règles mais aussi indirectement par la dégradation de la position concurrentielle.

Il faut aussi noter que l’attitude générale par rapport à la responsabilité des organisations en cas de fuite de données a radicalement changé avec le temps. Il y a encore quelques années, l’entreprise ou l’administration qui subissait un incident conduisant à une perte de données était vue comme une victime. Aujourd’hui, c’est perçu comme un manque de prise de mesures de précautions adéquates, et les attentes ne font qu’augmenter aussi bien de la part d’autorités comme l’ANSSI en France, que de la part des clients et de l’opinion publique.

Même en l’absence de problème de type fuite de données, la simple conservation de la dark data génère pour les organisations des coûts qui, pour être souvent ou pas identifiées, n’en sont pas moins considérables. Plusieurs couches se surajoutent pour contribuer à l’inefficience économique globale : consommation énergétique des salles serveurs, construction et maintenance des locaux correspondants, parc machines surdimensionné, facturation d’espaces de stockage par les hébergeurs, etc.

Un chiffre ? 2 milliards d’euros par mois ! C’est l’estimation faite par l’institut d’analyse IDC, pour l’ensemble des entreprises sur le plan mondial.

Vous souhaitez en savoir plus sur notre produit MyDataCatalogue ?

Mais dans le contexte d’urgence climatique face auquel tous les acteurs de la société se doivent de réagir, le coût le plus inacceptable est peut-être le coût environnemental de la dark data. La mobilisation des ressources considérables pour garder disponibles des données qui ne seront jamais utilisées relève en effet du pur gaspillage.

Au premier rang de ces ressources, on pense évidemment – et à juste titre – à l’électricité nécessaire pour faire tourner les data centers : dans un article daté d’août 2019, Charlotte Trueman écrivait dans Computerworld que la consommation électrique des data centers avait déjà dépassé 3% de la consommation mondiale (c’est-à-dire plus que la consommation totale de la Grande-Bretagne !). Mais l’électricité n’est malheureusement pas la seule ressource inutilement sollicitée : dans une publication de mai 2021, les collaborateurs de la revue scientifique IopScience ont pu évaluer que les data centers se situent dans le top 10 des industries consommatrices d’eau aux USA, du fait de leurs besoins en matière de refroidissement.

Et pour la France ? Dans son rapport de juin 2020, le collectif d’experts indépendants GreenIT.fr estime à 13% la part de la consommation des data centers dans la consommation électrique globale liée au numérique. En retenant une estimation conservatrice de 50% de dark data dans les données hébergées sur ces serveurs, on arrive à plus d’un million de tonnes de CO2 émis « pour rien » chaque année, soit l’équivalent d’environ 1,5 millions de trajets aller-retour Paris-New-York en avion (d’après le calculateur mis à disposition sur le site gouvernemental de l’aviation civile).

Qu’est-ce que la Dark Data ?

Alors, que faire face à la dark data ?

Le premier pré-requis pour résoudre un problème, c’est d’avoir identifié son existence. Encore limitée dans le monde du travail il y a quelques années, la prise de conscience s’est aujourd’hui généralisée, et nombre d’organisations ont inclus la sobriété numérique dans les objectifs de leur architecture et de leur fonctionnement informatique. De plus en plus ont mis en place des indicateurs, et certaines publient maintenant des objectifs en matière d’amélioration. C’est le cas de la Société Générale par exemple, qui s’est engagée à réduire 50% l’émission de GES entre 2019 et 2025. Dans la sphère publique, l’ANCT a tout récemment décidé d’intégrer la gestion de la vie des données dans les leviers que les collectivités territoriales sont invitées à considérer pour mettre en place leur feuille de route numérique responsable.

Dans ces conditions, peut-on se permettre d’être optimiste et prédire la disparition à court terme du puits (presque) sans fond de la dark data ? En réalité ce n’est pas si simple, un premier facteur de résistance venant de réflexes bien ancrés dans les organisations, au niveau aussi bien du management que des collaborateurs, et qu’on pourrait appeler le syndrome du « on ne sait jamais ».

Dans le doute, même des données manifestement sans intérêt pour une exploitation future sont conservées et souvent dupliquées au moment de leur production. Un comportement qui revient de facto à les condamner à une errance sans fin sur le cloud, car personne ne prendra le temps d’aller les y rechercher, une nouvelle couche de données inutiles venant d’ailleurs très rapidement recouvrir la précédente.

Les comportements peuvent – et doivent – changer, mais cela ne suffit pas. La volonté de prendre à bras le corps la problématique dark data se heurte à des nombreuses difficultés. Une étude menée par le cabinet TRUE Global Intelligence pour le compte de l’éditeur Splunk, a cherché à les qualifier plus précisément. Interrogé début 2019 sur sa perception des principaux obstacles, un panel de 1300 décideurs informatiques répartir dans 7 pays dont la France, les US et la Grande-Bretagne, a fait ressortir le palmarès suivant :

  • La quantité de données concernées : 39% des répondants
  • Le manque de compétences nécessaires : 34%
  • Le manque de disponibilité des ressources : 32%
  • La difficulté à se coordonner entre les départements : 28%

Et pourtant, on ne peut pas taxer ces responsables de manquer de motivation, puisque 77% d’entre eux considèrent que chercher et trouver la dark data dans leur organisation devrait constituer une priorité de premier niveau.

Malgré tout, et c’est ce qui permet de concevoir tout de même un certain optimisme par rapport à une situation qui pour le moment ne fait qu’empirer, des solutions sont maintenant disponibles pour aider les organisations à s’attaquer efficacement au problème. Les plateformes de data discovery (découverte de la donnée) qui sont proposées par Dawizz et d’autres éditeurs, permettent de mieux répertorier le contenu du patrimoine des données, et de repérer plus facilement les « données froides ».

Avec notre plateforme MyDataCatalogue, nous avons cherché à pousser le plus loin possible la portée et l’automatisation de la démarche de catalogage des données : scans programmables, algorithmes de reconnaissance des noms de champs, application des critères au niveau des métadonnées mais aussi des données, que celles-ci soient structurées ou non, glossaire multilingues, prise en compte des synonymes …

MyDataCatalogue : solution face à la Dark Data

Comme relevé dans l’enquête de TRUE Global Intelligence citée plus haut, un des obstacles à l’exécution d’une politique de gouvernance de données destinées à réduire le volume de dark data, c’est la difficulté à organiser l’interaction entre des services souvent de cultures et d’objectifs différents. Avec le service Collaborative Data Cleaning, Dawizz a pris en compte cette réalité en définissant avec chaque département une interface intuitive qui lui permet d’effectuer la tâche qui lui incombe de manière efficace et rapide : gestion de la donnée, utilisateur métier et informatique contribuent simplement au résultat final.

Le Groupe Crédit Agricole fait partie des utilisateurs de Collaborative Data Cleaning, avec plusieurs Caisses Régionales qui ont déjà déployé le service ou s’apprêtent à le faire. Le retour d’expérience de la Caisse Régionale de Normandie illustre bien les bénéfices qui découlent d’une campagne de nettoyage de données correctement outillée, avec ce témoignage conjoint du CDO et du DPO :

Le développement d’une interface utilisateur optimisée par rapport à nos cas d’usages a permis de déployer facilement le service, avec comme résultat une libération de 95% des espaces disques utilisés sur le périmètre ciblé. En complément de notre objectif premier de conformité et de sécurité, la suppression des fichiers nous permet de contribuer aux objectifs de la banque en matière de RSE par rapport à l’impact carbone positif de nos actions.

Tel l’Hydre de Lerne dans la mythologie grecque, la dark data présente une fâcheuse tendance à se regénérer au fur et à mesure qu’on la détruit. C’est pourquoi il est important de relancer régulièrement des campagnes de nettoyage pour éviter de reconstituer des stocks trop importants, et de monitorer les résultats pour pouvoir identifier le cas échéant des zones dans l’organisation qui s’avèrent potentiellement moins efficaces que la moyenne dans leur démarche de nettoyage, et les accompagner par des actions de sensibilisation ciblées.

FAQ sur la Dark Data

Qu’est-ce que la « dark data » ?

La « dark data » désigne les infos collectées par les entreprises au quotidien mais non utilisées.

Quels sont les risques associés à la dark data ?

Des risques réglementaires, concurrentiels, réputationnels, entraînant pertes financières.

Quelles solutions existent pour gérer la dark data ?

Les plateformes de gouvernance de données, comme MyDataCatalogue, et les solutions de nettoyage, par exemple : Collaborative Data Cleaning.

Échangeons autour des projets pour garantir la cohérence de vos données à travers tout votre SI !