Pourquoi mettre en place une démarche de Data Discovery est indispensable à l’amélioration de la cartographie des données ?

Mettre en place une démarche de data discovery

La cartographie des données est le processus de visualisation et de représentation graphique des relations, des structures et des attributs des données. Elle permet de créer une représentation visuelle claire et compréhensible des données, facilitant ainsi leur exploration, leur analyse et leur interprétation. C’est un outil clé de la gouvernance de données qui répond à des enjeux de sécurité numérique importants.

La cartographie des données pour renforcer la sécurité numérique

Le phénomène de cyber-attaques est mondial. Chaque année, le nombre d’attaques informatiques contre les entreprises, les collectivités locales et les hôpitaux ne cessent d’augmenter. Les victimes de piratage informatique constatent généralement une intrusion dans leur système d’information, un fonctionnement boqué ou un vol de données.

Selon une étude de l’entreprise de cybersécurité SurfShark sur le dernier trimestre 2022, la France se hisse en première place en densité de fuites de données. En moyenne, l’hexagone compte 212 comptes en fuite pour 1000 personnes.

Etude mondiale sur la cybersécurité

Dans l’optique de lutter contre ce phénomène, l’Union Européenne (UE) a légiféré pour instaurer un environnement digital fiable et sécurisé sur son territoire. Ainsi, les équipes chargées de la sécurisation du Système d’Information et/ou de la protection des données à caractère personnel sont de plus en plus soumises à une forte pression pour se conformer à des réglementations complexes (Directive NIS 1-2 « Network and Information Security », Réglementation RGPD « Règlement Général sur la Protection des Données », etc.)

Mais concrètement pour un RSSI ou DPD, comment identifier, hiérarchiser et catégoriser les données selon leur niveau de sensibilité et de criticité ?

De même, la valorisation de la donnée est devenue un nouvel enjeu structurel de toute organisation. La donnée est devenue un élément fondamental mais demeure encore complexe dans la gestion de son cycle de vie. Mais par manque de connaissance, sa valorisation peut ressembler un peu à la quête du Graal. En effet, les équipes dédiées à la valorisation des données ou à l’innovation passent une grande partie de leur temps à rechercher et trouver la bonne information.

Comment se répartit le temps des analyses vis-à-vis des données ?

La data discovery au service de la cartographie des données

Aussi, pour répondre à ces nouvelles exigences, il est crucial que ces équipes améliorent leurs compétences.

C’est dans ce contexte qu’est apparue la notion de découverte et classification des données. En effet, la data discovery permet de simplifier la navigation dans les données et de les rendre plus accessibles à l’ensemble des utilisateurs. Mais alors, comment la data discovery améliore la cartographie des données d’un Système d’Information ? Pourquoi une démarche de gouvernance des données nécessite une bonne compréhension des données ?

Les défis du catalogage des données (Data Catalog)

Jusqu’ici, les méthodologies de catalogage des données sont généralement basées sur des processus manuels. Aussi, au regard des ressources humaines nécessaires, les organisations ont beaucoup de mal à maintenir le catalogage des données à jour; ceci en raison de la complexité grandissante des réglementations, des technologies et des formats de sources de données disparates.

Des outils de découverte de données tels que MyDataCatalogue de Dawizz permettent désormais aux équipes chargées de la sécurisation, de la valorisation ou de la protection des données de mieux comprendre les données à disposition, en leur fournissant du contexte et en les conceptualisant automatiquement. La récupération du contexte comme l’origine des sources de données permet d’effectuer rapidement un premier classement automatique; ceci en associant un niveau de sensibilité/criticité aux applications utilisées, aux utilisateurs créateurs des données, à l’emplacement de stockage.

La découverte de données améliore en effet les projets de cartographie des données en automatisant au maximum la classification des données car souvent, l’analyse des métadonnées peut ne pas suffire. En effet, l’analyse du contenu, qui consiste à examiner les données et à identifier par des expressions régulières (représentant des numéros de sécurité sociale, des numéros de carte de crédit), par des algorithmes ou des modèles d’apprentissage, devient indispensable pour valider et compléter les classifications effectuées uniquement sur des métadonnées.

Cette approche s’avère de moins en moins complexe à mettre en œuvre. En effet, les solutions existantes intègrent nativement des règles préconfigurées pour identifier automatiquement les informations de paiement (PCI), les données à caractère personnel (PII) et/ou autres normes de sécurité.

Les organisations doivent également poser les bases de la cartographie des données et comprendre les traitements associés aux données (qu’elles soient personnelles ou non, sensibles ou simplement métier). La plupart des organisations commenceront par des méthodes semi-automatiques pour établir cette cartographie et l’amélioreront à l’aide de services collaboratives et également de découverte de données automatisée.

Vous souhaitez en savoir plus sur notre produit de Data Catalog ?

L’importance de la découverte de données (Data Discovery)

La plupart des solutions de découverte de données identifient uniquement deux attributs clés : l’emplacement et le type de données, mais les données stockées par une organisation sont généralement formatées de manière différente (voire incohérente) dans les différentes sources des applications, il est donc primordial de les conceptualiser pour les interpréter.

Pour imaginer, prenons l’exemple d’une organisation qui souhaite maîtriser son SI et l’aligner au maximum sur sa stratégie (une approche SI urbanisée). Dans cette approche de maîtrise des données, on commence généralement par la mise en œuvre de référentiels de données. Et pour des questions de sécurité et de retour sur investissement, le premier de tous les référentiels à traiter est généralement le référentiel tiers.

Dans la mise en œuvre de ce type de référentiel, la difficulté rencontrée n’est pas un problème technique/informatique mais bien dans la collaboration et le réalignement des données entre métiers et gouvernance.

Un tiers peut en effet selon le métier s’appeler Client, Usager, Fournisseur, Collaborateur, Magasin, … . Aussi, une fois la solution de référentiel définie et choisie, comment trouver et localiser les applications et sources de données qui traitent de Tiers et qu’il faut connecter au service ? Pour résoudre cette problématique, il existe 2 solutions :

  • La première (la plus chronophage et donc couteuse en ressource) consiste à interviewer les différents référents métiers de votre organisation pour faire une cartographie manuelle
  • La seconde (la plus rapide et moins couteuse) est d’utiliser des outils de data discovery automatisé comme MyDataCatalogue, qui vont identifier et classifier les données par concept quel que soit la sémantique ou langue utilisée dans les applications métiers.
Exemple d’un outil de data discovery

En conclusion, nous devons effectivement repenser l’approche du catalogage traditionnel des données en mode collaboratif. En effet, un catalogue de données sans fonctionnalité de découverte de données peut être pire que de ne pas avoir de catalogue de données du tout.

Échangeons autour des projets pour garantir la cohérence de vos données à travers tout votre SI !