Data Discovery : Comment et pourquoi elle améliore la cartographie des données d’un système d’Information ?

16 février 2023

Stéphane Le Lionnais

Gouvernance Cartographie

Le phénomène de cyber-attaques est mondial. Chaque année, Le nombre d’attaques informatiques contre les entreprises, les collectivités locales et les hôpitaux ne cesse d’augmenter. Les victimes de piratage informatique constatent généralement une intrusion dans leur système d’information, un fonctionnement boqué ou un vol de données.

Selon une nouvelle étude de l’entreprise de cybersécurité Surfshark, sur le dernier trimestre 2022, la France se hisse en première place en densité de fuites de données. En moyenne, l’hexagone compte 212 comptes en fuite pour 1000 personnes

Description

Dans l’optique de lutter contre ce phénomène, l’Union européenne (UE) a légiféré pour instaurer un environnement digital fiable et sécurisé sur son territoire. Ainsi, les équipes chargées de la sécurisations du Système d’information et/ou de la protection des données à caractère personnel sont de plus en plus soumises à une forte pression pour se conformer à des réglementations complexes (Directive NIS 1-2 « Network and Information Security », Réglementation RGPD « Règlement général sur la protection des données », …)

Mais concrètement pour un RSSI ou DPD, comment identifier hiérarchiser et catégoriser les données selon leur niveau de sensibilité, de criticité ?

De même, la valorisation de la donnée est devenue un nouvel enjeu structurel de toute organisation. La donnée est devenue un élément fondamental mais demeure encore complexe dans la gestion de son cycle de vie. Mais par manque de connaissance, sa valorisation peut ressembler un peu à la quête du Graal. En effet, les équipes dédiées à la valorisation des données ou à l’innovation passent une grande partie de leur temps à rechercher et trouver la bonne information.

Description

Aussi, pour répondre à ces nouvelles exigences, il est crucial que ces équipes améliorent leurs compétences.

C’est dans ce contexte qu’est apparue la notion de découverte et classification des données. En effet, la data discovery permet de simplifier la navigation dans les données et de les rendre plus accessibles à l’ensemble des utilisateurs. Dans cet article, nous allons explorer comment et pourquoi la data discovery améliore la cartographie des données d’un système d’Information. Pourquoi une démarche de gouvernance des données nécessite une bonne compréhension des données ?

Les défis du catalogage des données (Data Catalog)

Jusqu’ici, les méthodologies de catalogage des données sont généralement basées sur des processus manuels. Aussi au regard des ressources humaines nécessaires, les organisations ont beaucoup de mal à maintenir le catalogue des données à jour ; ceci en raison de la complexité grandissante des réglementations, des technologies et des formats de sources de données disparates.

Des outils de découverte de données tels que MyDataCatalogue permettent désormais aux équipes chargées de la sécurisation, de la valorisation ou de la protection des données de mieux comprendre les données à disposition en leur fournissant du contexte et en les conceptualisant automatiquement. La récupération du contexte comme l’origine des sources de données permet d’effectuer rapidement un premier classement automatique ; ceci en associant un niveau de sensibilité/criticité aux applications utilisées, aux utilisateurs créateur des données, à l’emplacement de stockage

La découverte de données améliore en effet les projets de cartographie des données en automatisant au maximum la classification des données car souvent l’analyse des métadonnées peut ne pas suffire. En effet, l’analyse du contenu, qui consiste à examiner les données et à identifier par des expressions régulières (représentant des numéros de sécurité sociale, des numéros de carte de crédit), par des algorithmes ou des modèles d’apprentissage devient indispensable pour valider et compléter les classifications effectuées uniquement sur des métadonnées.

Cette approche s’avère de moins en moins complexe à mettre en œuvre. En effet, les solutions existantes intègrent nativement des règles préconfigurées pour identifier automatiquement les informations de paiement (PCI), les données à caractère personnel (PII) et/ou autres normes de sécurité.

Les organisations doivent également poser les bases de la cartographie des données et comprendre les traitements associées aux données (qu’elles soient personnelles ou non, sensibles ou simplement métier). La plupart des organisations commenceront par des méthodes semi-automatiques pour établir cette cartographie et l’amélioreront à l’aide de services collaboratives et également de découverte de données automatisée.

L’importance de la découverte de données (Data Discovery) par l’exemple

La plupart des solutions de découverte de données identifie uniquement deux attributs clés : l’emplacement et le type de données, mais les données stockées par une organisation sont généralement formatées de manière différentes (voire incohérente) dans les différentes sources des applications, il est donc primordial de les conceptualiser pour les interpréter.

Pour imaginer, prenons l’exemple d’une organisation qui souhaite maitriser son SI et l’aligner au maximum sur sa stratégie (une approche SI urbanisé). Dans cette approche de maitrise des données, on commence généralement par la mise en œuvre de référentiels de données. Et pour des questions de sécurité et de retour sur investissement, le premier de tous les référentiels à traiter est généralement le référentiel tiers.

Dans la mise en œuvre de ce type de référentiel, la difficulté rencontrée n’est pas un problème technique/informatique mais bien dans la collaboration et le réalignement des données entre métiers et gouvernance.

Un tiers peut en effet selon le métier s’appeler Client, Usager, Fournisseur, Collaborateur, Magasin, … Aussi, une fois définie, choisie la solution de référentiel, comment trouver et localiser les applications et sources de données qui traitent de Tiers et qu’il faut connecter au service ? Pour résoudre cette problématique, il existe 2 solutions :

  • la première (la plus chronophage et donc couteuse en ressource) consiste à interviewer les différents référents métiers de votre organisation pour faire une cartographie manuelle
  • la seconde (la plus rapide et moins couteuse) est d’utiliser des outils de data discovery automatisé comme MyDataCatalogue qui vont identifier et classifier les données par concepts quelque soit la sémantique ou langue utilisée dans les applications métiers.

Description

En conclusion, nous devons effectivement repenser l’approche du catalogage des données traditionnel en mode collaboratif. En effet, un catalogue de données sans fonctionnalité de découverte de données peut être pire que de ne pas avoir de catalogue de données du tout.