Ressources
#Ressources
2 février 2023
Participez au Digital CleanUp Day 2023 avec Dawizz !
Participez au Digital CleanUp Day 2023 avec l'outil Dawizz, Collaborative Data Cleaning A l'occasion de la journée mondiale du nettoyage numérique le 18 mars prochain, Dawizz vous offre 15 jours d’essai à l’outil Collaborative Data Cleaning et vous partage sa méthodologie pré-packagée pour mettre en place une campagne de nettoyage des fichiers au sein de votre organisation. Ce Digital Clean Up Day 2023, évènement co-porté par l'INR et l'association World Clean Up Day - France permet de sensibiliser les équipes métier à la gouvernance des données, en menant des actions concrètes de nettoyage de leurs répertoires de fichiers (Cloud ou locaux). Nos retours d'expérience clients nous permettent de vous fournir une méthodologie et une plateforme adaptée aux problématiques métiers, en adéquation avec la taille de votre organisation, pour réaliser cette campagne de nettoyage de manière efficace et condensée. Collaborative Data Cleaning : un outil dédié aux campagnes de nettoyage Depuis sa création, Dawizz permet de cartographier des données et métadonnées selon leur typologie grâce aux mécanismes de data discovery. Une fois les données identifiées selon certains critères (natifs ou sur mesure), nos clients RSSI et DPO ont fait face à un problème : "Comment mener des actions efficaces sur des données dont je ne suis pas propriétaire ?" Pour répondre à cette problématique, Dawizz a créé une plateforme offrant aux différentes parties prenantes une interface dédiée à leurs besoins. Les référents métiers accèdent ainsi à un portail métier, où ils peuvent décider des actions à mener le plus facilement possible et acter le choix quant à la conservation, suppression, anonymisation ou archivage de leurs données. Cette opération vise simplement à étiqueter des fichiers. Les administrateurs fonctionnels quant à eux ont accès à une console de supervision leur permettant de suivre les actions menées par les référents métiers. Impliquer les métiers dans la gouvernance des données Le portail métier permet donc aux métiers de mettre un premier pas dans la gouvernance de leurs données en les guidant à travers un processus d'étiquetage. Le processus sert à classer les fichiers par étape selon leur typologie : data discovery La dernière étape de validation permet à l'utilisateur de terminer l'étiquetage. Les personnes qui supervisent la campagne en sont informées et peuvent consulter le résultat de l'étiquetage dans la console de supervision. Dawizz fournit une route d'API ou un export CSV de tous les fichiers ayant été étiquetés, pour lesquels la validation a eu lieu. Nos clients appellent cette route d'API à travers un script pour supprimer physiquement les fichiers ayant été étiquetés "à supprimer". La liste des fichiers "à archiver" est aussi disponible via cette API pour mener les actions définies dans la politique d'archivage (migration des fichiers sur un serveur dédié par exemple). Suivre les usages des métiers par des indicateurs La console de supervision permet aux administrateurs fonctionnels de suivre la campagne de nettoyage, d'y visualiser le bilan à travers des reportings adaptés et des indicateurs. Ces reportings sont générés de manière automatique selon le périmètre sélectionné (ensemble de l'organisation, par services, par serveur, etc.). data governance L'évolution des volumes des répertoires sélectionnés y sont disponibles ainsi que le suivi du nombre de fichiers identifiés (de manière globale, ou par critère d'identification) : Suite aux campagnes menées chez nos clients, nous avons constaté que cette console de supervision permettait également aux administrateurs fonctionnels de comprendre les usages des métiers. Par exemple, en automatisant les scans des répertoires, nos indicateurs mettent en exergue les services les plus générateurs de données personnelles. Console pré-packagée La plateforme intègre nativement le processus de nettoyage evoqué précédemment et un référentiel de critères d'identification lié aux étapes de ce processus. Par exemple, l'étape "données bancaires" regroupe les fichiers qui possèdent au moins 5 occurrences de : RIB IBAN Numéro de carte bancaire Ces critères natifs sont entièrement paramétrables. Il est cependant conseillé de suivre le paramétrage Dawizz natif, pour identifier un nombre de fichiers pour lequel l'exercice est "réalisable" pour un utilisateur. Par défaut, la première étape du processus se focalise sur les fichiers obsolètes (ex : date de modification supérieure à 10 ans). Cela permet, uniquement par la métadonnée, de traiter un grand nombre de fichiers. Une méthodologie adaptée En plus du paramétrage natif de l'outil, Dawizz vous propose une méthodologie efficace pour mener à bien le Digital Clean Up Day. digital clean up day Les bénéfices immédiats d'une campagne de nettoyage Une meilleure connaissance des données par les équipes métier La réduction du risque lié à la fuite de données : à minima 50% de fichiers en moins lors des campagnes menées chez nos clients Une niveau de conformité augmenté La mise en place d'une politique numérique responsable Pour bénéficier des outils Dawizz et de notre accompagnement, contactez-nous à l'adresse contact@dawizz.fr
25 janvier 2023
Essai gratuit de MyDataCatalogue
Essai gratuit de la plateforme MyDataCatalogue MyDataCatalogue en quelques mots MyDataCatalogue est une plateforme de dernière génération pour la data discovery et le catalogage global des données (Bases de données, APIs et Volumes). Les essais gratuits DAWIZZ vous permettent de découvrir toutes les fonctionnalités de la plateforme pendant 15 jours sans aucun frais ! Pourquoi proposer un essai de MyDataCatalogue ? Dawizz a pensé à vous, qui souhaitez ou avez engagé une démarche de gouvernance des données. Vous avez un projet de catalogage global et de data discovery, mais vous ne savez pas comment différencier les offres du marché ? C’est pourquoi nous vous proposons d’essayer notre solution avant, pour que vous puissiez vous faire votre propre avis. Si vous êtes intéressé par MyDataCatalogue mais n'êtes pas sûr que notre solution réponde à vos besoins en matière de gouvernance des données, vous pouvez demander un essai pendant 15 jours. Cette solution vous permettra de tester gratuitement la plateforme et voir comment elle peut répondre à vos attentes. Comment se déroule un essai de MyDataCatalogue ? Essai MyDataCatalogue Une réunion de lancement (45 min) pour définir les enjeux, le périmètre de l'expérimentation, les prérequis de déploiement des sondes et le planning de l'essai. Mise à disposition par Dawizz d'un environnement pré-paramétré. Deux heures de formation** pratique pour apprendre à recenser le patrimoine informationnel, documenter et valoriser les fiches de métadonnées et les données. Un point de suivi d'une heure à mi-parcours pour partager les résultats d'analyse et échanger sur les fonctionnalités utilisées. Un bilan de 30 minutes pour recueillir vos impressions et organiser éventuellement la suite en fonction de vos besoins. L’Assistance Dawizz dédiée Notre équipe projet vous accompagnera durant ces 15 jours pour l'ouverture du service, le déploiement des sondes et l'analyse des résultats. Vous pourrez également découvrir pendant l’essai, les nouvelles fonctionnalités de data gouvernance, telles que l'anonymisation des données, le data cleaning et le suivi de la qualité des données. Profitez aussi du support en ligne Pour finir, sachez que durant toute la durée de cet essai, un accès direct au service de support en ligne (accessible à partir de la plateforme) vous permettra à tout moment de poser vos questions et de suivre en direct la prise en compte et les réponses à vos demandes. Je souhaite tester MyDataCatalogue
19 janvier 2023
Start Us Insights : Dawizz dans le top 5 mondial!
StartUs Insights : Dawizz dans le top 5 mondial ! Start Us Insight couvre les actualités mondiales de « l’innovation grâce aux données ». Ils proposent aussi des rapports de tendances sur de nombreux secteurs (AgriTech, énergie, militaire, etc.), mais c'est avant tout une plateforme de mise en relation entre des organisations, entreprises et startups. Elle répertorie, après les avoir analysées, près de 4 millions de startups et compte plus de 1 000 entreprises partenaires dont Samsung, Nestlé, Lufthansa Cargo, etc. StartUs Insight répond aux besoins de recherches, d’innovation, de développement commercial de différentes structures. En juin 2022, le média présente sa Heat map et révèle 452 startups et scaleups de gestion de données. Parmi cette sélection, 5 ont été mises en lumière, dont Dawizz. Découvrez la Heat map et ne loupez pas leur présentation de notre entreprise dans cet article ! Description Startus Insight fait notamment référence au savoir faire de Dawizz en matière de cartographie des données, qui est une des fonctionnalités de notre plateforme MyDataCatalogue. Pour une gouvernance des données optimale, la cartographie de données se complète par d’autres solutions que nous proposons : data discovery data cleaning anonymisation etc. Pour en savoir plus sur nos solutions de gouvernance des données, rendez-vous sur notre site internet www.dawizz.fr
29 décembre 2022
#Governance #Event #cybersecurity #Presse
Dawizz vous souhaite une bonne année 2023 !
Dawizz vous souhaite une bonne année 2023 ! 2022 : l'année où la gestion des données a encore gagné en importance. Dans le domaine de la data gouvernance et data cybersécurité, 2022 a encore été une année riche. Cette année nous a confirmé l’importance de notre activité. La data est plus que jamais convoitée et exploitée, par les entreprises et les administrations à mesure que le monde devient de plus en plus connecté, intelligent et que les menaces en ligne augmentent. Le secteur de la gouvernance des données, qui concerne la collecte, l'analyse et l'utilisation des données, est en constante croissance et a connu de nombreux développements au cours des dernières années … et 2022 n’a pas échappé à la règle. Les entreprises et les organisations de tous types utilisent de plus en plus leur data pour prendre des décisions stratégiques et améliorer leurs activités. Cela a entraîné une augmentation de la demande en professionnel qualifié dans le domaine de la data science et de l'analyse de données, mais aussi à la demande d’outil pour la gestion de leurs données ! La cybersécurité, quant à elle, est devenue un enjeu de plus en plus important à mesure que le monde devient de plus en plus connecté et que les menaces en ligne ont augmenté. En 2022 les hôpitaux, entre autres, ont été pris pour cible et les affaires ont été largement médiatisées. Les entreprises et les administrations sont de plus en plus conscients de l'importance de protéger leurs systèmes et leurs données contre les cyberattaques, et n ’hésitent plus à investir pour le faire. Retour sur l’année 2022 chez Dawizz Quelques chiffres Voici quelques chiffres significatifs représentant l’année 2022 pour Dawizz : 100% de nos clients ont renouvelé leur confiance en 2022 348 mises à jour de notre plateforme pour intégrer de nouvelles fonctionnalités Plusieurs 10aines de millions de sources analysées par MyDataCatalogue Des 10aines de nouveaux comptes du secteur privé et publique ont intégré notre portefeuille clients. Développement de notre outil, MyDataCatalogue Notre solution de gouvernance opérationnelle de données, MyDataCatalogue, a implémenté plusieurs services de gestion de données, tels que : L’anonymisation Le nettoyage de données Le suivi de la qualité des données Le référentiel tiers Le service de data discovery avec une représentation du data-lineage Ces mises à jour ont été faites pour gérer efficacement nos cas d'utilisation de données et garantir la qualité et la confidentialité des données. Salons et conférences : Dawizz partage son expertise Mars : Stéphane Le Lionnais, Co-fondateur Dawizz a animé un atelier à Pontivy pour le pôle ADN 22 sue le thème : Pourquoi et comment mettre en place une stratégie Data & gouvernance. Avril : Dans le cadre de la « Semaine de l’innovation », le pôle de compétitivité Images et réseaux, ADN Ouest et Vipe se sont associés pour proposer un événement autour du Numérique Responsable avec des témoignages de dirigeants présentant des exemples concrets d’Innovation produits/services numériques « responsables ». Dawizz est alors intervenu pour expliquer comment le code de sa solution est responsable. Juin : Dawizz a participé au 31e Congrès de Saint-Malo les 14 et 15 juin 2022. L’intelligence artificielle au service de la cyber-sécurité. Aout : Stéphane Le Lionnais, co-fondateur DAWIZZ, est intervenu à l’Interceltic Business Forum – évènement programmé lors du FIL (Festival Interceltique Lorient). Le thème de ce forum était : Comment la cybersécurité peut générer de la valeur et ne pas être un frein au développement du business ? Description Septembre : -Participation au Salon de la Data qui a eu lieu à la Cité des Congrès de Nantes. -Exposition au salon BigData et AI Paris au palais des congrès. Un évènement qui regroupe plus de 350 interventions, 250 entreprises exposantes et 15000 participants. Le plus grand salon européen de la Data & de l’IA. -Animation d’une conférence au village by CA du Morbihan, co-animée avec Julien Subercaze de AItenders sur le thème de l’intelligence artificielle. Dawizz est apparue dans la presse internationale FF CYBERSECURITY L'écosystème de la cybersécurité en France est composé d'une large variété d'acteurs, allant des entreprises de sécurité informatique aux éditeurs de logiciels de sécurité en passant par les consultants en sécurité et les organismes de certification. Dawizz, est reconnu en tant que membre de cet écosystème, et apparait dans la nouvelle version de la cartographie de l'Écosystème Cybersécurité Français réalisée avec le soutien de nos partenaires Roam, Apave, Mission Ecoter, COMCyberGEND et AFNOR Certification ! Description START US INSIGHT Sur 452 startups analysées par StartUS, Dawizz apparait comme l’une des 5 meilleures startups dans le monde à faire progresser la cartographie des données. Dawizz a su se faire une place en proposant des solutions innovantes et efficaces pour représenter et analyser les données de manière visuelle. Grâce à son expertise, Dawizz contribue à son échelle à faire progresser la cartographie des données dans le monde entier. 👉 https://lnkd.in/dSyuC5BZ Description WAVESTONE Dans cette représentation d’un radar des startups de la cybersécurité réalisé par wavestone, il y a 166 startups spécialisées, sélectionnées par des critères bien précis. Dawizz se positionne dans la catégorie Data security. Pour en savoir plus rendez-vous ici 👉 https://www.wavestone.com/fr/insight/radar-startups-cybersecurite-2022/ Description On a hâte de voir ce que nous réserve 2023 ! En 2023, retrouvez-nous à différents salons et conférences dont : td, tr, th { border: none!important; } | | | | |-|-|-| |Description| Description|Description | En attendant, on se retrouve sur notre page Linked In et Twitter, pour suivre toutes les actualités de Dawizz !
8 décembre 2022
#Data #Gouvernance
Une « quatrième de couverture » pour vos données !
Selon Gartner, la définition d’un data catalog est la suivante : «un catalogue de données maintient un inventaire des données actives grâce à la découverte, la description et l’organisation d’un ensemble de données». Souvent on décrit le data catalog en utilisant la métaphore de la bibliothèque. En effet, pour rechercher/trouver facilement un livre dans les rayons (comme une donnée dans un système d’information) on fait appel à des métadonnées (classification, auteur, sujet, etc.) Pourquoi ne pas aller plus loin et reprendre, dans un data catalog, le principe de la quatrième de couverture des livres ? En effet, avec le livre, la quatrième de couverture est primordiale pour déclencher l’envie d’en savoir davantage, de le feuilleter, d’en télécharger un extrait ou de l’acheter. Pour promouvoir l’intérêt d’un inventaire des données dans les organisations, il faut aller plus loin que le simple catalogage des métadonnées (lieu de stockage, liste des attributs, nombre d’enregistrements, nombre d’utilisations, etc.), il est ainsi primordial de comprendre les données recensées (les enregistrements saisis). Chez Dawizz, au-delà de la récupération automatique de métadonnées existantes liées au contenant (les tables par exemple), nous créons également des métadonnées liées au contenu (les enregistrements). Pour faire simple, nous gérons une sorte de quatrième de couverture sur les données. Les algorithmes et les modèles d’IA créés par Dawizz ne sont pas utilisés pour extraire des échantillons mais bien pour décrire davantage les données et ainsi captiver les utilisateurs du data catalog et faciliter leur appropriation du patrimoine de données de leur organisation.
17 novembre 2021
#Sécurité #Gouvernance #Cybersécurité
Le data catalog au service de la Cybersécurité
Pour la troisième année consécutive, Dawizz est mentionné dans le radar de l’écosystème français de la cybersécurité. La protection des données est une de nos priorités. Aussi nous sommes fiers d'apparaître dans la catégorie « Data Security ». Cette année encore, Wavestone et Le Hub BPI ont mené des entretiens qualitatifs et identifié/cartographié les startups /scale-ups parmi les plus prometteuses du secteur Notre solution de catalogage des données – data catalog s’inscrit dans l’une des 7 catégories présentées dans le radar et il s’agit évidemment de la « Data » Data Network Cybercriminals Risk Management & compliance Users & their devices Applications New Technologies Dawizz est effectivement spécialisée dans la gouvernance des données (structurées et non structurées). Éditrice du logiciel MyDataCatalogue, elle accompagne au quotidien ses utilisateurs dans leur démarche de confidentialité et de sécurité de leurs données, d’hygiène du SI et priorise la surveillance du SI (en complémentarité des SOC/SIEM) par une meilleure connaissance de la sensibilité des données présentes dans le système d’information. MyDataCatalogue permet en effet d'automatiser la connaissance des données (structurées ou non) présentes et manipulées au sein du système d'information. Il s’agit d’une solution intelligente et multilingue basée sur des algorithmes de reconnaissance et de classification Quel est l’objectif du data catalog dans une approche de cybersécurité ? Nous proposons une solution qui permet à nos clients d’obtenir rapidement un panorama complet des données de leur système d’information. Nos sondes extraient automatiquement les métadonnées des bases de données d’applications, de fichiers structurés (CSV, excel, txt), et de fichiers non structurés (word, pdf, …). Grâce à un procédé de « machine learning » complété par notre base de connaissance, ces métadonnées (données qui caractérisent la donnée) sont normalisées et classifiées automatiquement par nos algorithmes. Les données sont ainsi publiées dans MyDataCatalogue avec leur métadonnée. Les standards de la sécurité comme l'ANSSI et le CIS (Center for Internet Security), entre autres, plébiscitent le recours à un SOC dans le cadre d'une politique de sécurité renforcée. Les SIEM traitent une masse de données de plus en plus importante et déclenche de ce fait des alarmes trop fréquemment voire de faux positifs, le plus souvent lorsqu'il est déjà trop tard. De plus, l'analyse des logs issus des SIEM sont très chronophages en temps passé pour analyser les impacts ; ceci par manque de connaissance fonctionnelle des données manipulées au sein des applications. Aussi, la complémentarité de notre solution de cartographie automatique des données avec reconnaissance du niveau de sensibilité (ceci grâce à des algorithmes), à une approche SOC semble évidente pour permettre à nos clients d'avoir une priorisation dans la gestion des logs issus du SIEM. Pourquoi le catalogage de données est une aide à la décision pour les RSSI /DSI? Dans un contexte où la croissance des données créées, échangées, stockées est exponentielle, un RSSI, chargé de définir et de s’assurer de la mise en œuvre de la politique de sécurité, doit être omniprésent en préventif, en analyse et en réaction Comme l’indique Alain Bouillé (RSSI de la Caisse des Dépôts), «Le règlement européen RGPD aide l’entreprise à faire l’identification des données personnelles, mais tout reste à faire pour les autres données numériques » Pour être pertinent, le RSSI doit analyser de plus en plus finement les données du SI. Notre solution de catalogage et de cartographie automatique des données permet aux RSSI/DSI des entreprises et structures publics de prendre sereinement des décisions stratégiques, avec une gestion des risques liées à la donnée orientée « protection » tout en optimisant sa performance Pour faciliter les analyses de données par un RSSI, des matchers dédiés Cybersécurité ont été implémentés dans la solution. Des mesures ont également été faites au niveau du déploiement de nos sondes. En effet, une interface dédiée à l’administration de nos crawlers permet de simplifier l’audit du SI des différents serveurs et postes informatiques (gestion du shadow IT). Enfin, un service d'alerte et de notification a été implémenté dans MyDataCatalogue permettant ainsi à un utilisateur ou à une solutions tierces (comme un SOC par exemple) de s'abonner à notre solution et d'être alerté par exemple sur la découverte de nouvelles de données sensibles dans le système d'information Quels sont les cybers risques couverts avec le data catalog ? La cartographie des risques est la pierre angulaire de tout plan d’action sécurité du système d’information. Elle vise à définir toutes les actions nécessaires pour parvenir à un niveau de risque résiduel qui puisse être accepté en toute connaissance de cause, au bon niveau de décision. Le principal enjeu de la démarche pour un RSSI est de bien hiérarchiser les vulnérabilités et ne pas compromettre sa crédibilité en lançant de fausses alertes qui font perdre du temps à ses collègues. Aussi, afin de sécuriser les données avec efficacité, avant de savoir comment protéger, il faut se poser la question : que faut-il protéger ? et la réponse passe obligatoirement par un inventaire précis et exhaustif des données présents dans le patrimoine informationnel avec leur niveau de sensibilité
6 juin 2021
#Gouvernance
Qu'est-ce qu'un data catalog ou catalogue de données ?
Toutes informations (qu'elles soient structurées ou non) présentes dans une organisation peuvent potentiellement favoriser l’innovation, être soumises à de la réglementation ou être simplement mieux partagées … Aussi, quelle que soit l’organisation et son secteur d’activité, les données sont indispensables. Mais comment permettre à l’ensemble de ses collaborateurs de trouver et d’accéder aux bonnes informations/données au-dessus des systèmes data encore largement silotés. C’est la raison d’être d’un data catalog de permettre de démocratiser l’accès aux données. Définition d’un data catalog Un « data catalog » est un outil de gestion des métadonnées permettant de centraliser la connaissance de son patrimoine informationnel. Il doit permettre à chacun, quel que soit son profil, de comprendre et retrouver les informations gérées dans les différentes sources de données (données structurées ou non) du système d’information. Un « data catalog » s’appuie en autre sur un savoir-faire historique … celui des bibliothécaires : l’indexation et la cotation des documents. L'indexation traduit et signale le contenu d'une source de données, tandis que la cotation attribue à cette source une adresse physique. L'approche Dawizz pour créer un data catalog L’indexation peut être plus ou moins détaillée en fonction des besoins des utilisateurs et de leur profil. Dans le cas de MyDataCatalogue, nous utilisons deux types d'indexation : l’indexation « libre » qui construite à partir du langage naturel et constituer une folksonomie (ensemble de mots clés) : celle-ci est notamment pratiquée par les utilisateurs eux-mêmes via ce que l'on appelle un “tag” ; et l'indexation analytique, aussi appelée « indexation matière », qui décrit le contenu d'une source à l'aide d’un langage documentaire structuré, c’est-à-dire via un thésaurus. Cette classification se fait de façon automatique car il s’agit de mapper le contenu des sources avec des concepts existants. Quant à la méthodologie de cotation des documents par les bibliothécaires, elle est reprise dans MyDataCatalogue sous forme de cartographie des données, c’est-à-dire de récupération de métadonnées de localisation des sources dans le système d’information. Pour simplifier la recherche de données dans un « data-catalog », il est également intéressant de classifier les métadonnées elles-mêmes. En effet, on peut considérer qu’il existe 3 grandes catégories de métadonnées sur les données : des métadonnées techniques, des métadonnées fonctionnelles et des métadonnées partagées. L’objectif de cette classification est de permettre différents prismes pour visualiser son catalogue : une vision SI des données, une vision métier des données et/ou une vision partagée des données. Dans le cas de MyDataCatalogue, nous avons conçu des interfaces différentes (portails dédiés) selon la vision souhaitée, simplifiant ainsi la compréhension des métadonnées par chacun des utilisateurs. Un catalogue de données n'a pas vocation à être statique : il doit donc permettre une vision exhaustive du patrimoine de données, de l'évolution des données dans le temps (cycle de vie des données) et leurs traitements associés avec éventuellement transfert physique d'un lieu de stockage à un autre (fonction de « traçabilité », ou « Data Lineage »). Des fonctionnalités avancées de MyDataCatalogue permettent également la création de métadonnées par les données elles-mêmes. En effet, une analyse des données permet de compléter les métadonnées déjà associées : par exemple, il est possible d’automatiser la reconnaissance de typologie de données dans les applications métiers sans prise en compte des métadonnées déjà associées, comme le nom des attributs des bases de données. Les analyses de métadonnées et de données se font soit en parallèle (approche découverte) soit de façon itérative (approche ciblée). Concrètement, pour piloter une approche de catalogage des données (qui souvent fait partie d’une approche plus globale de gouvernance des données), il est recommandé de mettre en place des indicateurs de pilotage associés comme par exemples : Indicateur de niveau de qualité sur les métadonnées techniques Indicateurs de niveau de criticité et de conformité sur les métadonnées fonctionnelles Indicateurs de niveau de consultation sur les métadonnées partagées Pour conclure, un data catalog comme MyDataCatalogue est bien un outil d’aide à la décision car il permet de visualiser et filtrer une masse de données uniquement par leurs descriptions et la rendre compréhensible voire accessible. Son objectif est de connaître et localiser l’ensemble de ses données, cela à des fins de sécurité, de conformité, d’optimisation et bien entendu de partage du patrimoine informationnel.
10 février 2021
#Data cleaning #RGPD
Pourquoi mettre en œuvre un processus de Data Cleaning ?
La démocratisation des outils bureautiques, le besoin de collaborer et d’analyser au quotidien, ont largement contribué à l’explosion des documents et au stockage de données dans des fichiers : les données non-structurées constituent à présent une partie importante du patrimoine de données. Il est donc nécessaire de les intégrer dans le processus de cartographie. Mais avant de les analyser, il faut réaliser un nettoyage des données : le Data Cleaning. Qu’est-ce que le Data Cleaning ? Le Data Cleaning est un processus informatique qui consiste à nettoyer les données avant de faire une analyse de ces dernières. L’objectif du Data Cleaning est d’identifier les données qui sont obsolètes, incomplètes, corrompues ou encore dupliquées au sein d’un système d’information. Ces données sont ensuite retirées du catalogue de données pour ne pas altérer ou nuire à la précision des données stockées. Un volume de données qui explose dans le cloud mais pas que ... Selon des études IDC, les volumes de données devraient atteindre 175 zettaoctets (un zettaoctet = 1 milliard de téraoctets !) à l’échelle mondiale d’ici 2025 … et en parallèle, moins de 0,5 % de ces données seraient actuellement analysées. Le stockage des données se fait à la fois dans des serveurs bureautiques dédiés, sur les Clouds » et dans les équipements personnels (ordinateur, disque dur externe…). Aussi, il est nécessaire de nettoyer régulièrement son système d’information afin : de faciliter sa mise en conformité avec des réglementations telle que le RGPD (par une réduction des sources sensibles) de minimiser sa surface d’exposition à des risques Cyber,  de limiter son impact environnemental (le stockage numérique nécessite des serveurs, des data center, du matériel réseau, … dont l’empreinte écologique est plutôt élevée à ce jour), Quelques conseils pour mettre en œuvre un processus de nettoyage des fichiers (Data cleansing / Data cleaning) : Chaque organisation possède des données sensibles. Ces dernières peuvent porter sur son activité propre (propriété intellectuelle, savoir-faire, etc.) ou sur ses clients, administrés ou usagers (données personnelles, contrats, etc.). La sensibilisation des équipes aux risques associés à ces données reste encore le premier conseil pour mettre en œuvre une bonne stratégie data et de nettoyage au fil de l’eau, que l’on pourrait nommer ici « hygiène informatique ».  Chaque organisation doit être capable d’identifier facilement les données à risques. Le premier levier, la phase détection des fichiers obsolètes, est généralement le plus radical et efficace : combien de fichiers de plus de 5 ans d’âge sont vraiment nécessaires au fonctionnement d’une organisation ? Après cette étape de suppression des fichiers obsolètes, la priorisation des actions peut se faire par niveau de sensibilité des données. En effet, une classification des fichiers selon leur niveau de risque, permet de hiérarchiser, de minimiser le travail d’analyse, et enfin de prioriser les actions de nettoyage. Mettre en place une stratégie, une politique de sécurité afin de limiter les accès aux fichiers sensibles (sécurisation au niveau du stockage, gestion des privilèges) L’automatisation de la démarche par des outils dédiés constitue la garantie d’un processus vraiment appliqué. En effet, au regard du volume, le travail de classification, d’analyse des fichiers ne peut pas être réalisé humainement de façon exhaustive et efficace. Aussi, il est préférable de s’appuyer sur des solutions « intelligentes » implémentant des algorithmes et permettant un audit/monitoring régulier du patrimoine informationnel  Au-delà de la sensibilisation des collaborateurs, il est en effet nécessaire de centraliser l’identification des données sensibles, et de définir des processus de classification, de nettoyage des fichiers afin de définir les mesures de sécurité spécifiques pouvant porter sur la sauvegarde, la suppression, la journalisation, les accès, etc.