Big data : « Les données sont un gisement de croissance pour toutes les industries. »


Le big data a contribué, via le développement de techniques spécifiques, à un traitement de meilleure qualité des données en masse, ce qui a été bénéfique à de nombreux secteurs. Appui à la performance et nouvelles exigences en matière de gouvernance : zoom sur ce que le big data a changé dans l’usage de la donnée par les entreprises avec Ugo Comignani, maître de conférence à l'Ensimag et co-responsable du Mastère spécialisé en big data de l’Ensimag et de Grenoble École de Management.


Le big data à l’appui de la performance


Avec l’augmentation graduelle des quantités de données est apparu le buzz word de « big data », décrit par Douglas Laney dès 2001. L’analyste a pour cela listé trois grandes propriétés caractéristiques du big data – les « 3 V » : volume, variété et vitesse. Le big data désigne donc un volume croissant de données, de types variés (de la donnée brute à la donnée non structurée ou semi-structurée), produites, stockées et traitées à une vitesse croissante. Une révolution pour de nombreuses entreprises, tous secteurs confondus.


Ugo Comignani décrypte : « Les quantités croissantes de données et le développement des techniques pour les analyser ont amené de nombreuses entreprises à reconsidérer l’importance de la data pour leur entreprise. Celle-ci n’est plus perçue comme un « plus » mais bien comme un actif essentiel permettant de piloter l’activité et de générer de la valeur. » Rationalisation de la prise de décision, amélioration de la connaissance client, détection d’erreurs ou de fraudes, identification de nouvelles opportunités business… L’expert le souligne : « Les données sont un gisement de croissance pour toutes les industries, que le big data a permis de mieux exploiter ».


Le big data trouve notamment de nombreuses applications dans le secteur immobilier. Des algorithmes permettent ainsi de croiser des données pour rapprocher par exemple les personnes proposant des biens à la location de locataires potentiels, ou encore pour faciliter la comparaison de biens immobiliers, afin d'en évaluer l'attractivité pour les acheteurs. Avant de réaliser un investissement immobilier, il peut en effet s’avérer très utile de compléter les informations données par le vendeur avec d'autres informations disponibles, comme les données météorologiques. Ces données, disponibles en open data, peuvent renseigner l’investisseur potentiel sur la présence de risques naturels dans la zone où se situe le bien qu’il convoite. « Le regroupement de toutes ces informations permet d’effectuer un rapport bénéfice-risque beaucoup plus fin, car appuyé sur une plus grande masse de données. L’estimation de la rentabilité d’un bien sera donc beaucoup plus factuelle, ce qui rend in fine la décision beaucoup plus pragmatique », résume Ugo Comignani.


Qualité des données, qualité des modèles


Le big data a donc révolutionné l’approche que les entreprises avaient de leur propre activité et modifié en profondeur les structures organisationnelles, avec le recrutement d’experts et l’ouverture de départements spécifiquement dédiés à la data. Car, souligne Ugo Comignani, « l’augmentation des flux de données a fait apparaître un enjeu majeur pour les entreprises : celui de la gouvernance de ces données. Une donnée de mauvaise qualité n’est pas exploitable et se repère très difficilement une fois entrée dans le système. Pour éviter cet écueil, il est nécessaire d’établir des codes, des rôles et une structuration rationnelle de la data dans l’entreprise ».


En outre, l’expert insiste sur le fait qu’une donnée brute de qualité ne garantit pas à elle seule la qualité de l’analyse qui en est faite : c’est la pertinence des modèles construits pour l’analyser qui est ici en jeu. « Si vos données sont excellentes mais que votre modèle de machine learning n’est pas adapté, vous n’irez pas très loin », avertit-il. Ainsi, la qualité de la donnée permet de construire de meilleurs jeux de données pour l’entraînement des modèles, mais ces jeux de données doivent également être représentatifs de la population étudiée, l’algorithme adapté au problème posé, la phase d’apprentissage assez complète, etc. Si le travail du data scientist ne remplit pas ces différentes conditions, l’un des risques encourus est par exemple de faire de l’over-fitting, c’est-à-dire de produire un algorithme qui ne soit pertinent que sur un seul jeu de données, ce qui trahit souvent un manque d’entraînement avec un nombre suffisant de données variées.


Data en stock


Mais le nombre de données ne cesse de croître. Pour Ugo Comignani, « l’accumulation de données pose de nouveaux problèmes, tant sur les capacités techniques déployées pour enregistrer et stocker ces données que sur le coût que représentent ces nouveaux outils ». On estime en effet la quantité de données produites en 2020 à une soixantaine d’exaoctets. Or, entre 2020 et 2021, seuls 2% des données produites auraient été conservées, selon les estimations. « Nous produisons aujourd’hui beaucoup plus de données que nous ne sommes capables d’en stocker. L’un des principaux enjeux à venir liés au big data est donc de réfléchir à leur moyen de stockage, ainsi qu’au traitement éthique de ces données, qui ont souvent un caractère sensible », conclut l’expert. Qualité, capacité de stockage et traitement éthique des données : le big data a ouvert de nombreux chantiers relatifs à la gouvernance des données dans les entreprises, dont certains n’en sont qu’à leur prémices.