Retrouvez Weekly sur Facebook

High-Tech

Comment réussir sa transition Big Data.

Le Big Data est dans les lèvres de tous les managers. Que faut-il savoir pour réussir sa transition ?

Le Big Data est présenté, tout comme l’internet des objets (IoT) comme l’une des plus grandes révolutions informatiques. Transition des systèmes d’informations, elle s’affiche comme la technologie qui saura apporter de la valeur ajoutée à un patrimoine informatisé dormant ; comprenez par là l’immensité des données que peut avoir emmagasinée une entreprise dans ses différents systèmes et qui n’a été ni analysée ni corrélée. Informations, comportements et parcours clients sur différents canaux de ventes, mécaniques d’achat, transformation du prospect en client ou affilié, rôles statistiques des prescripteurs, impacts fournisseurs, tout peut faire partie du champ d’investigation.

À ces données internes, que l’on qualifie d’endogènes, générées par le système d’information de l’entreprise, vient s’ajouter l’immense potentiel des données externes, exogènes, en provenance de systèmes autres, réseaux sociaux, analyses marketing ou financière sectorielles, articles de presse ou données « ouvertes » en provenance d’organismes publics ou sociétés référentes dans leur domaine (Open Data).

L’orienté données, ou « data-centric » pour les intimes, se profile comme un axe stratégique duquel il ne faut pas s’éloigner, car la promesse est alléchante. Offrir au management ; afin de prendre les bons choix, satisfaire ses clients et se démarquer de la concurrence ; des données porteuses de sens (la fameuse « smart data ») parmi des informations plurielles et polymorphes.

Car effectivement, par nature, une information peut revêtir plusieurs formes ; au sens où ce qu’elle véhicule peut être appréhendé différemment en fonction des métiers et intérêts qu’on y porte. Mieux, quand une information transite au sein d’une entreprise, elle se transforme, se sépare (« split »), fusionne (« merge »), s’agrège (« aggregate») et sa valeur augmente, car se complète par « bonds » entre les applications. Au demeurant, un nom existe quant à la maîtrise du flux des données, du suivi de leur évolution et leur cycle de vie : le data lineage ; et il fait souvent partie des nombreux objectifs de mise en œuvre du Big data.

Afin de gérer cette caractéristique intrinsèque d’une donnée à s’enrichir et se présenter différemment en fonction de celui qui l’interroge, on ne stocke plus simplement la donnée, mais également tout ce qui gravite autour et permet de la renseigner, qualifier ou affiner. On nomme métadonnées (ou metadata) les données relatives à une donnée. Et comme cet ensemble peut évoluer au cours du temps, il s’avère pratique de pouvoir tracer dans le temps ses différentes versions (versioning).

Fantastique, n’est-ce pas ? Mais ce n’est pas tout. Certaines données peuvent contenir du contenu non prévu, c’est-à-dire des informations de type autre que l’on ne concevait pas d’ingérer, stocker ou qu’on ne sait encore ni traiter ni analyser. Ces données dites non structurées ; par opposition à toutes celles qui sont structurées, car leur teneur est prévisible, faisant partie d’un champ des possibles déterminé par le métier ou le programmeur ; disparaissaient autrefois des systèmes d’information. Tout au mieux se retrouvaient-elles sous forme de texte dans une base ou de fichiers épars sur des disques réseau.

Devinez…

Oui, le Big Data peut stocker des informations et leurs métadata, qu’elles soient endogènes et exogènes, tout en gérant le versioning et l’incorporation de données structurées et non structurées et effectuer un data-lineage. C’est effectivement un net avantage, pour ne pas dire plus précisément un gigantesque potentiel. Plus vous avez d’information, plus existe la potentialité d’y dénicher des choses intéressantes. C’est cela qu’ont compris nombre de décideurs et nombre de managers bien que trouvant la notion de Big Data trop « floue » car composée de nombreux termes et acronymes ; souvent en anglais, pour ne pas faciliter la chose.

Mais tous espèrent trouver cette « smart data » dans le « big data » ; tous croient à l’analyse et exploitation de données colossales, à ce « data crunching » pour trouver ce plus marketing, commercial, financier, RH... Ou bien encore tout simplement un nouveau cas d’usage.

Mais alors, quelles différences avec un datawarehouse et la fameuse « Business Intelligence » ?

Pour être très clair, aucune. Les objectifs sont rigoureusement les mêmes, mais ce sont les moyens et les probabilités d’y arriver qui changent. Le datawarehouse est un entrepôt de données permettant des analyses et la génération de tableaux de bord (dashboards) à destination des décideurs et management de différents services ; on parle alors de datamart, à imaginer comme des sous-ensembles spécialisés du datawarehouse. Et si le datawarehouse intègre vastement des données internes à l’entreprise, les buts initiaux de cette catégorie logicielle étaient de créer des tableaux de bord les plus complets avec toutes sortes d'informations possibles.Dans un datawarehouse et ses datamarts, on agrège d’une part ses données, notamment pour avoir des indicateurs de management (les fameuses KPI, Key Performance Indicator) et on les explore, littéralement on y fait du forage (data-mining) pour y trouver ce qui nous intéressent.

Les projets datawarehouse sont nombreux, plus ou moins aboutis, mais ne sont pas parfait, forcément, plus il y a de données, plus le fonctionnel est complexe, plus il est difficile de tout gérer, plus l’ensemble est jugé insuffisamment rapide. Et qui pourrait vous sauver ?

Banco ! Le Big Data !

Effectivement, le Big Data peut amener la réflexion plus loin, peut apporter plus de choses ; les technologies évoluant. Mais c’est paradoxalement en ce point précis qu’il y a amalgame, mécompréhension et risque d’utopie sur le BigData.

Sur le concept, le Big Data n’est à l’origine ni plus ni moins qu’un buzzword indiquant la capacité substantielle d’un système à gérer un volume impressionnant de données. Techniquement parlant, il se synthétise en un ensemble de techniques et architectures pour s’accommoder d’un exercice de quadrature impossible : il est inconcevable d’avoir un système qui répond à la fois à un grand nombre d’utilisateurs, résiste aux pannes et donne une vision cohérente des données. Cet exercice est formalisé sous la forme d’un théorème, le théorème de CAP ou de Brewer que nous avons évoqué dans un précédent article.

Le Big Data n’est donc pas fait à l’origine pour être aussi efficace qu’une base de données classique pour gérer le transactionnel, puisqu’il poursuit d’autres buts et procède autrement. De même, il n’a pas vocation initiale à analyser vos données comme un datawarehouse ou de la BI ; ce n’est guère lui qui donne la dimension « analytique » au système d’information Enfin, ce n’est pas non plus lui qui vous amène le domaine « prédictif » et le fameux « machine learning ». Ces dimensions sont des domaines à part qui se greffent au Big data ; plus exactement, qui s’en nourrissent. Plus vous avez de données, mieux vous analysez, mieux vous prédisez, mais ce n’est pas non plus magique, il faut un énorme savoir-faire, des compétences mathématiques et scientifiques ; distinguant dès lors les data analysts des data scientists ( ceux qui analysent les données versus ceux qui savent en créer de nouvelles valeurs pour le top management.).

Le terme « Big Data » englobe désormais tous ces concepts, mais ils sont bien rigoureusement distincts. C’est d’ailleurs pour cette raison qu’il existe un florilège de solutions qui se cumulent les unes aux autres au point de rendre fou le novice ou le manager qui tente d’y comprendre quelque chose. De nombreux clients installent Hadoop et se considèrent Big-Data, jusqu’au jour où il réalise qu’Hadoop est un framework et qu’installer Hadoop ne veut quasiment rien dire. On installe HDFS, puis on met HBase, Flume, Spark, Oozie, Sqoop… C’est au choix.

Ce raisonnement est le même pour Cassandra, MongoDB et consorts qui fonctionnent très bien seuls, mais nécessitent l’adjonction de produits et technologies complémentaires pour celles et ceux qui doivent mettre en œuvre une solution Big Data dans son ensemble, telle qu’imaginée par le Business, de la gestion de données en masse jusqu’au prédictif.

Ajoutez à cela que dans l’esprit de nombreux utilisateurs le Big Data est conçu pour tout pouvoir stocker et analyser ; il y a d’ailleurs le concept de datalake, ce lac de données, capable de contenir toutes les données de l’entreprise ; alors que les concepts sont nouveaux, loin d’être aboutis, et en pleine évolution ; il s’agit plus d’un vœu pieux qu’une tangible réalité.

Ceci dit et ceci connu, on peut alors envisager sereinement sa transition Big Data. Ce n’est pas la panacée ou une martingale pour développer son business. C’est une série d’outils et de techniques permettant d’appréhender le stockage en masse et l’analyse à un coût raisonnable par rapport à de supercalculateurs. Il n’y a pas de solution miracle, c’est loin d’être parfait, mais cela permet de pousser son datawarehouse et sa Business Intelligence plus loin. En ajoutant une dimension statistique, d’analyse et de machine learning on pourrait probablement apporter des avantages à son entreprise ; notez l’usage du probablement.

Et vous, quel est votre avis ? Exprimez-vous ! Réagissez à cet article.


Suivez-nous

Les auteurs