Le Big Data, du Big Brother… En pire ?
Quiconque possède un compte sur les réseaux sociaux tel Facebook, Twitter ou LinkedIn tombe de facto sous l’égide du Big Data. Ceux qui font des achats sur Amazon, participent à des enchères eBay, ceux qui ont un compte Google, regardent des vidéos Youtube, tous sont soumis au principe du Big Data. Mais de quoi s’agit-il vraiment ?
« Big Brother is waching you », tel est la maxime récurrente du roman 1984 de George Orwell. Allégorie du pouvoir, Big Brother n’est pas incarné, seulement représenté sous forme d'affiche; emblème d’une société stratifiée et sous contrôle. Le concept de « Big Brother » fut tel, qu'il a dépassé le contexte du livre pour s’associer, dans la culture populaire, à l’omniscience d’un contrôle étatique au dépend des libertés individuelles. Un pourvoir qui surveille tout, sait tout et contrôle tout.
Internet, quant à lui, a beaucoup grandi. De quelques sociétés pionnières du réseau des réseaux ; autre nom donné à Internet ; est-on passé à l’obligation d'y être acteur pour les entreprises d’une certaine taille. Car le web, il faut le rappeler, n’est né que dans les années 1990 ; mais est pourtant le théâtre, pour ne pas dire l’instigateur, de plusieurs révolutions majeures sociétales. En l’espace d'un peu plus de 20 ans, mise à disposition d’un savoir encyclopédique colossal, instantanéité quelles qu'elles soient des recherches, actualisation en temps réel de l’information, création des notions de réseaux sociaux, réduction des circuits de distributions, des intermédiaires, des coûts dans les communications, etc.
Les exemples ne manquent pas quand il s'agit d'internet, tant il participe à la mutation sociale, qu'elle soit locale ; là où l’individu se trouve, ville, région, pays ; ou qu’elle soit globale, c’est-à-dire à l’échelle de la planète, tous pays confondus.
On peut aisément, via les réseaux sociaux, avoir des nouvelles de quelqu’un à l’autre bout du globe sans dépenser le moindre denier. Avoir une vision in-situ d’une guerre, d’un conflit ou d’une catastrophe naturelle. L’usage est devenu commun, on ne réalise même plus cette prouesse technique inenvisageable deux décennies auparavant.
Certaines sociétés, désormais nommées géants du web, sont nées post-internet et jouissent d'une renommée mondiale : Google en tête, sans oublier Amazon, Yahoo, Facebook, Twitter, eBay, leurs confrères et consœurs.
Toutes ces sociétés ont un point technique en commun ; elles se doivent d’agréger, autrement dit collecter, analyser, traiter et consolider, un nombre exorbitant de données. Elles ont tant d’utilisateurs connectés, tant de données à fournir ou à stocker qu’il faut procéder différemment du processus « standard » du traitement de l'information.
Par modèle standard, on entend ce qui se faisait jusqu’alors dans les entreprises, à savoir l’utilisation d’une base de données. Sur le principe, une base de données fonctionne comme un gigantesque répertoire. Les données sont classifiées, archivées en un endroit, et toute une série de mécanismes sont mis en œuvre pour garantir l’Atomicité, l’Intégrité, la Cohérence et la Durabilité des données ; chose que nous informaticiens dénommons ACID.
En outre, interroge-t-on une base de données ; on parle alors de requête ; de façon structurée grâce à un langage d’interrogation spécial. Ce langage se nomme SQL, pour Structured Query Language.
Enfin, la base de données est localisée à un endroit précis et souvent fonction d’un nombre restreint de machines suréquipées en processeurs et ayant accès à une zone de stockage dédiées (un SAN, Storage Area Network).
Quand on manipule un nombre important de données, ce modèle n’est plus viable car il y a un surplus d’information à stocker ; on ne peut plus se servir d’un seul gigantesque répertoire et reposer sur quelques grosses machines. Il faut procéder rigoureusement autrement, fonctionner en mode dit « réparti ».
De nombreuses techniques et technologies ont ainsi vu le jour. Parmi les plus connus, il y a Hadoop, MongoDB, Cassendra, Redis, Storm, etc. Les requêtes ne sont alors plus structurées, on parle ainsi de NoSQL.
En mode Big Data, on ne parle plus d'ACID, mais de redondance de l'information et d'un système de clés/valeurs. Ces technologies sont si efficaces qu’elles permettent de stocker en masse tout ce qui "passe" par une société ; y-compris des choses dont elles ne voient pas l’utilité pour le moment.
Stockage en masse des achats, préférences, messages échangés, parcours sur le web (la façon de passer d'un site à l'autre). Le combat qui se jouent actuellement est comment, à partir de ce volume gigantesque de données, en déduire quelque chose de pertinent. A cette fin, fait-on appel à des outils dits « analytiques » (le terme exact est OLAP) pour avoir une approche statistique et déterministe des comportements. Savoir vos goûts, préférences, votre comportement, ceci afin de cibler le marketing.
Big Data, Big Brother, le concept est finalement proche. Qu'en pensez-vous ?