Pas le temps de lire ? Écoutez cet article en podcast !

Le Big Data, c’est comme le sexe chez les adolescents : tout le monde en parle, personne ne sait vraiment comment s’y prendre, tout le monde pense que tous les autres le font, donc tout le monde prétend le faire”

Cette citation de Dan Ariely, professeur à l’université de Duke, résume bien la situation. le Big Data, c’est très tendance, mais à part les professionnels de la data, peu de gens savent vraiment de quoi il s’agit.

On entend régulièrement dans les salons qu’untel “fait du big data”, ce qui n’a aucun sens. Le Big Data est simplement à la base un concept qui désigne un gros volume de données. D’ailleurs, littéralement, Big Data signifie “Grosses Données”.

Définition intuitive

Qu’appelle-t-on Grosses données, ou Mégadonnées ?

Et bien en réalité cela dépend du contexte. On va considérer en général que l’on a affaire à du Big Data si la taille des données à traiter est supérieure à la capacité de la mémoire vive (RAM) de l’ordinateur sur lesquelles elles sont traitées. Cela arrive par exemple si vous travaillez sur un ordinateur avec 4 Go de RAM et que vous devez traiter un fichier texte de 10 Go. On pourra parler de Big Data car vous allez devoir mettre en place des stratégies et des solutions techniques spécifiques pour pouvoir traiter ce fichier texte.

Définition … moins intuitive

En réalité, le Big Data désigne l’ensemble des outils qui permettent de répondre à 3 problématiques :

  1. le Volume de données : c’est que ce que nous venons de voir plus haut. La quantité des données à traiter est le facteur déterminant.
  2. La Variété des données. Reprenons l’exemple de notre fichier texte de 10 Go. Peut-être que notre fichier ne contient que des noms et prénoms, et dans ce cas il est assez simple à traiter. Par contre, il arrive fréquemment que de tels fichiers texte contiennent des données diverses telles que la date, le temps d’utilisation, la météo, des liens vers des images, etc. Souvent, ces données sont stockées dans des fichiers structurés appelés bases de données NoSQL.
  3. la Vélocité de traitement. C’est la vitesse à laquelle les données doivent être traitées. Par exemple, quand vous regardez des vidéos sur Youtube, Youtube vous recommande d’autres vidéos à regarder. Pour vous recommander ces vidéos, Youtube utilise un algorithme qui analyse en un instant les autres vidéos que vous avez déjà regardées, pour vous présenter des contenus pertinents. Cette analyse, ce traitement de données, est instantanée. Cette vélocité nécessite là encore la mise en place de techniques bien spécifiques.

Le Big Data répond donc à ces 3 critères : Volume, Variété, Vélocité. C’est la règle des 3 V. A ces critères on ajoute désormais 2 autres V : Véracité (la fiabilité des données obtenues) et Valeur (ce que la donnée récoltée vaut sur un plan stratégique et économique).

Les 5 V du Big Data : Volume, Variété, Vélocité, Véracité, Valeur.

Pourquoi le Big Data est-il important pour les entreprises ?

Prenons le problème à l’envers. Pourquoi autant d’efforts auraient-ils été déployés, et autant d’argent investi, pour développer des technologies de stockage, de traitement, et d’analyse de mégadonnées, si celles-ci n’avaient aucune utilité ?
Le big data sert en gros trois objectifs, qui peuvent ou non être conjoints :

  1. Proposer un meilleur service
  2. Prendre de meilleurs décisions
  3. Réduire les risques

Appliqués à l’entreprise, ces 3 objectifs permettent soit de gagner davantage d’argent, soit d’éviter d’en perdre. Comment ?

Meilleur service : le Big Data permet par exemple de profiler mathématiquement les clients. Quand un magasin propose une carte de fidélité que vous scannez à chaque passage en caisse, cela lui permet d’associer un comportement d’achat à un identifiant de carte de fidélité. Ce comportement, ou profil d’achat, permet ensuite au magasin de proposer des offres promotionnelles ciblées au propriétaire de la carte de fidélité. Ce profilage permet d’une part de mieux servir ses clients en ne les inondant pas d’offres qui ne les intéressent pas ; d’autre part, il permet d’augmenter le panier moyen du client (la somme d’argent moyenne dépensée par le client à chaque passage au magasin).

Prendre de meilleurs décisions : Ce qui tue les entreprises, ce sont les mauvaises décisions. De mauvais investissement au mauvais moment, une mauvaise anticipation, etc. Ces mauvaises décisions sont dues à l’incertitude. Le Big Data permet de réduire grandement cette incertitude et d’éviter de prendre une décision au feeling, en ayant une perception erronée de la réalité des choses. Dans notre portfolio, nous prenons l’exemple d’une société qui loue des vélos en libre service. L’équipe dirigeante de l’entreprise doit décider si elle doit investir 100k € dans l’achat de 100 nouveaux vélos ou si elle doit investir dans autre chose. Cette décision est cruciale : si un usager arrive à une station et qu’il n’y a pas de vélo disponible, il arrivera en retard au travail, ne fera plus confiance à la société de location de vélos et cette société perdra un client. En utilisant le Big Data, nous pouvons estimer assez justement que dans les semaines à venir, le volumes de vélos loués va baisser, et qu’il n’est pas nécessaire d’investir de suite dans de nouveaux vélos. La société peut donc investir l’argent dans autre chose de plus profitable : marketing, etc.

Réduire les risques : On parle à la fois des risques pour les entreprises et pour les personnes. Pour les usines de production, chaque minute où la ligne de production est stoppée coûte beaucoup d’argent. Ces interruptions sont souvent dues à des pannes. Les outils de traitement du Big Data, notamment une catégorie d’analyse que l’on appelle Deep Learning, permettent de prédire la probabilité qu’une panne surgisse sur telle ou telle machine, en se basant sur les informations données par les capteurs de cette machine. Même si ces capteurs renvoient des valeurs qui sont dans la norme, les outils de Deep Learning sont capable de dire “Attention, ce motif de valeurs est bizarre, la machine a 70% de chance de tomber en panne dans la semaine qui arrive”. Les techniciens peuvent donc aller contrôler la machine concernée et prévenir la panne.

Mais dans mon entreprise, je n’ai pas de données !

Ha bon ? Vous n’avez pas de fichier clients ? Pas de liste des factures ? Toutes les entreprises disposent de données qui peuvent être exploitées. Les TPE et les PME n’ont souvent pas encore la culture de l’analyse de données, alors qu’elles disposent déjà de données qui ont de la valeur. Les entreprises qui mettent en place une stratégie d’analyse de données sont en train de prendre un sérieux avantages sur leurs concurrents, car elles proposent de meilleurs services, prennent de meilleurs décisions stratégiques, et prennent moins de risque. Le Big Data est la révolution d’aujourd’hui, au même titre que la mécanisation de l’industrie et la robotisation l’ont été par le passé.

En résumé

Le Big Data, c’est un concept qui englobe des données hétérogènes, volumineuses, dont le traitement offre un avantage stratégique. A l’heure de la révolution numérique et du tout digital, toutes les entreprises disposent de données dont elles peuvent tirer profit. L’analyse de ces données nécessite des compétences techniques pointues qui ont donné lieux à de nouveaux métiers, dont nous parlerons dans un prochain billet.