Small data vs Big Data

NooLib The Blog | le 06-09-2017
Catégorie : Mathématiques
Nous connaissons tous les Big Data, ces montagnes de données qui s'accumulent chaque jour sur les serveurs du monde entier et que même les mastodontes tels que Facebook ou Google peinent à en extraire l'information utile.

Pourtant, dans la vie d'une entreprise de taille moyenne, il n'est pas nécessairement utile de posséder des montagnes de données pour pouvoir réaliser des statistiques et élaborer une stratégie. En fait, mathématiquement, nous possédons déjà tous les outils statistiques pour le faire et, informatiquement, les algorithmes sont suffisamment évolués pour permettre de réaliser les calculs dans des temps tout à fait raisonnables.

La problématique des Big Data réside dans le fait qu'il y a trop de données à traiter et que nous ne savons pas quel paramètre renseigner dans tel ou tel modèle tellement les possibilités sont gigantesques. Une des solutions seraient de détruire certaines données non essentielles pour ne conserver que les plus utiles. Il semble en effet que la solution à la surcharge d'information inutile soit une adaptation plus fine des méthodes de gestion des connaissances aux caractéristiques des entreprises [1]. En effet, il apparaît naturel qu'une entreprise dans un secteur donné, et qui reçoit une quantité énorme d'informations par jour, ne conserve que celles qui l'intéressent réellement. Faire disparaître l'information serait finalement une bonne chose, du moment que cette information est inutile. Mais comment reconnaître l'information inutile ?

La problématique des Small Data est tout autre. Il semble en apparence aisé de recueillir un minimum de données pour pouvoir en déduire des résultats préliminaires. Mais, bien souvent, dans des études à plus grande échelle, l'analyste est confronté à un manque de puissance statistique, c'est-à-dire à un manque de données pertinentes par rapport au degré de sensibilité qu'il désire atteindre. Par exemple, plus vous désirez inclure de paramètres dans votre analyse et plus serez obligé de prendre en compte un risque faible afin de garantir la fiabilité de vos résultats. Si pour un seul paramètre, vous estimez que le risque d'erreur est de 5%, alors pour 10 paramètres ce risque d'erreur doit descendre à 0,5%. Autant dire que votre étude ne vous permettra jamais d'atteindre un tel degré de sensibilité tellement celui-ci est faible.

Bien souvent, en médecine, les chercheurs sont confrontés à ce type de problème. Les méthodes statistiques existent, les algorithmes sont performants mais le nombre d'enregistrements n'est pas suffisant pour pouvoir en déduire des résultats fiables (avec une marge d'erreur acceptable). Dans ce cas, le chercheur ne peut rien conclure et statistiquement cela signifie que les différences observées sont dues au hasard. On pourrait rétorquer qu'il suffirait d'augmenter le nombre d'enregistrements. Mais cela n'est pas toujours possible. Et même s'il était faisable d'enregistrer les variables sur quelques patients supplémentaires, cela ne résout généralement pas le problème puisque ce sont en réalité des milliers d'enregistrements supplémentaires qu'il faudrait réaliser. Seuls des études multi-centriques à très grande échelle réalisées par d'imposantes structures peuvent répondre à cette problématique.

En définitif, la véritable problématique ne se situe pas au niveau des Big Data mais plutôt au niveau des Small Data. Nous manquons de données pour pouvoir établir des pronostiques fiables et nous n'avons que peu de moyen humain ou financier d'augmenter le nombre d’enregistrements. Ainsi, l'enjeu de demain, qu'il soit mathématique ou informatique, est de trouver de nouvelles théories statistiques ou de nouveaux algorithmes permettant de réduire le risque d'erreur sur de faibles échantillons de données, et non de construire davantage de data-centers pour recueillir encore plus de paramètres.

Référence(s)

[1] Hélène Gitchenko. Analyse des mécanismes de captation et d’exploitation des connaissances pour accompagner l’innovation. Thèse de doctorat en Génie des systèmes industriels. 2017. Lien

Commentaire(s)