• Recherchez-vous...

Assez c’est assez : seuils en matière de données

Comprendre quand une quantité de données est suffisante pour prendre une décision

En anglais, nous parlons parfois de la paille qui a brisé les reins du chameau pour désigner quelque chose qui était juste un peu plus que nécessaire. En français, nous parlons de la goutte d’eau qui a fait déborder le vase, ce qui semble un peu plus raisonnable, car je n'ai jamais vu un chameau avec les reins brisés. Quoi qu’il en soit, je pense que nous avons tous une certaine intuition (bien que nous ne soyons pas d'accord là dessus) qui nous indique quand quelque chose est allée trop loin dans un débat, une blague ou une autre interaction sociale. Les choses sont très différentes quand il s’agit de données. Dans un monde inondé de données, où des quantités incroyables de données sont accessibles, comment savoir que nous en avons assez pour prendre une décision? Quand avons-nous vraiment « assez » de données?

Choisir les données appropriées : l’inscription au collège et l'intuition

Pour la plupart d’entre nous, la première fois que nous nous demandons si nous disposons de suffisamment de données, c'est lorsque nous étudions un grand ensemble de données normalement distribuées. Face à un aussi grand ensemble de données, nous ne pouvons pas nous contenter de le regarder et nous fier à notre intuition. Les statistiques nous montrent que nous n’avons pas besoin de considérer l'ensemble de données non plus. Nous pouvons plutôt calculer une taille d’échantillon, qui est beaucoup plus petit, et constituer un échantillon aléatoire compatible avec cette taille d'échantillon. À partir de cet échantillon, nous pouvons déterminer les mesures de la population dans son ensemble. Ce conseil est excellent, mais ce n’est que le début.

Que se passe-t-il lorsqu’il existe plus d'un ensemble de données? Que se passe-t-il lorsque la conclusion que nous essayons d’atteindre ne peut être totalement connue que lorsque nous arrivions à certaines des données? Que faire si toutes les données ne sont pas du même type, ne sont pas toutes numériques, ne sont pas toutes accessibles ou ne sont pas toutes vraies? Dans de tels cas, il n’y a pas de réponse simple. La réalité est un mélange d’art et de science.

La première fois que j’ai pensé à aller au collège, j'ai eu accès à l'une des premières bases de données des collèges et des universités des États-Unis. Ce logiciel, qui a été introduit bien avant Internet, tenait compte d’une série de demandes éliminatoires, en commençant par toutes les écoles dans la base de données, puis réduisant progressivement l'ensemble sur la base des facteurs tels que la géographie, les principales disciplines disponibles, les frais de scolarité, etc. J'ai utilisé ce système pour constituer une sélection d'écoles à considérer et j'ai cru que la prise de décision serait facile. Puis j’ai commencé à en parler à mes amis. J’ai découvert que chacun semblait utiliser différents critères. Certains considéraient le rapport garçons/filles (j’admets que je n'y avais pas pensé, mais cela semblait assez important) tandis que d'autres considéraient les activités parascolaires disponibles à proximité du campus. J’aurais également aimé savoir toute une foule d'informations, notamment les critères exacts utilisés pour l'acceptation et le nombre d'acceptation sur 100 demandes, informations qui n'étaient pas divulguées et restaient confidentielles.

Le fait d’avoir assez de données pour prendre une décision, que l'on peut considérer comme un seuil de disposition ne garantit pas que vous avez suffisamment de données pour prendre une bonne décision.
Anthony Scriffignano, Ph.D., SVP, Scientifique en chef des données, Dun & Bradstreet
 

J’étais par inadvertance tombé sur mes premières données de masse, avec les ensembles disparates de données qui sont toujours présents et le danger de prendre une décision hâtive juste parce que j'avais « assez » de données pour prendre une décision. Le fait d’avoir assez de données pour prendre une décision, que l'on peut considérer comme un  seuil de disposition ne garantit pas que vous avez suffisamment de données pour prendre une bonnedécision. Le fait de se précipiter pour prendre une décision avec les données que vous avez, simplement parce que vous pouvez le faire, est probablement l’une des plus grosses erreurs qu'on puisse faire face à des « données de masse ». À moins que vous preniez le temps et que vous vous donniez la peine de faire une sorte d’analyse des mérites et des implications de l'utilisation des données sous la main, rien ne vous laisse supposer que ces données sont suffisantes ou appropriées pour prendre une décision particulière.

La première étape de toute décision fondée sur les données devrait être l’évaluation du caractère, de la qualité et de l'importance de la situation de trois ensembles de données distincts : les données dont vous disposez, les données que vous pourriez obtenir et les données dont l'existence est connue, mais qui sont inaccessibles par tout effort raisonnable.

 

Apprendre de ce qui manque : Black Cats et les mauvais films

Parce qu’il y aura pratiquement toujours plus de données disponibles, comment savoir quand arrêter de collecter des données et commencer à tirer des conclusions? Après avoir examiné à fond les données que nous avons sous la main, y compris toutes leurs faiblesses, leurs biais et autres lacunes, nous devons ensuite nous faire une idée des données que nous n’utilisons pas. Une telle considération est parfois appelée exercice du « chat noir », car c’est comme chercher un chat noir dans une pièce sombre. Considérons, par exemple, la décision d’envoyer des hommes sur la Lune. Nous ne pouvions pas savoir avec certitude quelle était la nature exacte de la surface lunaire, mais nous avons entrepris d’y atterrir. De toute évidence, nous aurions pu faire l’expérience avec des matériaux destinés à établir des hypothèses approximatives, mais jusqu'à ce que nous soyons effectivement allés sur la Lune, il y aurait eu incertitude. Ainsi, on a pris des dispositions importantes pour tenir compte des pires scénarios, comme le risque qu’un astronaute tombe et ne puisse pas se relever et la façon dont l'autre astronaute pourrait l'aider sans être pris lui-même au piège. Dans de telles situations, où les données ne sont tout simplement pas facilement disponibles, il est important de comprendre les limites des décisions qui sont prises et la sensibilité à ces limites à l’intérieur des décisions.

En matière de données, surtout lorsque les évaluations sont de nature qualitative (par exemple, lorsque vous envisagez la production participative ou d’autres méthodes d'obtention de l'opinion d'un grand groupe), une telle technique est appelée la sursaturation. La sursaturation est une méthode clé en science de l’heuristique, où les algorithmes sont conçus pour jouer le même rôle qu'un groupe d'individus instruits de la même façon. Dans ces cas, les mesures sont prises en utilisant un ensemble d’attributs le plus complexe possible. Les conclusions d’un grand nombre de ces mesures sont réduites par calcul et comparées à d'autres tranches d'observation jusqu'à ce que rien, à l'exception des changements triviaux, ne soit observé dans la conclusion. Essentiellement, la conclusion se stabilise. Voici un exemple simple : Vous demandez à un groupe de gens sortant d’une salle de cinéma s'ils ont aimé le film ou pas et pourquoi. Une fois qu’un grand nombre de personnes ont répondu par oui ou par non (avec une opinion minoritaire) et après avoir réalisé que les raisons de ces gens n'ont rien d'inconnu pour vous, vous pourriez raisonnablement conclure que vous comprenez le sentiment général.

Passer à un niveau supérieur : réapparition et lutte dans l’obscurité

L’un des grands avantages de l'intelligence d'ordre supérieur est la capacité d'apprendre de nos erreurs. Un jour, dans un cours d’arts martiaux où nous avons appris à lutter dans l'obscurité, j'ai compris une leçon très puissante. Tout d’abord, tout le monde pense que cela est impossible. Lorsque les lumières sont éteintes, plusieurs personnes attaquent la personne qui se trouve au centre (qui sait comment lutter dans l’obscurité). On envoie beaucoup de coups de pied et de coups de poing maladroits dans le vide et on entend beaucoup de « Ouch ». Ensuite, les lumières s’allument et l'instructeur demande ce que nous avons appris. Sans entrer dans toute la leçon, il devient clair que la personne qui se trouve au centre apprend à connaître où nous sommes et quand, accidentellement, nous entrons en contact partiel. Ces informations sont ensuite utilisées pour monter une offensive ou une défense dans l’obscurité. Je peux vous assurer que, la fois suivantes, quant les lumières s’éteignent, les attaquants font beaucoup mieux jusqu'à ce qu'ils finissent par obtenir le droit de défense à partir du centre. Beaucoup de leçons puissantes peuvent être tirées dans cet exercice, mais la plus puissante est peut-être l’importance de l'apprentissage, même à partir d'une première tentative douloureuse et inefficace, de sorte que les prochaînes tentatives progressives s'appuient sur tout ce qui a été appris jusqu'à présent. Il s’agit d'un exemple physique du concept algorithmique de réapparition où chaque étape est informée par l'algorithme de base, mais aussi par l'apprentissage collectif de toutes les itérations précédentes du même algorithme.

Nous avons appris que, si une machine est conçue pour faire quelque chose mal, elle le fera constamment mal, chaque fois. Bien sûr, l’apprentissage automatique et d'autres méthodes non régressives ont donné lieu à des machines encore plus sophistiquées et à des moyens plus avancés pour considérer des décisions basées sur les données, de sorte que cette prémisse ne soit plus tout à fait vraie. L’apprentissage récursif est l'une des nombreuses façons utilisées par les nouvelles approches en science des données quand elles utilisent des données qui n'avaient jamais été vues avant ou qui n'étaient pas disponibles à l'origine pour résoudre un problème, pour améliorer constamment le rendement pour résoudes des problèmes qui peuvent eux-mêmes évoluer avec le temps.

L’une des avancées les plus prometteuses en science des données est la méthode formelle d'apprentissage de l'expérience antérieure et de signalisation des itérations futures afin de créer des rendements sans cesse croissants, même si la nature même d'un problème change.

Penser aux données disponibles et examiner attentivement de quel droit nous les utilisons pour résoudre un problème constitue l’une des disciplines les plus essentielles dans la science des données. Nous vivons dans un monde où de nouveaux ensembles de données sont constamment disponibles. De nouveaux outils et de nouvelles techniques pour utiliser ces données abondent. La compétence essentielle qui nous distinguera dans cette mer d’outils et de données est notre capacité à évaluer quand nous avons les données adéquates et quand nous en avons assez pour prendre une décision importante. 

Nous contacterContactez
Prenons contact
Veuillez remplir ce formulaire et nous vous contacterons bientôt.