• Recherchez-vous...

Connectivité : comment s’assemblent les pièces du casse-tête dans les liens entre les données

La prochaine fois que vous prendrez le train, essayez d’observer les roues. Un phénomène très spécial s’y produit, dont on est peu souvent conscient. Que votre train soit un vieux wagon de métro, un train de banlieue ou un train à grande vitesse, vous êtes devant le produit d’une connectivité impressionnante. Bien sûr, le train est connecté aux rails par les roues (je ne suis pas un expert des trains, alors s’il vous plaît, ne me corrigez pas sur les termes utilisés dans ce texte), mais si vous y réfléchissez davantage, les rails sont connectés à des aiguillages qui les dirigent vers différentes voies. Ces voies sont reliées à des villes. Certaines de ces villes ont des aéroports et des ports maritimes. Une seule roue est reliée à tout un réseau de transport. En y regardant de plus près, la roue peut aussi représenter les liens. Il y a divers assemblages mécaniques. Ces assemblages sont reliés aux wagons, qui sont attelés ensemble. Dans un sens, toutes les parties du train, ainsi que les gens et leur chargement, sont reliées. Pendant toute la durée du voyage, du point A au point B, tout est relié sur ce train. Les trains sont une excellente métaphore des liens entre les données, qui élargit notre vision du phénomène, mais la réduit aussi à de nombreux égards. À notre époque, la connectivité, c’est-à-dire la façon dont une chose est liée à une autre, est une propriété des données d’une importance grandissante qui est à la fois étonnante et terrifiante. 

Relations de premier ordre :  Ce que je vois, touche et perçois.

L’association directe est la manière la plus évidente de considérer les liens entre les diverses données. Il arrive que cette association soit à l’intérieur de l’ensemble de données, par exemple, quand une cellule d’une feuille de calcul contient un calcul qui la relie à d’autres cellules de la même feuille de calcul. Parmi les autres liens évidents entre les données, on compte les clés étrangères – quand une référence d’un ensemble de données permet d’intégrer des données provenant d’un autre ensemble de données. Une clé étrangère peut être, par exemple, l’identifiant d’un employé stocké dans un fichier de paie, qui peut être utilisé pour obtenir des données sur les formations récentes que l’employé a terminées, parmi les formations de la base de données. 

Dans notre vie quotidienne, nous sommes entourés de relations de premier ordre. Une fois, j’étais sur une autoroute à péage et je suis passé dans un poste de péage automatique. Sur l’écran à gauche du poste, où clignote normalement une lumière verte, s’affichait le message « veuillez nous appeler ». J’ai utilisé mon téléphone mains libres pour appeler la compagnie, pour me faire dire que les bureaux étaient fermés la fin de semaine, par messagerie vocale automatique. 

Bien qu’elles se laissent parfois facilement découvrir, nos connexions au passé et au futur comprennent souvent des nuances et des significations qui peuvent être à la fois belles et puissantes.
Anthony Scriffignano, Ph.D, SVP, Scientifique en chef des données, Dun & Bradstreet
 

Le lundi suivant, j’ai essayé d’appeler à nouveau pour les informer du poste de péage que j’avais traversé au cas où il y aurait un problème. On m’a alors demandé mon numéro de vignette. J’ai proposé de donner mon numéro de plaque d’immatriculation et l’agent m’a répondu qu’il avait besoin de mon numéro de vignette. Quand je lui ai demandé ce qu’était un numéro de vignette, il m’a répondu que tout le monde avait un numéro de vignette (pas très éclairant). La conversation étant bloquée, je lui ai demandé si je pouvais lui soumettre une autre information, comme mon nom (que j’étais en train d’oublier tellement j’étais frustré). Apparemment, je pouvais fournir mon numéro de compte et mon NIP, qui se trouvaient sur ma facture, que je n’avais pas en ma possession. Plus tard, j’ai appris que le numéro de vignette se trouvait sur l’étiquette de plastique ornant mon pare-brise. J’ai pris en note le numéro, qui était composé d’environ 20 lettres et chiffres, et après avoir lu ce numéro à l’agent, mon identité a pu être « vérifiée ». La relation étant maintenant établie, j’ai commencé à expliquer le problème avant d’être interrompu par l’agent. Ils étaient au courant de la panne du système et je ne devais pas m’en préoccuper. Parfois, les relations servent seulement à ralentir le processus.

 

Nous avons tous une histoire qui ressemble à celle que je viens de raconter, où une simple opération est entravée par les systèmes en place, qui assure l’authentification et la validation de l’identité. L’authentification et la validation sont des processus importants permettant d’établir deux points cruciaux : 1) vous êtes la personne que vous prétendez être 2) vous êtes autorisés à faire ce que vous aviez l’intention de faire. L’authentification et la validation entrent en jeu dans les relations entre les données quand un système ou un processus tente de partager ou d’échanger des données avec un autre système. 

Il existe beaucoup d’autres types de relations entre les données, dont la relation « un à un », « plusieurs à plusieurs », « un à plusieurs » et « plusieurs à un ». Ces relations simples peuvent être stockées dans les données elles-mêmes, au moyen de calculs et d’algorithmes, et être produites par les interactions entre les utilisateurs. Toutes ces relations peuvent être qualifiées de relations de premier ordre : des relations observables dans les données ou dans les processus qui contiennent les données. Ces relations peuvent être statiques, dynamiques ou implicites (dérivées d’un calcul ou d’un processus) et peuvent être simples ou complexes. Les relations circulaires comptent parmi les plus problématiques; une partie des données renvoie à elle-même, directement ou en passant par une chaîne de références.

Il est important de reconnaître les types de relations de premier ordre à l’œuvre dans les données, en portant une attention spéciale aux relations qui sont implicites et aux relations qui sont extérieures à un ensemble de données donné (par ex. les clés étrangères). 

Relations de second ordre : ce que j’en déduis.

Très souvent, les analyses s’arrêtent aux relations de premier ordre. Nous comptons, nous calculons, nous présentons les données sous forme de graphique ou nous contrôlons les processus à l’aide de ces relations. Cela devient encore plus intéressant quand nous examinons les relations de second ordre, les relations qui proviennent d’une déduction fondée sur une relation de premier ordre. 

La plupart d’entre nous ont entendu parler des relations de second ordre pour la première fois en étudiant les sciences. En physique, par exemple, l’observation du rapport entre la distance et le temps nous permet de comprendre la vitesse. Si nous savons combien de temps cela m’a pris pour me rendre d’un poste de péage à un autre, et nous connaissons la distance entre les deux, nous pouvons calculer ma vitesse. Disons que la limite de vitesse est à 105 km/h et que je couvre une distance de 105 km en une heure. On pourrait affirmer que je n’ai jamais dépassé la limite de vitesse. Cette affirmation serait basée sur une observation de premier ordre de la distance et du temps. Une observation de second ordre pourrait consister à calculer le changement de distance au cours du temps, ce qu’on appelle l’accélération. J’aurais pu conduire au-dessus de la limite de vitesse pendant la première moitié du voyage, puis ralentir et conduire au-dessous de la limite de vitesse jusqu’à l’arrivée.

Dans le cadre des relations entre les données, les relations de second ordre peuvent être fascinantes. Imaginez que vous avez une compilation de tous les publicitaires listés dans la brochure d’un congrès de vendeurs. Vous pourriez examiner ces entreprises et leur taille relative, les marchés desservis, leur longévité, leurs intérêts majoritaires, les conférences de presse, etc. Toutes les relations observées seraient autant d’observations de premier ordre. 

En y regardant de plus près, vous pouvez envisager certaines déductions de second ordre. Par exemple, toutes ces entreprises diffusent leur publicité dans le même espace, alors on peut dire qu’elles sont toutes en concurrence. La taille de leur publicité peut varier, ce qui permet de créer un histogramme illustrant quelles entreprises ont payé plus ou moins pour leur publicité. Puisqu’elles diffusent toutes leur publicité lors du même événement, elles sont toutes clientes de la même entité, qu’elles ont payée pour diffuser leur publicité. Toutes ces observations sont de second ordre. Suivre l’un ou l’autre de ces raisonnements mène à une foule de relations et de déductions supplémentaires qui peuvent sous-tendre de puissantes décisions analytiques.

Je dois faire ici une mise en garde en ce qui concerne les erreurs et les biais. Vos observations de premier niveau comprennent toujours un certain pourcentage d’erreurs et, par conséquent, votre conclusion aussi. Bref, elles peuvent être en partie fausses, périmées ou incomplètes. Ces erreurs sont reflétées dans les décisions que vous prenez. Vos observations de deuxième niveau comportent habituellement aussi des erreurs, pour le même genre de raisons (qui introduisent souvent d’autres genres d’erreurs de calcul, d’échantillonnage ou des erreurs découlant d’autres facteurs). En général, l’erreur provenant de l’observation de deuxième niveau n’a pas un effet additif, mais multiplicatif sur vos observations de premier niveau. Autrement dit, si vos premiers résultats étaient exacts à 90 % et vos seconds à 80 %, vos résultats finaux seront exacts à 72 %! Cet horrible petit secret des inférences de deuxième niveau est responsable de l’échec de beaucoup d’entreprises.

Il est extrêmement important de se rappeler que tout ce que vous faites en matière d’inférence de deuxième niveau, bien que ce soit tout à fait enrichissant sur de nouveaux plans, peut masquer une dépendance croissante envers l’intégrité des processus et l’exactitude des données.

Observations de niveau élevé :  ce qu’elles présagent

Il s’agit d’une histoire sans fin, en quelque sorte. Par exemple, on pourrait certainement avoir des observations de troisième niveau. Si nous reprenons notre analogie de la voiture, nous pouvons observer la distance par rapport au temps (premier niveau), la vitesse par rapport au temps (deuxième niveau) ou, si nous voulons pousser plus loin l’analyse, l’accélération par rapport au temps. Il s’agirait alors d’une observation de troisième niveau.

Reprenons maintenant le scénario dans lequel je quitte le poste de péage à toute vitesse : j’ai pesé sur l’accélérateur pour atteindre 160 km/h (ne le faites pas!) et, avant d’atteindre la vitesse limite de 100 km/h, j’ai vu un contrôle radar. Ma première réaction aurait pu être de ralentir rapidement, ce qui est une forme d’accélération négative. Quelques jours plus tard, au tribunal, j’aurais pu tenter de défendre ma conduite en disant que je n’ai jamais vraiment fait de vitesse et que je ne devrais pas, par conséquent, recevoir de contravention. Le juge, qui a étudié la physique et l’observation de troisième niveau, rejetterait rapidement mon argument en invoquant la conduite dangereuse. Il aurait toutes les données nécessaires pour prouver que mon accélération par rapport au temps (une observation de troisième niveau) était bien en dehors de la conduite acceptable en vertu de la loi. (Prière de ne pas émettre de commentaires sur mes connaissances juridiques, je ne suis pas un avocat non plus!)  

Les observations de niveau élevé dans le domaine des données ont souvent trait aux tendances, telles que la direction d’un marché, l’analyse des possibilités, la macroéconomie (p. ex. le PIB) ou les enjeux géopolitiques (p. ex. le cybercrime). Ces observations sont extrêmement importantes et, généralement, elles ne se fondent pas seulement sur les données et les liens à découvrir, mais aussi sur des lignes directrices ou d’autres connaissances systémiques (comme la révision des chiffres des variations saisonnières). Bien entendu, c’est de ces observations de niveau plus élevé que l’on déduit souvent les décisions majeures sur le plan des répercussions sociales ou organisationnelles. Or nous avons tout intérêt à les reconnaître lorsque nous nous appuyons sur elles, mais aussi à les relever avec attention et avec autant de rigueur empirique que possible.

Lorsque nous jouons avec des observations de plus haut niveau, nous gravissons quelques échelons dans la compréhension systémique des liens. Cette transition apporte à la fois un potentiel et une demande énorme de rigueur analytique. 

 

Nous contacterContactez
Prenons contact
Veuillez remplir ce formulaire et nous vous contacterons bientôt.