Data Talks, Épisode 6: Le traitement des doublons

Épisode six : Le traitement des doublons

Hôte : George L'Heureux, Consultant principal, Stratégie des données
Invité : Donald Folk, Conseiller principal en données

Dans cet épisode de Data Talks, nous parlerons des différentes façons de résoudre le problème très réel des données en double.

Tout comme les données incomplètes et inexactes, les données en double peuvent avoir des répercussions négatives sur les équipes de vente, de marketing et de finance, en fait, sur toute personne de l'organisation qui utilise des données. Les doublons peuvent augmenter les coûts des programmes de marketing, créer des conflits de vente et provoquer des inefficacités dans toute l'organisation.

Il existe de nombreuses causes de doublons, notamment l'erreur humaine, la subjectivité dans la saisie et la collecte de données provenant de sources multiples. Parfois, comme le partage notre expert, c'est même le résultat d'un programme interne bien intentionné. Mais les raisons et les répercussions mises à part, il y a des choses que nous pouvons faire, non seulement pour réparer les doublons une fois qu'ils se produisent, mais aussi pour les empêcher de se produire en premier lieu et comment le numéro D-U-N-S joue un rôle important en tant qu'identifiant unique pour consolider ces doublons.

Regarder la vidéo en anglais

 

Lire la transcription complète

Épisode six : Le traitement des doublons

George L'Heureux:
Bonjour à tous. Voici Data Talks présenté par Dun & Bradstreet. Je suis votre hôte, George L'Heureux. Je suis consultant principal en stratégie des données au sein de l'équipe des services consultatifs de Dun & Bradstreet. Au sein de ce service, notre équipe a pour mission d'aider nos clients à maximiser la valeur de leur relation avec D&B par le biais de conseils et de consultations d'experts. Dans le cadre de Data Talks, je m’entretiens lors de chaque épisode avec l'un des experts-conseils de D&B sur un sujet qui peut aider les consommateurs de nos données et de nos services à obtenir une plus grande valeur. L'expert invité d'aujourd'hui est Don Folk. Don est un conseiller en stratégie des données chez D&B. Don, depuis combien de temps travaillez-vous pour Dun & Bradstreet?

Don Folk:
Je suis surpris de le dire, mais cela fait 23 ans ce mois-ci.

George L'Heureux:
Et dites-moi un peu ce que vous faites dans votre rôle actuel de consultant en stratégie de données.

Don Folk:
Mon rôle actuel consiste donc à m'assurer que le client comprend la valeur des flux de processus de données D&B, et tout ce qui s'ensuit. Je suis plus particulièrement un expert en matière d'appariement, d'identification des doublons dont nous allons parler aujourd'hui, mais aussi en ce qui concerne l'utilisation des actifs de données D&B dans toute la mesure de nos capacités.

George L'Heureux:
Et dites-moi un peu comment vous êtes arrivé à ce point de votre carrière. Quel est le chemin qui vous a intéressé et qui vous a mené à ce rôle?

Don Folk:
Bien sûr. En 23 ans, comme vous pouvez vous y attendre, j'ai occupé de nombreux postes. En commençant par nos organisations de livraison, j'ai compris comment les clients demandaient vraiment nos données et utilisaient nos données. Puis, à partir des organisations de livraison, où je créais les produits livrables destinés à nos clients, je suis passé à notre organisation de contenu et j'ai vraiment compris ce que cela signifiait d'être un fournisseur pour D&B. En fait, pour nous, D&B achète les données, leurs données, peu importe ce qu'elles sont, mais j'aide ensuite à intégrer les données de ce fournisseur dans le flux de travail. J'ai donc une vision assez globale des données en général. Je comprends le côté client, mais aussi le côté fournisseur.

George L'Heureux:
Et je pense que cela vous met dans une très bonne position pour parler du sujet sur lequel vous et moi nous sommes mis d'accord ici. Il était vraiment important pour les gens d'en entendre parler, c'est-à-dire l'idée des doublons. Et l'une des choses que notre équipe traite, avec presque tous les clients, est le nombre de doublons que nous voyons dans leurs données. Pourquoi cela nous intéresse-t-il?

Don Folk:
De façon réaliste, D&B a même des doublons dans sa base de données. Nous avons les meilleurs processus de notre catégorie que nous utilisons pour identifier et résoudre ces doublons, mais chaque base de données dans le monde connu a des doublons. C'est juste un sous-produit de la collecte de données à partir de sources multiples.

George L'Heureux:
Et donc ils sont là, mais j'imagine que la raison pour laquelle nous en parlons est qu'ils peuvent causer des problèmes, non?

Don Folk:
Très juste.

George L'Heureux:
À quels types de problèmes pensons-nous lorsque nous parlons d’enregistrements en double et des impacts qu'ils peuvent avoir?

Don Folk:
Si je pouvais résumer en un mot, c'est vraiment la confiance. Si les doublons sont présents dans les données, ils créent un manque de confiance de la part de votre organisation de vente, en tant que client de D&B pour les comptes clients, les comptes fournisseurs, la gestion des fournisseurs, toutes ces activités ont une structure différente et sont compliquées par les doublons. Mais encore une fois, c'est simplement qu'ils sont là. Nous savons qu'ils sont là et cela crée un manque de confiance lorsqu'un de vos vendeurs les trouve dans votre référentiel.

George L'Heureux:
Et si vous avez plus d'un exemplaire de quelque chose dans votre magasin de données, dans votre base de données, il est possible que j'en prenne un et que vous en preniez un autre sans réaliser qu'ils peuvent avoir deux vues complètement différentes du même client. C'est l'un des défis dont vous parlez ici.

Don Folk:
Oui, absolument. Et si nous regardons cela d'un point de vue marketing, parfois ce n'est pas toujours le pire des cas, mais si nous le lions aux comptes créditeurs, aux comptes débiteurs, aux choses où il y a des décisions importantes qui sont suivies à chacun de ces niveaux indépendants et vous pourriez potentiellement voir que certains des comptes débiteurs des montants en dollars pourraient être liés à ces deux comptes. Il est donc évident que le fait d'avoir ces vues disparates en double constitue un problème important.

George L'Heureux:
C'est vrai. Je veux dire, à ce stade, vous ne parlez pas seulement d'un enregistrement supplémentaire ici ou là, mais vous parlez de choses qui pourraient s'accumuler et finalement avoir un impact sur les dépôts financiers.

Don Folk:
Absolument. Et ce sont les préoccupations dont vous devez tenir compte en tant que fournisseur de données, collecteur de données, agrégateur de données, bien sûr.

George L'Heureux:
D'accord. Alors, que faisons-nous? Comment aborder le problème de la duplication des données?

Don Folk:
Il y a certainement une approche à plusieurs facettes. D'abord, vous devez comprendre votre cas d'utilisation. Si c'est strictement du marketing, votre niveau d'exposition est moindre. Mais s'il s'agit, comme je l'ai dit, de comptes créditeurs, de comptes débiteurs, de certains fournisseurs, vous devez en être plus conscient. La clé est vraiment d'obtenir ce numéro D-U-N-S, notre identifiant unique. Vous devez obtenir ce numéro D-U-N-S sur autant d'enregistrements que vous pouvez humainement, possiblement, dans votre propre entrepôt de données. C'est la clé. C'est la première étape pour identifier les doublons.

George L'Heureux:
Alors en quoi ça aide? On a le numéro D-U-N-S de tous ces dossiers. Que fait-on ensuite? Comment ce numéro D-U-N-S nous aide-t-il?

Don Folk:
Oui, le numéro D-U-N-S est la clé unique qui nous permet de dire : « Cette entité commerciale spécifique ressemble à cet enregistrement dans le fichier D&B. » Si vous avez plusieurs enregistrements ou entrées dans votre répertoire avec le même numéro D-U-N-S, c'est la définition d'un doublon. Maintenant, il y a des raisons pour lesquelles cela peut se produire. Je suis sûr que nous en parlerons dans quelques minutes, mais il est certain que ce numéro D-U-N-S unique sera l'identifiant que vous pourrez consolider et réduire pour identifier ces doublons.

George L'Heureux:
Nous savons donc que cela va être utile pour la grande majorité des enregistrements que les clients ont dans leurs bases de données. Tout ce qui est aligné avec le numéro D-U-N-S, ils vont pouvoir voir s'il y a ou non un chevauchement de numéros D-U-N-S dans cet ensemble. Il y a des enregistrements qui, pour diverses raisons, ne vont pas obtenir de numéro D-U-N-S. Comment pouvons-nous les aider? Que peut-on faire avec cet ensemble d'enregistrements?

Don Folk:
Oui. Donc je pense que la première partie est de comprendre pourquoi ils ne deviennent pas ou ne peuvent pas être ou avoir un numéro D-U-N-S attribué. Est-ce parce qu'il manque des informations? Ou est-ce parce que les informations fournies sont dans une structure qui embrouille l'outil du moteur de recherche à un point tel que nous ne pouvons pas aider à soutenir le processus d'attribution du numéro D-U-N-S ? La première chose à faire est donc d'examiner vos données pour essayer de comprendre exactement pourquoi nous n'arrivons pas à obtenir un numéro D-U-N-S. Ensuite, si nous trouvons des raisons et qu'elles sont valables, mais que nous n'avons pas d'attribution de numéros D-U-N-S, c'est à ce moment-là que nous devons commencer à penser un peu différemment à la façon d'identifier les doublons dans cet univers.

George L'Heureux:
Et vous et moi avons déjà parlé de la façon dont la présence d'un numéro D-U-N-S a en fait un petit effet multiplicateur. Non seulement nous sommes en mesure d'obtenir la valeur du numéro D-U-N-S lui-même, mais nous avons constaté au fil du temps avec les clients que les enregistrements qui n'ont pas de numéro D-U-N-S ont en fait un taux d'incidence plus élevé de doublons dans l'ensemble de données.

Don Folk:
Oui. Sans aucun doute. Et il y a de nombreuses raisons à cela, mais le thème principal est le suivant : s'il manque des informations qui nous empêchent d'attribuer un numéro D-U-N-S, cela signifie probablement qu'il est plus difficile pour nous d'identifier si nous nous intéressons à la bonne entreprise. Et nous pourrions générer des entrées en double dans la base de données pour essayer d'atténuer certains de ces problèmes. Ainsi, le manque d'informations permettant de relier un numéro D-U-N-S rend le risque de doublon dans l’entrepôt de données plus élevé. C'est sûr.

George L'Heureux:
J'ai toujours trouvé cela très intéressant. Mais disons que nous arrivons à cet ensemble de doublons dont nous savons qu'ils existent maintenant, que ce soit en utilisant un numéro D-U-N-S ou d'autres méthodes pour des choses qui ne pourraient peut-être pas être un numéro D-U-N-S. Une fois que vous avez identifié tous ces doublons, comment faites-vous pour les résoudre?

Don Folk:
Et honnêtement, c'est la partie la plus difficile de l'équation. L'identification par D-U-N-S ou par d'autres moyens est probablement l'aspect le plus facile de l'équation. La résolution est chaque fois très spécifique au client. Le processus de résolution, parce que nous devons être attentifs au fait que toutes les informations relatives à cette entité spécifique dans votre propre entrepôt doivent être consolidées. Nous devons recueillir les informations sur les comptes créditeurs, les comptes débiteurs, toutes les informations sur les fournisseurs. Toutes ces informations doivent ensuite être collectées et consolidées en une seule vue d'un seul de vos clients.

George L'Heureux:
Vous avez dit que cela dépendait du client. Comment les clients peuvent-ils personnaliser le processus de résolution au-delà de la simple agrégation des données dans un seul dossier?

Don Folk:
Oui. Comme je l'ai dit, vous devez être attentif au cas d'utilisation spécifique que vous visez, mais encore une fois, il pourrait s'agir d'une révision manuelle. Ce pourrait être une externalisation de cette consolidation une fois que vous avez identifié le doublon. Nous pouvons certainement vous aider dans ce domaine, en définissant ce à quoi ressemblerait le processus de résolution. Mais encore une fois, c'est une chose dont vous devez être conscient, c'est probablement la composante la plus complexe de ce sujet.

George L'Heureux:
Compte tenu des inconvénients potentiels de la présence de doublons dans vos données et, bien évidemment, des avantages associés à leur traitement, à leur identification et à leur résolution, pourquoi ce problème persiste-t-il? Pourquoi n'y a-t-il pas plus d'entreprises, pourquoi tout le monde ne se préoccupe-t-il pas de ce genre de problème?

Don Folk:
C'est vraiment une question de complexité. Un excellent exemple sur lequel j'ai travaillé avec un client était une initiative que son équipe de vente a mise en place et qui prévoyait que les membres individuels de l'équipe de vente recevraient une prime supplémentaire s'ils apportaient de nouveaux clients fournisseurs. Et le résultat de cette initiative a été que les équipes des ventes ont créé de nouvelles affaires pour les fournisseurs précédents de cette source. Le client a donc essayé intentionnellement de prendre une initiative pour augmenter les ventes, mais il a indirectement créé un problème de duplication parce que les équipes des ventes ont simplement entré les mêmes enregistrements deux fois et cela ressemblait à un nouvel enregistrement, mais il s'agissait d'une ancienne entreprise et cela a créé cet effet de duplication.

George L'Heureux:
Parlons donc des normes, des lignes directrices et des pratiques exemplaires. Quelles sont les pratiques exemplaires que les entreprises peuvent utiliser pour résoudre les doublons et savoir quand elles ont fait une différence ou quand le jus ne vaut plus la peine d'être pressé ?

Don Folk:
Oui. Tout d'abord, si vous avez le numéro D-U-N-S et qu'il est attribué, il faut absolument faire une analyse pour déterminer exactement quels seraient vos taux dans l'univers des numéros D-U-N-S. Sachant que ce sont probablement les enregistrements les plus purs de votre base de données, si vos pourcentages dépassent un certain seuil, vous devez vous inquiéter et certainement, dans un premier temps, examinez votre univers de numéros D-U-N-S pour voir quels sont vos taux de duplication.

George L'Heureux:
Avez-vous une idée du pourcentage au-dessus duquel les gens devraient vraiment s'inquiéter, ou est-ce une autre des choses qui dépendent vraiment du client et de son cas d'utilisation particulier?

Don Folk:
Cela dépend certainement de l'utilisation du client, des cas spécifiques, pardonnez-moi, des choses spécifiques, mais en général, une règle est de 5 %. Si vous dépassez 5 % de taux de duplication, vous avez vraiment un problème que vous devez régler le plus tôt possible. Et c'est une affirmation générale. Je veux dire, le meilleur de sa catégorie se situe généralement autour de un à trois, c'est vraiment mon sentiment de l'industrie pour une norme, mais tout ce qui est au-dessus de cinq est certainement quelque chose que vous devez aborder plus tôt que plus tard.

George L'Heureux:
Don, pour conclure, si quelqu'un écoute ou regarde, entend ce message et se demande si sa base de données est touchée par ce problème, quelle est sa prévalence et quel est son impact, que doit-il faire en premier lieu?

Don Folk:
Donc, comme je l'ai dit, il faut absolument comprendre quel est le taux de duplication en regardant simplement votre propre base de données, s'il y a un numéro D-U-N-S attribué. Si ce n'est pas le cas, je pense que je vous recommanderais de contacter l'équipe de consultants. Je pense que nous pouvons certainement vous aider avec les pratiques exemplaires démontrées et les meilleurs moyens d'identifier ces doublons. Mais encore une fois, je pense qu'il suffit de regarder dans votre propre base de données où il y a un numéro D-U-N-S pour commencer à déterminer exactement à quoi ressemblerait ce taux pour votre cas d'utilisation spécifique.

George L'Heureux:
Eh bien, Don, j'apprécie vraiment que vous preniez le temps de vous asseoir et d’échanger avec moi sur ce sujet, et de partager votre expertise acquise au cours de vos nombreuses années de travail ici chez D&B, avec tous ceux qui nous regardent ou nous écoutent, afin de les aider à comprendre l'importance de l'identification et de la résolution des doublons.

Don Folk:
Merci de m'avoir reçu. J'ai vraiment aimé parler de ça, c'est une passion.

George L'Heureux:
Notre expert invité aujourd'hui était Don Folk, consultant en stratégie de données chez Dun & Bradstreet. Et c'était un autre épisode de Data Talks. Nous espérons que vous avez apprécié l’entretien d'aujourd'hui et si c'est le cas, nous vous encourageons à le partager avec un collègue ou un ami, pour leur faire connaître l'émission. Si vous souhaitez obtenir plus d'informations sur les sujets abordés dans l'épisode d'aujourd'hui, veuillez consulter le site www.dnb.com ou vous adresser au spécialiste D&B de votre entreprise. Je suis George L'Heureux, merci de vous être joint à nous. À la prochaine!