• Accueil / Salesforce / Que sont les…
, Que sont les correspondances approximatives dans la déduplication Salesforce ?<span class="wtr-time-wrap after-title"><span class="wtr-time-number">9</span> minutes de lecture</span>

Que sont les correspondances approximatives dans la déduplication Salesforce ?9 minutes de lecture


Salesforce Ben a publié de nombreux articles sur le problème des enregistrements en double dans Salesforce. Ils tuent la productivité des équipes marketing et commerciales, augmentent les coûts et ruinent l’expérience client.

Presque toutes les solutions pour trouver des doublons reposent sur différentes méthodes de correspondance pour identifier les enregistrements en double. La recherche de doublons implique la comparaison et l’évaluation d’un ensemble de valeurs de champ sur un « enregistrement A » et un « enregistrement B ». Cette correspondance comporte deux étapes : premièrement, la comparaison et l’évaluation de champs spécifiques, et deuxièmement, la combinaison des scores des champs sélectionnés pour une évaluation des enregistrements eux-mêmes. Si le second atteint le seuil, les enregistrements sont présentés comme des doublons.

, Que sont les correspondances approximatives dans la déduplication Salesforce ?<span class="wtr-time-wrap after-title"><span class="wtr-time-number">9</span> minutes de lecture</span>

Dans ce blog, nous explorerons les méthodes de correspondance les plus importantes et quand les utiliser, suivis de quelques bonnes pratiques pour combiner des méthodes de correspondance dans une règle ou un scénario de correspondance. Puisque toutes les méthodes d’appariement peuvent être divisées en deux groupes principaux : l’appariement exact et l’appariement flou, c’est par là que nous allons commencer.

Astuce : notez que différents fournisseurs utilisent des noms différents pour la même chose (la méthode de correspondance et l’algorithme de correspondance sont les mêmes)

Méthodes de correspondance

Correspondance exacte

Pour qu’une méthode de correspondance exacte évalue deux champs comme dupliqués, ils doivent correspondre… exactement. Ainsi, une correspondance est soit vraie, soit fausse.

Exemple:

Enregistrer unEnregistrement BMéthodeÉvaluation
John DoeJohn DoeExactvrai
John DoeJohn DoeExactfaux

Certaines solutions offrent des variations sur la correspondance exacte, telles que « Exact (ordre aléatoire) » :

Enregistrer unEnregistrement BMéthodeÉvaluation
John DoeBiche JeanExact (ordre aléatoire)vrai

Comme vous pouvez le voir, « Exact (ordre aléatoire) » signifie que les mots individuels doivent correspondre exactement, mais pas nécessairement dans le même ordre.

Correspondance floue

La correspondance approximative renverra une correspondance lorsque deux champs sont semblables (similaires). C’est comme regarder à travers des paupières presque fermées, votre vision devenant floue et il est difficile de distinguer les petites différences entre les mots.

Similitude, la notation implique souvent une combinaison de différents algorithmes. L’un des algorithmes les plus utilisés est basé sur le concept de « Modifier la distance ». On l’appelle parfois aussi « distance de Levenshtein » d’après le mathématicien soviétique Vladimir Levenshtein, qui a fait des recherches approfondies sur le sujet.

La distance d’édition est le nombre d’éditions d’un seul caractère (insertion, suppression ou modification) nécessaires pour changer une chaîne en une autre.

Jon Doe John Doe a une distance d’édition de 1. Dans ce cas, seule l’insertion de la lettre « h » dans John rendra les deux chaînes égales.

Le but de l’appariement est de renvoyer des résultats similaires (avec la même signification). L’utilisation pure de la distance d’édition pour cet objectif n’est pas idéale, en particulier pour les chaînes plus courtes (noms, mots). Considérer ce qui suit:

Enregistrer unEnregistrement BMéthodeModifier la distanceSignification prévue
ChatChapeauFlou1Très différent
l’éléphantÉlephontFlou1Même

Les chaînes plus courtes ont souvent des significations entièrement différentes avec une ou deux modifications. Plus la chaîne est longue, moins l’impact d’une modification sur le sens est important. Pour lutter contre ce problème, la plupart des solutions de déduplication utilisent un score de correspondance basé sur plusieurs champs et un seuil pour déterminer les enregistrements en double.

Le score de correspondance est généralement calculé en soustrayant le résultat de la division de la distance d’édition trouvée par la distance d’édition maximale des deux valeurs de 1. Le processus de calcul de la distance d’édition maximale est trop compliqué à montrer ici. Cependant, il est basé sur la longueur de la chaîne la plus longue.

Enregistrer unEnregistrement BMéthodeModifier la distanceMax. Modifier la distanceBut
ChatChapeauFlou1366,6%
l’éléphantÉlephontFlou1887,5%

Comme vous pouvez le voir, le score est beaucoup plus élevé pour les chaînes plus longues avec la même distance d’édition. La définition d’un seuil élevé lors de l’utilisation de la correspondance floue garantit que vous n’obtenez pas trop de faux positifs.

, Que sont les correspondances approximatives dans la déduplication Salesforce ?<span class="wtr-time-wrap after-title"><span class="wtr-time-number">9</span> minutes de lecture</span>

Remarque : Une lettre différente dans le nom de famille entraîne un score inférieur.

Méthodes de correspondance spéciales

Presque toutes les solutions de déduplication offrent des méthodes de correspondance plus spécialisées. La plupart d’entre eux sont basés sur des données exactes ou floues et incluent une logique supplémentaire. Lorsque vous faites correspondre les numéros de téléphone, vous obtiendrez de bien meilleurs résultats s’ils sont dans le même format. Une méthode de correspondance de numéros de téléphone spécialisée ignorera les espaces, les tirets et normalisera les préfixes pour une comparaison valide. Une méthode de correspondance spécifique aux noms de sociétés peut ignorer les entités juridiques (telles que Inc., Ltd., LLC, etc.). Mon conseil est de toujours appliquer une méthode de correspondance spéciale, lorsqu’elle est disponible pour un champ que vous souhaitez inclure dans votre correspondance. Ces méthodes de correspondance vous donneront moins de faux positifs lors de la recherche de doublons.

Meilleures pratiques dans la construction de scénarios

Sur la base de nos années d’expérience dans la construction Vérification en double et en consultant nos clients, nous partageons avec vous certaines des meilleures pratiques.

Un scénario se compose d’un certain nombre de champs avec des méthodes de correspondance correspondantes et vise à trouver des doublons pour un objet spécifique. Vous incluez des champs (presque) uniques pour une seule personne, comme le prénom, le nom, le numéro de téléphone, l’adresse e-mail, la date de naissance, le numéro de sécurité sociale, etc.

Exemple de scénario pour trouver des doublons dans l’objet Lead :

DomaineMéthode
Prénomfloue (noms)
Nom de famillefloue (noms)
CompagnieFlou
Adresse e-mailfloue (courriel)

Comment traiter les champs vides

Dans un scénario, vous combinez différentes méthodes de correspondance sur différents champs pour évaluer si les enregistrements sont en double. Dans de nombreux cas, vous comparez un champ vide avec un champ contenant une valeur. Vous pouvez traiter un champ vide de trois manières différentes :

A. Noter 0% de correspondance

B. Note X %

C. Ignorer

La manière de traiter les champs vides dépend du taux de remplissage du champ que vous avez inclus dans votre scénario. Mon conseil serait d’utiliser une correspondance à 0% (pas de correspondance) si vous avez un taux de remplissage élevé. Si votre taux de remplissage est faible, optez pour « ignorer » ou « score 50 % ».

Si vous optez pour une approche de scénario combiné, comme indiqué dans le paragraphe suivant, optez définitivement pour un « score 0 % ». Puisqu’un scénario repose généralement sur la combinaison de 3 ou 4 champs pour une évaluation, ignorer le champ conduira à un scénario utilisant 2 ou 3 champs. C’est trop peu et cela conduira à de nombreux faux positifs.

Combiner des scénarios

Ne construisez pas de scénarios contenant beaucoup de champs ! Optez pour une approche consistant à utiliser 3 ou 4 champs pour un scénario et à utiliser plusieurs scénarios pour le même objet afin de rechercher tous les doublons à la place.

Par example:

Prénom ET nom ET adresse e-mail > 90 %

OU ALORS

Prénom ET nom ET numéro de téléphone > 90 %

OU ALORS

Prénom ET nom ET nom de l’entreprise > 90 %

Dans l’exemple ci-dessus, nous utilisons trois scénarios différents pour trouver tous les doublons dans l’objet Lead. Comme vous pouvez le voir, il est recommandé de conserver les champs de nom dans tous les scénarios et de changer un deuxième champ d’identification.

Correspondance entre les champs

De nombreuses organisations stockent des informations similaires dans plusieurs domaines. Prenez le champ « Email » et « E-mail secondaire ». De toute évidence, vous voulez correspondre [email protected], peu importe s’il est stocké sur « E-mail » dans l’enregistrement A et sur « E-mail secondaire » dans l’enregistrement B.

Différentes solutions de déduplication offrent différentes façons de résoudre ce problème. Consultez la base de connaissances ou contactez l’assistance pour confirmer si votre solution préférée offre cette option.

Ignorer les mots

Celui-ci est particulièrement utile si vous ciblez des organisations dans un créneau spécifique (qui est inclus dans le nom de l’organisation). Supposons que vous ciblez des bibliothèques et que vous évaluez les deux comptes suivants à l’aide d’une méthode de correspondance approximative :

Nom du compte

Bibliothèque municipale de New York

Bibliothèque municipale du New Jersey

Comme une grande partie de la chaîne est similaire, le score obtenu sera très élevé. Malheureusement, toute la partie « Bibliothèque municipale » ne nous dit rien (rappelez-vous, nous ne ciblons ici que les bibliothèques). La plupart des solutions offrent une fonctionnalité permettant d’ignorer des mots ou des chaînes spécifiques. Je vous suggère de l’utiliser lorsque vous avez un cas d’utilisation similaire. Dans ce cas, il serait sage de mettre « bibliothèque municipale » sur la liste des ignorés.

, Que sont les correspondances approximatives dans la déduplication Salesforce ?<span class="wtr-time-wrap after-title"><span class="wtr-time-number">9</span> minutes de lecture</span>

Remarque : empêchez les enregistrements comme ceux-ci de s’afficher en double en ignorant les mots.

Résumé

Bonne chance pour trouver tous les doublons dans votre organisation Salesforce ! Les solutions de gestion des doublons peuvent être très puissantes, alors n’hésitez pas à contacter votre fournisseur si vous avez du mal à créer de bons scénarios pour vous assurer de tirer le meilleur parti des fonctionnalités proposées.



Source de l’article traduit automatiquement en Français

Besoin d'aide ?
Vous utilisez Pardot depuis un certain temps mais vous n'êtes pas sûr d'en
exploiter tout le potentiel

Notre analyse de votre Pardot offerte dès aujourd'hui
Merci, vous pouvez compléter notre questionnaire
Nous allons revenir vers vous rapidement !

Fermer