• Accueil / Salesforce / Comment trouver des…
, Comment trouver des doublons dans Salesforce à l&rsquo;aide de Machine Learning<span class="wtr-time-wrap after-title"><span class="wtr-time-number">6</span> minutes de lecture</span>

Comment trouver des doublons dans Salesforce à l’aide de Machine Learning6 minutes de lecture


En tant qu’administrateur Salesforce, vous vous demandez quel est le meilleur moyen de rechercher des doublons dans Salesforce. Lorsque nous pensons à l’apprentissage automatique, nous avons tendance à penser à l’automatisation des processus robotiques, aux assistants virtuels et aux voitures autonomes. L’apprentissage automatique, cependant, peut simplifier ce que nous rencontrons au quotidien, comme l’identification des doublons dans votre organisation Salesforce. Tout comme avec les véhicules autonomes, les algorithmes qui alimentent la déduplication peuvent être entraînés pour produire le résultat souhaité.

Dans ce guide, je vais vous donner un aperçu de la façon dont les algorithmes d’apprentissage automatique sont entraînés pour dédupliquer non seulement Salesforce, mais également toutes les données non structurées, ainsi que les avantages de cette approche par rapport aux méthodes existantes basées sur des règles.

, Comment trouver des doublons dans Salesforce à l&rsquo;aide de Machine Learning<span class="wtr-time-wrap after-title"><span class="wtr-time-number">6</span> minutes de lecture</span>

Comment l’apprentissage automatique fait-il correspondre deux enregistrements ?

Si nous examinons les deux enregistrements ci-dessous, il est assez clair qu’il s’agit de doublons :

NomNom de familleAdresse
MichaelBoulonner123, promenade Lockwood
Mikeboulonner123, promenade Lockwood

Cependant, une machine n’a pas la capacité ou l’expérience pour faire la même détermination. En fait, c’est en fait beaucoup plus difficile qu’il n’y paraît. On pourrait commencer par souligner toutes les similitudes. Comme il y en a évidemment tellement, on peut conclure qu’il s’agit de doublons. Bien que cela puisse être une bonne première étape, nous aurions alors besoin de stipuler exactement ce que nous entendons par le mot « similaire ». Existe-t-il une plage où quelque chose peut être considéré comme pas du tout similaire ou très similaire ? Comment une machine s’y prendrait-elle pour identifier ces similitudes ?

L’un des moyens par lesquels les chercheurs « enseignent » les similitudes avec les machines est la métrique des chaînes. C’est lorsque vous prenez deux chaînes et renvoyez un nombre faible si les chaînes sont similaires et élevé si elles sont différentes. Il existe de nombreuses métriques de chaîne, l’une des plus connues étant la distance de Hamming. Cette méthode compte le nombre de substitutions nécessaires pour transformer une chaîne en une autre. Par exemple, si vous considérez le nom de famille de l’exemple ci-dessus, la distance Hemming ne serait que de 1, car vous n’avez besoin de changer qu’une seule lettre pour convertir « Bolton » en « bolton ».

Une autre variante à cela est métriques de distance apprenables, qui tient compte du fait que différentes opérations de modification ont une importance variable dans différents domaines. Par exemple, la substitution d’un chiffre fait une énorme différence dans une adresse postale puisqu’elle modifie effectivement l’adresse entière. Cependant, une seule substitution de lettre peut ne pas être si importante car elle est plus susceptible d’être causée par une faute de frappe ou une abréviation. Par conséquent, l’adaptation de la distance d’édition de chaîne à un domaine particulier nécessite l’attribution de poids différents à différentes chaînes. Nous approfondirons ces concepts plus loin dans cet article. Pour l’instant, examinons comment toutes ces métriques sont utilisées pour dédupliquer Salesforce.

Dédupliquer Salesforce avec des algorithmes d’apprentissage automatique

Il existe plusieurs manières de consulter un enregistrement Salesforce. Commençons par supposer qu’il s’agit d’un seul bloc de texte (comme indiqué ci-dessous) :

Enregistrement 1Enregistrement 2
Michael Bolton 123 Lockwood DriveMike Bolton 123 Lockwood Dr

Une autre option consiste à comparer chaque champ individuellement :

Enregistrement 1Enregistrement 2
PrénomMichaelMike
Nom de familleBoulonnerboulonner
Adresse123, promenade Lockwood123, promenade Lockwood

Pour l’approche « bloc unique », chaque chaîne de champ serait traitée de manière égale. Cela le rend moins pratique si vous souhaitez mettre l’accent sur un champ spécifique, tel que le nom de famille. L’approche « champ par champ » vous permet de le faire en attribuant un poids spécifique à chaque champ, en commençant par les champs les plus importants ayant le poids le plus élevé et ainsi de suite. Outils de déduplication Salesforce qui utilisent l’apprentissage automatique vous permettront de définir les pondérations pour chaque champ, puis de créer un modèle afin que l’approche soit relativement codifiée et exploitée.

Quel est l’avantage d’utiliser l’apprentissage automatique pour dédupliquer Salesforce ?

L’ensemble de données de chaque entreprise est unique et a ses propres défis en matière de déduplication. Chaque fois qu’un humain détermine si un ensemble d’enregistrements sont des doublons (ou non), le système « apprendra » de ces actions et peaufinera l’algorithme d’apprentissage automatique pour identifier les futurs doublons sans interaction humaine. Ce processus, connu sous le nom d’« apprentissage actif », continuera de modifier les pondérations attribuées à chaque champ, en fonction de l’interaction de l’utilisateur. Par conséquent, cela améliorera la détection des doublons.

Il est important de souligner que l’établissement d’un poids précis pour chaque champ a ses propres défis. Par exemple, le champ Nom est-il deux fois plus important que le Prénom ou 1,5 fois et ainsi de suite ? Il serait très difficile pour tout individu de le déterminer, car nous ne pourrions pratiquement pas traiter autant de données. D’un autre côté, les ordinateurs utilisant l’apprentissage automatique peuvent traiter rapidement et efficacement une quantité presque infinie de données. La seule limitation est la puissance de calcul disponible. Les algorithmes d’apprentissage automatique seront en mesure de calculer les poids précis de chaque champ de votre ensemble de données. Ce processus est connu sous le nom de régressions logistiques régularisées.

Valeur ajoutée de la déduplication avec l’apprentissage automatique

Avec les outils basés sur des règles, chaque fois qu’un enregistrement en double est identifié, un administrateur Salesforce devra créer une règle supplémentaire pour éviter qu’il ne se reproduise. Non seulement ce processus prend beaucoup de temps, mais il est également presque impossible de prendre en compte tous les doublons « flous » possibles. Vous pouvez essayer de définir vous-même toutes les pondérations pour chaque champ ou utiliser d’autres mesures pour détecter les doublons. En fin de compte, cela prend beaucoup de temps et est inefficace pour attraper tous les problèmes. L’apprentissage automatique fait tout cela pour vous, ce qui vous fait gagner du temps et vous fait gagner du temps.

Il existe de nombreux autres avantages à utiliser l’apprentissage automatique. L’algorithme est entièrement personnalisable et aucune configuration compliquée n’est nécessaire. N’oubliez pas que si vous utilisez un outil qui repose sur des règles complexes, quelqu’un doit configurer les règles, puis les maintenir.

Un outil d’apprentissage automatique élimine complètement cet effort, vous permettant de télécharger simplement le produit et de commencer à l’utiliser immédiatement. DataGroomr en est un exemple, qui offre un essai gratuit de 14 jours.



Source de l’article traduit automatiquement en Français

Besoin d'aide ?
Vous utilisez Pardot depuis un certain temps mais vous n'êtes pas sûr d'en
exploiter tout le potentiel

Notre analyse de votre Pardot offerte dès aujourd'hui
Merci, vous pouvez compléter notre questionnaire
Nous allons revenir vers vous rapidement !

Fermer