Apprentissage profond chez snapADDY

13. Mars 2018par Philip Dürholt

L'article d'aujourd'hui s’agit sur l'utilisation de l'apprentissage profond que nous développons et utilisons actuellement pour améliorer les résultats de notre analyseur de données. Nous aimerions vous donner un bref aperçu du fonctionnement interne de notre service de développement et vous montrer comment notre analyseur utilise les nouvelles avancées techniques pour améliorer encore la qualité de la saisie des données dans votre système de CRM. Nous travaillons actuellement au développement continu de l'analyseur que nous mettrons à la disposition de nos clients dans le courant de l'année.

Notre tâche principale : la recherche et la reconnaissance de coordonnées de qualité

De nombreuses entreprises ne sont pas satisfaites de la qualité des données de leur système CRM. La documentation manuelle des notes de réunion et le fait d'avoir à taper des coordonnées entraînent des résultats de mauvaise qualité et une perte de temps précieux. En vue de trouver une solution à ce problème, nous avons décidé que l'idéal est de saisir des informations automatiquement.

L'une des principales fonctionnalités de nos produits est la reconnaissance automatique des coordonnées effectuée par notre algorithme. En tapant simplement le nom d'une entreprise dans la barre de recherche, l'algorithme snapADDY trouve individuellement la mention légale sur le site web, il analyse le texte trouvé et reconnaît les éventuelles coordonnées qu'il trie automatiquement dans les cases prévues à cet effet. Il exporte ensuite le résultat sous forme de contact direct vers le système CRM, ce qui réduit la charge de travail à seulement deux minutes par contact.

Le principal problème : comment les coordonnées peuvent-elles être automatiquement reconnues dans un texte ?

Lorsque nous, les humains, lisons un texte, nous reconnaissons instantanément un nom et un courriel en lisant des séquences de caractères qui forment des phrases, des textes ou des séries numériques. En outre, nous comprenons le contexte, nous extrayons les informations pertinentes dans les plus brefs délais et nous les trions selon notre expérience. Alors, à quel point peut-il être difficile de faire en sorte qu'un appareil traite l'information par lui-même comme le ferait un humain ?

Ce travail est assez difficile parce qu'un ordinateur ne comprend pas un texte par lui-même ou du moins ne le traite pas de la même manière qu'un être humain le ferait. Comme elle ne comprend pas les séquences de signes telles que les mots et les phrases, elle ne fait pas de distinction qualitative entre "maison" et "72 97 117 115". Alors comment un appareil est-il censé traiter les données automatiquement ?

Comparaison de deux stratégies : 1. Affectation des données au moyen de listes

Initialement, chez snapADDY, nous utilisions des listes de mots que notre logiciel pouvait utiliser pour déterminer si une séquence de caractères faisait référence à un "nom" ou à un "titre de travail" dans la liste. Ainsi, s'il trouvait la fonction d'un employé du service commercial dans un texte sur les mentions légales du site, il le reconnait comme une "fonction" parce que la même séquence de caractères figurait sur la liste classée comme telle.

Cela semble une solution facile, n'est-ce pas ? Qu'en est-il de l'entreprise Pierre Dupont SARL, 123 rue Robert Martin ? Comment un appareil peut-il décider si Pierre est un nom personnel ou le nom de l'entreprise ? Ce problème basique ne peut être résolu de manière triviale en comparant des mots de différentes listes. C'est pourquoi notre service des données travaille intensivement sur des systèmes plus intelligents qui peuvent développer individuellement des modèles de reconnaissance des coordonnées afin que nous n'ayons pas à les créer manuellement.

En outre, l'établissement de listes avec des noms de personnes, de villes et d'entreprises nécessite un travail manuel considérable. Notre service des données chez snapADDY passe beaucoup de temps à créer et à tester des listes pour déterminer l'efficacité de la classification des données (par exemple, Pierre = nom) selon des critères statistiques. Grâce à cette procédure, snapADDY atteint un haut degré de précision dans de nombreux domaines. Cette approche donne donc essentiellement de bons résultats, mais à mesure que les performances de reconnaissance et la quantité de données augmentent, il devient évident que les règles et les listes ont leurs limites. À long terme, il devient de plus en plus difficile de configurer la précision de l'analyseur, ce qui exige beaucoup plus d'efforts et de travail pour créer de nouvelles règles. C'est là qu'une technologie des années 1960, qui est à nouveau florissante, intervient : L'apprentissage profond.

Comparaison de deux stratégies : 2. Reconnaissance des patrons avec l'apprentissage profond

L'apprentissage profond est l'un des concepts à la mode ces dernières années. Il n'est pas facile de résumer simplement tout ce qui se cache derrière ce terme, mais l'idée qui le sous-tend est expliquée au moyen d'un problème spécifique sans trop entrer dans les détails techniques. Fondamentalement, l'apprentissage profond est la réponse à la question suivante : que puis-je faire si je veux éviter d’avoir à faire par moi-même qu’un appareil reconnaisse des règles de reconnaissance des données pertinentes ?

Grâce à l'apprentissage profond, nous n'avons plus besoin d'entrer les règles individuellement et nous n'avons même pas besoin d'écrire des listes de mots sur les appareils. L'idée est simple : au lieu d'écrire des règles explicites et de programmer la logique dans le logiciel, nous préparons des instructions pour que l'appareil reconnaisse les patrons par lui-même. Ces patrons dépassent même les règles très complexes créées pour être utilisées dans une grande variété d'applications.

L'apprentissage profond chez snapADDY : un algorithme d'apprentissage indépendant utilisant des cas de test

En général, l'apprentissage profond fait référence à l'utilisation de réseaux neuronaux artificiels pour créer des modèles généraux qui résolvent un problème spécifique (comme la classification des données, la traduction, la reconnaissance de texte, etc.) Un réseau neuronal peut apprendre de l'expérience à partir de modèles de données, par exemple, il apprend quels mots apparaissent souvent ensemble et à quelles classes ils appartiennent. L'expérience se présente sous la forme de modèles de données dont nous saisissons les mots dans le réseau et que nous classons ensuite.

À partir de ces paires de classes de mots, le réseau neuronal tente de déduire les règles générales qui lui permettront de trouver la classe correspondant à chaque mot, même si ce mot n'est pas inclus dans les instructions initiales. Ces règles simulent une série de calculs au sein du réseau qui tendent à représenter des fonctions mathématiques. Tout d'abord, les paramètres utilisés sont choisis au hasard, dont les solutions sont généralement peu concluantes au départ. Pendant le test, le réseau compare constamment la solution qu'il a trouvée avec la bonne réponse et modifie les paramètres correspondants chaque fois qu'il trouve une erreur. Ainsi, les paramètres seront ajustés jusqu'à ce qu'il n'y ait plus d'erreurs à améliorer.

De cette manière, nous pouvons améliorer considérablement la détection des cases individuelles dans notre système de test. Par exemple, la reconnaissance du nom des entreprises est passée de 70 % à plus de 80 %. Grâce à cette méthode, la reconnaissance des noms est maintenant bien supérieure à 90 % dans le système de test. Dès que notre analyseur d'apprentissage profond sera prêt à être utilisé de manière productive, nos clients pourront bénéficier d'une reconnaissance automatisée des données encore meilleure. Lorsqu'il sera disponible, nous informerons par nos canaux habituels (réseaux sociaux, lettres d'information, etc.).

Étape suivante : mise à jour automatique des coordonnées dans le système CRM

Chez snapADDY, nous améliorons constamment la précision de l'une de nos fonctionnalités clés grâce à l'utilisation de nouvelles technologies. Nous continuons à former notre modèle d'apprentissage profond avec des modèles de données supplémentaires pour obtenir une plus grande précision. À l'avenir, notre service des données pourra se concentrer sur les défis à venir qui rendront le travail des utilisateurs de snapADDY encore plus facile. Pour l'instant, nous garantissons que les mises à jour automatiques des coordonnées et d'autres fonctionnalités intéressantes sont à votre portée.