qualite des donnees Gestion des prix

Surmonter les défis liés au multilinguisme et aux données dans la classification des produits à l'aide de LLMs

Dans notre précédent article, Techniques de classification des produits dans le commerce électroniquenous avons exploré la manière dont l'intelligence artificielle, en particulier les grands modèles de langage (LLM), peut être utilisée efficacement pour classer les produits dans des environnements de commerce électronique en constante évolution. Cela a suscité beaucoup d'intérêt et de questions de la part de nos lecteurs, ce qui m'a incité à écrire ce suivi pour répondre à certaines des questions les plus courantes. Voyons plus en détail comment la classification des produits peut être affinée pour tenir compte des langues multiples, de la terminologie incohérente et des disparités de format entre les différentes sources de données.

Que se passe-t-il lorsque vos listes de produits sont rédigées en plusieurs langues ?

L'une des questions les plus fréquentes concernait la gestion de la classification des produits lorsqu'un site de commerce électronique propose des listes de produits dans plusieurs langues. Ce défi peut avoir un impact significatif sur la façon dont les produits sont classés et présentés aux différents publics, ce qui affecte directement les conversions, la recherche et l'expérience de l'utilisateur.

Pour que cela soit plus clair, examinons le rôle des LLM dans la classification multilingue des produits. Le principe de base reste le même que celui que nous avons exposé dans notre premier article : Les LLM s'appuient sur le traitement du langage naturel (NLP) en fonction du contexte pour comprendre non seulement la traduction littérale des mots, mais aussi le contexte, les nuances et la signification voulue. Cela leur permet de classer correctement les produits, même lorsque les listes sont rédigées dans des langues différentes.

Exemple 1 : traduction de listes de produits multilingues

Prenons l'exemple du produit "chemise en fibre de bambou", qui se traduirait par "camiseta de fibra de bambú" en espagnol. Bien qu'il s'agisse d'une traduction littérale correcte, le traitement du langage naturel nous permet d'aller plus loin en comprenant que "fibra de bambú" est associé à des vêtements durables et respectueux de l'environnement. Cela permet au système de classer le produit en anglais et en espagnol dans une catégorie de vêtements écologiques ou durables, ce qui améliore la recherche et l'expérience d'achat pour les utilisateurs intéressés par ces produits.

Exemple 2 : Variations linguistiques régionales

Prenons le mot "chaussures". En Espagne, le mot "zapatos" est couramment utilisé, tandis qu'en Amérique latine, le mot "calzados" est plus fréquent. Malgré ces variations régionales, les gestionnaires du droit du travail sont capables de les classer correctement dans la catégorie des "chaussures" ou plus spécifiquement dans des sous-catégories telles que les "chaussures décontractées" ou les "chaussures de sport" en comprenant le contexte plus large et la terminologie utilisée dans la région concernée.

Mais le défi ne s'arrête pas aux simples traductions ou aux variations régionales. Les différences contextuelles peuvent créer des situations encore plus complexes. En Espagne, le mot "coche" désigne une voiture, mais dans certains pays d'Amérique latine, il désigne une poussette pour bébé. Dans ce cas, le traitement du langage naturel exploite les informations contextuelles (par exemple, les descriptions de produits et les attributs qui les accompagnent) pour s'assurer que l'article est catégorisé correctement, qu'il s'agisse d'une voiture dans un pays ou d'une poussette dans un autre.

Comment gérez-vous autant de sites et de sources différents ?

Beaucoup d'entre vous se sont inquiétés de l'intégration de données sur les produits provenant de plusieurs sites et sources, chacun avec une terminologie différente, des variations linguistiques et des disparités de format. Bien que cela puisse sembler insurmontable, les défis fondamentaux peuvent se résumer à quelques domaines clés, pour lesquels les gestionnaires de fonds d'investissement sont particulièrement aptes à trouver des solutions.

Terminologie incohérente

L'incohérence terminologique est un problème courant dans la catégorisation des produits. Par exemple, les termes "T-shirt", "tee" et "top" peuvent être utilisés de manière interchangeable sur différents sites de commerce électronique, mais ils font tous référence au même type de vêtement. Les LLM utilisent l'analyse sémantique pour reconnaître ces variations et comprendre que, malgré les différents termes, ils devraient tous être classés dans la même catégorie de vêtements.

Comment cela se passe-t-il ?

Les LLM y parviennent en s'entraînant sur de vastes quantités de données diverses. Ils apprennent à associer différents mots ou phrases au même concept sous-jacent en évaluant leur contexte. Par exemple, si un LLM a vu les mots "tee" et "T-shirt" utilisés à plusieurs reprises dans des contextes similaires (associés à des descriptions ou des images du même type de produit), il apprend à traiter ces termes comme des synonymes lors de la catégorisation des articles. Cela garantit une classification cohérente, même lorsque les données sur les produits proviennent de sources disparates utilisant une terminologie différente.

Variations linguistiques

Les variations linguistiques, comme indiqué dans la section précédente, impliquent non seulement des traductions directes, mais aussi des dialectes régionaux et une terminologie spécifique. Comme nous l'avons souligné plus haut, le même produit peut être désigné par des noms différents d'une région à l'autre, et le traitement du langage naturel peut traiter ces variations en fonction du contexte afin de garantir une classification précise, quelle que soit la langue.

Disparités de format

Les disparités de format constituent un défi plus technique mais tout aussi important. Les données relatives aux produits peuvent provenir de sources multiples, souvent structurées de manière différente. Par exemple, un site de commerce électronique peut présenter des spécifications détaillées dans des tableaux bien organisés, tandis qu'un autre peut utiliser du texte non structuré avec un formatage incohérent pour les descriptions de produits, les commentaires ou les documents de marketing.

Exemple : Gérer les disparités de format dans le commerce électronique

Supposons qu'un site répertorie un "T-shirt 100 % coton" avec un tableau organisé indiquant des attributs tels que la taille, la couleur et la matière. Un autre site peut simplement mentionner "tee-shirt en coton" dans un bloc de texte non structuré. Les LLM peuvent analyser les deux formats et extraire les informations clés du texte non structuré aussi efficacement qu'ils lisent le tableau structuré.

Défis

Le défi consiste à consolider et à enrichir les données provenant de ces différents formats afin de fournir une liste de produits transparente et enrichie. Les approches actuelles reposent généralement sur un traitement manuel, où des opérateurs humains normalisent les champs de données ou mettent en œuvre des règles de base pour rendre les informations cohérentes d'une source à l'autre. Toutefois, ce processus nécessite une main-d'œuvre importante et est sujet aux erreurs.

Les LLM à la rescousse

Les LLM peuvent extraire automatiquement des attributs pertinents - tels que le matériau, la taille et même le style - à partir de descriptions non structurées et les recouper avec des données provenant de champs structurés dans d'autres sources. Ce faisant, ils enrichissent non seulement les données, mais vérifient également l'exactitude des listes de produits. Cela permet un catalogage plus robuste des produits, où les attributs les plus importants sont mis en évidence pour les utilisateurs, ce qui conduit à une meilleure catégorisation et à de meilleurs résultats de recherche.

Perspectives d'avenir

Dans le prochain billet, j'ai l'intention de me pencher sur un autre sujet essentiel : la similarité. Nous explorerons comment les LLMs utilisent la similarité non seulement pour améliorer l'appariement, mais aussi pour offrir des avantages compétitifs dans les recommandations de produits et la personnalisation des clients.

Entre-temps, n'hésitez pas à nous envoyer vos questions ! J'espère que ce suivi a permis de clarifier certains des principaux défis et solutions liés à la classification multilingue des produits, à la cohérence terminologique et aux disparités de format. Restez à l'écoute pour en savoir plus !

 

Envie de en savoir plus? Les leaders du commerce électronique sont invités à nous rejoindre pour une session de travail de 30 minutes afin d'explorer les applications pratiques de ChatGPT dans la classification des produits. Les participants acquerront une expérience pratique de la classification de leurs propres produits et de l'optimisation des messages-guides afin de tester et d'affiner leurs stratégies.
Enregistrez votre intérêt pour une session de septembre ci-dessous.


Illustration de la maquette d'un ordinateur portable

De meilleures décisions ne peuvent venir que de meilleures données

Rencontrons-nous
CTA Décoration Image 1 CTA Décoration Image 2