Qualidade dos dados Gerenciamento de preços

Superando os desafios multilíngues e de dados na classificação de produtos com LLMs

Em nossa postagem anterior, Técnicas de classificação de produtos no comércio eletrônicoexploramos como a inteligência artificial, especificamente os modelos de linguagem ampla (LLMs), pode ser usada com eficácia para classificar produtos em ambientes de comércio eletrônico em evolução. Isso despertou muito interesse e perguntas de vocês, nossos leitores, o que me levou a escrever esta continuação para abordar algumas das dúvidas mais comuns. Vamos nos aprofundar em como a classificação de produtos pode ser ajustada para acomodar vários idiomas, terminologia inconsistente e disparidades de formato em várias fontes de dados.

O que acontece quando você tem listagens de produtos em vários idiomas?

Uma das perguntas mais frequentes foi sobre o gerenciamento da classificação de produtos quando um site de comércio eletrônico tem listagens de produtos em vários idiomas. Esse desafio pode afetar significativamente a forma como os produtos são categorizados e apresentados a diferentes públicos, afetando diretamente as conversões, a capacidade de pesquisa e a experiência do usuário.

Para deixar isso mais claro, vamos analisar a função dos LLMs na classificação multilíngue de produtos. O princípio central permanece o mesmo que discutimos em nossa postagem inicial: Os LLMs aproveitam o processamento de linguagem natural (PLN) com reconhecimento de contexto para entender não apenas a tradução literal das palavras, mas o contexto, as nuances e o significado pretendido por trás delas. Isso permite que eles categorizem os produtos corretamente, mesmo quando as listagens estão em idiomas diferentes.

Exemplo 1: Tradução de listagens de produtos multilíngues

Considere o produto "camiseta de fibra de bambu", que seria traduzido para "camiseta de fibra de bambú" em espanhol. Embora essa seja uma tradução literal correta, o processamento de linguagem natural nos permite dar um passo adiante, entendendo que "fibra de bambu" está associada a roupas sustentáveis e ecologicamente corretas. Isso permite que o sistema categorize o produto, tanto em inglês quanto em espanhol, como parte de uma categoria de vestuário ecológico ou sustentável, o que aprimora a experiência de pesquisa e compra dos usuários interessados em tais produtos.

Exemplo 2: Variações regionais de idioma

Vejamos a palavra "sapatos". Na Espanha, a palavra "zapatos" é comumente usada, enquanto na América Latina, "calzados" é mais frequente. Mesmo com essas variações regionais, os LLMs são capazes de classificá-las corretamente como "calçados" ou, mais especificamente, em subcategorias como "calçados casuais" ou "calçados esportivos", compreendendo o contexto mais amplo e a terminologia usada naquela região específica.

Mas o desafio não se limita a simples traduções ou variações regionais. As diferenças contextuais no idioma podem criar situações ainda mais complexas. Na Espanha, a palavra "coche" se refere a um carro, mas em alguns países da América Latina, "coche" é usado para se referir a um carrinho de bebê. Nesse caso, o processamento de linguagem natural aproveita as informações contextuais (por exemplo, descrições de produtos e atributos complementares) para garantir que o item seja categorizado corretamente, seja um carro em um país ou um carrinho de bebê em outro.

Como você gerencia tantos sites e fontes diferentes?

Muitos de vocês levantaram preocupações sobre a integração de dados de produtos de vários sites e fontes, cada um com terminologia diferente, variações de idioma e disparidades de formato. Embora isso possa parecer complicado, os principais desafios podem ser resumidos em algumas áreas-chave, que os LLMs são particularmente hábeis em resolver.

Terminologia inconsistente

A terminologia inconsistente é um desafio comum na categorização de produtos. Por exemplo, "camiseta", "tee" e "top" podem ser usados de forma intercambiável em diferentes sites de comércio eletrônico, mas todos eles se referem ao mesmo tipo de roupa. Os LLMs usam a análise semântica para reconhecer essas variações e entender que, apesar dos termos diferentes, todos eles devem ser classificados na mesma categoria de roupas.

Como isso é feito?

Os LLMs conseguem isso treinando com grandes quantidades de dados diversos. Eles aprendem a associar palavras ou frases diferentes ao mesmo conceito subjacente, avaliando seu contexto. Por exemplo, se um LLM tiver visto repetidamente as palavras "tee" e "T-shirt" usadas em contextos semelhantes - combinadas com descrições ou imagens do mesmo tipo de produto - ele aprenderá a tratar esses termos como sinônimos ao categorizar itens. Isso garante uma classificação consistente, mesmo quando os dados do produto vêm de fontes diferentes que usam terminologia diferente.

Variações de idioma

As variações de idioma, conforme discutido na seção anterior, envolvem não apenas traduções diretas, mas também dialetos regionais e terminologia específica. Conforme destacado acima, o mesmo produto pode ser chamado por nomes diferentes em diferentes regiões, e o processamento de linguagem natural pode processar essas variações contextualmente para garantir uma classificação precisa, independentemente do idioma.

Disparidades de formato

Um desafio mais técnico, mas igualmente importante, são as disparidades de formato. Os dados do produto podem vir de várias fontes, geralmente estruturadas de maneiras diferentes. Por exemplo, um site de comércio eletrônico pode ter especificações detalhadas em tabelas bem organizadas, enquanto outro pode usar texto não estruturado com formatação inconsistente para descrições de produtos, avaliações ou materiais de marketing.

Exemplo: Como lidar com as disparidades de formato no comércio eletrônico

Digamos que um site liste uma "camiseta 100% algodão" com uma tabela organizada mostrando atributos como tamanho, cor e material. Outro site pode simplesmente mencionar "camiseta de algodão" em um bloco de texto não estruturado. Os LLMs podem analisar os dois formatos - extraindo informações importantes do texto não estruturado com a mesma eficácia com que lê a tabela estruturada.

Desafios

O desafio aqui está em consolidar e enriquecer os dados desses diferentes formatos para fornecer uma listagem de produtos perfeita e enriquecida. As abordagens atuais geralmente dependem do processamento manual, em que os operadores humanos padronizam os campos de dados ou implementam regras básicas para tornar as informações consistentes entre as fontes. Esse processo, no entanto, é trabalhoso e propenso a erros.

LLMs para o resgate

Os LLMs podem extrair automaticamente atributos relevantes - como material, tamanho e até mesmo estilo - de descrições não estruturadas e fazer referência cruzada com dados de campos estruturados em outras fontes. Ao fazer isso, eles não apenas enriquecem os dados, mas também verificam a precisão das listagens de produtos. Isso permite uma catalogação de produtos mais robusta, em que os atributos mais importantes são destacados para os usuários, levando a uma melhor categorização e resultados de pesquisa.

Olhando para o futuro

No próximo post, pretendo me aprofundar em outro tópico crítico: similaridade. Exploraremos como os LLMs usam a similaridade não apenas para aprimorar a correspondência semelhante, mas também para oferecer vantagens competitivas em recomendações de produtos e personalização de clientes.

Enquanto isso, fique à vontade para continuar enviando suas perguntas! Espero que este acompanhamento tenha esclarecido alguns dos principais desafios e soluções relacionados à classificação multilíngue de produtos, consistência de terminologia e disparidades de formato. Fique atento a mais informações!

 

Os líderes de comércio eletrônico estão convidados a se juntar a nós em uma sessão de trabalho de 30 minutos para explorar as aplicações práticas do ChatGPT na classificação de produtos. Os participantes ganharão experiência prática com a classificação de seus próprios produtos e como otimizar os prompts para testar e refinar suas estratégias.
Registre seu interesse em uma sessão de setembro abaixo.


Ilustração de maquete de notebook

Melhores decisões só podem vir de dados melhores.

Contate-nos hoje
CTA Decoração Imagem 1 CTA Decoração Imagem 2