calidad de los datos Gestión de precios

Superar los retos multilingües y de datos en la clasificación de productos con LLM

En nuestro post anterior, Técnicas de clasificación de productos en el comercio electrónicoexploramos cómo la inteligencia artificial, y en concreto los modelos de lenguaje amplio (LLM), pueden utilizarse eficazmente para clasificar productos en entornos de comercio electrónico en evolución. Esto suscitó mucho interés y muchas preguntas por parte de nuestros lectores, lo que me llevó a escribir esta continuación para responder a algunas de las preguntas más frecuentes. Profundicemos en cómo la clasificación de productos puede ajustarse para adaptarse a múltiples idiomas, terminología incoherente y disparidades de formato entre diversas fuentes de datos.

¿Qué ocurre cuando se tienen listados de productos en varios idiomas?

Una de las preguntas más frecuentes se refería a la gestión de la clasificación de productos cuando un sitio de comercio electrónico tiene listados de productos en varios idiomas. Este reto puede afectar significativamente a la forma en que los productos se clasifican y se presentan a diferentes audiencias, lo que afecta directamente a las conversiones, la capacidad de búsqueda y la experiencia del usuario.

Para que esto quede más claro, veamos el papel de los LLM en la clasificación multilingüe de productos. El principio básico sigue siendo el mismo que expusimos en nuestro primer artículo: Los LLM aprovechan el procesamiento del lenguaje natural (PLN) consciente del contexto para comprender no sólo la traducción literal de las palabras, sino también el contexto, los matices y el significado que se esconde tras ellas. Esto les permite categorizar correctamente los productos, incluso cuando los listados están en distintos idiomas.

Ejemplo 1: Traducción de listas de productos multilingües

Consideremos el producto "bamboo fiber shirt", que se traduciría como "camiseta de fibra de bambú" en español. Aunque se trata de una traducción literal correcta, el procesamiento del lenguaje natural nos permite ir un paso más allá al entender que "fibra de bambú" se asocia a ropa sostenible y ecológica. Esto permite al sistema categorizar el producto, tanto en inglés como en español, como parte de una categoría de ropa ecológica o sostenible, lo que mejora la experiencia de búsqueda y compra de los usuarios interesados en este tipo de productos.

Ejemplo 2: Variaciones lingüísticas regionales

Tomemos la palabra "zapatos". En España se utiliza comúnmente la palabra "zapatos", mientras que en Latinoamérica es más frecuente "calzados". Incluso con estas variaciones regionales, los LLM son capaces de clasificarlas correctamente como "calzado" o, más concretamente, en subcategorías como "calzado informal" o "calzado deportivo", comprendiendo el contexto más amplio y la terminología utilizada en esa región concreta.

Pero el reto no se limita a simples traducciones o variaciones regionales. Las diferencias contextuales pueden crear situaciones aún más complejas. En España, la palabra "coche" se refiere a un automóvil, pero en algunos países latinoamericanos, "coche" se utiliza para referirse a un cochecito de bebé. En este caso, el procesamiento del lenguaje natural aprovecha la información contextual (por ejemplo, las descripciones de los productos y los atributos que los acompañan) para garantizar que el artículo se categoriza correctamente, tanto si se trata de un coche en un país como de un cochecito en otro.

¿Cómo gestiona tantos sitios y fuentes diferentes?

Muchos de ustedes han expresado su preocupación por la integración de datos de productos procedentes de múltiples sitios y fuentes, cada uno con una terminología diferente, variaciones lingüísticas y disparidades de formato. Aunque esto puede parecer abrumador, los retos fundamentales pueden resumirse en unas pocas áreas clave, que los LLM son especialmente expertos en resolver.

Terminología incoherente

La terminología incoherente es un problema común en la categorización de productos. Por ejemplo, "camiseta", "tee" y "top" pueden utilizarse indistintamente en distintos sitios de comercio electrónico, pero todos ellos se refieren al mismo tipo de ropa. Los LLM utilizan el análisis semántico para reconocer estas variaciones y entender que, a pesar de los diferentes términos, todos deberían clasificarse en la misma categoría de ropa.

¿Cómo se hace?

Los LLM lo consiguen entrenándose con grandes cantidades de datos diversos. Aprenden a asociar distintas palabras o frases con el mismo concepto subyacente evaluando su contexto. Por ejemplo, si un LLM ha visto las palabras "tee" y "camiseta" utilizadas en contextos similares repetidamente -emparejadas con descripciones o imágenes del mismo tipo de producto- aprende a tratar estos términos como sinónimos a la hora de clasificar artículos. Esto garantiza una clasificación coherente, incluso cuando los datos del producto proceden de fuentes dispares que utilizan terminología diferente.

Variaciones lingüísticas

Las variaciones lingüísticas, como se ha comentado en el apartado anterior, no sólo implican traducciones directas, sino también dialectos regionales y terminología específica. El procesamiento del lenguaje natural puede procesar estas variaciones contextualmente para garantizar una clasificación precisa con independencia del idioma.

Disparidades de formato

Un reto más técnico, pero igualmente importante, son las disparidades de formato. Los datos de los productos pueden proceder de múltiples fuentes, a menudo estructuradas de formas diferentes. Por ejemplo, un sitio de comercio electrónico puede tener especificaciones detalladas en tablas perfectamente organizadas, mientras que otro puede utilizar texto no estructurado con un formato incoherente para las descripciones de los productos, las reseñas o los materiales de marketing.

Ejemplo: Gestión de las disparidades de formato en el comercio electrónico

Pongamos por caso que en un sitio aparece una "camiseta de algodón 100%" con una tabla organizada que muestra atributos como la talla, el color y el material. Otro sitio puede mencionar simplemente "camiseta de algodón" dentro de un bloque de texto no estructurado. Los LLM pueden analizar ambos formatos y extraer la información clave del texto no estructurado con la misma eficacia que leen la tabla estructurada.

Desafíos

El reto consiste en consolidar y enriquecer los datos de estos distintos formatos para ofrecer un listado de productos enriquecido y sin fisuras. Los enfoques actuales suelen basarse en el procesamiento manual, en el que operadores humanos normalizan los campos de datos o aplican reglas básicas para que la información sea coherente en todas las fuentes. Sin embargo, este proceso requiere mucho trabajo y es propenso a errores.

LLM al rescate

Los LLM pueden extraer automáticamente atributos relevantes -como material, tamaño e incluso estilo- de descripciones no estructuradas y cruzarlos con datos de campos estructurados de otras fuentes. De este modo, no sólo enriquecen los datos, sino que también verifican la exactitud de los listados de productos. Esto permite una catalogación de productos más sólida, en la que se destacan los atributos más importantes para los usuarios, lo que conduce a una mejor categorización y resultados de búsqueda.

De cara al futuro

En el próximo post, tengo previsto profundizar en otro tema crítico: la similitud. Exploraremos cómo los LLM utilizan la similitud no solo para mejorar el emparejamiento, sino también para ofrecer ventajas competitivas en las recomendaciones de productos y la personalización de clientes.

Mientras tanto, no dude en seguir enviando sus preguntas. Espero que este seguimiento haya aclarado algunos de los principales retos y soluciones en torno a la clasificación multilingüe de productos, la coherencia terminológica y las disparidades de formato. Estén atentos para más información.

 

¿Quieres aprende mas? Los líderes del comercio electrónico están invitados a unirse a nosotros en una sesión de trabajo de 30 minutos para explorar las aplicaciones prácticas de ChatGPT en la clasificación de productos. Los asistentes obtendrán experiencia práctica en la clasificación de sus propios productos y en cómo optimizar los avisos para probar y perfeccionar sus estrategias.
Registre a continuación su interés por una sesión en septiembre.


Ilustración de maqueta de ordenador portátil

Las mejores decisiones sólo pueden provenir de mejores datos.

Contacto Nosotros hoy
Imagen de decoración CTA 1 Imagen de la decoración de la CTA 2