[21/06/2024] Salesforce ha anunciado un nuevo benchmark de LLM para CRM, señalando que es el primero en su tipo y que ayudará a las empresas a evaluar el creciente número de grandes modelos de lenguaje (LLM) para su uso en sus sistemas de gestión de relaciones con los clientes (CRM).
"El nuevo benchmark es un marco de evaluación integral que mide el rendimiento de los LLM en función de cuatro medidas clave: precisión, costo, velocidad y confianza y seguridad. Ha sido diseñado específicamente para evaluar casos de uso comunes de ventas y servicios, incluida la prospección, la nutrición de clientes potenciales, así como los resúmenes de oportunidades de ventas y casos de servicio. El benchmark también incluye una tabla de clasificación pública para ayudar a los profesionales a decidir qué LLM es mejor para sus necesidades de CRM. Salesforce continuará incorporando nuevos escenarios de casos de uso en el punto de referencia y mejorará su evaluación de LLM, que pronto incluirá LLM ajustados”, comentó Silvio Savarese, vicepresidente ejecutivo y científico jefe de Salesforce AI Research, en el comunicado de prensa.
El ejecutivo señaló que los benchmark existentes de LLM se han limitado a casos de uso académicos y de consumo, con muy poca relevancia comercial. "También carecen de evaluaciones humanas expertas adecuadas y no abordan las consideraciones de precisión, velocidad, costo y confianza. Estas deficiencias han dejado a los clientes de CRM sin una forma fiable de medir la eficacia de las soluciones de CRM generativas impulsadas por IA. Sin una idea clara de cómo se desempeñan los LLM en esas métricas para casos de uso específicos, las empresas se ven obligadas a tomar decisiones en la oscuridad”.
Desarrollado por Salesforce AI Research, Savarese indicó que el benchmark utiliza de forma única datos de CRM del mundo real, y también hace uso exclusivo de evaluaciones humanas expertas por parte de profesionales. Anotó que esto permite a las empresas utilizar el benchmark para tomar decisiones más estratégicas sobre cómo incorporar la IA generativa en sus sistemas CRM, con especial atención a:
- Exactitud: Esta métrica comprende cuatro subcategorías: facticidad, integridad, concisión y seguimiento de instrucciones. "Cuanto más precisas sean las predicciones o recomendaciones, más valiosos serán los resultados para los equipos de toda la organización. Y cuanto más valiosos sean los resultados, mejores serán las acciones que puedan tomar para mejorar la experiencia del cliente. Si un modelo es lo suficientemente preciso para un caso de uso, también es importante tener en cuenta las otras métricas. Incluso si el modelo no es lo suficientemente preciso, técnicas como la ingeniería rápida y el ajuste fino pueden mejorarlo”, sostuvo Savarese.
- Costo: La métrica de costo se clasifica como alta, media y baja, en función de los percentiles. "Es el costo operativo estimado que varía según el caso de uso de CRM. Los clientes pueden evaluar la rentabilidad de los diferentes LLM para asegurarse de que se alinean con sus estrategias de presupuesto y asignación de recursos”, explicó el ejecutivo.
- Velocidad: Esta métrica evalúa la capacidad de respuesta y la eficiencia del LLM en el procesamiento y la entrega de información. "Los tiempos de respuesta más rápidos mejoran la experiencia del usuario, reducen los tiempos de espera de los clientes y permiten a los equipos de ventas y servicio abordar consultas y problemas con prontitud”, indicó Savarese.
- Confianza y seguridad: Esta métrica mide la capacidad de LLM para proteger los datos confidenciales de los clientes, cumplir con las regulaciones de privacidad de datos, proteger la información y abstenerse de sesgos y toxicidad para los casos de uso de CRM. "Al evaluar la confiabilidad de los LLM para CRM, este punto de referencia brinda a las organizaciones una sensación de transparencia con respecto a la confianza y la seguridad”, finalizó Savarese.
Franca Cavassa, CTOPerú