Czy Twój Agent LLM Jest Gotowy do Użytku w Przedsiębiorstwie? Salesforce AI Research Wprowadza CRMArena: Nowy Test AI do Oceny Agentów na Rzeczywistych Zadaniach z Środowisk Pracy

Systemy zarządzania relacjami z klientami (CRM) stały się kluczowym elementem funkcjonowania współczesnych firm, umożliwiając zarządzanie interakcjami z klientami, danymi oraz procesami. Integracja zaawansowanej sztucznej inteligencji (AI) z CRM może zrewolucjonizować te systemy, automatyzując rutynowe zadania, dostarczając spersonalizowane doświadczenia oraz usprawniając obsługę klienta. W miarę jak coraz więcej organizacji wdraża podejścia oparte na AI, rośnie zapotrzebowanie na inteligentnych agentów zdolnych do wykonywania złożonych zadań CRM. Modele językowe o dużej skali (LLM) znajdują się na czele tej rewolucji, oferując możliwość automatyzacji skomplikowanych procesów decyzyjnych i zarządzania danymi. Jednak wdrożenie tych agentów wymaga solidnych, realistycznych punktów odniesienia, które zapewnią, że poradzą sobie z wyzwaniami typowymi dla środowisk CRM, w tym zarządzaniem złożonymi obiektami danych i przestrzeganiem określonych protokołów interakcji.

Wyzwania związane z obecnymi narzędziami oceny agentów CRM

Istniejące narzędzia, takie jak WorkArena, WorkBench oraz Tau-Bench, oferują jedynie podstawowe oceny wydajności agentów CRM. Te benchmarki skupiają się głównie na prostych operacjach, takich jak nawigacja po danych oraz filtrowanie, i nie uwzględniają złożonych zależności i dynamicznych interakcji, które są typowe dla danych CRM. Na przykład narzędzia te powinny lepiej modelować relacje między obiektami, takimi jak zamówienia powiązane z kontami klientów czy przypadki rozciągające się na wiele punktów kontaktu. Ograniczenie to sprawia, że organizacje nie są w stanie w pełni ocenić możliwości agentów LLM, co wskazuje na potrzebę bardziej złożonych ram oceny. Jednym z głównych wyzwań w tej dziedzinie jest brak benchmarków, które dokładnie odzwierciedlałyby skomplikowane i powiązane zadania, jakich wymaga rzeczywisty system CRM.

CRMArena – nowoczesny benchmark od Salesforce

Zespół badawczy Salesforce postanowił zapełnić tę lukę, wprowadzając CRMArena, zaawansowany benchmark stworzony specjalnie do oceny możliwości agentów AI w środowiskach CRM. W przeciwieństwie do poprzednich narzędzi, CRMArena symuluje rzeczywisty system CRM, wyposażony w złożone powiązania danych, co pozwala na gruntowną ocenę agentów AI w profesjonalnych zadaniach CRM. W procesie tworzenia zaangażowano ekspertów z dziedziny CRM, którzy przyczynili się do zaprojektowania dziewięciu realistycznych zadań opartych na trzech różnych personach: agentach obsługi, analitykach i menedżerach. Zadania te obejmują kluczowe funkcje CRM, takie jak monitorowanie wydajności agentów, obsługa skomplikowanych zapytań klientów oraz analiza trendów danych w celu poprawy jakości usług. CRMArena oferuje 1 170 unikalnych zapytań w ramach tych dziewięciu zadań, co czyni go wszechstronną platformą do testowania scenariuszy specyficznych dla CRM.

Architektura o wysokim stopniu realizmu

Architektura CRMArena opiera się na schemacie CRM wzorowanym na platformie Salesforce Service Cloud. System generowania danych tworzy połączony zestaw danych, składający się z 16 obiektów, takich jak konta, zamówienia i przypadki, złożonych zależnościami odzwierciedlającymi rzeczywiste środowiska CRM. Aby zwiększyć realizm, CRMArena integruje ukryte zmienne odzwierciedlające dynamiczne warunki biznesowe, takie jak sezonowe trendy zakupowe czy zmiany umiejętności agentów. Dzięki średnio 1,31 zależności na obiekt, CRMArena wiernie odwzorowuje środowisko CRM, stawiając przed agentami wyzwania porównywalne z tymi, które napotykają w rzeczywistych warunkach pracy. Dodatkowo, CRMArena oferuje obsługę zarówno interfejsu użytkownika, jak i dostępu do API systemów CRM, umożliwiając agentom bezpośrednie interakcje za pomocą wywołań API oraz realistyczną obsługę odpowiedzi.

Wyniki testów wydajności

Testy wydajności przeprowadzone z użyciem CRMArena ujawniły, że obecnie dostępne zaawansowane agenty LLM napotykają trudności w realizacji zadań CRM. Najlepszy agent, korzystający z frameworka ReAct, zakończył jedynie 38,2% zadań. Gdy agentowi dodano narzędzia specjalistyczne do wywoływania funkcji, wskaźnik zakończenia zadań wzrósł do 54,4%, co podkreśla istotną lukę w wydajności. Zadania oceniane w ramach testów obejmowały zaawansowane funkcje, takie jak rozwiązywanie wieloznaczności bytów nazwanych (NED), identyfikacja naruszeń polityki (PVI) oraz analiza trendów miesięcznych (MTA), wszystkie wymagające analizy i interpretacji złożonych danych. Na przykład, 90% ekspertów branżowych potwierdziło, że sztuczne środowisko danych było autentyczne, a ponad 77% oceniło poszczególne obiekty w systemie CRM jako „realistyczne” lub „bardzo realistyczne”. Te dane wskazują na kluczowe luki w zdolności agentów LLM do rozumienia złożonych zależności w danych CRM, co musi zostać poprawione, aby w pełni wdrożyć AI w CRM.

Dopracowany proces zapewnienia jakości

CRMArena zapewnia wysoką jakość testów dzięki dwuetapowemu procesowi zapewnienia jakości, który optymalizuje generowanie danych, utrzymując różnorodność obiektów i minimalizując duplikację treści. Procesy te uwzględniają również weryfikację formatów i treści, aby zagwarantować spójność i dokładność wygenerowanych danych. W kontekście formułowania zapytań, CRMArena zawiera mieszankę zapytań możliwych do odpowiedzi oraz takich, które nie mają rozwiązań – te ostatnie stanowią około 30% całości. Zadania te są projektowane tak, aby testować zdolność agentów do identyfikacji i obsługi pytań, które nie mają jasnych odpowiedzi, co odzwierciedla rzeczywiste środowiska CRM, gdzie niektóre informacje mogą nie być od razu dostępne.

Kluczowe wnioski

Podsumowując, prace nad CRMArena przyniosły szereg ważnych wniosków i postępów w ocenie agentów AI w kontekście zadań CRM. CRMArena wnosi znaczący wkład do branży CRM, oferując skalowalny, dokładny i rygorystyczny benchmark oceniający wydajność agentów w środowiskach CRM. Jak pokazują badania, istnieje znaczna luka między obecnymi możliwościami agentów AI a standardami wydajności wymaganymi w systemach CRM. Dlatego też CRMArena stanowi niezbędne narzędzie do dalszego rozwoju i udoskonalania agentów AI, aby sprostać tym wymaganiom.

Wnioski na przyszłość

Wprowadzenie CRMArena to istotny krok w kierunku oceny możliwości agentów AI w zadaniach CRM. Jednak badania jasno pokazują, że obecne modele LLM mają jeszcze duże pole do poprawy, zanim będą w stanie sprostać wyzwaniom rzeczywistych systemów CRM.

Czy Twój Agent LLM Jest Gotowy do Użytku w Przedsiębiorstwie? Salesforce AI Research Wprowadza CRMArena: Nowy Test AI do Oceny Agentów na Rzeczywistych Zadaniach z Środowisk Pracy

ByPan Zły

Wyzwania związane z obecnymi narzędziami oceny agentów CRM

CRMArena – nowoczesny benchmark od Salesforce

Architektura o wysokim stopniu realizmu

Wyniki testów wydajności

Dopracowany proces zapewnienia jakości

Kluczowe wnioski

Wnioski na przyszłość

By Pan Zły

Related Post

Naukowcy z OpenAI Proponują Wieloetapowe Uczenie przez Wzmocnienie, aby Udoskonalić Testowanie LLM

„Wyjaśnianie Przyczynowe z Uwzględnieniem Brakujących Danych: Nowatorskie Rozwiązanie Opracowane przez Badaczy dla Lepszego Zrozumienia Modeli Black Box”

„OpenLS-DGF: Elastyczne i Otwarte Narzędzie do Tworzenia Zbiorów Danych dla Uczenia Maszynowego w Syntezie Logicznej”

Nie Przegap

Naukowcy z OpenAI Proponują Wieloetapowe Uczenie przez Wzmocnienie, aby Udoskonalić Testowanie LLM

„Wyjaśnianie Przyczynowe z Uwzględnieniem Brakujących Danych: Nowatorskie Rozwiązanie Opracowane przez Badaczy dla Lepszego Zrozumienia Modeli Black Box”

„OpenLS-DGF: Elastyczne i Otwarte Narzędzie do Tworzenia Zbiorów Danych dla Uczenia Maszynowego w Syntezie Logicznej”

„Training-Free Guidance (TFG): Uniwersalne podejście do ulepszania generacji warunkowej w modelach dyfuzyjnych – większa efektywność i wszechstronność w różnych dziedzinach”