Wykorzystanie grafów wiedzy w przedsiębiorstwach stało się w ostatnich latach niezwykle popularne. Służą one do modelowania i analizy danych takich jak osoby prawne, kapitał zakładowy czy szczegóły dotyczące udziałowców. Choć grafy te mają olbrzymi potencjał, często krytykowane są za skomplikowany charakter zapytań tekstowych oraz konieczność ręcznej eksploracji, co utrudnia efektywne pozyskiwanie informacji.

Rewolucja dzięki modelom językowym

Wraz z postępem w dziedzinie przetwarzania języka naturalnego oraz rozwoju inteligencji generatywnej, modele językowe (LLM – Large Language Models) zaczęły odgrywać coraz większą rolę w rozwiązywaniu złożonych zapytań i podsumowywaniu informacji. Jednym z najnowszych osiągnięć w tym zakresie jest projekt „EICopilot”, opracowany przez badaczy z Baidu. To narzędzie oparte na agentach, które ułatwia wyszukiwanie, eksplorację i podsumowywanie danych korporacyjnych przechowywanych w grafach wiedzy.

Aby w pełni zrozumieć skalę działania EICopilota, warto zauważyć, że typowy zestaw danych grafu może obejmować setki milionów węzłów, dziesiątki miliardów krawędzi i setki miliardów atrybutów. W praktyce oznacza to miliony podgrafów reprezentujących przedsiębiorstwa, organizacje czy inne jednostki prawne w obrębie jednego kraju.

Jak działa EICopilot?

EICopilot wykorzystuje modele językowe jako zaawansowanego chatbota, który działa na bazie innowacyjnego procesu wstępnego przetwarzania danych. W pierwszym kroku autorzy zgromadzili rzeczywiste zapytania dotyczące przedsiębiorstw, korzystając z popularnych wyszukiwarek internetowych. Następnie, niektóre z tych zapytań zostały wybrane jako dane referencyjne, na podstawie których opracowano skrypty wyszukiwania w języku Gremlin, używanym do obsługi grafów. Dzięki systematycznej anotacji i rozszerzaniu tych zapytań oraz skryptów stworzono bazę wektorową, która pozwala na precyzyjne wyszukiwanie w czasie rzeczywistym.

Ta baza wektorowa jest kluczowym elementem działania chatbota, ponieważ generuje przestrzenie wyszukiwania w czasie rzeczywistym, co pozwala na szybkie i efektywne odzyskiwanie oraz przetwarzanie danych z grafów wiedzy.

Zaawansowane techniki analizy danych

Jedną z kluczowych cech EICopilota jest zaawansowany proces rozumowania, który opiera się na technikach takich jak Chain-of-Thought (CoT) oraz In-Context Learning (ICL). Dzięki temu chatbot jest w stanie udzielać precyzyjnych i trafnych odpowiedzi na nawet bardzo złożone zapytania.

Co więcej, autorzy projektu zwrócili uwagę na problem związany z dopasowywaniem zapytań do bazy wektorowej – kluczowe okazało się tutaj znaczenie nazw jednostek (np. nazw firm) w zapytaniach. Aby zwiększyć skuteczność i elastyczność systemu, opracowano innowacyjną metodę maskowania nazw jednostek w zapytaniach, co pozwala na bardziej uniwersalne zrozumienie treści.

Wyniki eksperymentów i przewaga nad konkurencją

Zespół badawczy przeprowadził szeroko zakrojone analizy empiryczne z wykorzystaniem danych z wewnętrznej platformy Baidu. Na potrzeby badań skonstruowano zestaw danych, który łączył zapytania użytkowników z odpowiadającymi im zapytaniami do grafu. Wprowadzono także wskaźnik złożoności zapytań, oparty na długości ich przeszukiwania w grafie, który klasyfikował je jako proste, umiarkowane lub złożone.

Wyniki eksperymentów pokazały, że EICopilot znacząco przewyższa inne rozwiązania pod względem szybkości i dokładności. Szczególnie efektywny okazał się wariant systemu z pełnym maskowaniem zapytań, który obniżył wskaźnik błędów składniowych do zaledwie 10% oraz osiągnął skuteczność wykonania zapytań na poziomie 82,14%.

Wnioski końcowe

EICopilot to przełomowe narzędzie, które zrewolucjonizuje sposób eksplorowania i przetwarzania ogromnych baz danych grafów wiedzy w korporacjach. Dzięki zastosowaniu zaawansowanych technik, takich jak przetwarzanie danych, generowanie skryptów i maskowanie zapytań, system ten oferuje niespotykaną wcześniej precyzję i szybkość działania. Wyniki badań jednoznacznie potwierdzają, że EICopilot jest przyszłością eksploracji danych w dużych organizacjach, znacznie przewyższając dotychczasowe metody.

Razem z dynamicznym rozwojem sztucznej inteligencji, możemy spodziewać się dalszych udoskonaleń w tej dziedzinie, co otworzy nowe możliwości w wykorzystywaniu grafów wiedzy na szeroką skalę.