Bazy wiedzy, takie jak Wikidata, Yago i DBpedia, od dawna stanowią fundament dla inteligentnych aplikacji, ale rozwój w obszarze budowy ogólnych baz wiedzy nieco utknął w martwym punkcie przez ostatnią dekadę. Mimo że duże modele językowe (LLM) zrewolucjonizowały różne dziedziny sztucznej inteligencji i wykazały potencjał jako źródła wiedzy strukturalnej, pełne wydobycie i materializacja tej wiedzy nadal stanowią poważne wyzwania. Obecnie stosowane metody w głównej mierze skupiają się na ocenach opartych na próbkach z zestawów danych do rozwiązywania pytań lub specyficznych domenach, co nie pozwala na kompleksowe wydobycie wiedzy. Ponadto, skalowanie metod wyciągania wiedzy z LLM z wykorzystaniem zapytań faktycznych i iteracyjnych grafów, przy jednoczesnym zachowaniu dokładności i kompletności, stanowi poważne wyzwanie techniczne oraz metodologiczne.

Obecne podejścia do budowy baz wiedzy

Istniejące metody budowy baz wiedzy oparte są na dwóch głównych paradygmatach: podejściach opartych na wolontariuszach, takich jak Wikidata, oraz na pozyskiwaniu strukturalnych informacji ze źródeł takich jak Wikipedia, co jest charakterystyczne dla Yago i DBpedia. Alternatywą są systemy wydobywania wiedzy z tekstu, takie jak NELL oraz ReVerb, ale ich zastosowanie było dotychczas ograniczone. Aktualne metody oceny wiedzy zawartej w LLM koncentrują się głównie na próbkowaniu określonych domen lub benchmarków, co nie pozwala uchwycić pełnego zakresu wiedzy tych modeli. Istnieją pewne próby wydobycia wiedzy z LLM poprzez zapytania i eksplorację iteracyjną, ale te działania miały ograniczony zasięg lub były skupione na wyspecjalizowanych dziedzinach.

Nowatorski projekt budowy bazy wiedzy

Naukowcy z ScaDS.AI z TU Dresden w Niemczech oraz Instytutu Informatyki im. Maxa Plancka w Saarbrücken zaproponowali nowatorskie podejście, które pozwala na konstrukcję bazy wiedzy w dużej skali, opartej wyłącznie na LLM. Wprowadzili oni GPTKB, bazę wiedzy zbudowaną na modelu o nazwie GPT-4o-mini, co demonstruje możliwość wydobywania strukturalnej wiedzy w dużej skali, jednocześnie rozwiązując wyzwania związane z rozpoznawaniem encji, kanonizacją oraz budową taksonomii. Efekt ich pracy to baza wiedzy zawierająca 105 milionów trójek, obejmujących ponad 2,9 miliona encji, osiągnięta przy znacznie niższych kosztach w porównaniu z tradycyjnymi metodami budowy baz wiedzy. Ta metoda łączy dwie domeny: dostarcza wglądów w reprezentację wiedzy przez LLM, a także rozwija metody budowy baz wiedzy w domenie ogólnej.

Architektura GPTKB

Architektura GPTKB składa się z dwufazowego podejścia do wydobywania i organizacji wiedzy. Pierwsza faza obejmuje iteracyjne rozszerzanie grafu, zaczynając od zadanego tematu (np. Vannevar Bush) i systematyczne wydobywanie trójek, jednocześnie identyfikując nowe encje do dalszej eksploracji. W tym procesie wykorzystuje się wielojęzyczny system rozpoznawania nazwanych encji (NER) oparty na modelach spaCy, działających w 10 głównych językach. Filtry oparte na regułach pomagają utrzymać skupienie na istotnych encjach i zapobiegają przesunięciom semantycznym, związanym z różnicami językowymi lub problemami z tłumaczeniem.

Druga faza podkreśla konsolidację, która obejmuje kanonizację encji, standaryzację relacji oraz budowę taksonomii. System działa niezależnie od istniejących baz wiedzy i standardowych słowników, polegając wyłącznie na wiedzy zawartej w LLM.

Wyniki i analiza

GPTKB wyróżnia się skalą i różnorodnością, zawierając informacje dotyczące patentów oraz osób, z niemal 600 000 encji dotyczących ludzi. Najczęściej występującymi relacjami są patentCitation (3,15 mln) oraz instanceOf (2,96 mln). W kontekście osób, popularne są właściwości takie jak „hasOccupation” (126 tys.), „knownFor” (119 tys.) oraz „nationality” (114 tys.). W porównaniu z Wikidata, jedynie 24% tematów z GPTKB ma dokładne odpowiedniki w Wikidata, a 69,5% to potencjalnie nowe encje. Baza wiedzy wychwytuje także właściwości, które nie są modelowane w Wikidata, takie jak „historicalSignificance” (270 tys. trójek), hobby (30 tys. trójek) i „hasArtStyle” (11 tys. trójek), co sugeruje znaczący wkład nowej wiedzy.

Wnioski

Naukowcy zaprezentowali podejście, które umożliwia budowę bazy wiedzy w dużej skali, opartej wyłącznie na modelach LLM. Stworzenie GPTKB wskazuje na możliwość efektywnej konstrukcji takich baz, co stanowi istotny postęp w dziedzinie przetwarzania języka naturalnego i semantycznej sieci. Choć wyzwania, takie jak precyzja i zadania związane z rozpoznawaniem encji czy kanonizacją, pozostają, to podejście okazało się niezwykle opłacalne. Dzięki wygenerowaniu 105 milionów informacji o ponad 2,9 miliona encjach przy ułamku tradycyjnych kosztów, metoda ta dostarcza cennych spostrzeżeń na temat reprezentacji wiedzy przez LLM oraz otwiera nową ścieżkę w budowie baz wiedzy na bazie modeli językowych.