Hogyan működnek az LLM-ek?

Áttekintés: mi az LLM?

 2023. május 11. | Szabó Máté

Alapvetően a nagy nyelvi modellek vagy az LLM-ek olyan mesterséges intelligenciatípusok, amelyek képesek az emberi intelligenciához hasonló szövegek létrehozására. Statisztikai modellekkel elemeznek hatalmas mennyiségű adatot, megtanulják a szavak és kifejezések közötti mintákat és összefüggéseket.

A nagy nyelvi modellek csak egy példája annak, hogyan használjuk fel a technológiát intelligensebb és kifinomultabb szoftverek létrehozására.

chatboss-llm

Építi magát

A legegyszerűbb megfogalmazásban a modell egy számítógépes program. 

A gépi tanulás vagy mesterséges intelligencia modell sajátossága azonban az, hogy ahelyett, hogy az utasításokat kifejezetten megírnák, a programozók inkább egy utasításkészletet (egy algoritmust) írnak, amely azután nagy mennyiségű meglévő adatot áttekint magának a modellnek a meghatározásához. Mint ilyen, az emberi programozók nem a modellt építik, hanem azt az algoritmust, amely a modellt felépíti.

Egy LLM esetében ez azt jelenti, hogy a programozók határozzák meg a modell architektúráját és a szabályokat, amelyek alapján megépül. 

Ez egy „tréningnek” nevezett folyamatban történik, melynek során a modell az algoritmus utasításait követve maga határozza meg ezeket a változókat.

LLM esetén az áttekintett adat szöveg. Bizonyos esetekben speciálisabb vagy általánosabb lehet. A legnagyobb modelleknél az a cél, hogy a modellt a lehető legtöbb nyelvtani szöveggel látják el, amelyből tanulni lehet.

A képzési folyamat során, amely sok millió vagy milliárd dollár értékű számítási felhő erőforrást emészt fel, a modell áttekinti ezt a szöveget, és megkísérli saját szöveg létrehozását.
Kezdetben a kimenet halandzsa, de egy hatalmas próba- és hibafolyamatnak köszönhetően – és folyamatosan összehasonlítjuk a kimenetet a bemenettel – a kimenet minősége fokozatosan javul. A szöveg érthetőbbé válik.

Ha elegendő időt, elegendő számítási erőforrást és elegendő képzési adatot kap, a modell „megtanul” olyan szöveget előállítani, amely az emberi olvasó számára megkülönböztethetetlen az ember által írt szövegtől.

Egy LLM megjósolja, hogy melyik szónak kell követnie az előzőt

Az LLM-ek reduktív leírása az, hogy „egyszerűen megjósolják a sorozat következő szavát”. Ez igaz, de figyelmen kívül hagyja azt a tényt, hogy ez az egyszerű folyamat azt jelentheti, hogy az olyan eszközök, mint a ChatGPT, kiemelkedően jó minőségű szöveget állítanak elő. Ugyanilyen könnyű azt mondani, hogy „a modell egyszerűen matematikát csinál”, ami szintén igaz, de nem túl hasznos abban, hogy megértsük a modell működését vagy értékeljük erejét.

A fent leírt betanítási folyamat eredménye egy neurális hálózat, amely több százmilliárdnyi kapcsolattal rendelkezik a több millió neuron között, amelyek mindegyikét maga a modell határozza meg. A legnagyobb modellek nagy mennyiségű adatot képviselnek, talán több száz gigabájtot csak az összes súly tárolására.

A súlyok és a neuronok mindegyike egy matematikai képlet, amelyet minden egyes szóhoz (vagy bizonyos esetekben a szó egy részéhez) kell kiszámítani, amelyet a modellnek megadnak a beviteléhez, és minden egyes szóhoz (vagy részhez) szó), amelyet kimeneteként generál.

Ez egy technikai részlet, de ezeket a szórészeket „tokennek” nevezik, gyakran így árazzák ezeknek a modelleknek a használatát, amikor szolgáltatásként nyújtják őket – erről később.

A modellek egyikével interakcióba lépő felhasználó szöveg formájában bevitelt biztosít. Például megadhatjuk a következő promptot a ChatGPT számára:

Hello ChatGPT! Kérlek, foglald össze nekem a magyar történelem 100 szavas leírását. Tartalmazzon évszámokat és eseményeket egyaránt.

A ChatGPT mögött álló modellek ezután tokenekre bontják ezt a promptot. Egy token átlagosan ⅘ egy szóból áll, így a fenti prompt és a benne lévő 23 szó körülbelül 30 tokent eredményezhet. A GPT-3 modell, amelyen a gpt-3.5-turbo modell alapul, 175 milliárd súllyal rendelkezik, ami azt jelenti, hogy a 30 token bemeneti szöveg 30 x 175 milliárd = 5,25 billió számítást eredményez. A ChatGPT-ben is elérhető GPT-4 modellnek ismeretlen számú súlya van.

Ezután a modell egy olyan választ generál, amely jól hangzik a képzés során felhasznált hatalmas szövegmennyiség alapján. Fontos, hogy nem keres semmit a lekérdezéssel kapcsolatban. Nincs olyan memóriája, amelyben kereshetne „magyar történelem”, „évszám”, „esemény” vagy bármely más releváns kifejezésre. Ehelyett hozzálát a kimeneti szöveg minden egyes tokenjének generálásához, újra elvégzi a 175 milliárd számítást, létrehozva egy olyan tokent, amely a legnagyobb valószínűséggel hangzik jól.

llm chatboss

Példák nagy nyelvi modellekre

LEGFRISSEBB BEJEGYZÉSEINK:

LLM

Új technológiák és kihívások

Az olyan csevegőrobotokat, mint a GPT, nagy mennyiségű adat és..​

Tovább olvasom

CHAT GPT

GPT - Így tanul tőlünk​

A ChatGPT a GPT-3 adaptált modellje, amely nem kizárólag felügyelet nélküli..

Tovább olvasom

CHAT GPT

Chatbot típusok​ most

A legkezdetlegesebb chatbot típus a menüvezérelt bot, majd ezt követi a..

Tovább olvasom

LEGFRISSEBB BEJEGYZÉSEINK:

Új technológiák és kihívások

Az olyan csevegőrobotokat, mint a GPT, nagy mennyiségű adat és..

Így tanul tőlünk

A ChatGPT a GPT-3 adaptált modellje, amely nem kizárólag felügyelet nélküli..

Chatbot típusok

A legkezdetlegesebb chatbot típus a menüvezérelt bot, majd ezt követi a..