Már hanggal is kommunikálhatunk a ChatGPT-vel I.

Bevezető

2023. november 15. | Szabó Máté

A chatbot ingyenes változatában már elérhető a hangalapú interakció, így akár magyar nyelven is beszélgethetünk a ChatGPT-vel, mintha egy valódi személlyel csevegnénk.

Az új funkció az OpenAI frissítési körének része, beleértve a képekkel kapcsolatos kérdések megválaszolását.

Két új funkció mutatkozik be

A ChatGPT eddigi egyik legnagyobb frissítésében az OpenAI két új funkcióval is készül.

Először is, a ChatGPT-nek most már hangja is van, öt valósághű szintetikus hang közül tudunk választani.

A ChatGPT mostantól a képekkel kapcsolatos kérdésekre is válaszol. Az OpenAI ezt a funkciót márciusban a GPT-4 bemutatásával ugrotta meg, de a szélesebb nyilvánosság számára eddig nem volt elérhető. Ez azt jelenti, hogy mostantól képeket tölthetünk fel a felületre, majd kérdezhetünk a kép tartalmáról.

Ezek a frissítések csatlakoznak ahhoz a bejelentéshez, miszerint a DALL-E 3, az OpenAI képkészítő modelljének legújabb verziója csatlakozik a ChatGPT-hez, így a chatbotot képgenerálásra is képes lesz.

A ChatGPT-vel való beszélgetés képessége két külön modellre épül. A Whisper, az OpenAI meglévő beszéd-szöveg modellje szöveggé alakítja a mondottakat, amelyeket aztán a chatbotnak továbbít. Egy új szöveg-beszéd modell pedig a ChatGPT válaszait alakítja át beszélt szavakká.

A frissítéseknek ez a halmaza jól mutatja, hogy az OpenAI milyen gyorsan alakítja kísérleti modelljeit elérhető termékekké. A tavaly novemberi meglepetéssiker, a ChatGPT óta eltelt idő nagy részét a technológia csiszolásával és értékesítésével töltötte, mind a magánfogyasztók, mind a kereskedelmi partnerek számára.

A ChatGPT Plus, a vállalat prémium alkalmazása mostantól az OpenAI modelljeinek legjobbjait egy helyen elérhetővé teszi, a GPT-4 és a DALL-E egyetlen alkalmazásba foglalva lesz elérhető.

Ami egy évvel ezelőtt csak bizonyos szoftverfejlesztők számára volt elérhető, már bárki számára elérhetővé vált havi 20 dollárért.

Partnerkapcsolatok

Az OpenAI megosztja a szöveg-beszéd modellt több partnercéggel is, köztük a Spotify-al. A Spotify felfedte, hogy ugyanezt a szintetikus hangtechnológiát használja a hírességek podcastjainak több nyelvre történő fordításához, amelyekben a podcasterek saját hangjának szintetikus változatát alkalmazzák majd.

A ChatGPT képfelismerő képességét már kipróbálta a Be My Eyes nevű cég, amely a gyengénlátók számára készít alkalmazást. A felhasználók feltölthetnek egy fényképet arról, ami előttük van, és megkérhetik az app önkénteseit, hogy mondják meg nekik, mit látnak a képen. Az OpenAI-al kötött partnerség keretében a Be My Eyes lehetőséget ad a felhasználóknak, hogy ehelyett egy chatbotot kérdezzenek.

Lehetséges kockázatok

Az OpenAI tisztában van a frissítések nyilvánosságra hozatalának kockázataival. A modellek kombinálása a komplexitás teljesen új szintjeit hozza magával. A fejlesztői csapat hónapokat töltött a lehetséges visszaélések ötletelésével; nem lehet például magánszemélyek fotóiról kérdéseket feltenni.

A potenciális problémák itt nem érnek véget: a hangfelismerés hozzáadása az alkalmazáshoz a ChatGPT ezen funkcióját kevésbé hozzáférhetővé teheti azok számára, akik akcentussal beszélnek.

A szintetikus hangok társadalmi és kulturális terhet is hordozhatnak magukban, ami befolyásolja a felhasználóknak az alkalmazással kapcsolatos elképzeléseit és elvárásait. Ezeket a kérdéseket még tanulmányozni kell a jövőben.

Az OpenAI azonban azt állítja, hogy a legsúlyosabb problémákat megoldotta, és biztos benne, hogy a ChatGPT frissítései elég biztonságosak ahhoz, hogy kiadásra kerüljenek.