Google Gemini AI jobb lett mint a ChatGDP4?


A Google Deepmind nemrég jelentette be Gemini nevű új AI modelljét, amely az OpenAI ChatGPT-jének konkurenciája. Míg mindkét modell a “generatív mesterséges intelligencia” példája, amelyek megtanulják megtalálni a bemeneti képzési információk mintáit, hogy új adatokat (képeket, szavakat vagy más médiát) hozzanak létre, a ChatGPT egy nagy nyelvi modell (LLM), amely szöveg előállítására összpontosít.

Ugyanúgy, ahogy a ChatGPT egy webes alkalmazás a beszélgetésekhez, amely a GPT néven ismert neurális hálózaton alapul (hatalmas mennyiségű szövegre képzett), a Google-nek van egy Bard nevű beszélgetéses webes alkalmazása, amely a LaMDA nevű (párbeszédre képzett) modellen alapult. De a Google most ezt a Gemini alapján fejleszti.

A Gemini abban különbözik a korábbi generatív AI-modellektől, például a LaMDA-tól, hogy ez egy “multimodális modell”. Ez azt jelenti, hogy közvetlenül többféle bemeneti és kimeneti móddal dolgozik: a szöveges be- és kimenet mellett támogatja a képeket, hangot és videót is. Ennek megfelelően egy új betűszó is kialakulóban van: LMM (large multimodal model), nem összetévesztendő az LLM-mel.

Szeptemberben az OpenAI bejelentette a GPT-4Vision nevű modellt, amely képekkel, hanggal és szöveggel is képes dolgozni. Ez azonban nem egy teljesen multimodális modell, ahogyan a Gemini ígéri.

Nem a friss hírekről szól. Nem a megalapozatlan véleményekről.
Míg például a GPT-4V által működtetett ChatGPT-4 képes hangbemenetekkel dolgozni és beszédkimeneteket generálni, az OpenAI megerősítette, hogy ez úgy történik, hogy a beszédet szöveggé alakítja a bemeneten egy másik, Whisper nevű mélytanulási modell segítségével. A ChatGPT-4 a kimeneten szintén egy másik modell segítségével alakítja át a szöveget beszéddé, ami azt jelenti, hogy maga a GPT-4V tisztán szöveggel dolgozik.

Hasonlóképpen a ChatGPT-4 képes képeket előállítani, de ezt úgy teszi, hogy szöveges felszólításokat generál, amelyeket egy különálló, Dall-E 2 nevű mélytanulási modellnek ad át, amely a szöveges leírásokat képekké alakítja.

Ezzel szemben a Google a Geminit úgy tervezte, hogy “natívan multimodális” legyen. Ez azt jelenti, hogy az alapmodell közvetlenül kezeli a különböző bemeneti típusokat (hang, kép, videó és szöveg), és közvetlenül ki is tudja azokat adni.

Akkor most ki a jobb?
A két megközelítés közötti különbségtétel akadémikusnak tűnhet, de fontos. A Google technikai jelentéséből és más, eddig elvégzett minőségi tesztekből az az általános következtetés vonható le, hogy a Gemini jelenlegi, nyilvánosan elérhető, Gemini 1.0 Pro nevű verziója általában nem olyan jó, mint a GPT-4, és képességeiben inkább a GPT 3.5-höz hasonlít.

A Google bejelentette a Gemini egy nagyobb teljesítményű, Gemini 1.0 Ultra nevű változatát is, és bemutatott néhány eredményt, amelyek azt mutatják, hogy ez a GPT-4-nél nagyobb teljesítményű. Ezt azonban két okból is nehéz megítélni. Az első ok az, hogy a Google még nem adta ki az Ultra-t, így az eredményeket jelenleg nem lehet függetlenül validálni.

A második ok, amiért nehéz értékelni a Google állításait, az az, hogy a Google egy kissé megtévesztő bemutató videót választott, lásd alább. A videóban a Gemini modell interaktívan és folyékonyan kommentál egy élő videófolyamot.

A Bloomberg eredeti jelentése szerint azonban a videón látható bemutató nem valós időben zajlott. A modell például előzetesen megtanult néhány konkrét feladatot, például a három pohár és labda trükköt, ahol a Gemini követi, hogy a labda melyik pohár alatt van. Ehhez egy olyan állóképsorozatot kaptak, amelyen a műsorvezető keze a cserélgetett poharakra mutat.

Ígéretes jövő
E problémák ellenére úgy vélem, hogy a Gemini és a nagy multimodális modellek rendkívül izgalmas előrelépést jelentenek a generatív mesterséges intelligencia számára. Egyrészt a jövőbeli képességeik miatt, másrészt az AI-eszközök versenyhelyzete miatt. Amint azt egy korábbi cikkemben megjegyeztem, a GPT-4-et körülbelül 500 milliárd szóval képezték ki – lényegében az összes jó minőségű, nyilvánosan elérhető szöveggel.

A mélytanulási modellek teljesítményét általában a modell összetettségének és a képzési adatok mennyiségének növekedése határozza meg. Ez felvetette azt a kérdést, hogy hogyan lehetne további javulást elérni, mivel a nyelvi modellek számára már majdnem kifogytunk az új képzési adatokból. A multimodális modellek azonban hatalmas új képzési adattartalékokat nyitnak meg – képek, hangok és videók formájában.

Hozzászólás