Ha már bulváros túlzásokat emlegettünk, szögezzük le az elején: nincs a nyakunkon az AI-szingularitás. Ez a kifejezés azt a technológiai szintet jelöli, amikor az általános gépi intelligencia képessé válik önmaga továbbfejlesztésére, és ilyen módon pillanatok alatt túllép az emberi intelligencián, előre felmérhetetlen léptékű innovációs robbanást megvalósítva. Az általános AI az a technológia, ami nem csak egy leszűkített feladat kapcsán, hanem az élet minden terén képes az emberihez hasonló problémamegoldó képességet felmutatni. Tekintve, hogy ennek létrehozása napjainkban még csak távoli ábránd, a szingularitás elérése egyértelműen a science fiction témakörébe tartozik. Azt azonban érdemes tisztán látni, hogy a fejlődés olyan ütemben gyorsul, hogy ma már minden IT-vállalatnak indokolt tudatosan foglalkoznia a témával, ha nem szeretne rövidesen csúnyán lemaradni.
Miért állítjuk ezt? A legkönnyebben belátható indok az adatmennyiség és a számítási kapacitás robbanásszerű növekedése. Tudjuk, hogy a mesterséges intelligencia létrehozásának egyik legbíztatóbb iránya a neurális hálón alapuló megközelítés, mely ténylegesen az emberi agy ideghálójának működését modellezi. Érdekes tény, hogy ennek a technológiának az alapjai már az ’50-es években adottak voltak, ám igazán jelentős áttöréseket főleg az utóbbi években kezdtek elérni vele, hiszen nem mindegy, hogy a háló 200 neuronból áll, vagy 1,6 trillióból. A számítási kapacitás jelentős emelkedésével párhuzamosan a neurális háló komplexitása is emelkedik, egyre fejlettebb intelligenciát eredményezve. A szuperszámítógépeken működtetett, több ezer milliárd neuronból álló hálók már most meghaladják bizonyos állatok idegrendszerének fejlettségét – és már küszöbön vannak a kvantumszámítógépek, amelyek megjelenése egy pillanat alatt teszi majd múzeumi relikviává minden ma használt technológiai eszközünket.
Az alábbiakban összefoglalunk öt olyan figyelemre méltó AI-áttörést, melyek a napjainkban elérhető fejlettségi szinten is megdöbbentő eredménynek tekinthetők.
I. A gépelő gép: szöveggenerálás AI-alapokon
Az OpenAI nevű mesterséges intelligencia kutatólaboratórium – melynek az alapításában Elon Musk is közreműködött – alkotott egy nyelvi modellt, a GPT3-at (Generative Pre-trained Transformer 3), mely egészen meglepő szintre jutott el. A rendszer egy nagyméretű, 2,95 milliárd weboldalt tartalmazó dataset-et kapott inputként, s ennek belső összefüggéseit felismerve építette fel magában az angol nyelv használatának szabályait. A GPT3 ez alapján olyan minőségű szövegek előállítására vált képessé, amelyeket gyakorlatilag lehetetlen megkülönböztetni az ember által írt szövegektől. Az OpenAI rendszere 175 milliárd paramétert használ a saját nyelvi modelljének működtetéséhez, de a Google hasonló – ám nem nyilvánosan elérhető – modellje a hírek szerint 1600 milliárd, azaz 1,6 trillió paramétert vesz figyelembe. Csak összehasonlításképp: az emberi agyban nagyjából 100 trillió kapcsolat van a neuronok között.
A GPT3-mal kapcsolatban további érdekes tény, hogy a webes szövegeket tanulmányozva képessé vált programkódok írására is. Az első sikerek után a fejlesztők tovább tanították a modellt, immár kifejezetten a GitHub-on található anyagokkal, melynek következtében a rendszer tökéletesen működő webes kódokat is létre tudott hozni.
II. Van képe hozzá!
Az Nvidia StyleGAN3 nevet viselő AI-alapú képgenerátor olyan szintre jutott a képfelismerés és képalkotás folyamatában, hogy az avatatlan szemlélőt könnyedén becsapó képeket képes készíteni emberi arcokról – melyek a valóságban soha nem léteztek. A rendszer bravúrja az, hogy nem különböző fotók elemeit variálja össze, és készít belőlük egy hitelesnek tűnő montázst, hanem a tanuló algoritmus a bele táplált számtalan portré alapján eljutott odáig, hogy gyakorlatilag képes értelmezni az emberi arc koncepcióját. Mit jelent ez? Egyszerűen fogalmazva nagyjából annyit, hogy a StyleGAN3 minden eseti különbözőség ellenére „érti”, hogy milyen egy szem, egy áll, egy száj stb., és képes is ezeket bizonyos paraméterek mentén, gyakorlatilag a semmiből megalkotni.
A rendszer alkalmazni tud olyan elvont kategóriákat is, mint a nem, a kor vagy a rassz, vagyis tudja, hogy ezek a paraméterek milyen változásokat eredményeznek egy emberi arcon. Mindehhez absztrakt, rétegzett tudásra van szükség, ami nagyon mély és alapos meghatározásokat tartalmaz az említett képi motívumokkal kapcsolatban. A StyleGAN3 képességeinek egyik legjobb demonstrációja, amikor a rendszer azt a feladatot kapja, hogy transzmutáljon egy adott arcot egy attól teljesen különböző, másik arccá. A rendszer ilyenkor bemutatja azt a folyamatot, ahogy a kép az első állapotból átalakul a másodikká: nem az történik, hogy az első arc a pixelek egyszerű átrendezésével átfolyik a másodikba, hanem az arcok morfológiája kezd közeledni egymáshoz, de úgy, hogy az átalakulás minden fázisában olyan képet látunk, mely akár egy valódi embert is ábrázolhatna.
III. A vicces srác egy gomba?
A Facebook saját fejlesztésű chatbot-ját 1,5 milliárd Reddit-komment segítségével tanították be, majd egy speciális, kifejezetten számára létrehozott dataset-tel tökéletesítették. Utóbbi lépés eredményeképp a chatbot saját személyiségjegyeket kapott, komplex ismeretei lettek a világról, képessé vált empátiát mutatni, és alkalmassá vált arra, hogy az első három attribútumot zökkenőmentesen és feltűnésmentesen gyúrja egybe.
A chatbot olyan jól sikerült, hogy egy spontán beszélgetés keretében képes megérteni és akár meg is magyarázni szóvicceket – ami igen figyelemre méltó, hiszen a viccek értelmezéséhez elég magas szintű absztrakciós képességre van szükség. Egy konkrét esetben például egy tesztelő feltette az alábbi kérdést a chatbotnak: Why did the mushroom go to the party? A chatbot először nem érti a kérdést, de a tesztelő jelzi neki, hogy a kérdés egy vicc része, a válasz pedig az: „because he’s a fun guy.” Az AI ekkor megkéri, hogy magyarázza el a viccet, mire a tesztelő egyszerű szavakkal leírja, hogy a vicc lényege, hogy a fungi (gomba) kiejtése gyakorlatilag azonos azzal, hogy „fun guy”, és ez az azonos alakúság egy abszurd félreértést eredményez. A chatbot ezt követően minden gond nélkül képes volt értelmezni a viccet, sőt, a saját kifejezéseivel meg is tudta magyarázni a logikáját.
IV. A go-mester
Nagyjából az AI-fejlesztés történetének kezdete óta fontos tesztnek számított, hogy a mesterséges intelligencia mikor lesz képes megverni sakkban egy embert. Ez a kérdés már régen eldőlt, sőt, 1997-ben a Deep Blue nevű rendszer megverte az akkori sakk világbajnokot, Garri Kaszparov-ot is. Szakértők szerint ugyanakkor a sakk szabályai bizonyos értelemben kedveznek az AI-nak, hiszen a játék lehetőséget biztosít olyan heurisztikák használatára, melyeket kihasználva a gépek viszonylag könnyen tudnak sikert aratni. Más a helyzet viszont a go játékban, ahol a lehetséges lépések száma nagyságrendekkel magasabb, mint a sakknál.
A Deepmind Alphago nevű AI-modellje 2016-ban „hívta ki” a világ egyik legelismertebb go játékosát, aki a mérkőzés előtt rendkívül magabiztosan nyilatkozott – a mérkőzés után viszont már csak a könnyeit törölgette, ugyanis a gép 4:1-re megverte. Izgalmas pillanata volt a játéknak, amikor az AI egy bizonyos ponton olyan lépést tett, melyet a go-hoz értő szakemberek egyöntetűen rossz, primitív lépésnek értékeltek – majd mégis ez vezetett a sikerre. Ez a jelenség azért különösen érdekes, mert azt mutatja, hogy az emberi go-játszmák tömegével betanított rendszer a számításai alapján olyan következtetésre jutott, ami túllépett az addigi emberi tudáson, és arra sarkallta a gépet, hogy egy látszólag primitív, végül mégis eredményes, innovatív lépést tegyen. Csak hab a tortán, hogy ugyanez a modell később megütközött egy újabb, fejlettebb mesterséges intelligenciával is, mely már 100:0-ra verte az Alphago-t.
V. Ki a hunyó?
Az első pontban említett OpenAI nevű cég egy másik rendszere azt a feladatot kapta, hogy egy egyszerű számítógépes játékban mérkőzzön meg más gépi ellenfelekkel. A játék gyakorlatilag a bújócska logikáját követi, de csapatok játsszák, és különböző tereptárgyakat is fel lehet benne használni. A bújócskázás során az AI nemcsak arra jött rá, hogy az általa mozgatott csapat tagjainak kooperálniuk kell az ellenfelek megverése érdekében, de a rendelkezésre álló eszközöket is meglehetően agyafúrt módon volt képes használni: torlaszokat, fedezéket tudott építeni saját csapata számára, illetve arra is ráébredt, hogy ha a másik csapat rendszeresen egy adott tárgyat használ arra, hogy legyőzze az AI-által koordinált csapatot, akkor első lépésként neki érdemes ezt a tárgyat még az ellenfelek előtt megszerezni.
A játék egy bizonyos pontján azonban még az eddigieknél is érdekesebb taktikák bontakoztak ki: a virtuális bújócskának teret adó szoftver nem volt elég jól megírva, ezért az AI egy alkalommal észrevette, hogy bizonyos tereptárgyakat úgy is tud mozgatni, ha a figurájával rajta áll a tárgyon, tehát gyakorlatilag szörföl vele. A játék szoftverének ez a hibája előnyt biztosított az ellenféllel szemben, ezért az AI egy idő után láthatóan a szoftverhiba kihasználására kezdte felépíteni a stratégiáját. A jelenség rámutat arra, hogy egy gépi intelligencia számára a szabályok teljesen mást jelentenek, mint az emberek számára. Ha egy játék szabályai nincsenek kellő pontossággal definiálva, akkor az AI számára minden megoldás jónak számít, ami elvezet a sikerhez – függetlenül attól, hogy ezzel megsérti a játék (emberek számára) magától értetődő, etikai szabályait.
A felsorolt példák természetesen nem adnak teljes képet az AI-fejlesztések mai állásáról, arra viszont mindenképpen rámutatnak, hogy a tanuló algoritmusok már ma is olyan eredményekre képesek, melyekre nem számítanánk gépi intelligenciától. Természetesen a felsorolt példák mindegyikében egy-egy konkrét feladatra optimalizált technológiáról volt szó, és ezek a fejlesztések még nagyon messze vannak attól, hogy összeálljanak egy általános emberi intelligenciát modellező rendszerré. A fejlődés dinamikája ugyanakkor arra enged következtetni, hogy az AI-technológia szinte napról napra jut el újabb mérföldkövekhez, így az IT világában dolgozó cégek számára alapvető érdek, hogy minimum nyomon kövessék ezt a folyamatot.