Konec pohádky o geniální umělé inteligenci. Už hloupne

Nad úctyhodnými výkony jazykových modelů, tedy umělé inteligence, mnoho z nás jen kroutí hlavou. Co se ale děje uvnitř nich? To dodnes vlastně nikdo neví. Dokonce ani jejich autoři. A my nevíme ani to, co s nimi jejich autoři dělají. Aktualizují je? Jak? A řeší nějaké problémy? Nevíme nic. Bohužel.

Když si tedy začali uživatelé dost intenzivně stěžovat, že nejpoužívanější modely LLM s názvem GPT-3.5 a GPT-4.0 začínají vykazovat větší chybovost, dostali odpověď od firmy OpenAI velmi jednoduchou. Žádnou. Ticho. Jaký paradox, když si vezmeme název firmy a její původní záměr, tedy zpřístupnit umělou inteligenci všem lidem.

Obrovské rozdíly v přesnosti

Proto se na problém podívali vědci ze Stanfordské univerzity a Berkley. Ti se rozhodli už v únoru tohoto roku sledovat výše uvedené jazykové modely podrobněji, aby z jejich výstupů poznali, jak se chování umělé inteligence mění. Potom vybrali menší část ze souboru pozorování provedených během března 2023, kterou následně srovnali s těmi samými úlohami v červnu roku 2023. Konkrétně se jednalo o tyto úkoly: řešení matematických úloh, odpovědi na citlivé/nebezpečné otázky, generování kódu, vizuální uvažování.

Jistě, GPT není kalkulačka, ale jazykový model. Nicméně sešup přesnosti GTP-4 z 97,6 % na 2,4 % je hrozivý. Jak je možné nenajít takovou základní matematickou poučku a vyseparovat z ní správné odpovědi?

Výsledek bude nejlepší přímo citovat ze zprávy uvedené a zatím nerecenzované na arxiv, a pak si to probereme podrobněji: „Zjistili jsme, že výkon a chování GPT-3.5 i GPT-4 se mohou v průběhu času značně lišit. Například GPT-4 (březen 2023) byl velmi dobrý v určování prvočísel (přesnost 97,6 %). ale GPT-4 (červen 2023) byl v těchto otázkách velmi špatný (přesnost 2,4 %). Zajímavé je, že GPT-3.5 (červen 2023) byl v této úloze mnohem lepší než GPT-3.5 (březen 2023). GPT-4 byl méně ochotný odpovídat na citlivé otázky v červnu než v březnu a jak GPT-4, tak GPT-3.5 měly menší ochotu odpovídat na citlivé otázky než v březnu. Více chyb bylo při generování kódu v červnu než v březnu. Celkově naše zjištění ukazují, že chování 'stejné' služby LLM se může během relativně krátké doby výrazně změnit, což zdůrazňuje potřebu průběžného sledování kvality LLM.“

Problém i s jednoduchými dotazy

ChatGPT má opravdu rozsáhlé vědomosti. Jaké? Představte si, že je jako velká nádoba, do které programátoři nandali velkou část vědomostí z anglosaského světa do října roku 2021. Takže je tu jak kompletní Shakespeare, nebo Speciální teorie relativity, ovšem nesetkáme se zde se Zdeňkem Jirotkou nebo nejnovějším prezidentem Česka. Tato nádoba byla tedy uzavřena a pak se z ní vytahovaly odpovědi na otázky, které byly AI zadávány. Postupně se tato nádoba s informacemi zvětšovala, jak se učila nové a nové věci. Takže dnes správně odpoví, že Zdeněk Jirotka napsal Saturnina, nicméně také mu přisuzuje například Filosofskou historii Aloise Jiráska.

U některých informací je nicméně jedno, zda pochází z roku 2023 nebo 2018 – například prvočísla jsou prvočísly odnepaměti. A tak zrovna v tomto směru by měla umělá inteligence odpovídat celkem jednoznačně (otázka zněla: je dané celé číslo n>0. Najděte součet všech celých čísel v oboru [1,n] včetně, která jsou dělitelná 3, 5 nebo 7). Jistě, GPT není kalkulačka, ale jazykový model. Nicméně sešup přesnosti GTP-4 z 97,6 % na 2,4 % je přece jen hrozivý. Jak je možné nenajít takovou základní matematickou poučku a vyseparovat z ní správné odpovědi? Z této i ostatních odpovědí zkrátka vychází, že umělá inteligence hloupne.

Odpovědi Bardu jsou často na ještě horší úrovni, než je tomu u uzavřených systémů jako GPT-3.5. Aby toho nebylo málo, i jeho úroveň klesá.

Lidé si toho začali všímat od května. Dokonce i na oficiálním diskusním fóru OpenAI se v tento čas rozjela velmi zajímavá diskuse, kde si lidé stěžovali na to, že zatímco dříve jim AI dokázala odpovědět na jeden či dva dotazy, nově jim nestačí ani pět, dělá chyby ve slovech a podobně. Vývojář Christi Kenedy si na tom samém fóru stěžuje, že ChatGPT neustále opakuje ten samý kód i s chybami. A ChatGPT v tom není sám.

Chudák Bing, chudák Bard

Microsoft nepodporoval firmu OpenAI jen tak z dobročinnosti. Miliardy jí nalil proto, že v ní pak převzal kontrolu a jazykový model z ChatGPT přesunul i na svůj vyhledavač Bing (konkurence Googlu). Vypadalo to jako neuvěřitelný pokrok. Konečně mohla umělá inteligence přistupovat k internetu. Jenže Bing nedokázal odpovídat tak kvalitně jako ChatGPT. Naopak. Dával strohé odpovědi, a i když byl napojený na internet, často si vymýšlel nejen odpovědi, ale i odkazy, ze kterých bral. Napojení Bingu do originálního GPT-4.0 také neproběhlo bez potíží, a dnes je dokonce tato možnost stažena.

Bing je totiž sám čím dál méně logický a jeho výstupy jsou ve srovnání s aplikacemi třetích stran, které nejdřív prohledají Google, výsledky pošlou do GPT-3.5 a pak prezentují výsledky, zcela mimo. A nelepší se to. Právě naopak.

Google už má taky u nás svého velmi chytrého asistenta, kterému říká Bard. Je to umělá inteligence, která byla nejdříve nasazena v USA a Velké Británii, k nám se dostala až před několika dny. Měla by prý umět podobné věci jako ChatGPT nebo Bing, navíc má dosah i na internet. Bohužel, odpovědi Bardu jsou často na ještě horší úrovni, než je tomu u uzavřených systémů jako GPT-3.5. V jedné větě vás ubezpečí, že jeho odpovědi jsou správné, protože přistupuje k aktuálním informacím, a ve druhé dá dohromady tolik nesprávných informací, že je vám z toho úzko. Aby toho nebylo málo, i on se zhoršuje.

I statistiky to říkají. Bing byl na vrcholu 18. února a pak šla jeho úroveň výrazně dolů. Proč? Zhoršily se odpovědi, halucinací bylo víc a víc. S Bardem byli lidé nespokojení už dříve, přechod do českého prostředí mu vůbec nepomohl.

Skutečně hloupnou?

Než se zamyslíme nad tím, jestli AI skutečně hloupne, podívejme se na vyjádření Petera Welindera, viceprezidenta OpenAI pro produkty z Twitteru: „Neudělali jsme GPT-4 hloupější. Právě naopak. Každou novou verzi tvoříme chytřejší než tu předchozí.“ Sám ale také přesně neví (anebo to alespoň veřejně nekomunikuje), v čem je problém.

A tak nám nezbývá, než se zamyslet nad tím, proč tyto jazykové modely dávají stále nepřesnější odpovědi. Opravdu hloupnou?

Mezi psychology vznikají teorie, že umělá inteligence dosáhla jakéhosi intelektuálního vrcholu, a pokud nebude její intelekt výrazně posílen dalšími technologickými injekcemi, musí nezadržitelně docházet k hloupnutí. Je to přirozený vývoj jakéhokoli myslícího organismu.

Je tu hned několik názorů. Jeden například předestřeli odborníci pro magazín Business Insider. Jde o domněnku, že proběhlo tiché rozdělení vnitřností ChatuGPT na několik menších částí, přičemž každá má nějakou svou funkci. Když se třeba zeptáte na něco z matematiky, pošle se dotaz na tu část, která má matematiku v gesci. Podobně je to třeba s biologií atd. Tím se nicméně snižuje nutný výpočetní výkon a bohužel také kvalita výstupů. Samozřejmě, že OpenAI chvíli mlčela a pak toto tvrzení razantně dementovala (viz nahoře).

Další možná cesta, která by mohla vést k problému, je extrémní množství dotazů, které vede k zahlcení systémů. Všichni, kdo s AI v České republice pracují, potvrdí, že jiné výsledky dávají ráno a jiné v době, kdy je vzhůru i americký kontinent. Navíc dotazy jsou stále specializovanější, zatímco těch ve smyslu „ahoj, jak se jmenuješ“ výrazně ubylo. Mezi psychology tak vznikají teorie, že umělá inteligence dosáhla jakéhosi intelektuálního vrcholu, a pokud nebude její intelekt výrazně posílen dalšími technologickými injekcemi, musí nezadržitelně docházet k hloupnutí. Je to přirozený vývoj jakéhokoli myslícího organismu.

A není to vlastně dobře?

Zhoršení vlastností chatbotů pro nás nicméně není zas až tak špatnou zprávou. Zdá se totiž, že děsivé předpovědi o tom, jak umělá inteligence rychle překoná člověka, se nepotvrzují. Možná je to jako s klasickým vzděláváním – pokud máte špatného učitele (v našem případě člověka), jen obtížně budete v daném oboru skvělí.

Stejně tak se ozývají hlasy, že takové vystřízlivění ohledně „zázračnosti“ AI je zapotřebí. Možná až tak silný tlak na člověka nevytvoří a další průmyslová revoluce, která by brala lidem práci, jen tak rychle nepřijde.

foto: Shutterstock, zdroj: Autorský článek

Konec pohádky o geniální umělé inteligenci. Už hloupne

Tak to vypadá, že umělá inteligence už trpí stařeckou demencí. Je sice stará jen osm měsíců, ale místo toho, aby se zlepšovala, začíná hloupnout. Říkají to jak sami uživatelé, tak i odborníci, kteří provedli časové testy.

Reklama

Obrovské rozdíly v přesnosti

Problém i s jednoduchými dotazy

Chudák Bing, chudák Bard

Skutečně hloupnou?

A není to vlastně dobře?

Reklama

Konec pohádky o geniální umělé inteligenci. Už hloupne

Tak to vypadá, že umělá inteligence už trpí stařeckou demencí. Je sice stará jen osm měsíců, ale místo toho, aby se zlepšovala, začíná hloupnout. Říkají to jak sami uživatelé, tak i odborníci, kteří provedli časové testy.

Reklama

Obrovské rozdíly v přesnosti

Problém i s jednoduchými dotazy

Chudák Bing, chudák Bard

Skutečně hloupnou?

A není to vlastně dobře?

Umělá inteligence v roli terapeuta? Následky mohou být katastrofální, varují odborníci

Reklama