I ta nejlepší AI pro odhalování fake news zatím pokulhává

Když generální ředitel Facebooku Mark Zuckerberg slíbil americkému Kongresu, že by AI (tedy umělá inteligence) mohla pomoci vyřešit problém fake news, vlastně neprozradil jak. Nový výzkum nyní znamená další krok k tomu, abychom zjistili, jak by to mohlo skutečně fungovat.

65 %

V rozsáhlé studii, která bude brzy představena veřejnosti, se spojili výzkumníci z MIT, Katarského počítačového výzkumného ústavu QCRI a Sofijské univerzity a testovali přes 900 možných proměnných pro odhad důvěryhodnosti média.

Výzkumníci trénovali model strojového učení na různých kombinacích proměnných, aby zjistili, které z nich by mohly vést k nepřesnějším výsledkům. Zatím nejlepší model označoval zpravodajská média s "nízkou", "střední" nebo "vysokou" důvěryhodností s přesností 65 %. To nejsou zrovna oslnivé výsledky, ale pokud chceme někdy nechat zastoupit mediálního odborníka při zjišťování důvěryhodnosti média strojem, je třeba začít a systém potom zdokonalovat. Tento proces nebude rozhodně jednoduchý.

Čtyři způsoby detekce fake news

Při odhalování fake news v rámci kampaní před prezidentskými volbami v USA v roce 2016 byly používány čtyři hlavní přístupy. Fact-checking základních tvrzení, detekování falešných článků, sledování trollů a měření spolehlivosti zpravodajských zdrojů. Tým kolem Preslava Nakova, vědce z QCRI, se věnuje poslednímu bodu z uvedené čtyřky, protože ho nejvíce přiblíží k samotnému zjištění původu dezinformací, a zároveň se této problematice zatím nikdo detailně nevěnoval.

Současný mechanismus se opírá o lidi, kteří "ručně" ověřují informace. To nějakou dobu trvá, přitom vyhodnocení je potřeba mít okamžitě.

Předchozí studie se snažily charakterizovat spolehlivost zpravodajského zdroje podle toho, kolik jeho informací odpovídá nebo je v rozporu s informacemi, které již byly fakticky ověřovány. Jinými slovy, stroj porovnával historii tvrzení s již ověřenými fakty od specializovaných služeb jako Snopes nebo PolitiFact. Tento mechanismus se však opírá o lidi, kteří „ručně“ ověřují informace, a to nějakou dobu trvá. Podle Nakova to zdržuje a vyhodnocení je třeba mít k dispozici okamžitě. Systém, který by pracoval nezávisle na lidských faktorech, má analyzovat obsah, titulky, použití slov v článcích, také strukturu URL adresy, návštěvnost webu a výskyt obsahu na sociálních sítích nebo Wikipedii.

Nedostatek dat

Při testování různých kombinací proměnných byli vědci prozatím schopni identifikovat nejlepší prediktory spolehlivosti zpravodajského zdroje. Důležité například je, zda má zdroj svoji stránku na Wikipedii nebo ne, postupně jsou odhalovány další důležité proměnné. Nakov si stěžuje na nedostatek opravdu ověřených a nezpochybnitelných dat, kterými by mohl s kolegy svůj systém nakrmit a trénovat. Ta jsou pro zvýšení přesnosti systému klíčová a pořizují je důvěryhodní mediální odborníci.

V současné době společnost Media Bias Fact Check, organizace vybraná pro poskytování "základní pravdy" pro výzkum, vyhodnotila 2500 mediálních zdrojů – což je v podmínkách strojového učení stále velmi málo. Databáze této organizace ale velmi rychle roste a kromě toho výzkumníci pracují i na zpřesnění vlastního modelu a rozšíření proměnných například o popis struktury webu, kontaktní informace a způsoby publikování či mazání obsahu. Nakov a jeho tým jsou vlastně teprve na začátku dlouhé cesty, na jejímž konci by měl být systém, který s vysokou přesností vyhodnotí, zda je daný zdroj důvěryhodný, nebo produkuje fake news.

foto: Shutterstock, zdroj: Technology Review