web Autonomne.cz

odkaz na homepage

Umělá inteligence využita k předpovědi chování chodců

Výzkumníci z Texas A&M University ve spolupráci s Korea Advanced Institute of Science and Technology představili nový model umělé inteligence, který dokáže s překvapivou přesností předvídat lidské chování. Systém, označovaný jako OmniPredict, je navržen tak, aby nepracoval pouze s tím, co člověk právě dělá, ale aby odhadoval, co pravděpodobně udělá v nejbližším okamžiku. Právě tato schopnost anticipace může mít zásadní dopad zejména na oblast autonomních vozidel a obecně na interakci mezi lidmi a inteligentními stroji.

Většina současných systémů autonomního řízení se spoléhá především na počítačové vidění a analýzu aktuální situace. OmniPredict kombinuje obrazová data s kontextovým porozuměním situace. Využívá k tomu multimodální velký jazykový model (konkrétně GPT-4o mini), který vizuální vstup interpretuje. Díky tomu systém nejen rozpozná chodce nebo cyklistu, ale dokáže vyhodnotit, zda se například chystá vstoupit do vozovky, i když k tomu zatím nedal pro člověka rozpoznatelný fyzický signál.

 

Podle vedoucího výzkumu Srikantha Saripalliho je právě schopnost porozumět lidským úmyslům klíčová pro bezpečné fungování autonomních systémů v reálném prostředí. Městský provoz je plný nejednoznačných situací, kde lidé často jednají impulzivně nebo v rozporu s pravidly. Model, který dokáže tyto jemné náznaky zachytit a interpretovat, může autonomním vozidlům umožnit reagovat dříve a s větší jistotou než současná řešení.

V testech dosáhl OmniPredict výrazně lepších výsledků než dosavadní špičkové predikční modely. Výzkumníci uvádějí zlepšení přesnosti přibližně o deset procent, a to i v situacích, kdy je chování lidí obtížně čitelné – například při částečném zakrytí postavy nebo v hustém provozu. To naznačuje, že kombinace vizuálního vnímání a jazykového modelu může představovat důležitý krok směrem k robustnějšímu autonomnímu řízení.

Potenciální využití této technologie ale nekončí u autonomních automobilů. Podobné systémy by mohly najít uplatnění i v robotice, v řízení provozu, v krizovém managementu nebo v bezpečnostních aplikacích, kde je schopnost odhadnout lidské chování zásadní. Výzkumníci zároveň zdůrazňují, že jejich cílem není vytvořit systém, který by „četl myšlenky“ v doslovném smyslu, ale nástroj, který dokáže lépe porozumět vzorcům lidského jednání a tím snížit riziko chyb.

S tímto vývojem se pojí otázky etiky. Technologie, které dokážou předvídat lidské chování, přirozeně vyvolávají obavy o soukromí a možné zneužití. Autoři projektu proto upozorňují, že OmniPredict je zatím výzkumným prototypem a že jeho budoucí využití bude muset být jasně vymezeno regulačními a etickými rámci.

Výsledky výzkumu každopádně ukazují, že umělá inteligence se postupně posouvá od pouhého vnímání světa k jeho hlubšímu “pochopení”. Pokud se podobné modely podaří bezpečně integrovat do reálných systémů, mohou výrazně změnit způsob, jakým autonomní technologie fungují v každodenním prostředí – a přiblížit je lidskému způsobu rozhodování víc, než bylo dosud možné.

Pro zájemce o detaily uvádíme odkaz na původní akademický článek Multimodal understanding with GPT-4o to enhance generalizable pedestrian behavior prediction.


 

 


 
Úvodní ilustrační foto. (Zdroj: Google Nano Banana)