Společnost Nvidia na konferenci NeurIPS v San Diegu odhalila nový open-source AI model specificky navržený pro výzkum autonomního řízení. Model se nazývá Alpamayo-R1 a jedná se o tzv. Vision-language-action model (česky vidění-jazyk-akce), který spojuje obrazové vnímání a na jazyce založené logické uvažování, čímž umožňuje autonomní vozidlům činit složitá rozhodnutí i ve složitých situacích.
V čem se vlastně liší od jiných AI modelů?Vision-language modely samy o sobě nejsou úplnou novinkou. Řada společností se již delší dobu zabývá jejich vývojem. VL modely dovedou propojit jazykové „porozumění“ s „porozuměním“ obrazu. Typické LLM (velké jazykové modely, anglicky „large language models“), jako třeba dobře známé chatGPT, Copilot či Deepseek, mají problém „porozumět“ prostorovým vztahům a scénářům na obrázcích (typicky jen předají instrukci jinému modelu, který Vám třeba vygeneruje obrázek dle zadání). VL (vision-language) modely a VLA (vision-language-action) mají nesmírný potenciál v oblastech robotiky a autonomního řízení, tedy v situacích, kdy prostorová orientace v prostoru a „porozumění“ okolí je zásadní. To nás přivádí k tématu „fyzické AI“.
Co je to fyzická AI?
Umělá inteligence v podobě chatbotů či různých digitálních AI agentů je mnohým již dobře známá. Nvidia i jiné společnosti nyní spatřují jako následující velkou výzvu zakomponování AI do fyzických zařízení jako jsou roboti, vozidla nebo třeba drony a jiná zařízení. Termín „fyzická AI („physical AI“) je nyní skloňován řediteli velkých společností, jakožto „nová vlna v umělé inteligenci“.
Proč je model open source? Co z toho Nvidia vůbec má?
Model Alpamayo-R1 má být volně dostupný na platformách jako github či hugging face. (V době psaní tohoto článku však dostupný ještě není.). Přestože Nvidia mohla ponechat model jako proprietární, rozhodli se jej zveřejnit. Uvádějí, že „demokratizace“ softwaru povede k rychlejšímu rozvoji odvětví zapojením i menších nezávislých vývojářů. Větší rozvoj by se měl podepsat na zvýšení poptávky po hardwaru, což společnosti Nvidia, známé mimo jiné zejména jako výrobce grafických procesorů, výrazně nahrává do karet. Krok se tak jeví jako dobře opodstatněný. Faktorem však také může být i konkurence. Čínská společnost Xiaomi nedávno zveřejnila podobný open-source model. Dále jsme i zde na Autonomně.cz informovali o novém AI modelu společnosti XPENG, která se také rozhodla jít cestou open-source modelu, a stejně jako Nvidia také sází na fyzickou AI.