A vezető nélküli autókból még mindig hiányzik a józan ész, az AI chatbot technológia lehet a válasz

Egy gyors keresés az interneten számos videót eredményez, amelyek bemutatják a vezető nélküli autók szerencsétlenkedéseit, amelyek gyakran viccesek. De miért találjuk mulatságosnak ezeket a viselkedéseket? Lehet, hogy azért, mert éles ellentétben állnak azzal, ahogyan egy emberi sofőr kezelne hasonló helyzeteket.

A számunkra triviálisnak tűnő mindennapi helyzetek továbbra is jelentős kihívások elé állíthatják a vezető nélküli autókat. Ennek az az oka, hogy olyan mérnöki módszerekkel tervezték őket, amelyek alapvetően különböznek az emberi elme működésétől. A mesterséges intelligencia legújabb fejlesztései azonban új lehetőségeket nyitottak meg.

A nyelvi képességekkel rendelkező új mesterséges intelligencia rendszerek – például a chatbotok mögött meghúzódó technológia, mint a ChatGPT – kulcsfontosságúak lehetnek abban, hogy a vezető nélküli autók észszerűen és emberi sofőrként viselkedjenek.

Az autonóm vezetéssel kapcsolatos kutatások jelentős lendületet kaptak a 2010-es évek végén a mély neurális hálózatok (DNN) megjelenésével, amely a mesterséges intelligencia (AI) egy olyan formája, amely magában foglalja az adatok emberi agy által inspirált módon történő feldolgozását. Ez lehetővé teszi a forgalmi forgatókönyvek képeinek és videóinak feldolgozását a „kritikus elemek”, például az akadályok azonosítása érdekében.

Ezek észlelése gyakran magában foglalja egy 3D-s doboz kiszámítását, amely meghatározza az akadályok méretét, tájolását és helyzetét. Ez a járművekre, gyalogosokra és kerékpárosokra alkalmazott eljárás például osztályok és térbeli tulajdonságok alapján hozza létre a világ reprezentációját, beleértve a vezető nélküli autóhoz viszonyított távolságot és sebességet.

Ez az alapja az autonóm vezetés legszélesebb körben elfogadott mérnöki megközelítésének, az úgynevezett „sense-think-act” (érzékelés-gondolkodás-cselekvés) módszernek. Ebben a megközelítésben az érzékelő által szerzett adatokat először a DNN dolgozza fel. Az érzékelő adatait ezután az akadály mozgási pályájának előrejelzésére használják. Végül a rendszerek megtervezik az autó következő lépéseit.

Noha ez a megközelítés olyan előnyöket kínál, mint az egyszerű hibakeresés, az érzékelés-gondolkodás-cselekvés keretrendszernek van egy kritikus korlátja: alapvetően különbözik az emberi vezetés mögött meghúzódó agyi mechanizmusoktól.

Az agyműködéssel kapcsolatban sok minden továbbra is ismeretlen, ezért kihívást jelent az emberi agyból származó intuíció alkalmazása a vezető nélküli járművekre. Mindazonáltal a különböző kutatási erőfeszítések célja, hogy az idegtudományból, a kognitív tudományból és a pszichológiából merítsenek ihletet az autonóm vezetés javítása érdekében.

Egy régóta megalapozott elmélet azt sugallja, hogy az „érzékelés” és a „cselekedet” nem egymást követő, hanem egymással szorosan összefüggő folyamatok. Az emberek a környezetüket aszerint érzékelik, hogy mennyire képesek arra, hogy aszerint cselekedjenek.

Például amikor egy kereszteződésben balra kanyarodni készül, a járművezető a környezet meghatározott részeire és a kanyarodás szempontjából releváns akadályokra összpontosít. Ezzel szemben az érzékelés-gondolkodás-cselekvés megközelítés a teljes forgatókönyvet az aktuális cselekvési szándékoktól függetlenül dolgozza fel.

Egy másik lényeges különbség az emberekhez képest, hogy a DNN-ek elsősorban azokra az adatokra támaszkodnak, amelyekre betanították őket. Ha egy forgatókönyv akár enyhe szokatlan változásának van kitéve, meghiúsulhat, vagy fontos információk hiányozhatnak.

Az ilyen ritka, alulreprezentált forgatókönyvek, amelyeket „hosszú farkú eseteknek” neveznek, komoly kihívást jelentenek. A jelenlegi megoldások egyre nagyobb képzési adatkészletek létrehozását jelentik, de a valós élethelyzetek összetettsége és változékonysága lehetetlenné teszi az összes lehetőség lefedését.

Ennek eredményeként az olyan adatvezérelt megközelítések célja, mint az érzékelés-gondolkodás-cselekvés, az ismeretlen helyzetekre történő általánosítás. Az emberek viszont kiválóak az újszerű helyzetek kezelésében.

A világ általános ismeretének köszönhetően képesek vagyunk új forgatókönyveket felmérni a „józan ész” segítségével, amely a gyakorlati tudás, érvelés és az emberek általános viselkedés intuitív megértésének keveréke, amely egy életen át tartó tapasztalatokból épül fel.

Valójában az emberek járművezetése a társas interakció egy formája, és a józan ész kulcsfontosságú a közlekedők (más járművezetők, gyalogosok, kerékpárosok) viselkedésének értelmezésében. Ez a képesség lehetővé teszi számunkra, hogy váratlan helyzetekben józan ítéleteket és döntéseket hozzunk.

A józan ész megismétlése a DNN-ekben jelentős kihívást jelentett az elmúlt évtizedben, ami arra késztette a tudósokat, hogy radikálisan módosítsák a megközelítésüket. Az AI legújabb fejlesztései végre megoldást kínálnak.

A nagy nyelvi modellek (LLM-ek) – a technológia, amely a chatbotok, például a ChatGPT mögött áll – figyelemre méltó jártasságot mutattak az emberi nyelv megértésében és generálásában. Lenyűgöző képességeik abból fakadnak, hogy különféle területeken hatalmas mennyiségű információra képezték ki őket, ami lehetővé tette számukra, hogy a miénkhez hasonló józan észt fejlesszenek ki.

A közelmúltban a multimodális LLM-ek (amelyek képesek válaszolni a felhasználói kérésekre szövegben, képekben és videóban), mint például a GPT-4o és a GPT-4o-mini, egyesítették a nyelvet a látással, integrálva a kiterjedt világismeretet a vizuális inputok megmagyarázásának képességével.

Ezek a modellek képesek felfogni a bonyolult, ismeretlen forgatókönyveket, természetes nyelvi magyarázatokat adnak, és megfelelő intézkedéseket javasolnak, ígéretes megoldást kínálva a „hosszú farkú problémára”.

A robotikában megjelennek a vision-language-action modellek (VLAM), amelyek a nyelvi és vizuális feldolgozást a robot cselekvéseivel kombinálják. A VLAM-ok lenyűgöző korai eredményeket mutatnak a robotkarok nyelvi utasításokon keresztüli vezérlésében.

Az autonóm vezetés terén a kezdeti kutatások a multimodális modellek használatára összpontosítanak a vezetési kommentár és a cselekvés-tervezési döntések magyarázata céljából. Például egy modell jelezheti: „Egy kerékpáros áll előttem, aki lassítani kezd”, betekintést nyújtva a döntéshozatali folyamatba és növelve az átláthatóságot. A Wayve cég ígéretes kezdeti eredményeket mutatott fel a nyelvvezérelt vezető nélküli autók kereskedelmi szintű alkalmazása terén.

Míg az LLM-ek képesek kezelni a hosszú távú eseteket, új kihívásokat is jelentenek. Megbízhatóságuk és biztonságuk értékelése bonyolultabb, mint az olyan moduláris megközelítések esetében, mint az érzékelés-gondolkodás-cselekvés. Az autonóm járművek minden alkatrészét, beleértve az integrált LLM-eket is, ellenőrizni kell, amihez új, ezekhez a rendszerekhez szabott tesztelési módszerekre van szükség.

Ezenkívül a multimodális LLM-ek nagyok és jelentős számítógépes erőforrást igényelnek, ami magas késleltetéshez vezet (késés a műveletben vagy a számítógépről érkező kommunikációban). A vezető nélküli autóknak valós idejű működésre van szükségük, és a jelenlegi modellek nem tudnak elég gyorsan reagálni. Az LLM-ek futtatása jelentős feldolgozási teljesítményt és memóriát is igényel, ami ütközik a járművek korlátozott hardveres korlátaival.

Jelenleg számos kutatási erőfeszítés irányul az LLM-ek járművekben történő felhasználásra való optimalizálására. De eltelik még néhány év, mire józan ésszel rendelkező, vezető nélküli járműveket láthatunk az utcákon.

Az autonóm vezetés jövője azonban bíztató. A nyelvi képességekkel rendelkező mesterséges intelligencia modellek szilárd alternatívát kínálnak az érzékelés-gondolkodás-cselekvés paradigmához, amely közeledik határaihoz.

Az LLM-eket széles körben úgy tekintik, mint a kulcsot ahhoz, hogy olyan járműveket hozzanak létre, amelyek jobban tudnak úgy gondolkodni és viselkedni, mint az emberek. Ez az előrelépés döntő fontosságú, tekintve, hogy évente körülbelül 1,19 millió ember hal meg közúti balesetek következtében.

A közúti balesetek jelentik a vezető halálokot az 5-29 éves gyermekek és fiatal felnőttek körében. Az emberhez hasonló gondolkodású autonóm járművek fejlesztése potenciálisan jelentősen csökkentheti ezeket a számokat, és számtalan életet menthet meg.

Forrás: theconversation.com

Lépjen kapcsolatba velünk

Budapest, Than Károly u. 3, 1119
(1) 371 5936