A legjobb új számítógépes látás trendek 2022-ben

A Computer Vision (CV, számítógépes látás) célja, hogy lehetővé tegye a gépek számára, hogy értékes információkat szerezzenek a környezetükből a különböző forrásokból, például digitális képekből és videókból származó vizuális adatok elemzésével. Az ilyen információk természete a gép végső céljától függ.

Gondoljunk például az önvezető autókra. A balesetek elkerülése érdekében elengedhetetlen egy CV-modul, amely képes valós időben észlelni az autó előtt megjelenő tárgyakat. Például egy robot, amelynek útbaigazítást kell adnia az embereknek a pályaudvaron belül, megváltoztathatja a beszédmódját attól függően, hogy a hallgató gyerek vagy felnőtt. Ezt az információt a CV szoftvernek köszönhetően lehet megszerezni, amely képosztályozási módszereket alkalmaz a robotra telepített kamerák által rögzített képkockákra.

Mivel a számítógépes látás a mesterséges intelligencia (AI) egyik legvonzóbb területe, a Deep Learning (DL, mély tanulás) forradalma ezt a kutatási ágat is jelentősen megváltoztatta.

Valójában a DL-megoldásokat manapság széles körben használják különféle CV feladatok elvégzésére, mint például a tárgyfelismerés, arcfelismerés, képosztályozás, tárgykövetés videón, mozgásbecslés és még sok más. A DL-módszerek annak köszönhetően váltak népszerűvé, hogy képesek automatikusan kinyerni az értelmes jellemzőket a rendelkezésre álló adatokból. Így nincs szükség a releváns jellemzők manuális kiszűrésére, például megtalálni az utcasarkokat egy képen.

Másrészt a DL-megoldások fő hátránya a belső átlátszatlanságuk és a címkézett adatok hiánya.

Valójában a mély neurális hálózatok összetettsége lehetetlenné teszi az emberek számára, hogy megértsék az előrejelzéseik mögött rejlő indokokat. Bizonyos területeken azonban elengedhetetlen annak megértése, hogy egy gép miért hozta az adott döntést, megelőzendő például az etikai és faji problémákat.

Ugyanakkor a DL-modellek gyakran hatalmas mennyiségű címkézett adatot igényelnek a betanításhoz. A betanítási folyamat során a modellbe az adatokat a később alkalmazni kívánt címkékkel összekapcsolva kell betáplálni (például egy ember életkorát az arcához kötődően, vagy, hogy milyen állat van a képen, stb.). A betanításhoz szükséges adatok és a megfelelő címkék összekapcsolása nem mindig lehetséges, de ha igen, akkor is óriási befektetést kíván időben és költségekben is.

Ezen okok miatt a számítógépes látást kutatók erőfeszítéseiket olyan megoldások felfedezésére és kihasználására összpontosítják, amelyek enyhíthetik a fent említett problémákat.

Íme néhány trend a számítógépes látás területén:

  1. trend: Megmagyarázható AI-megoldások

A Deep eXplainable AI (XAI) olyan módszerekből áll, amelyek segítenek az embereknek megérteni a DL-megoldások döntéseit, hogy átláthatóbbá és megbízhatóbbá tegyék azokat. A legtöbb XAI-módszert úgy fejlesztették ki, hogy bármely meglévő DL-modellre alkalmazható legyen, anélkül, hogy módosítani kellene. Az ilyen módszereket a közelmúltban kritizálta a kutatói közösség, mivel nem adnak elegendő részletet a DL-modell döntési folyamatáról.

Ennélfogva a tendencia az olyan DL-megoldások bevezetése lesz, amelyeket eleve megmagyarázhatónak terveznek. Ez azt jelenti, hogy a DL-modell maga is képes magyarázatot adni minden egyes előrejelzéséhez.

  1. irányzat: Önellenőrzéses tanulás

A Self-supervised Learning (Önellenőrzéses tanulás) célja, hogy kihasználja a hatalmas mennyiségű címkézetlen adatot, hogy értelmes mintázatokat tanulhasson meg belőlük egy Pre-text feladaton keresztül, majd finomhangolja ezeket a jellemzőket a kevés elérhető címkézett adattal egy Downstream feladat megtanulásával.

Vegyük a következő példát. Végső célunk egy Image Captioning mély neurális hálózat betanítása, amely az állatok képén működik majd, azonban nincs elég címkézett adatunk a modellünk pontos betanításához. A rendelkezésre álló címkézetlen adatokat felhasználhatjuk arra, hogy a modell megtanulja a különböző állatfajták megkülönböztetéséhez szükséges tulajdonságokat.

Amint az alábbi ábrán látható, a Pre-text feladat csak egy osztályozási problémából áll, ahol a hálózatunknak észlelnie kell a bemeneti kép elforgatását. Tehát véletlenszerű elforgatást alkalmazunk minden elérhető címkézetlen képre, majd ezzel az elforgatással adunk neki egy ál-címkét.

Míg a modell megtanulja, hogyan észlelheti, hogy melyik elforgatást alkalmazta bármely bemeneti képen, magas szintű jellemzőket tanul meg az ilyen képek állatairól. Valójában a macska képén alkalmazott forgatás észleléséhez fontos például, hogy felismerjük a szájkosarat különböző pozíciókban. Ezek a mintázatok nagyon hasznosak lesznek másfajta állatok megkülönböztetésére is, amint azt a Downstream Task megköveteli.

  1. trend: Neuro-szimbolikus AI

A neuro-szimbolikus mesterséges intelligencia célja a modern mély tanulási technikák és a hagyományos szimbolikus AI-módszerek kombinálása, amelyek jellemzően az entitásokról és azok kapcsolatairól szóló szabályalapú érvelésre támaszkodnak.

Például, ha tudjuk, hogy Bob és Alice Carl gyermekei, akkor arra következtethetünk, hogy Bob és Alice testvérek. A neuro-szimbolikus AI-megközelítések fő előnye az, hogy kevesebb adattal tanulnak, és alapvetően értelmezhető modelleket adnak.

Az MIT-IBM Watson AI Lab már most is erre a rendkívül ígéretes kutatási területre összpontosítja erőfeszítéseit. Ennek a labornak az egyik eredménye a CLEVRER: Collision Events for Video Representation and Reasoning (Ütközéses események videós ábrázoláshoz és magyarázathoz), amely az MIT CSAIL, az IBM Research, a Harvard Egyetem és a Google DeepMind együttműködéseként jött létre.

Forrás: MarkTechPost

https://www.marktechpost.com/2022/01/20/top-emerging-computer-vision-trends-for-2022/

Lépjen kapcsolatba velünk

Budapest, Than Károly u. 3, 1119
(1) 371 5936