Sora: Az OpenAI új AI modellje videók generálásához szövegből

Gábor Bíró 2024. február 16.
2 perc olvasási idő

Az OpenAI bemutatta a Sorát, egy új AI modellt, amely lehetővé teszi a felhasználók számára, hogy szöveges utasítások alapján videókat hozzanak létre, ami jelentős előrelépést jelent az AI-vezérelt tartalomgenerálásban.

Sora: Az OpenAI új AI modellje videók generálásához szövegből
Forrás: OpenAI

Az OpenAI bemutatta a Sorát, egy újszerű generatív AI modellt, amely képes videókat létrehozni szöveges utasításokból. A Sora diffúziós modellt és transzformer architektúrát használ, hasonlóan a GPT modellek mögött álló technológiához, hogy valósághű és fantáziadús jeleneteket generáljon. Képes kezelni komplex helyzeteket több szereplővel, specifikus mozgástípusokkal, valamint a témák és hátterek pontos részleteivel. A modell állóképek animálására, meglévő videók kiterjesztésére vagy hiányzó képkockák kitöltésére is alkalmas, akár egyperces videókat is készítve különféle stílusokban, beleértve a fotorealisztikus, animált vagy fekete-fehér stílust.

Lenyűgöző képességei ellenére a Sorának jelenleg vannak korlátai. Nehézségekbe ütközik a komplex jelenetek fizikájának pontos szimulálása, az ok-okozati összefüggések megértése és a pontos térbeli részletek időbeli fenntartása terén. Például egy szereplő beleharaphat egy sütibe, de a sütin utána nem feltétlenül látszik harapásnyom, vagy a modell összekeverheti a bal és jobb irányt egy jeleneten belül.

Az OpenAI óvatosan jár el, mielőtt széles körben elérhetővé tenné a Sorát. Aktívan együttműködnek red teamerekkel (szakértőkkel, akik rendszereket tesztelnek hibák szempontjából) a potenciális károk és kockázatok felmérése érdekében, mint például a félretájékoztatás, gyűlöletkeltő tartalom vagy elfogultság generálása. Továbbá detektáló osztályozókat fejlesztenek a Sora által generált félrevezető tartalom azonosítására, és a vállalat tervezi a C2PA metaadatok jövőbeni beépítését a Sora által generált videók eredetének biztosítása érdekében.

Jelenleg a Sora korlátozott számú red teamer és válogatott vizuális művész, tervező és filmkészítő számára érhető el, hogy visszajelzést gyűjtsenek arról, hogyan lehet a modellt a leginkább hasznossá tenni a kreatív szakemberek számára. Az OpenAI globálisan egyeztet politikai döntéshozókkal, oktatókkal és művészekkel, hogy megértsék az aggályokat és azonosítsák a technológia pozitív felhasználási lehetőségeit. Hangsúlyozzák, hogy a valós felhasználásból való tanulás kulcsfontosságú a folyamatosan biztonságosabb AI rendszerek létrehozásához és kiadásához.

A Sora bemutatása követi az OpenAI gyakorlatát a fejlett generatív AI eszközök gyors fejlesztésében, beleértve a ChatGPT-t szövegekhez és a DALL-E 3-at képekhez. A Sora jelentős előrelépést jelent az AI videótartalom-generálási képességeiben, tovább gyorsítva a versenyt és az innovációt ezen a gyorsan fejlődő területen.

Gábor Bíró 2024. február 16.