A Mistral multimodális modellje: Bemutatkozik a Pixtral 12B

Gábor Bíró 2024. szeptember 9.
3 perc olvasási idő

A gyorsan feltörekvő francia MI startup, a Mistral AI belépett a multimodális mesterséges intelligencia világába a Pixtral 12B kiadásával. A multimodális MI olyan rendszereket jelent, amelyek képesek egyszerre több adattípusból, például szövegből és képekből származó információk feldolgozására és megértésére. Ez az új, 12 milliárd paraméteres modell a Mistralt, amely nyílt forráskódú megoldásaira összpontosít, és az amerikai technológiai óriásokkal versenyez, pozicionálja, hogy versenyezzen az olyan nagy szereplők hasonló ajánlataival, mint az OpenAI és az Anthropic.

A Mistral multimodális modellje: Bemutatkozik a Pixtral 12B
Forrás: Mistral

A Pixtral 12B jellemzői

A Pixtral 12B a Mistral korábbi, Nemo 12B szövegalapú modelljére épül, beépítve egy 400 millió paraméteres vizuális kódolót, amely lehetővé teszi számára a képek szöveg melletti feldolgozását. Bár a 12 milliárd paraméter a közepes méretű modellek közé sorolja az iparági óriásokhoz képest, jelentős képességeket kínál, különösen nyílt forráskódú ajánlatként. A modell akár 1024x1024 pixeles képeket is képes kezelni, amelyeket 16x16 pixeles blokkokra bont elemzés céljából. 2D Rotary Position Embeddings (RoPE) technológiát használ, amely kulcsfontosságú módon segíti a modellt a képen belüli objektumok térbeli kapcsolatainak jobb megértésében. A 131 072 tokenes szókészlettel és a speciális képfeldolgozó tokenekkel a Pixtral 12B kiválóan teljesít olyan feladatokban, mint a képaláírás (képeken látható jelenetek leírása), az objektumszámlálás (pl. almák számolása egy kosárban) és a vizuális kérdésválaszolás (VQA), például a "Milyen színű az autó a képen?" kérdésre adott válasz.

Licencelés és elérhetőség

A Pixtral 12B az engedélyező Apache 2.0 licenc alatt kerül kiadásra. Ez jelentős előny a MI közösség számára, mivel ez azt jelenti, hogy a modell szabadon letölthető, használható, módosítható és telepíthető, akár kereskedelmi célokra is, anélkül, hogy a felhasználóknak meg kellene osztaniuk a módosításaikat. Ez elősegíti az innovációt, lehetővé teszi a vállalkozások számára, hogy integrálják termékeikbe a szállítói függőség miatti aggodalmak nélkül, és előmozdítja az átláthatóságot. A fejlesztők elérhetik a modellt, amelynek mérete körülbelül 24 GB, a GitHubon és a Hugging Face-en keresztül, lehetővé téve számukra, hogy finomhangolják azt különböző specifikus alkalmazásokhoz.

Összehasonlítás más modellekkel

A Pixtral 12B egy rendkívül versenyképes területre lép be, amelyet olyan nagy teljesítményű multimodális modellek népesítenek be, mint az OpenAI GPT-4o, az Anthropic Claude és a Google Gemini családja. A Mistral modelljének egyik legfontosabb megkülönböztető jegye a nyílt forráskódú jellege. Míg a versenytársak gyakran elsősorban kereskedelmi API-kon (Application Programming Interfaces) keresztül biztosítanak hozzáférést, a Pixtral 12B nyílt elérhetősége nagyobb hozzáférést, átláthatóságot és testreszabási lehetőségeket biztosít a kutatók és a fejlesztők számára. Ez a megközelítés kulcsfontosságú a kutatás felgyorsításához, a független auditok lehetővé tételéhez és az együttműködésen alapuló fejlesztői ökoszisztéma előmozdításához. Bár teljesítményét átfogóan össze kell hasonlítani ezekkel a zárt forráskódú versenytársakkal, hozzáférhető mérete és rugalmassága vonzó alternatívává teszi a MI közösség számára.

Modell Vállalat Főbb jellemzők Elérhetőség
Pixtral 12B Mistral AI 12B paraméter, szöveg- és képfeldolgozás, nyílt forráskódú Szabadon elérhető Apache 2.0 licenc alatt
GPT-4o OpenAI Nagyméretű multimodális modell, fejlett következtetés Kereskedelmi API hozzáférés
Claude 3 (Opus/Sonnet/Haiku) Anthropic Szöveg- és képértelmezés, erős teljesítmény, etikai fókusz Kereskedelmi API hozzáférés
Gemini (Pro/Ultra) Google Multimodális képességek, integrálva a Google szolgáltatásaiba API hozzáférés és Google termékeken keresztül

Jövőbeli kilátások

Egy friss, 645 millió dolláros finanszírozási kör után, amely a vállalat értékét lenyűgöző 6 milliárd dollárra értékelte, a Mistral AI jelentős növekedésre készül. Ez a jelentős befektetés alátámasztja a piaci bizalmat, és biztosítja azokat az erőforrásokat, amelyekre a gyors innovációhoz és a globális versenyhez szükség van. A Pixtral 12B kiadása tökéletesen illeszkedik a Mistral azon stratégiájához, hogy hatékony nyílt modelleket kínáljon ingyenesen, miközben optimalizált, menedzselt verziókon és vállalati tanácsadási szolgáltatásokon keresztül generál bevételt. Ahogy a Mistral folyamatosan bővíti portfólióját, a Pixtral 12B várhatóan hamarosan integrálásra kerül a vállalat chat platformjába (Le Chat) és API platformjába (La Plateforme). Ez az integráció lehetővé teszi a felhasználók szélesebb körének, hogy könnyen teszteljék, használják és felfedezzék a modell bővülő képességeit, tovább ösztönözve annak elterjedését és fejlesztését.

Gábor Bíró 2024. szeptember 9.