Pe scurt
- Noul Muse Spark al Meta marchează o trecere la AI închis, nativ multimodal cu raționament bazat pe agenți.
- Meta raportează câștiguri semnificative în benchmark-uri de sănătate și căutare, dar rămâne în urma Gemini la raționament de bază și codare.
- Construit în nouă luni cu mult mai puțină putere de calcul, acest lucru indică o nouă strategie AI bazată pe eficiență.
Meta a lansat Muse Spark miercuri, marcând primul model construit de Meta Superintelligence Labs—echipa asamblată acum nouă luni sub conducerea Chief AI Officer Alexandr Wang după achiziția Scale AI de 14 miliarde de dolari a Meta. Este disponibil acum la meta.ai și aplicația Meta AI, cu o lansare pe Facebook, Instagram și WhatsApp care urmează în următoarele săptămâni.
Acesta nu este doar o altă actualizare de chatbot sau o nouă versiune de Llama. Muse Spark este nativ multimodal—procesează imagini, text și voce de la început, mai degrabă decât să atașeze viziunea la un model text existent. Vine cu lanț vizual de gândire, suport pentru utilizarea instrumentelor și ceva pe care Meta îl numește "Modul de contemplare": o configurație care rulează mai mulți agenți AI în paralel pentru a aborda probleme mai dificile. Acesta este răspunsul Meta la modurile de gândire extinsă de la Gemini Deep Think al Google și GPT Pro al OpenAI.
"Muse Spark este primul pas pe scara noastră de scalare și primul produs al unei refaceri complete a eforturilor noastre AI," a scris Meta într-un anunț oficial. "Pentru a sprijini scalarea suplimentară, facem investiții strategice pe întregul stivă—de la cercetare și antrenament de modele la infrastructură, inclusiv centrul de date Hyperion."
Compania a lucrat cu peste 1.000 de medici pentru a cura datele de antrenament pentru raționamentul medical al Muse Spark. Rezultatele pe HealthBench Hard—un benchmark de interogări deschise de sănătate—sunt impresionante: Muse Spark a obținut 42,8, comparativ cu 40,1 pentru GPT 5.4 și doar 20,6 pentru Gemini 3.1 Pro. Aceasta nu este o diferență marginală.
La căutarea agentică (DeepSearchQA), Muse Spark conduce de asemenea cu 74,8, depășind Gemini (69,7) și GPT 5.4 (73,6). La CharXiv Reasoning—înțelegerea figurilor din lucrările științifice—a obținut 86,4, cel mai mare scor dintre modelele din comparație.
Pentru cei interesați de spargerea AI, modelul a fost deschis în câteva minute:
Dar bun nu înseamnă același lucru cu grozav. Imaginea generală a benchmark-urilor arată că Gemini 3.1 Pro încă conduce la majoritatea categoriilor. Diferența este cea mai vizibilă la ARC AGI 2, benchmark-ul de puzzle-uri de raționament abstract: Gemini a obținut 76,5 față de 42,5 ale Muse Spark.
La codare (LiveCodeBench Pro), 82,9 al Gemini depășește 80,0 al Meta. La MMMU Pro—înțelegere multimodală—Gemini a obținut 83,9 față de 80,4. Propriul blog al Meta recunoaște lacunele actuale de performanță în sistemele agentice pe termen lung și fluxurile de lucru de codare.
Există, de asemenea, o schimbare strategică notabilă încorporată în această lansare. Muse Spark este un model închis—arhitectura și ponderile sale nu vor fi făcute publice. Aceasta este o îndepărtare bruscă de la Llama, care a construit reputația Meta în cercurile AI deschise. După recepția dezamăgitoare a Llama 4 la începutul acestui an, Meta pare să fi decis că următorul capitol trebuie scris diferit.
Compania spune că speră să facă open-source versiunile viitoare ale Muse, dar deocamdată codul rămâne în interiorul Meta. Acțiunile gigantului tehnologic au crescut cu aproape 9% miercuri după anunț și au încheiat ziua de tranzacționare cu o creștere de 6,5% la un preț de 612,42 dolari.
"Modul de contemplare" utilizează orchestrarea agenților în paralel pentru a împinge plafonul modelului mai sus. În acea configurație, Muse Spark a atins 58% la Humanity's Last Exam și 38% la FrontierScience Research—un teritoriu care îl face competitiv cu cele mai capabile versiuni ale Gemini și GPT, mai degrabă decât lansările lor standard.
Meta lansează, de asemenea, un asistent de cumpărături care compară produsele și face legătura directă cu achizițiile și plănuiește să aducă Muse Spark pe Facebook, Instagram și WhatsApp în următoarele săptămâni—urmând același scenariu implementat de la Llama 3, punându-l în fața a mai mult de 3,5 miliarde de utilizatori. O previzualizare API privată se deschide pentru dezvoltatori selectați.
Modelul a fost construit în nouă luni, cu numele de cod intern Avocado, Meta susținând că noul său stivă de pre-antrenament poate atinge același nivel de capabilitate ca Llama 4 Maverick folosind de peste 10 ori mai puțină putere de calcul.
Muse Spark este descris intern ca un prim pas "mic și rapid" în familia Muse. O versiune mai capabilă este deja în dezvoltare.
Newsletter Daily Debrief
Începeți fiecare zi cu cele mai importante știri chiar acum, plus funcții originale, un podcast, videoclipuri și multe altele.
Sursa: https://decrypt.co/363691/meta-muse-spark-most-capable-ai-gemini-pro-still-leads








