Actualizarea Ray Serve LLM de la Anyscale activează toleranța la erori a grupului DP pentru implementările vLLM WideEP, reducând riscul de întrerupere pentru sistemele distribuite de inferență AI. (ReadActualizarea Ray Serve LLM de la Anyscale activează toleranța la erori a grupului DP pentru implementările vLLM WideEP, reducând riscul de întrerupere pentru sistemele distribuite de inferență AI. (Read

Ray 2.55 adaugă toleranță la erori pentru implementări de modele AI la scară largă

2026/04/03 02:35
3 min de lectură
Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la crypto.news@mexc.com

Ray 2.55 Adaugă Toleranță la Erori pentru Implementări de Modele AI la Scară Mare

Joerg Hiller 02 apr. 2026 18:35

Actualizarea Ray Serve LLM de la Anyscale permite toleranță la erori pentru grupuri DP în implementări vLLM WideEP, reducând riscul de downtime pentru sistemele distribuite de inferență AI.

Ray 2.55 Adaugă Toleranță la Erori pentru Implementări de Modele AI la Scară Mare

Anyscale a lansat o actualizare semnificativă a framework-ului său Ray Serve LLM care abordează o provocare operațională critică pentru organizațiile care rulează sarcini de inferență AI la scară mare. Ray 2.55 introduce toleranță la erori pentru grupuri de paralelism de date (DP) în implementări vLLM Wide Expert Parallelism—o funcționalitate care previne ca defecțiunile unui singur GPU să oprească clustere întregi de servire a modelelor.

Actualizarea vizează un punct critic specific în servirea modelelor Mixture of Experts (MoE). Spre deosebire de implementările tradiționale de modele unde fiecare replică operează independent, arhitecturile MoE precum DeepSeek-V3 fragmentează straturile de experți pe grupuri de GPU-uri care trebuie să lucreze colectiv. Când un GPU din aceste configurații cedează, întregul grup—potențial cuprinzând între 16 și 128 de GPU-uri—devine neoperațional.

Problema Tehnică

Modelele MoE distribuie rețele neuronale specializate "expert" pe multiple GPU-uri. DeepSeek-V3, de exemplu, conține 256 de experți pe strat, dar activează doar 8 pe token. Token-urile sunt direcționate către GPU-urile care dețin experții necesari prin operațiuni de dispatch și combinare care necesită ca toate rangurile participante să fie sănătoase.

Anterior, eșecul unui singur rang întrerupea aceste operațiuni colective. Interogările continuau să fie direcționate către replicile supraviețuitoare din grupul afectat, dar fiecare cerere eșua. Recuperarea necesita repornirea întregului sistem.

Cum Rezolvă Ray

Ray Serve LLM tratează acum fiecare grup DP ca o unitate atomică prin programare în grup. Când un rang eșuează, sistemul marchează întregul grup ca nesănătos, oprește rutarea traficului către acesta, desființează grupul eșuat și îl reconstruiește ca unitate. Alte grupuri sănătoase continuă să servească cereri pe tot parcursul.

Funcționalitatea vine activată implicit în Ray 2.55. Implementările DP existente nu necesită modificări de cod—framework-ul gestionează verificările de sănătate la nivel de grup, programarea și recuperarea automat.

Autoscalarea respectă și ea aceste limite. Operațiunile de scale-up și scale-down se întâmplă în incremente de dimensiunea grupului, nu replici individuale, prevenind crearea de grupuri parțiale care nu pot servi trafic.

Implicații Operaționale

Actualizarea creează o considerație importantă de design: lățimea grupului versus numărul de grupuri. Conform benchmark-urilor vLLM citate de Anyscale, throughput-ul pe GPU rămâne relativ stabil pentru dimensiuni de paralelism expert de 32, 72 și 96. Aceasta înseamnă că operatorii pot ajusta către grupuri mai mici fără a sacrifica eficiența—iar grupuri mai mici înseamnă raze de impact mai mici când apar defecțiuni.

Anyscale notează că această reziliență la nivel de orchestrare completează munca de elasticitate la nivel de motor care se întâmplă în comunitatea vLLM. RFC-ul vLLM Elastic Expert Parallelism abordează modul în care runtime-ul poate ajusta dinamic topologia într-un grup, în timp ce Ray Serve LLM gestionează ce grupuri există și primesc trafic.

Pentru organizațiile care implementează modele în stil DeepSeek la scară, beneficiul practic este simplu: defecțiunile GPU devin incidente localizate, nu întreruperi la nivel de sistem. Exemple de cod și pași de reproducere sunt disponibile pe repository-ul GitHub al Anyscale.

Sursa imaginii: Shutterstock
  • ray
  • vllm
  • infrastructură ai
  • învățare automată
  • calcul distribuit
Oportunitate de piață
Logo Raydium
Pret Raydium (RAY)
$0.6151
$0.6151$0.6151
-0.50%
USD
Raydium (RAY) graficul prețurilor în timp real
Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează crypto.news@mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.

Trade GOLD, Share 1,000,000 USDT

Trade GOLD, Share 1,000,000 USDTTrade GOLD, Share 1,000,000 USDT

0 fees, up to 1,000x leverage, deep liquidity