NVIDIA's CCCL 3.1 führt drei Determinismus-Stufen für parallele Reduktionen ein, die es Entwicklern ermöglichen, Leistung gegen Reproduzierbarkeit in GPU-Berechnungen einzutauschen. (LesenNVIDIA's CCCL 3.1 führt drei Determinismus-Stufen für parallele Reduktionen ein, die es Entwicklern ermöglichen, Leistung gegen Reproduzierbarkeit in GPU-Berechnungen einzutauschen. (Lesen

NVIDIA CCCL 3.1 fügt Gleitkomma-Determinismus-Steuerungen für GPU-Computing hinzu

2026/03/06 01:46
3 Min. Lesezeit
Bei Feedback oder Anliegen zu diesem Inhalt kontaktieren Sie uns bitte unter crypto.news@mexc.com

NVIDIA CCCL 3.1 fügt Gleitkomma-Determinismus-Kontrollen für GPU-Computing hinzu

Caroline Bishop 05.03.2026 17:46

NVIDIAs CCCL 3.1 führt drei Determinismus-Stufen für parallele Reduktionen ein und ermöglicht es Entwicklern, Leistung gegen Reproduzierbarkeit bei GPU-Berechnungen einzutauschen.

NVIDIA CCCL 3.1 fügt Gleitkomma-Determinismus-Kontrollen für GPU-Computing hinzu

NVIDIA hat Determinismus-Kontrollen in CUDA Core Compute Libraries (CCCL) 3.1 eingeführt und damit ein anhaltendes Problem im parallelen GPU-Computing gelöst: identische Ergebnisse aus Gleitkomma-Operationen über mehrere Durchläufe und unterschiedliche Hardware hinweg zu erhalten.

Das Update führt drei konfigurierbare Determinismus-Stufen über CUBs neuen Single-Phase-API ein und gibt Entwicklern explizite Kontrolle über den Reproduzierbarkeits-versus-Leistungs-Kompromiss, der GPU-Anwendungen seit Jahren plagt.

Warum Gleitkomma-Determinismus wichtig ist

Hier ist das Problem: Gleitkomma-Addition ist nicht streng assoziativ. Aufgrund der Rundung bei endlicher Genauigkeit ist (a + b) + c nicht immer gleich a + (b + c). Wenn parallele Threads Werte in unvorhersehbaren Reihenfolgen kombinieren, erhält man bei jedem Durchlauf leicht unterschiedliche Ergebnisse. Für viele Anwendungen – Finanzmodellierung, wissenschaftliche Simulationen, Blockchain-Berechnungen, Machine-Learning-Training – schafft diese Inkonsistenz echte Probleme.

Der neue API ermöglicht es Entwicklern, genau festzulegen, wie viel Reproduzierbarkeit sie durch drei Modi benötigen:

Nicht garantierter Determinismus priorisiert reine Geschwindigkeit. Er verwendet atomare Operationen, die in beliebiger Reihenfolge ausgeführt werden, in der Threads zufällig laufen, und schließt Reduktionen in einem einzigen Kernel-Start ab. Ergebnisse können zwischen Durchläufen leicht variieren, aber für Anwendungen, bei denen ungefähre Antworten ausreichen, sind die Leistungsgewinne erheblich – besonders bei kleineren Eingabe-Arrays, bei denen der Kernel-Start-Overhead dominiert.

Run-to-Run-Determinismus (die Standardeinstellung) garantiert identische Ausgaben bei Verwendung derselben Eingabe, Kernel-Konfiguration und GPU. NVIDIA erreicht dies, indem Reduktionen als feste hierarchische Bäume strukturiert werden, anstatt sich auf Atomics zu verlassen. Elemente kombinieren sich zuerst innerhalb von Threads, dann über Warps über Shuffle-Anweisungen, dann über Blöcke unter Verwendung von Shared Memory, wobei ein zweiter Kernel die endgültigen Ergebnisse aggregiert.

GPU-to-GPU-Determinismus bietet die strengste Reproduzierbarkeit und gewährleistet identische Ergebnisse über verschiedene NVIDIA-GPUs hinweg. Die Implementierung verwendet einen Reproducible Floating-point Accumulator (RFA), der Eingabewerte in feste Exponentenbereiche gruppiert – standardmäßig drei Bins – um Nicht-Assoziativitätsprobleme zu bekämpfen, die beim Addieren von Zahlen mit unterschiedlichen Größenordnungen auftreten.

Leistungs-Trade-offs

NVIDIAs Benchmarks auf H200-GPUs quantifizieren die Kosten der Reproduzierbarkeit. GPU-to-GPU-Determinismus erhöht die Ausführungszeit um 20% bis 30% bei großen Problemgrößen im Vergleich zum relaxed-Modus. Run-to-Run-Determinismus liegt zwischen den beiden Extremen.

Die Drei-Bin-RFA-Konfiguration bietet, was NVIDIA als „optimalen Standard" bezeichnet, der Genauigkeit und Geschwindigkeit ausbalanciert. Mehr Bins verbessern die numerische Präzision, fügen aber Zwischensummierungen hinzu, die die Ausführung verlangsamen.

Implementierungsdetails

Entwickler greifen auf die neuen Kontrollen über cuda::execution::require() zu, das ein Ausführungsumgebungsobjekt erstellt, das an Reduktionsfunktionen übergeben wird. Die Syntax ist unkompliziert – setzen Sie den Determinismus auf not_guaranteed, run_to_run oder gpu_to_gpu, je nach Anforderungen.

Die Funktion funktioniert nur mit CUBs Single-Phase-API; der ältere Two-Phase-API akzeptiert keine Ausführungsumgebungen.

Weiterreichende Auswirkungen

Plattformübergreifende Gleitkomma-Reproduzierbarkeit war eine bekannte Herausforderung im High-Performance-Computing und bei Blockchain-Anwendungen, bei denen unterschiedliche Compiler, Optimierungsflags und Hardware-Architekturen unterschiedliche Ergebnisse aus mathematisch identischen Operationen erzeugen können. NVIDIAs Ansatz, Determinismus explizit als konfigurierbaren Parameter offenzulegen, anstatt Implementierungsdetails zu verbergen, stellt eine pragmatische Lösung dar.

Das Unternehmen plant, Determinismus-Kontrollen über Reduktionen hinaus auf zusätzliche parallele Primitive auszudehnen. Entwickler können den Fortschritt verfolgen und spezifische Algorithmen über NVIDIAs GitHub-Repository anfordern, wo ein offenes Issue die erweiterte Determinismus-Roadmap verfolgt.

Bildquelle: Shutterstock
  • nvidia
  • GPU-Computing
  • cccl
  • Gleitkomma-Determinismus
  • cuda
Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an crypto.news@mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.