AMD ROCm 6.0 Release (Bild © AMD)
Superschnelles KI-Inferencing mit SGLang
Generative KI verändert die Industrie und mit ROCm 6.3 führt AMD SGLang ein - eine neue Laufzeitumgebung, die für die optimierte Inferenz generativer Modelle wie LLMs und VLMs auf AMD Instinct GPUs entwickelt wurde. SGLang verspricht einen bis zu 6-fachen Durchsatz und ermöglicht es Unternehmen, KI-Anwendungen in großem Maßstab effizienter zu bedienen. SGLang ist mit Python in ROCm Docker-Containern vorkonfiguriert, einfach zu bedienen und beschleunigt den Einsatz für interaktive KI, multimodale Workflows und skalierbare Cloud-Backends.
FlashAttention-2: Steigerung der Transformer-Effizienz
Transformer-Modelle sind von zentraler Bedeutung für KI, aber ihr Speicher- und Rechenbedarf war bisher ein Hindernis für die Skalierbarkeit. ROCm 6.3 nimmt sich dieser Herausforderung mit der Einführung von FlashAttention-2 an und bietet eine bis zu dreifache Beschleunigung für Backward Passes und optimierte Forward Passes. Diese Verbesserung verkürzt die Markteinführungszeit von KI-Lösungen für Unternehmen und verbessert die Leistung beim Training und der Inferenz großer Modelle. FlashAttention-2 ermöglicht außerdem eine effiziente Speichernutzung und ist damit ideal für die Verarbeitung längerer Sequenzen.
HPC-Anwendungen mit AMD Fortran Compiler
Unternehmen, die alte Fortran-Anwendungen einsetzen, können jetzt die Leistung der AMD Instinct GPU-Beschleuniger nutzen. Mit ROCm 6.3 wird der AMD Fortran Compiler eingeführt, der GPU-Offloading durch OpenMP ermöglicht und damit die Beschleunigung wichtiger wissenschaftlicher Anwendungen, ohne dass umfangreicher Code umgeschrieben werden muss. Branchen wie die Luft- und Raumfahrt, die Pharmaindustrie und die Wettermodellierung können ihre Anwendungen jetzt zukunftssicher machen und eine GPU-beschleunigte Leistung erzielen.
Multi-Node FFT-Unterstützung für verteilte HPC-Workloads
Um dem wachsenden Bedarf an skalierbarem verteiltem Computing gerecht zu werden, erweitert ROCm 6.3 rocFFT um die Unterstützung von Multi-Node-FFT, was die Effizienz für Branchen, die auf High-Performance-Computing angewiesen sind, erheblich steigert. Die eingebaute Message Passing Interface (MPI)-Integration vereinfacht die Skalierung über mehrere Knoten hinweg, was für kritische Arbeitslasten wie seismische Bildgebung und Klimamodellierung entscheidend ist. Diese Verbesserung ermöglicht es Unternehmen, größere Datensätze effizienter zu verarbeiten.
Verbesserte Computer Vision Bibliotheken für fortschrittliche Medienverarbeitung
ROCm 6.3 führt verbesserte Computer Vision Bibliotheken ein, darunter AV1-Codec-Unterstützung, GPU-beschleunigte JPEG-Dekodierung und bessere Audio-Augmentierung. Diese Verbesserungen richten sich an KI-Entwickler in Bereichen wie Medien und Unterhaltung sowie an diejenigen, die an der Erweiterung komplexer Datensätze arbeiten. Die Unterstützung des AV1-Codecs ermöglicht eine kostengünstige, lizenzfreie Dekodierung für die Medienverarbeitung, während die GPU-beschleunigte JPEG-Dekodierung eine reibungslose Bildvorverarbeitung gewährleistet.
Neben den neuen Funktionen hat ROCm 6.3 auch zwei Profiling-Tools - Omnitrace und Omniperf - in ROCm System Profiler und ROCm Compute Profiler umbenannt. Diese Umbenennung zielt darauf ab, die Benutzerfreundlichkeit und Stabilität zu verbessern und ihre Integration in das aktuelle ROCm-Profiling-Ökosystem zu verbessern.