Wie der geneigte Leser vielleicht schon registriert hat, beschäftige ich mich seit dem letzten Bigbang wieder intensiver mit dem Thema AMD. Habe ich Threadripper und Ryzen im ersten Wurf noch weitgehend (nachlässigerweise) ignoriert, war spätestens mit dem Thema EPYC die Burg am brennen. Ersteres habe ich seit dem nachgeholt und die Ergebnisse sind konsistent.
Seit etwa einem halben Jahr beschäftige ich mich also wieder intensiver mit Mikroprozessoren aus dem Hause AMD und was soll ich sagen, ich bin begeistert. War AMD in letzter Zeit meist das hässliche Entlein und wurde mit dem LowCost Markt abgespeist, haben sie in aller Seelenruhe ihre Hausaufgaben gemacht und ein Feuerwerk gezündet, dem die Ingenieure aus dem Hause Intel absolut Nichts entgegen zu setzen haben. Der Jäger wird zum gejagten und das margenträchtige Premiumsegment implodiert unter den Preisdruck, den man beim Rivalen aufgebaut hat.
Aber der Reihe nach.
Im Frühjahr 2017 veröffentlicht AMD die Zen Architektur. Im März starten mit den Ryzen 7 Modellen Desktop Varianten für Single Socket AM4 Systeme im Highperformance Segment und im Juni die EPYC Variante für single und dual socket Serversysteme, zunächst mit 32 Zen1 Kernen und 2019 dann mit bis zu 64 Zen2 Kernen. Schaut man sich die Zen Architectur genauer an, sieht man diese Kerne in den verschiedenen Varianten immer wieder auftauchen. Sie clustert vier Zen Kerne in einem Core Complex (CCX) und zwei dieser Core Complexe in einem Die, verbunden mit einem Infinity Fabric Bus. In den Varianten oberhalb der 8 Core Produkte werden die Dies in einem Multichip Module Verfahren gepackt, in welchen die Infinity Fabric full meshed jeden Die mit jedem verbindet. In der Dual Socket Konfiguration verbindet sich diese sogar von Sockel zu Sockel – dann jedoch nicht mehr full mesh.
Der Gimmick sind an dieser Stelle, die 42.667 GB/s bidirektionale Bandbreite auf den Infinity Fabric Links und dabei die Entkopplung der control plane von der data plane. Oder bei einer 32 Core CPU intern 170.667 GB/s CPU interne Speicherkommunikation.
Just to be clear: 128 Threads und 128 PCIe 4.0 Lanes an einem Sockel.
Vergleicht man an der Stelle einmal das AMD Flagschiff EPYC 7002-7H12 mit dem Intel Flagschiff Xeon Platinum 8280 dann wird das relativ schnell eindeutig:
Feature | AMD EPYC 7002 | Intel XEON Platinum 8280 |
Cores/Threads | 64/128 | 28/56 |
Base/Peak Clock | 2,6/3,3 GHz | 2,7/4 GHz |
Total SMT Cycles | 166,4 GHz | 75,6 GHz |
Memory Channel | 8 | 6 |
Memory Clock | DDR4-3200 | DDR4-2933 |
Memory Bandwidth | 204,8 GB/s | 131,1 GB/s |
PCIe | 4.0 | 3.0 |
PCIe Lanes | 128 | 48 |
PCI Bandwidth | 256 GB/s | 48 GB/s |
Process | 7 nm | 14 nm |
Power | 280 W | 205 W |
Die Kurzfassung ist, dass Intel in jeder Disziplin deutlich hinten liegt.
Nimmt man die Single Thread Performance dann liegt hier Intel 54% hinter AMD im Basetakt. Legt man die Boost bzw. Turbo Taktfrequenz an, kann Intel die Lücke vermeintlich etwas schließen, allerdings zeigen meine Tests, dass Intels Cascade-Lake Turbo eher ein punktueller Turbo ist, während AMDs Boost sich zumindest in Zen2 durchaus auf allen Kernen gleichermaßen unter Last auswirken kann. Insofern sind sowohl die Beschleunigerwerte als auch die Hyperthreading Performance kaum rechnerisch zu bewerten.
Die Speicherbandbreite ist mit einem Rückstand Intels gegenüber AMD von knapp 36% und die PCI I/O Bandbreite von 81% rein arithmetisch ebenfalls tragisch. Da in heutigen meist virtualisierten Umgebungen Memory Performance der kritische Faktor ist, sind 36% mehr als drastisch. Möchte man die Lücke durch die verwendung zweier Sockel schließen, schlagen meist deutlich höhere Lizenzkosten zu buche.
Am dramatischsten schäze ich, auch nach intensiven Benchmarks im letzten halben Jahr den Penalty im PCI Umfeld ein. Solange PCI ausschließlich für IO außerhalb des Gehäuses wesentlich war, hätte das vermutlich wenige Anwender effektiv beeinträchtigt. In Zeiten von NVMe trifft dieser Schlag um so härter. Die Anzahl der PCI Lanes beschränkt vom Fleck weg die Anzahl der NVMe- Flash Module, welche man im System einsetzen kann. Die Tatsache, dass Intel hier eine Generation zurück liegt nimmt der geringen Kapazität dann auch noch die Hälfte ihrer Geschwindigkeit. Im Zeitalter der All- Flash- Strategien ist das ein nicht zu verzeihender Fauxpas. Aktuelle Themen rund um KI und entsprechende Prozessorkarten verschärfen die Problematik um eine weitere Dimension.
Noch haben einige Server- Hersteller ihre Schwierigkeiten die ungebändigte Performance von 128 PCIe 4.0 Lanes an den Anwender zu bringen. Allerdings haben eigene Tests in den letzten sechs Monaten mehr als deutliche Unterschiede zu Tage gefördert und AMD hat in wirklich jeder Disziplin die Nase mindestens Faktor zwei, wenn nicht noch höher.
Das Allerschlimmste ist, dass aus Herstellerkreisen immer mehr verlautet, dass Intel nicht in der Lage scheint die Lücke zu schliessen.
Zwar kommt mit Rocket Lake durchaus PCIe 4.0 in die Intel- Welt. Jedoch ist diese Einführung jüngst auf 2021 veschoben worden. Schlimmer scheint, dass auch ein Wechsel auf einen Prozess kleiner als 14nm noch nicht in Produkten anzukommen scheint. Immerhin ist die Fab 28 in Kiryat Gat mit Netzwerk Produkten beschäftigt, jedoch kommt der 11/10 nm Prozess nicht in komplexen CPUs an. Der 10nm Prozess wird auf Seiten Intel gemeinhin als Debakel gesehen. Zwar taucht die 7nm Fertigung nach wie vor auch in Roadmaps ab 2021 quer durch die Zulieferszene auf, aber aktuell ist Intel jeden pünktlichen Launch schuldig geblieben.
Derweil fertigt AMD fröhlich im 7nm Prozess, schon seit einem Jahr. Derweil hat AMD schon Zen3 und Zen4 Roadmaps am Start und sieht einer Einführung eines 5nm Prozesses in 2021 noch recht gelassen entgegen. Analog soll mit Zen4 auch PCIe 5.0 und DDR5 support bei AMD kommen. Ersteres bedeutet wieder eine Verdoppelung der Bandbreite in Richtung Massenspeicher und selbst mit DDR5 wird die Lücke zwischen Hauptspeicher und NVMe Flash nicht kleiner.
Insofern helfen auch die Intel Roadmaps, die möglicherweise einen kleinen Vorsprung bei der Einführung von DDR5 sehen, nicht nachhaltig, da die steigende Bandbreite in Richtung NVMe die Ladezeiten soweit reduziert, dass ein Massenspeicherzugriff nicht mehr sehr viel langsamer sein muss, als ein Hauptspeicherzugriff. Ob Intel es schafft PCIe 4.0 effektiv zu überspringen und gleich mit PCIe 5.0 zu landen, sei einmal dahin gestellt – dafür hat der Chipgigant zuletzt nicht kontinuierlich geliefert.
Unken könnten rufen, dass hier wohl jemand im Erfolg gebadet, den Markt nach Kräften abgeschöpft, eine schier hybrisartige Selbstsicherheit entwickelt hat und den Underdog einfach nicht hat kommen sehen.
Nimmt man zu diesen Betrachtungen hinzu dass das wirtschaftspolitische Säbelrasseln in den USA die Amortisationszeiten der beachtlichen Investitionen in Chiptechnologie empfindlich wird treffen können fällt es augenscheinlich schwer zu glauben, dass Intel AMD kurzfristig wird Paroli bieten können. Wie soll Intel bei wegfallendem China Geschäft die hohen Investitionen amortisieren, für Prozesse die sie eigentlich überspringen müssten. Zur gleichen Zeit trifft die Embargopolitik den Underdog AMD weit weniger, da sie ohnehin mit kleinem Marktanteil kalkulieren mussten und gerade in riesigen Stückzahlen dem Platzhirschen eben jene Marktanteile abnehmen. Mit jeder CPU die hier weg fällt wird Intels Problem größer, während AMD das gemütlich nahezu ignorieren kann.
In diesem Sinne, kyp. F.
p.s. Die eher technischen Artikel rund um die praktischen Erfahrungen zwischen Intel und AMD bzw. auch zwei etablierten Serverherstellern, werden mit Abschluss der Benchmarkprojekte im Oktober folgen. Dann gibt es auch harte Fakten!