Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Bloomberg: Apple wird KI-Serverfarmen mit M2 Ultra betreiben

Es gibt dutzende Hinweise, dass sich die Worldwide Developers Conference im Juni 2024 maßgeblich um Künstliche Intelligenz dreht – sogar Apple-Manager wiesen durch Wortspiele darauf hin. Unter anderem soll Apple Siri verbessern, Programme aus der iWork-Suite um KI-Features erweitern und auch in Safari soll Künstliche Intelligenz Einzug halten. Doch derartige KI-Modelle benötigen viel Rechenleistung – und offenbar baut Apple hierfür eine eigene Infrastruktur auf.


Bereits in den letzten Wochen kamen diverse Berichte auf, dass Apple eigene Server-Farmen speziell für KI-Funktionen plant. Die Herstellung derartiger Server soll bereits bei Foxconn, Apples Haus-Fertiger, angelaufen sein.

Bloomberg: M2 Ultra als Chip
Nun vermeldet auch Mark Gurman von Bloomberg, dass Apple tatsächlich eigene Server einsetzen will. Diese sollen den aktuell schnellsten Chip, nämlich den M2 Ultra, einsetzen – zukünftig sei jedoch eine Umstellung auf den M4 geplant. Doch vom M4 existiert momentan nur die kleinste Ausbaustufe – erst gegen Ende 2024 oder Anfang nächsten Jahres soll ein M4 Pro, M4 Max und M4 Ultra erscheinen. Ob Apple jedoch jemals öffentlich einen Einblick in die eigene KI-Serverinfrastruktur gibt und ob diese auch Drittanbietern zugänglich sein wird, bleibt fraglich.

Neural Engine wohl nicht im Fokus
Dass Apple auf den M2 Ultra statt auf den M4 setzt, lässt den Rückschluss zu, dass der Konzern es eher auf CPU- und GPU-Leistung abgesehen hat als auf die Performance der Neural Engine. Laut Apple-eigenen Informationen ist die Neural Engine des M4 (38 Billionen Rechenoperationen pro Sekunde) schneller als die des M2 Ultra (31,6 Billionen Rechenoperationen pro Sekunde). Bei CPU- oder GPU-intensiven Rechenoperationen ist der M2 Ultra dem M4 jedoch deutlich überlegen.

Die Neural Engine ist eine auf KI-Berechnungen optimierte Komponente der A- und M-Chips – ist aber in den möglichen Berechnungsaufgaben beschränkt. Die Neural Engine zeichnet sich jedoch dadurch aus, dass KI-Modelle äußerst energieeffizient ausgeführt werden.

Manches auf dem Gerät, manches auf Apple-Servern
Aus Datenschutz-, aber auch aus Kostengründen, will Apple möglichst viele KI-Funktionen lokal auf den Geräten ausführen – für die meisten komplexe KI-Modelle sind jedoch viele Apple-Geräte nicht geeignet. Die Hauptgründe sind, dass die meisten iPhone- und iPad-Modelle mit sehr wenig Arbeitsspeicher ausgerüstet sind und die meiste Zeit den eingebauten Akku als Stromquelle nutzen. Können KI-Funktionen nicht durch die Neural Engine abgearbeitet werden, verbraucht die CPU und GPU sehr viel Strom – und schränkt die Batterielaufzeit der Geräte empfindlich ein.

Daher wird Apple zweigleisig fahren: Alle Aufgaben, welche lokal auf der Neural Engine abgearbeitet werden können, werden auch hier ausgeführt – doch komplexe KI-Modelle, wie zum Beispiel Large-Language-Models für Siri, werden mit großer Wahrscheinlichkeit stets in Apples Datencentern abgearbeitet.

Kommentare

Wellenbrett10.05.24 13:22
Danke für den informativen Artikel. Von dem Thema kann ich momentan nicht genug bekommen. Was die Wahl des SOCs betrifft, also dem M2 Ultra dem M4 den Vorzug zu geben, das könnte auch mit der Verfügbarkeit in Kombination mit den Kosten zu tun haben. Ich frage mich auch, welches Betriebssystem zum Einsatz kommt: die Hardware spricht ja für macOS...
0
geobat10.05.24 13:25
Ich gehe mal davon aus, wenn Apple eigene Server baut dann werden sie auch dafür optimierte Prozessoren bauen
Linux am Server, Mac zum arbeiten, Windows zum spielen :)
0
gfhfkgfhfk10.05.24 13:26
Warum sollte man Firmen interne Daten auf Apple Server auslagern, wenn die Konkurrenz passende Server liefern kann, die in der eigenen Firma stehen können und zu 100% von einem selbst kontrolliert werden?

Wenn Apple die neuen Server für Kunden anbieten würde, wäre das ein anderes Thema. Allerdings ist der M2 Ultra nicht wirklich der Knaller als Server CPU. Man vergleiche das bitte einmal mit einem Ampere Altra Max bzw. One oder einem AMD EPYC Zen4 oder Zen4c. Diese CPUs haben allesamt 128 PCIe Lanes, deutlich mehr Rechenleistung, eine bessere Effizienz und sie erlauben den Betrieb von KI Beschleunigern von AMD, nVidia oder auch bald Intel.
0
Wellenbrett10.05.24 13:37
gfhfkgfhfk
Warum sollte man Firmen interne Daten auf Apple Server auslagern, wenn die Konkurrenz passende Server liefern kann, die in der eigenen Firma stehen können und zu 100% von einem selbst kontrolliert werden?

Wenn Apple die neuen Server für Kunden anbieten würde, wäre das ein anderes Thema. Allerdings ist der M2 Ultra nicht wirklich der Knaller als Server CPU. Man vergleiche das bitte einmal mit einem Ampere Altra Max bzw. One oder einem AMD EPYC Zen4 oder Zen4c. Diese CPUs haben allesamt 128 PCIe Lanes, deutlich mehr Rechenleistung, eine bessere Effizienz und sie erlauben den Betrieb von KI Beschleunigern von AMD, nVidia oder auch bald Intel.
Der Artikel deutet ja schon an, dass Apple diese KI-Serverfarmen für sich selbst verwendet. Der einzelne Prozessor ist hier - ja nachdem was Apple genau vorhat - nicht von Bedeutung. 20 oder meinetwegen noch mehr M2 Ultra dürften jeden anderen Einzelprozessor in Grund und Boden rechnen und Apple dennoch weniger kosten. Zudem enthält der M2 Ultra SOC ja mehr als nur die Rechenkerne: GPU, NPU und RAM sind ja auch enthalten.
+3
gfhfkgfhfk10.05.24 13:52
Wellenbrett
Der einzelne Prozessor ist hier - ja nachdem was Apple genau vorhat - nicht von Bedeutung. 20 oder meinetwegen noch mehr M2 Ultra dürften jeden anderen Einzelprozessor in Grund und Boden rechnen und Apple dennoch weniger kosten.
Wenn man mehrere CPUs verschalten will, ist die Latenz der Kommunikation wesentlich für die erzielbare Gesamtrechenleistung. nVidia hat vor einige Jahren nicht ohne Grund Mellanox (Hersteller von HPC Infiniband-, Ethernet-NICs und sowie Infiniband- und Ethernet-Switches) aufgekauft, und deren Produkte in die eigenen Produkte fest integriert.

nVidia hat folgendes KI-Produkt angekündigt: GB200 NVL72 was im Laufe des Jahres auf den Markt kommen wird. Da stecken 36 CPUs und 72 GPUs drin, die sich sicherlich nochmals per Infiniband mit weiteren NVL72 verclustern lassen. Das ist das Umfeld in dem sich dann Apple bewegen wird.
+2
andreasm10.05.24 13:55
Wellenbrett
Der Artikel deutet ja schon an, dass Apple diese KI-Serverfarmen für sich selbst verwendet. Der einzelne Prozessor ist hier - ja nachdem was Apple genau vorhat - nicht von Bedeutung. 20 oder meinetwegen noch mehr M2 Ultra dürften jeden anderen Einzelprozessor in Grund und Boden rechnen und Apple dennoch weniger kosten. Zudem enthält der M2 Ultra SOC ja mehr als nur die Rechenkerne: GPU, NPU und RAM sind ja auch enthalten.

Ich würde eher vermuten, das man eigene Hardware schneller einsatzbereit hat und noch ein paar Dollars günstiger. Nvidia lässt sich seine Produkte derzeit vergolden, von den Margen im Hardwaregeschäft kann Apple nur Träumen.
+1
Wellenbrett10.05.24 14:04
gfhfkgfhfk
Wellenbrett
...
Wenn man mehrere CPUs verschalten will, ist die Latenz der Kommunikation wesentlich für die erzielbare Gesamtrechenleistung....
Das hängt vom Algorithmus ab. Wenn die Berechnungen in viele für sich rechenintensive Einzelberechnungen aufgeteilt werden können und diese parallel ausgeführt werden, tritt Latenz und Datendurchsatz in den Hintergrund. Ich hatte ja geschrieben, "je nachdem was Apple genau vorhat." Ich glaube, die wissen was sie tun.
+2
gfhfkgfhfk10.05.24 14:09
Wellenbrett
Das hängt vom Algorithmus ab. Wenn die Berechnungen in viele für sich rechenintensive Einzelberechnungen aufgeteilt werden können und diese parallel ausgeführt werden, tritt Latenz und Datendurchsatz in den Hintergrund. Ich hatte ja geschrieben, "je nachdem was Apple genau vorhat." Ich glaube, die wissen was sie tun.
Die Hardware der Konkurrenz ist sowohl Singlethreaded, wie auch Multithreaded und ganz besonders verclustert deutlich potenter. Wenn es nicht nVidia sein soll, dann gibt es noch immer Komplettlösungen von AMD, die immer noch deutlich besser sind als ein M2 Ultra.

Intel versucht nun auch vom KI-Hype zu profitieren, und kündigt entsprechende Produkte an.
+1
Wellenbrett10.05.24 14:21
gfhfkgfhfk
Die Hardware der Konkurrenz ist sowohl Singlethreaded, wie auch Multithreaded und ganz besonders verclustert deutlich potenter. ...
Apple hat sich hier dennoch für eigene SOCs entschieden. Das macht es ja so spannend. Zunächst soll ja der M2 Ultra verwendet werden, später dann ein M4 SOC, möglicherweise genau auf die Anforderungen zugeschnitten.
+1
gfhfkgfhfk10.05.24 15:34
Man wird sehen was Apple konkretes einführen will. Ich sehe nur nicht, wie das mit der aktuellen Hardware etwas „Besonderes“ sein soll. Das ist eher so eine Aktion, wir machen auch etwas mit KI.
0
Wellenbrett11.05.24 17:08
gfhfkgfhfk
Die Hardware der Konkurrenz ist sowohl Singlethreaded, wie auch Multithreaded und ganz besonders verclustert deutlich potenter.
Worauf beziehst Du Dich mit "Singlethreaded" oder "Multithreaded"? Das betrifft nach meiner Auffassung ein Zusammenspiel von Hardwarekernen, dem Algorithmus und dem Betriebssystem. Eine Anwendung kann sehr gut parallelisiert sein, oder eben nur in einem Thread laufen und falls die Aufgabe gut parallelisiert ist, entscheidet letztendlich das Betriebssystem was wie lange auf welchem Hardwarekern läuft. Auf reiner Hardware-Ebene steht Apple mit dem M-Prozessoren bei der Singlecore-Leistung extrem gut dar: so hat bei cpubenchmark.net der Prozessor mit dem höchsten Multicore-Wert - der AMD Ryzen Threadripper PRO 7995WX (Preis: etwa 10.000$) - mit 96 physischen Kernen einen Multicore-Wert von 154674, der M2 Ultra von 49564. Zu den Epyc-Prozessoren, die Du oben genannt hast, habe ich keine Werte gefunden, aber von früheren Berichten weiß ich dass sie etwa 2 bis 4 mal die Multicore-Leistung der Threadripper haben. Bei der Singlecore-Leistung übertrifft aber schon der M2 Ultra - und erst Recht der M4 den Threadripper PRO 7995WX:
3952 (Threadripper) zu 4169 (M2 Ultra). Quelle: https://www.cpubenchmark.net/compare/5726vs5533/AMD-Ryzen-Threadripper-PRO-7995WX-vs-Apple-M2-Ultra-24-Core
gfhfkgfhfk
Man wird sehen was Apple konkretes einführen will. Ich sehe nur nicht, wie das mit der aktuellen Hardware etwas „Besonderes“ sein soll. Das ist eher so eine Aktion, wir machen auch etwas mit KI.
Es gibt ja bereits Gerüchte, dass ein kommender M4 Ultra nicht wie der M2 Ultra aus zwei M2 Max zusammengesetzt ist, sondern einen monolithischen Aufbau hat. Wer weiß, was Apple da noch im Feuer hat. Wo Apple auf jeden Fall punkten kann ist die Singlecore-Leistung und die Effizienz und dass es komplett eigene Algorithmen und optimierte Software im Allgemeinen einsetzen kann. Wie die einzelnen CPUs oder SOCs miteinander vernetzt werden, das ist für mich die große Frage.
+1
Unwindprotect11.05.24 22:00
Wellenbrett
Ich frage mich auch, welches Betriebssystem zum Einsatz kommt: die Hardware spricht ja für macOS...

Eher nicht - das ist Cloud Computing und da etwas anderes als Linux einzusetzen wäre sehr seltsam. Wirklich wichtig ist das aber nicht.
0
Wellenbrett12.05.24 09:47
Unwindprotect
Wellenbrett
Ich frage mich auch, welches Betriebssystem zum Einsatz kommt: die Hardware spricht ja für macOS...

Eher nicht - das ist Cloud Computing und da etwas anderes als Linux einzusetzen wäre sehr seltsam. Wirklich wichtig ist das aber nicht.
Also es gibt zwar Ashai Linux für Apple Silicon, aber ob Apple dafür eigene Treiber entwickeln will, wenn die für macOS bereits existieren? Ich tippe auf macOS...
0
Unwindprotect12.05.24 11:42
Wellenbrett
Also es gibt zwar Ashai Linux für Apple Silicon, aber ob Apple dafür eigene Treiber entwickeln will, wenn die für macOS bereits existieren? Ich tippe auf macOS...

Ich glaube es kam in der kürze nicht ganz rüber was ich eigentlich vor allem mit dem "wirklich wichtig ist das nicht" ausdrücken wollte. Apple stellt die Dinger ja nicht her um danach schöne Grimassen superschnell in PhotoBooth zu machen sondern weil sie eine Cloud-Computing Serverfarm für KI-Anwendungen fahren möchte. Die entsprechenden Algorithmen werden extrem hardwarenah implementiert so dass die Nutzung der Compute und Speicherressourcen möglichst effizient ist. Ein "macOS" wäre eine extreme Verschwendung dabei. Ob es am Ende auf den einzelnen Nodes einen Linux Kernel oder einen Darwin-Kernel gibt ist eher egal... der Punkt ist... es wird mit extrem hoher Wahrscheinlichkeit kein "macOS" sein.
0
Wellenbrett12.05.24 17:42
Unwindprotect
Wellenbrett
Also es gibt zwar Ashai Linux für Apple Silicon, aber ob Apple dafür eigene Treiber entwickeln will, wenn die für macOS bereits existieren? Ich tippe auf macOS...

Ich glaube es kam in der kürze nicht ganz rüber was ich eigentlich vor allem mit dem "wirklich wichtig ist das nicht" ausdrücken wollte. Apple stellt die Dinger ja nicht her um danach schöne Grimassen superschnell in PhotoBooth zu machen sondern weil sie eine Cloud-Computing Serverfarm für KI-Anwendungen fahren möchte. Die entsprechenden Algorithmen werden extrem hardwarenah implementiert so dass die Nutzung der Compute und Speicherressourcen möglichst effizient ist. Ein "macOS" wäre eine extreme Verschwendung dabei. Ob es am Ende auf den einzelnen Nodes einen Linux Kernel oder einen Darwin-Kernel gibt ist eher egal... der Punkt ist... es wird mit extrem hoher Wahrscheinlichkeit kein "macOS" sein.
Na es ist ja noch nicht bekannt, was Apple da genau vor hat und ob und wie hardwarenah neue Anwendungen ggf. entwickelt werden. Warum zum Geier sollte Apple dabei aber auf eigener Hardware ein fremdes Betriebssystem favorisieren? Sämtliche Entwicklungstools und Treiber sind auf macOS ausgelegt. Apple hatte iOS bei bei der Erstveröffentlichung gegenüber MacOSX ziemlich abgespeckt und könnte macOS für ein "KI OS" ebenfalls auf den Kernel und die nötigen Schichten außen herum reduzieren. Irgendwelche mehr oder weniger theoretischen Geschwindigkeitsvorteile des Linux Kernels gegenüber XNU halte ich da nicht für bedeutsam. Viel bedeutsamer ist meiner Meinung nach die Toolchain und Kompatibilität zu macOS. Sicherlich hat Apple nicht vor "schöne Grimassen superschnell in PhotoBooth zu machen ", aber die GPUs der M-Socs werden sie für Berechnungen bei dem ganzen Projekt wohl eher nicht brach liegen lassen wollen...
0
tolved13.05.24 15:43
Bei der Singlecore-Leistung übertrifft aber schon der M2 Ultra - und erst Recht der M4 den Threadripper PRO 7995WX:

Wobei sehr wahrscheinlich niemand in dem Bereich eine CPU einsetzen wird, bei der sich 95 Kerne langweilen, während ein einziger am Limit läuft. Dafür gibt es deutlich besser geeignete CPUs.
0
Wellenbrett13.05.24 18:44
tolved
Bei der Singlecore-Leistung übertrifft aber schon der M2 Ultra - und erst Recht der M4 den Threadripper PRO 7995WX:

Wobei sehr wahrscheinlich niemand in dem Bereich eine CPU einsetzen wird, bei der sich 95 Kerne langweilen, während ein einziger am Limit läuft. Dafür gibt es deutlich besser geeignete CPUs.
Genau. Apple wird auf den M-SOCS alles einsetzen was rechnen kann. (Der Kontext dessen was oben geschrieben wurde ist wichtig.)
0
gfhfkgfhfk14.05.24 11:10
Wellenbrett
Worauf beziehst Du Dich mit "Singlethreaded" oder "Multithreaded"? Das betrifft nach meiner Auffassung ein Zusammenspiel von Hardwarekernen, dem Algorithmus und dem Betriebssystem. Eine Anwendung kann sehr gut parallelisiert sein, oder eben nur in einem Thread laufen und falls die Aufgabe gut parallelisiert ist, entscheidet letztendlich das Betriebssystem was wie lange auf welchem Hardwarekern läuft.
Je nach dem ob man eher Singlethread Leistung oder Multithread Leistung braucht, kauft man sich entsprechende Hardware ein. Wer Singlethread Leistung braucht wird nicht zu einem EPYC oder Threadripper greifen sondern einen Ryzen nehmen, da diese die höchsten Taktraten erreichen. Allerdings sind CPUs relativ ineffizient bei hohen Taktraten, so dass die Chips zu heiß werden würden bzw. man effizienter rechnen kann, wenn die Taktraten niedriger sind und man über die Zahl der Kerne skalieren kann.

Bei den Ryzen, Threadripper und EPYCs kommt ein weiteres Thema dazu. Die größeren Chips haben deutlich mehr PCIe Lanes, so dass hier sehr viel mehr Peripherie wie etwa Beschleunigerkarten angeschlossen werden können.

Eine grobe Übersicht über AMDs CPU Angebot für Desktops/Workstation/Server.
  • Ryzen 7000: max 16 Zen4 Kerne, 2 Kanäle und 24 PCIe 5.0 Lanes.
  • Threadripper 7000: max 64 Zen4 Kerne, 4 Kanäle und 48 PCIe 5.0 Lanes.
  • ThreadripperPro 7000: max 96 Zen4 Kerne, 8 Kanäle und 128 PCIe 5.0 Lanes.
  • EPYC 8004: max 64 Zen4 Kerne, 6 Kanäle und 96 PCIe Lanes.
  • EPYC 9004: max 96 Zen4 Kerne, 12 Kanäle und 128 PCIe 5.0 Lanes.
  • EPYC 97x4: max 128 Zen4c Kerne, 12 Kanäle und 128 PCIe 5.0 Lanes.
Zum vergleich der M2 Ultra im MacPro hat 16+8 Cores, 192GB RAM und 24 PCI 4.0 Lanes. Bei theoretischen 800GB/s Bandbreite. Die EPYC mit ihren 12 RAM Kanäle kommen theoretisch auf 460GB/s bei 6TB maximaler RAM Bestückung.
Wellenbrett
Auf reiner Hardware-Ebene steht Apple mit dem M-Prozessoren bei der Singlecore-Leistung extrem gut dar:
Die braucht man üblicherweise im Desktop-/Notebook-Betrieb, und nicht wenn man HPC bzw. KI macht. Da zählt was die CPU parallel abarbeiten kann, bzw. es zählt was ein Cluster an Rechnern abarbeiten kann.
Wellenbrett
Wo Apple auf jeden Fall punkten kann ist die Singlecore-Leistung und die Effizienz …
Die Effizienz ist bei Apple für HPC/KI nicht so gut wie sie das für Desktopaufgaben ist. Die EPYCs mit ihren 128 Zen4c Cores sind sehr effizient beim Numbercrunchen.
Wellenbrett
Wie die einzelnen CPUs oder SOCs miteinander vernetzt werden, das ist für mich die große Frage.
Da sehe ich bisher die größte Unsicherheit, da Apple in Vergangenheit es noch nicht einmal hinbekommen hat NUMA bei den alten Xeon 5500/5600 MacPros zu unterstützen.

Eine nVidia H100 GPU kann, wenn sie in einem HPC System mit NVLinks verbaut ist, über 1TB/s Datentransfer auf andere GPUs machen, und bei entsprechend breiter Netzwerkanbindung schafft sie das auch übers Netzwerk. Die Latenz nimmt jeweils zu, aber die Bandbreite bleibt immer beachtlich hoch.
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.