Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

ThinkSecret: IBM entwickelt Dual Core-PPC für Apple

Auf der Suche nach immer höheren Leistungswerten haben die Chiphersteller eines inzwischen erkannt: Die erreichbaren Taktraten sind bei derzeitigen Technologien an ihrer Grenze angelangt, also muss man sich etwas anderen einfallen lassen, um weiterhin immer schnellere Computer bauen zu können. Wie ThinkSecret berichtet, entwickelt IBM gerade eine Dual Core-Prozessor für Apple, der den Codenamen Antares trägt. Es handelt sich dabei um einen Chip, auf dem zwei miteinander verbundene Mikroprozessoren liegen, bei denen jeder davon einen eigenen L1/L2-Cache von einem MB hat. Der PPC 970FX verfügt nur über 512 KB L2. Beide Prozessoren teilen sich ein elastisches Interface, um so die gewaltige Bandbreite ausnutzen zu können und auch höhere Bustaktraten erzielen zu können. Neben verbessertem Cache und Bus wird es aber noch weitere Designveränderungen geben. Mit überarbeiteten Stromsparfunktionen werden die Taktraten immer an die Auslastung gekoppelt, allerdings besser, als es jetzt noch der Fall ist. Auch eine Selbstdiagnoseeinheit wird es geben. Angeblich rechnet Apple für zukünftige Hardware-Entwicklungen schon fest mit dem neuen Prozessor, der vor allem in Power Macs und Xserves zum Einsatz kommen dürfte. Das liegt gar nicht einmal in so weiter Ferne, schon Anfang 2005 könnte die Produktion anlaufen. Der 970MP liegt der Roadmap nach bei 3 GHz und hat einen elastischen Bus von einem GHz. IBM wollte schon den ersten G5 als Dual Core bauen (GigaProzessor Ultra light), doch das war nicht mehr zu schaffen. Antares wäre der erste GPUL- Dual Core-Chip auf dem Markt, allerdings haben AMD und Intel auch schon ähnliche Projekte angekündigt. In einem Interview bezeichnete der PPC970-Designer von IBM die Dual Core-Technologie als Chance, dem Druck nach immer höheren Taktraten entkommen zu können.

Weiterführende Links:

Kommentare

sonorman
sonorman24.07.04 11:54
Das klingt gut! Da mein nächster Mac sowieso für ca. Frühjahr 2005 avisiert ist, drücke ich ganz ferst die Daumen, dass es bis dahin klappt.
*lechz*
0
Bodo
Bodo24.07.04 12:04
IBM "entwickelt"? Vermutlich haben sie schon Prototypen am laufen. IBM hat die größte Erfahrung mit Multi-Core-Chips(Power4/5).
0
MacPhyl24.07.04 12:04
ja mein nächste mac: 12" powerbook g5 *fg* also dass alles dauert ja noch - mit meinem g4 bin ich hoffentlich noch sicher unterwegs
0
Fenvarien
Fenvarien24.07.04 12:06
Anfang 2005 ist zu optimistisch, wenn dann die Produktion bzw. der Testzyklus anläuft, wird es sicher Herbst/Winter 2005. Trotzdem ein überschaubarer Zeitraum. Intel will hingegen den Pnetium M als Dual Core in die Desktops bauen, nachdem sie den P4 abgeschossen haben.
Up the Villa!
0
AtlanVIII
AtlanVIII24.07.04 12:14
naja sie werden die xbox ja eh mit 3fach core prozessoren mit 3,5ghz pro core beliefern also is der dual core proz wohl eher n abfallprodukt dieser entwicklung

zumindest solang die berichte über die cpu ausstattung der xbox 2 stimmen
0
blutfink24.07.04 12:26
On-Chip-Speicherinterface!

Ich hoffe, dass an dieser Front etwas passiert. Die Speicherzugriffs-Latenzzeiten auf dem 970 sind viel zu lang (im Vergleich zu AMD z.B.). Der 970 wird sonst bei Nicht-Streaming-Algorithmen immer etwas hinterherhinken.
0
Thunderson
Thunderson24.07.04 12:36
Heißt dass jetzt, dass der Rechner doppelt so schnell ist???
Treibt der Krieg den Menschen zum Äußersten oder treibt das Äußerste den Menschen zum Krieg?
0
Stefab
Stefab24.07.04 12:40
Das klingt sehr schön... Ein Dual Prozessor, Dual Core G5 mit je 3 Ghz.... das wäre dann wie ein Quad Prozessor Mac.
Einfach traumhaft. Ich fürchte aber, dass Apple dann auch nur Single Prozzesor bauen wird, weil Dual Core schon reichen dürfte...

Blutfink

Von den hohen Latenzzeiten beim Speicherzugriff des PPC 970 habe ich auch schon gelesen. Und zwar etwas in der Developer Anleitung von Apple, um auf den G5 optimieren zu können. Dort wird behauptet die Latenzzeit wäre um vieles höher, als selbet beim G4...
0
Bodo
Bodo24.07.04 12:41
Thunderson
Fast. Eine Skalierung von 100% gibt es nicht. Aber 90 bis 95% sind durchaus realistisch.
0
Agrajag24.07.04 12:57
stefab: Wieso fürchten, dass sie nur noch Single-Prozessoren verbauen? Dürfte ein einzelner Dual-Core-Chip nicht sogar deutlich günstiger werden, als zwei Single-Core-Chips? Schon alleine, weil sie sich einen Kühlkörper sparen, denn der sieht irgendwie nicht billig aus. Ausserdem wäre wie Platz im Gehäuse für einen weiteren (Dual-Core-)Prozessor -- für wirkliches HiEnd.

Oder nicht?
0
mattin24.07.04 13:32
> Fast. Eine Skalierung von 100% gibt es nicht. Aber 90 bis 95% sind durchaus realistisch.

mit HT schon (und mehr). denn das soll dann der neue G5, wie jetzt der P4, auch haben...
0
Mendel Kucharzeck
Mendel Kucharzeck24.07.04 13:47
blutfink

Bitte erkläre uns mal, was du mit "Latenzzeit" meinst?
0
ks
ks24.07.04 14:05
Also:

Die Dual-Core Version soll <b>kein</b>

- HT (SMT) besitzen
- integrated memory-controller besitzen

Prototypen bekommt Apple im August und September. Produktion soll im Januar 2005 beginnen.

Würde also nicht vor Mitte 2005 damit rechnen. Obwohl Apple im Juli 2001 die G4s auch direkt von der Produktion verbaut hat ohne vorher das Lager zu füllen

Mendel Kucharzeck:
0
Fenvarien
Fenvarien24.07.04 14:10
Was Latenz ist, weiß Mendel glaube ich schon
Er wollte es auf den G5 angewendet wissen
Up the Villa!
0
lex
lex24.07.04 14:39
Wusstet ihr, dass IBM in seine Server Intel Chips einbaut?
0
mrwho
mrwho24.07.04 15:11
Die langen Zufriffzeiten beim G5 - ist das eigentlich nicht ein Problem des Speicherkontrollers im Chipsatz bzw. das Busprotokoll ?

mattin: 90-95% sind zumindest im Heimanwenderbereich sehr unwahrscheinlich, denn dort ist kein Programm wirklich für HT ausgelegt.
Ausserdem sind beide Virtuelle CPU's immer noch an einen gemeinsamen Bus gebunden - das Nadelöhr in diesem Fall.

Am Ehesten macht sich HT bei speziellen Anwendungen wie Video-Encoden bemerkbar, da ist der P4 "etwas" schneller als ein AMD ohne HT - aber nicht viel.

Trotzdem Schade das Apple keinen Kern mit HT rausbringt, die 5% mehr Fläche auf der DIE für einen zweiten Satz an Registern wäre kein allzugroßer Aufwand gewesen.
0
Bodo
Bodo24.07.04 15:17
mattin
Es ging um Multi-Core, nicht um "simulierte" Prozessoren. Und da gibt es keine 100%ige Steigerung/Skalierung.
0
Bodo
Bodo24.07.04 15:28
lex
Wusstest du das IBM die Pentiums sogar fertigt? Bei den richtigen Servern (p-Series) setzen sie aber vernünftige Prozessoren ein.
0
MacMark
MacMark24.07.04 15:57
Die ganze Welt ist parallel. Das menschliche Gehirn arbeitet parallel und mit einem sehr geringem Takt. Die Leistung kommt aus der Parallelität der vielen arbeitenden Zellen.
@macmark_de
0
mattin24.07.04 16:09
ahso ok...
0
Rantanplan
Rantanplan24.07.04 16:21
HT braucht der P4 nur, weil er eine so miese Pipeline-Ökonomie hat. Der schiebt im Normalbetrieb 20-30% (mal so aus dem Bauch heraus geschätzt) Pipeline-Bubbles herum und die kann man - im Idealfall - mit HT füllen.

Da der 970 seine Pipeline besser gefüllt hält, würde HT zu einem extrem unsymmetrischen SMT führen und nur wenig bringen. Dafür bringt er auf der OS-Seite wieder deutlichen Aufwand, denn der Scheduler muß berücksichtigen, daß der "zweite" (virtuelle) Prozessor nur einen Bruchteil der Last aufgebürdet bekommen darf, da er ja nur die Löcher füllen kann.
Wenn ich nicht hier bin, bin ich auf dem Sonnendeck
0
MacMark
MacMark24.07.04 16:36
Der P4 eine zwei Stufen, die *nichts* machen sogar. Sog. "drive" stages.
@macmark_de
0
mrwho
mrwho24.07.04 17:50
Ratanplan: Gut geschätzt, laut wikipedia ~30%

Was mich wundert ist daß laut Text beide Kerne mit Cache auf 11*13mm passen sollen, das ist weniger als eine aktuelle AMD-CPU(P4 sieht man ja nicht).

Man sollte aber nicht vergessen daß seit der Pentium-Familie ~30% der CPU-Fläche für die CISC-RISC Umwandlung verwendet wird, na wenn das mal keine teure Platzverschwendung ist

MacMark: Das sehe ich heute zum ersten mal, 2Stufen in der P4-Pipe die nur dafür sorgen daß die Signale zur Richtigen Zeit an der nächsten Stufe bereitstehen.

...und trotzdem hat es die Wissenschaft bis heute noch nicht geschafft das analoge Gehirn eine Fliege nachzumachen - sind ja nur an die 14.000 Zellen
0
Michael Lang24.07.04 17:58
Auf jeden fall sehr interessante Entwicklung. War ja irgendwie auch logisch, dass diese Entwicklung kommen würde, da ja die PPC970er von den Power4(und5) von IBM abgeleitet sind.
Ich denke aber auch, dass vor Mitte 2005 nicht damit in verfügbarer Hardware zu rechnen ist, eher gegen Herbst 2005. Aber das wäre trotzdem toll für Apple.

Ich hoffe für Frühjahr 2005 erstmal mit den versprochenen 3Ghz.....

- Das größte Maul und das kleinste Hirn,wohnen meist unter derselben Stirn. - Hermann Oscar Arno Alfred Holz, (1863 - 1929), deutscher Schriftsteller
0
Stefab
Stefab24.07.04 18:55
Mendel

Longer latency instructions


If you have written very tight loops that depend upon the latency of operations on the G4, your code may encounter stalls on the G5. These stalls can be addressed by better code scheduling, loop unrolling and software pipelining. Longer latencies to memory. As the CPU frequency has increased at a much faster rate than the memory frequency, the relative time to access memory has increased in the G5 vs. the G4. If at all possible, loops should be unrolled and data should be accessed as early as possible before it is used. Prefetching can be done using DCBT, or using the hardware prefetch engine if the stride is regular and established early. Another scenario to check for is invariant loads, i. e. loading of data that does not change inside a loop. By moving the invariant load outside of the loop, the processor does not need to re-fetch unchanging data from memory during each loop iteration. Removing these unnecessary memory accesses will result in big performance boosts. Frequently, use of global variables causes unnecessary memory accesses. The compiler is forced to be very conservative when globals are used because the compiler must assume worst-case aliasing conditions. Thus, rather than keeping values in registers, the compiler will load and store from memory to ensure correctness.
0
Stefab
Stefab24.07.04 18:57
Noch zu Vergleich G4 optimierten Code am G5 ausführen...

Use fewer locks


Due to the increased number of execution pipeline stages and the increased latency to memory, the time to access and acquire a lock can be up to 2.5 times slower than on the G4. While there is little that can be done to speed up the execution of the locks themselves, reducing the number of locks used in your code can drastically improve its overall performance on the G5.


The resolution of the reservation made by the lwarx instruction is one cache line. Since this was increased from 32 bytes on the G4 to 128 bytes on the G5 this means that synchronization primitives that use lwarx/stwcx pairs are four times more likely to fail on the G5. Specifically avoid storing multiple mutexes in the same cache line.
0
Stefab
Stefab24.07.04 19:02
Und die weniger optimale Altivec Einheit:

Velocity Engine issue constraints


Instruction issue to the Velocity Engine units on the G5 is the same as that in the 7400/7410 G4: only two instructions can be issued to the Velocity Engine units in the same cycle if one of them is a vector permute. In the 745X G4, these issue constraints were relaxed to allow any two Velocity Engine instructions to be issued each cycle. If your code differentiates between the different Velocity Engine issue schemes, choose the 7400-targeted one for use on the G5. Of course, your code may still need to be restructured to handle the increased latencies of the G5 Velocity Engine pipeline. Avoid small data accesses. Due to the increased latency to memory, the longer cache lines, and the nature of the CPU-to-memory bus, small data accesses should be avoided if possible. The entire system architecture has been designed to optimize the transfer of large amounts of data (i. e. maximize system memory throughput). As a side effect, the cost to handle small accesses can be very high and is quite inefficient. If possible, allocate data in large chunks to better amortize the overhead to access memory. Adjust to the smaller cache. High-performance programs that have tuned themselves for the presence of an L3 cache will need to be re-worked to fit in the (now larger) 512K L2 cache. The Effective-to-Real Address Translation (ERAT) cache contains 128 entries, enough to map 512K of data, the same size as the L2 cache. Thus, if you optimize your code for the 512K L2, you will maximize the use of the ERAT in the process.

Die Redaktion hier sagt ja immer, der G5 sei die Wundermaschine und der G4 der letzte Schrott. Bedenkt man aber, dass viel Software speziell auf den G4 optimiert ist, leidet der G5 darunter, sie die Kommentare weiter oben und mehr:



Und ich sage euch: solang nicht speziell auf den G5 optimiert wird, bringt er nicht mehr pro Takt, als der G4, ausser im 3D Rendering, wo der G4 wirklich immer Schrott ist und war.

PS: Man kann auf JEDEN Prozessor (auch G3, G4, G5 einzeln) optimieren, und nicht nur auf die Velocity Engine...
0
PowerFerdi24.07.04 19:53
alles schrott was ihr hier faselt.

am besten ist eh mein 486 er Super Computer mit echten 100 MHZ, 518 MB Festplatte, krassen 8 MB Arbeitsspeicher und dem geilsten betriebssystem aller zeiten...win 3.11

wer ist bitte jetzt noch krasser als ich?


:-):-)
0
Stefab
Stefab24.07.04 20:17
PowerFerdi...

Bis auf das OS ist das ja noch ok... Ich kann mich gut erinnern, schon damals war Win 3.11 seiner Zeit sehr, sehr weit hinten nach...

Immerhin gabs da schon die Amiga Workbench 2.0 oder vielleicht gar schon 3.0!
0
arekhon
arekhon24.07.04 20:42
stefab: Soweit natürlich alles richtig was du postest und es sprudelt geradezu über vor Infos, aber zu sagen der G5 sei generell solange die Software nicht auf ihn optimiert ist pro Takt nicht schneller als der G4 ist blanker Unsinn. Zwar kann der G4 sogar pro Takt schneller sein, gerade wegen der besseren AltiVec-Einheit und den geringeren Latanzen, das sieht man z.B. bei RC5. aber dies gilt nur solange die Workloads nicht Bandbreitenlastig sind. Wenn sie es sind ist der G5 auch bei gleichem Takt meist überlegen, hier ist dann der wirklich aus der Steinzeit stammende FSB des G4 einfach der Flaschenhals, da nützen dann auch alle anderen Vorteile nicht mehr viel.

Das mit den Locks ist übrigens auch zum großen Teil ein OS-Problem. Hier kann man bereits sehr viel im Kernel- und scheduling Bereich optimieren. Allerdings ist es richtig dass eine unbedacht programmierte Anwendung hier desaströs zuschlagen kann, auch wenn das unterliegende OS wirklich gut optimiert ist.

Und ja, das Amiga-Kickstart war gerade vom Multitaskingverhalten seiner Zeit weit voraus, wenn nur nicht der nicht vorhandene Speicherschutz und die wenig portable Grafik-API so lange durchgehalten hätten, hätte es mir vielleicht auch länger als bis 1993 Spaß gemacht damit zu arbeiten. Zu dumm daß Commodore und Atari die Zeichen der Zeit nicht erkannt haben...
0
Weitere News-Kommentare anzeigen

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.