heim - Einrichten des Routers
Intel Pentium4 LGA775-Prozessoren. Intel Pentium 4-Sockel-Prozessoren

Einerseits vergeht die Zeit in der IT-Branche so schnell, dass man keine Zeit hat, neue Produkte und Technologien zu bemerken, und andererseits erinnern wir uns, wie viele Jahre wir keinen neuen Kern von Intel gesehen haben? Nicht das Alte mit Modifikationen: Hier wurde die FSB-Frequenz erhöht, dort wurde virtuelles Multiprocessing vom Server-Prozessor auf den Desktop-Prozessor übertragen (eigentlich ließ man letzteren nur ehrlich sagen, dass er es hat), aber wirklich völlig neu? Wenn nicht von Grund auf neu entworfen, dann zumindest nicht geflickt, sondern nach den gleichen Mustern neu genäht, aber mit anderen Rüschen und in der neuesten Mode? Aber es stellt sich heraus, dass es ganze zwei Jahre her sind! Auch mit kleinem Schwanz. Und die ganze Zeit über diskutierten Hitzköpfe über ihr Lieblingsthema: Wie wird der neue Kern aussehen? Sie sagten eine Menge Dinge voraus, einschließlich eines völligen Gräuels für die NetBurst-Architektur und der Herrschaft reiner Banias auf der Desktop-Plattform. Die Wahrheit erwies sich (wie so oft) als weniger fabelhaft: Der neue Kern erwies sich als ehrlicher und konsequenter Nachfolger von Northwood. Natürlich mit einigen architektonischen Neuerungen, aber der Wunsch „auf den Boden und dann“ ist darin nicht sichtbar. Daher kann Prescott rein emotional unterschiedlich beurteilt werden: Einige werden die Intel-Ingenieure für ihre Konsequenz und Entschlossenheit loben, während andere sich im Gegenteil über den Mangel an frischen Ideen beschweren. Emotionen sind jedoch für jeden eine persönliche Angelegenheit, aber wir wenden uns den Fakten zu. Theorie

Wesentliche Kernänderungen (Prescott vs. Northwood)

Zunächst bieten wir Ihnen eine kleine Tabelle an, die die wichtigsten Unterschiede zwischen den Prescott- und Northwood-Kernen in Bezug auf „Eisen“ (genauer gesagt Silizium und andere „mineralische Bestandteile“) zusammenfasst.

Es bleibt nur hinzuzufügen, dass der neue Kern 125 Millionen Transistoren enthält (wo das arme Northwood 55 Millionen hat!), und dass seine Fläche 112 Quadratmeter beträgt. mm (etwas weniger als die Fläche von Northwood 146/131 mm², je nach Revision). Nach einer einfachen arithmetischen Berechnung sehen wir, dass es den Intel-Ingenieuren durch die Erhöhung der Anzahl der Transistoren um das ~2,3-fache aufgrund des neuen technischen Prozesses dennoch gelungen ist, die Kernfläche zu reduzieren. Stimmt, nicht so signifikant – „nur“ 1,3 (1,2) Mal.

Was die Technologie des „gespannten“ (manche bevorzugen den Begriff „gestreckten“) Siliziums angeht, ist sie, vereinfacht ausgedrückt, ganz einfach: Um den Abstand zwischen Siliziumatomen zu vergrößern, wird sie auf ein Substrat gelegt, der Abstand zwischen deren Atome größer ist. Um „gut zu sitzen“, müssen sich Siliziumatome daher entsprechend dem vorgeschlagenen Format ausdehnen. Es sieht ungefähr so ​​aus:

Um zu verstehen, warum es für Elektronen einfacher ist, durch beanspruchtes Silizium zu gelangen, hilft Ihnen diese einfache Zeichnung:

Wie Sie sehen, ist die geometrische Assoziation in diesem Fall durchaus zutreffend: Der Weg des Elektrons wird einfach kürzer.

Nun schauen wir uns noch viel mehr interessante Unterschiede an: in der Kernel-Logik. Davon gibt es auch viele. Zunächst wäre es jedoch sinnvoll, sich die Hauptmerkmale der NetBurst-Architektur als solche in Erinnerung zu rufen. Außerdem haben wir das in letzter Zeit nicht sehr oft gemacht.

Ein kleiner Hintergrund

Daher betrachtet Intel selbst einen der Hauptunterschiede zwischen den innerhalb der NetBurst-Architektur entwickelten Kerneln als ein einzigartiges Merkmal, das sich in der Trennung des eigentlichen Prozesses der Dekodierung des x86-Codes in vom Kernel ausgeführte interne Anweisungen (uops) und die Prozeduren ausdrückt für ihre Ausführung. Übrigens löste dieser Ansatz einst viele Kontroversen hinsichtlich der Richtigkeit der Zählung der Pipeline-Stufen im Pentium 4 aus: Wenn wir diesen Prozessor aus klassischer Sicht (vor NetBurst-Ära) betrachten, dann die Decoder-Stufen sollten in die allgemeine Liste aufgenommen werden. Unterdessen enthalten die offiziellen Daten von Intel zur Pipeline-Länge von Pentium-4-Prozessoren ausschließlich Informationen zur Anzahl der Stufen der Ausführungseinheit-Pipeline, wodurch der Decoder seinen Anwendungsbereich sprengt. Einerseits „Aufruhr!“, andererseits spiegelt dies objektiv die Besonderheit der Architektur wider, Intel hat also Recht: Es hat sie entwickelt. Natürlich kann man bis zum blauen Gesicht streiten, aber welchen Unterschied macht das wirklich? Die Hauptsache ist, das Wesentliche des Ansatzes zu verstehen. Gefällt Ihnen nicht, dass der Decoder ausgeschlossen ist? Fügen Sie nun die Stufen zu den „offiziellen“ Stufen hinzu, und Sie erhalten den erforderlichen Wert der Pipeline gemäß dem klassischen Schema zusammen mit dem Decoder.

Somit ist die Hauptidee von NetBurst ein asynchron laufender Kernel, bei dem der Befehlsdecoder unabhängig von der Ausführungseinheit arbeitet. Aus Sicht von Intel wäre es deutlich Ö Eine höhere Kernbetriebsfrequenz als die der Konkurrenz kann nur mit einem asynchronen Modell erreicht werden, weil Wenn das Modell synchron ist, steigen die Kosten für die Synchronisierung des Decoders mit der Ausführungseinheit proportional zur Frequenz. Aus diesem Grund verwendet die NetBurst-Architektur anstelle des üblichen L1-Anweisungscache, in dem normaler x86-Code gespeichert wird, den Ausführungs-Trace-Cache, in dem Anweisungen in dekodierter Form (uops) gespeichert werden. Verfolgen Sie, dass dies die Uops-Sequenz ist.

Außerdem möchte ich in einem historischen Ausflug endlich mit den Mythen aufräumen, die mit der allzu vereinfachten Formulierung verbunden sind, wonach die ALU des Pentium 4 mit „doppelter Frequenz“ arbeitet. Das ist sowohl wahr als auch nicht wahr. Schauen wir uns jedoch zunächst das Blockschaltbild des Pentium 4-Prozessors (jetzt Prescott) an:

Es ist leicht zu erkennen, dass die ALU aus mehreren Teilen besteht: Sie enthält die Blöcke Laden/Speichern, Komplexe Anweisungen und Einfache Anweisungen. Also: Bei doppelter Geschwindigkeit (0,5 Taktzyklen pro Operation) werden nur die Anweisungen verarbeitet, die von den Simple-Instructions-Ausführungsblöcken unterstützt werden. Der ALU-Complex-Instructions-Block, der als komplex klassifizierte Befehle ausführt, kann dagegen bis zu vier Taktzyklen für die Ausführung eines Befehls aufwenden.

Das ist eigentlich alles, woran ich Sie über die interne Struktur von Prozessoren erinnern möchte, die auf der NetBurst-Architektur basieren. Kommen wir nun zu den Neuerungen im neuesten NetBurst-Kern von Prescott.

Vergrößerung der Förderbandlänge

Von einer Verbesserung kann man diese Änderung kaum sprechen, schließlich gilt: Je länger das Förderband, desto mehr Ö Ein Fehler im Vverursacht mehr Overhead und dementsprechend verringert sich die durchschnittliche Geschwindigkeit der Programmausführung. Allerdings konnten die Intel-Ingenieure offenbar keinen anderen Weg finden, das Übertaktungspotenzial des Kerns zu erhöhen. Ich musste auf ein unbeliebtes, aber bewährtes zurückgreifen. Das Ergebnis? Die Prescott-Pipeline wurde jeweils um 11 Stufen erweitert, ihre Gesamtzahl beträgt 31. Ehrlich gesagt haben wir diese „gute Nachricht“ bewusst an den Anfang gebracht: Tatsächlich kann die Beschreibung aller nachfolgenden Innovationen bedingt als „aber“ bezeichnet werden Jetzt erzählen wir Ihnen, wie Intel-Ingenieure mit den Folgen einer einzigen Änderung kämpften, damit sie die Produktivität nicht völlig ruinierte“ :).

Verbesserungen an der Verzweigungsvorhersage-Engine

Im Wesentlichen wirkte sich die Feinabstimmung auf den Mechanismus zur Vorhersage von Übergängen bei der Arbeit mit Zyklen aus. Wenn umgekehrte Übergänge früher standardmäßig als Zyklus betrachtet wurden, wird jetzt die Übergangslänge analysiert und auf dieser Grundlage versucht der Mechanismus vorherzusagen, ob es sich um einen Zyklus handelt oder nicht. Es wurde außerdem festgestellt, dass für Verzweigungen mit bestimmten Arten von bedingten Verzweigungen, unabhängig von deren Richtung und Entfernung, die Verwendung eines standardmäßigen Vmeist irrelevant ist und daher in diesen Fällen nicht mehr verwendet wird. Zusätzlich zur theoretischen Forschung verachteten die Intel-Ingenieure jedoch nicht die bloße Empirie, d. h. einfach durch Überwachung der Wirksamkeit des Vam Beispiel spezifischer Algorithmen. Hierzu wurde anhand von Beispielen aus dem SPECint_base2000-Test die Anzahl der Fehler im Branch-Prediction-Mechanismus (Fehlvorhersagen) untersucht und anschließend tatsächlich Änderungen am Algorithmus vorgenommen, um diese zu reduzieren. Die Dokumentation liefert folgende Daten (Anzahl Fehler pro 100 Anweisungen):

Untertest SPECint_base2000Northwood (130 sm)Prescott (90 nm)
164.gzip1.03 1.01
175.vpr1.32 1.21
176.gcc0.85 0.70
181.mcf1.35 1.22
186.schlau0.72 0.69
197.Parser1.06 0.87
252.eon0.44 0.39
253.perlbmk0.62 0.28
254.Lücke0.33 0.24
255.Wirbel0.08 0.09
256.bzip21.19 1.12
300.twolf1.32 1.23

Beschleunigung der Ganzzahlarithmetik und -logik (ALU)

Der ALU wurde ein spezieller Block für die Ausführung von Shift- und Rotationsanweisungen hinzugefügt, der nun die Ausführung dieser Operationen auf einer „schnellen“ ALU (mit zwei Geschwindigkeiten) ermöglicht, im Gegensatz zum Northwood-Kern, wo sie im ALU-Complex-Instructions-Block ausgeführt wurden und erforderlich Ö mehr Zyklen. Darüber hinaus wurde die Ganzzahlmultiplikationsoperation, die zuvor im FPU-Block durchgeführt wurde, beschleunigt. Der neue Kernel verfügt hierfür über einen eigenen Block.

Es gibt auch Informationen über das Vorhandensein einer Reihe kleinerer Verbesserungen, die die Verarbeitungsgeschwindigkeit von FPU- (und MMX-)Anweisungen erhöhen werden. Wir werden es jedoch besser im praktischen Teil bei der Analyse der Testergebnisse überprüfen.

Speichersubsystem

Einer der Hauptvorteile des neuen Kerns ist natürlich die vergrößerte Größe des L1-Datencaches (2-fach, also bis zu 16 Kilobyte) und des Second-Level-Cache (ebenfalls 2-fach, also bis zu 1 Megabyte). Es gibt jedoch noch eine weitere interessante Funktion: In den Kernel wurde eine spezielle zusätzliche Logik eingeführt, die Seitenfehler in Software-Prefetch-Anweisungen erkennt. Dank dieser Innovation sind Software-Prefetch-Anweisungen nun in der Lage, nicht nur Daten, sondern auch Seitentabelleneinträge vorab abzurufen, d. h. mit anderen Worten, der Prefetch kann nicht auf einer geladenen Seite anhalten, sondern auch Speicherseiten im DTLB aktualisieren. Wer das Problem versteht, wird an diesem Beispiel wahrscheinlich erkennen, dass Intel das Feedback der Programmierer genau beobachtet, auch wenn es nicht jeden entdeckten negativen Faktor, der die Leistung beeinträchtigt, öffentlich bereut.

Neue Anweisungen (SSE3)

Prescott hat unter anderem Unterstützung für 13 neue Anweisungen hinzugefügt. Dieses Set trägt nach alter Tradition den Namen SSE3. Dazu gehören Befehle zur Datenkonvertierung (x87 in Integer), Arbeiten mit komplexer Arithmetik, Videokodierung (allerdings nur einer), neue Befehle zur Verarbeitung grafischer Informationen (Vertex-Arrays) sowie zwei Befehle zur Synchronisierung von Threads (die Konsequenzen sind eindeutig der Entstehung von Hyper-Threading). Wir werden jedoch bald einen separaten Artikel über SSE3 veröffentlichen, daher werden wir in diesem Material davon absehen, die Fähigkeiten dieses Sets zu diskutieren, um ein ernstes und interessantes Thema nicht durch übermäßige Popularisierung zu verderben.

Nun, vielleicht haben wir genug von Theorie und Spezifikationen. Versuchen wir, wie ein berühmter Witz sagte: „Mit all dem durchstarten“ :). Testen

Standkonfigurationen und Software

Prüfstand

  • Prozessoren:
    • AMD Athlon 64 3400+ (2200 MHz), Sockel 754
    • Intel Pentium 4 3,2 GHz „Prescott“ (FSB 800/HT), Sockel 478
    • Intel Pentium 4 2,8A GHz „Prescott“ (FSB 533/kein HT), Sockel 478
    • Intel Pentium 4 3,4 GHz „Northwood“ (FSB 800/HT), Sockel 478
    • Intel Pentium 4 3,2 GHz „Northwood“ (FSB 800/HT), Sockel 478
  • Motherboards:
    • ABIT KV8-MAX3 (BIOS-Version 17) auf VIA K8T800-Chipsatz
    • ASUS P4C800 Deluxe (BIOS-Version 1014) auf Intel 875P-Chipsatz
    • Albatron PX875P Pro (BIOS-Version R1.00) auf Intel 875P-Chipsatz
  • Erinnerung:
    • 2x512 MB PC3200 DDR SDRAM DIMM TwinMOS (Timings 2-2-2-5)
  • Grafikkarte: Manli ATI Radeon 9800Pro 256 MB
  • Festplatte: Western Digital WD360 (SATA), 10000 U/min



Pentium 4 2,8A GHz „Prescott“
Der einzige Prescott mit 533 MHz FSB
und ohne Hyper-Threading-Unterstützung



Pentium 4 3,4 GHz „Northwood“
Nur ein weiteres Northwood

Systemsoftware und Gerätetreiber

  • Windows XP Professional SP1
  • DirectX 9.0b
  • Intel Chipsatz-Installationsprogramm 5.0.2.1003
  • VIA Hyperion 4.51
  • VIA SATA-Treiber 2.10a
  • Silicon Image-Treiber 1.1.0.52
  • ATI Catalyst 3.9
ZahlenABIT KV8-MAX3ASUS P4C800 DeluxeAlbatron PX875P Pro
ChipsatzÜBER K8T800 (K8T800 + VT8237)Intel 875 (RG82004MC + FW82801EB)Intel 875 (RG82875 + FW82801EB)
ProzessorunterstützungSockel 754, AMD Athlon 64Sockel 478, Intel Pentium 4, Intel Celeron
Speicheranschlüsse3 DDR4 DDR4 DDR
ErweiterungssteckplätzeAGP/5 PCIAGP Pro/5 PCIAGP/5 PCI
E/A-Ports1 FDD, 2 PS/21 FDD, 2 COM, 1 LPT, 2 PS/21 FDD, 2 COM, 1 LPT, 2 PS/2
USB4 USB 2.0 + 2 x 2 USB 2.0-Anschlüsse2 USB 2.0 + 3 x 2 USB 2.0-Anschlüsse
FireWire1 Port + 2 Anschlüsse für 2 Ports (Halterung im Lieferumfang enthalten), Texas Instruments TSB43AB231 Port + 1 Anschluss für 1 Port (keine Halterung im Lieferumfang enthalten), VIA VT6307—
ATA-Controller im Chipsatz integriertATA133 + SATA RAID (0, 1)ATA100+SATAATA100+SATA
Externer ATA-ControllerSilicon Image Sil3114CT176 (SATA RAID 0, 1, 0+1, Ersatz)Versprechen PDC20378 (ATA133+SATA RAID 0, 1, 0+1)—
KlangAC"97-Codec Avance Logic ALC658AC"97-Codec Analog Devices AD1985AC"97-Codec Avance Logic ALC655
Netzwerk-Controller3Com Marvell 940-MV00 (Gigabit-Ethernet)3Com Marvell 920-MV00 (Fast Ethernet)
I/O-ControllerWinbond W83627HF-AWWinbond W83627THF-AWinbond W83627THF
BIOS4 Mbit Award BIOS v6.00PG4 Mbit AMI BIOS v2.513 Mbit Phoenix AwardBIOS v6.00
Formfaktor, AbmessungenATX, 30,5 x 24,5 cmATX, 30,5 x 24,5 cmATX, 30,5 x 24,5 cm
Durchschnitt aktuell Preis (Anzahl der Angebote)N/A(0)N/A(0)N/A(0)

Zum Abschluss der Beschreibung möchte ich den Algorithmus zur Auswahl der Testteilnehmer erläutern. Einerseits wäre es falsch, AMD-Prozessoren komplett von den Tests auszuschließen, da diese Plattform sowohl jetzt als auch in absehbarer Zukunft der Hauptkonkurrent von Intel ist. Würde man andererseits in einem Artikel einen Vergleich zweier Generationen des Pentium 4 mit Prozessoren eines anderen Herstellers zusammenfassen, würde das bedeuten, dass man keine der beiden Generationen wirklich vergleicht. Daher haben wir uns im ersten Prescott gewidmeten Material für einen gewissen Kompromiss entschieden: Erstens alle möglichen „extremen“ Optionen in Form des Pentium 4 eXtreme Edition und des Athlon 64 FX vollständig auszuschließen und zweitens nur zu nehmen einer als Vertreter der alternativen Plattform, aber der schnellste der üblichen AMD-Desktop-Prozessoren: Athlon 64 3400+.

Und selbst dann werden die Ergebnisse hier im Großen und Ganzen nur als Option dargestellt. In diesem Material interessiert uns vor allem der Vergleich des neuen Intel-Kerns mit dem alten. Wenn man gleichzeitig Informationen darüber erhalten möchte, wie Prescotts Leistung im Vergleich zu seinem engsten Konkurrenten abschneidet, dann werden sie in den Diagrammen dargestellt. Kommentare? Vielleicht sind sie einfach unnötig. Sie werden es selbst sehen. Wenn Sie wissen, wie hoch die Leistung von Prescott und Northwood ist, wenn sie mit der gleichen Frequenz arbeiten, und wie die Leistung von Northwood und den Top-AMD-Prozessoren im Vergleich abschneidet (und wir haben dieses Thema bereits mehrmals behandelt), wissen Sie genug, um alle anderen Schlussfolgerungen unabhängig voneinander zu ziehen .

Darüber hinaus möchte ich das Vorhandensein von zwei Balken in den Diagrammen für Prescott 3,2 GHz verdeutlichen. Der Punkt ist einfach, dass wir beschlossen haben, auf Nummer sicher zu gehen. Jeder weiß, dass mit der Veröffentlichung eines Prozessors auf einem anderen Kern sofort ein Aufruhr unter den Motherboard-Herstellern mit BIOS-Updates, allen möglichen Mikrocode-Updates und anderer „hardwareorientierter“ Software beginnt. Es erschien uns logisch, eine solche Ressource aus unserem Testlabor wie „offiziell Prescott-ready“-Motherboards möglichst vollständig zu nutzen, um uns vor den möglichen Folgen einer Fehlbedienung eines bestimmten Modells zu schützen. Wie Sie weiter unten sehen werden, waren die Befürchtungen jedoch vergebens: In den meisten Fällen verhielt sich der neue Prozessor auf beiden Platinen genau gleich.

Alle Merkmale des Prescott 2,8A GHz-Programms
CPU-Z ermittelt es ganz richtig:
sowohl das Vorhandensein von SSE3 als auch des 533-MHz-Busses

Natürlich hat sie sich in diesem Fall nicht geirrt
Prescott 3,2E GHz

Low-Level-Tests in CPU RightMark

Zunächst haben wir beschlossen, die Funktionsweise des neuen Kerns in zwei Modi zu testen, traditionell dem besten für Pentium 4-Prozessoren und dem schlechtesten: SSE/SSE2 und MMX/FPU. Beginnen wir mit dem Rechenblock (Math Solving).

Die Ergebnisse sind enttäuschend. Der neue Kern ist langsamer als der alte, außerdem ist seine Verzögerung im MMX/FPU-Modus noch größer als bei Verwendung von SSE/SSE2. Wir ziehen die erste Schlussfolgerung: Wenn etwas in der FPU „verdreht“ wurde, dann werden offensichtlich andere Befehle in der RightMark-CPU verwendet. Nun, wie sieht es mit dem Rendern aus?

Schauen wir uns zunächst die Optionen zum Ausführen des Rendering-Moduls im Single-Threaded- und Dual-Threaded-Modus mit maximaler Leistung (SSE/SSE2) an. Das Bild ist recht interessant: Wenn ein Stream verwendet wird, ist der Vorteil von Prescott minimal und Northwood, das eine höhere Frequenz hat, überholt ihn leicht. Sobald wir jedoch Hyper-Threading aktivieren, springt Prescott sofort so weit nach vorne, dass er alle anderen Teilnehmer überholt. Es scheint, dass einige Arbeiten am Kernel im Hinblick auf die Verbesserung der Verarbeitung gleichzeitig laufender Threads durchgeführt wurden, und diese bestanden nicht nur in der Erweiterung des Befehlssatzes. Sehen wir uns nun an, wie sich dieselben Prozessoren im MMX/FPU-Modus verhalten.

Absolut ähnliches Bild. Wenn wir es außerdem mit der vorherigen vergleichen, können wir deutlich erkennen, dass sich die Gründlichkeit der Analyse bewährt hat: Wenn wir uns beispielsweise darauf beschränkt hätten, das beste (zweisträngige) Ergebnis zu berücksichtigen, könnten wir fälschlicherweise zu dem Schluss kommen, dass das Prescott Der Kern ist schneller in Bezug auf die Befehlsausführung und sogar im MMX/FPU-Modus. Nun ist deutlich zu erkennen, dass die Leistung allein durch die Optimierung der Nutzung virtueller CPU-Ressourcen gestiegen ist.

Tests in realen Anwendungen

Bevor wir uns die Testergebnisse in realen Anwendungen ansehen, geben wir eine kleine einführende Erklärung. Tatsache ist, dass uns der Pentium 4-Prozessor auf dem Prescott-Kern mit einer Frequenz von 3,4 GHz leider immer noch nicht zur Verfügung steht. Was Sie in den Diagrammen als „virtueller“ Prescott-3,4-GHz-Prozessor sehen, ist also nichts anderes als die Annäherung an den Prescott 3,2 GHz-Ergebnisse, berechnet auf der Grundlage idealer Bedingungen für eine Leistungssteigerung proportional zur Frequenz. Einige mögen bemerken, dass dies ein zu ungeschickter Ansatz ist. Sie sagen, es wäre viel richtiger, zum Beispiel die bestehenden Prescott 3,2 GHz zu übertakten, indem man eine höhere FSB-Frequenz einstellt, oder zumindest eine Näherungskurve basierend auf drei Punkten zu erstellen: Prescott 2,8 GHz -> 3,0 GHz -> 3,2 GHz. Das wäre natürlich richtiger. Allerdings „ist Einfachheit genug für jeden klugen Mann“, und achten Sie einfach darauf, welche Änderungen das Vorhandensein selbst des „idealen“ Prescott 3,4 GHz in den Diagrammen für das Gesamtbild bewirkt (und das echte wird entweder gleich oder langsamer sein). ; es gibt keine dritte Option). Auf die Gefahr hin, das Risiko einer vorzeitigen Offenlegung von Geheimnissen einzugehen, sagen wir gleich: Ja, praktisch keine. Wo der Prescott-Kern gewinnt, ist offensichtlich. Und wo verliert es? Selbst die idealisierten 3,4 GHz helfen ihm nicht

Arbeiten mit Grafiken

Die vorhersehbarsten Ergebnisse sind für Northwood 3,4 GHz (etwas besser als Northwood 3,2 GHz) und Prescott 2,8 GHz (die fehlende Hyper-Threading-Unterstützung machte es sofort zu einem Außenseiter). Der Prescott 3,2 GHz versucht, mindestens auf Augenhöhe mit dem Single-Frequenz-Northwood zu sein, schafft das aber nicht einmal. Nun, unser „virtueller Prescott 3,4 GHz“ wiederum konnte den echten Northwood 3,4 GHz nicht überholen, was auch selbstverständlich ist. Andererseits sieht man, dass alle Prozessoren außer Prescott 2,8 GHz nahezu gleichwertig sind. Dies ist wahrscheinlich kein Argument für ein Upgrade auf Prescott, aber zumindest kein wesentliches Argument gegen den Kauf für diejenigen, die über die Anschaffung eines neuen Systems nachdenken.

Bei Lightwave ist die Situation ähnlich, nur Prescott hinkt noch weiter hinterher. An dieser Stelle sei daran erinnert, dass Lightwave (nach dem Vergleich der Ergebnisse des 6. Zweigs mit dem 7. Zweig) sehr sorgfältig und gewissenhaft auf den Pentium 4 zugeschnitten wurde. Wir können davon ausgehen, dass es sich deshalb als so empfindlich gegenüber kleinsten Architekturänderungen im Kernel herausstellte. Wir stellen auch fest, dass der Athlon 64 3400+, den wir in diesem Programm zum ersten Mal getestet haben, zwar nicht die besten, aber durchaus ordentliche Ergebnisse zeigt.

Für Photoshop in modernen Prozessorarchitekturen ist offenbar die Cache-Größe der wichtigste Parameter. Wir haben bereits mehrfach darauf hingewiesen, dass dieses Programm sehr geldhungrig ist, und die Ergebnisse von Prescott bestätigen dies.

Medienkodierung

Da wir im Allgemeinen eine neue (oder, wenn Sie es vorziehen, erheblich geänderte) Architektur testen, kann jede Anwendung für uns zu einer kleinen Entdeckung werden. Tatsächlich ist jetzt Quantität noch wichtiger als Qualität, denn wir müssen einfach so viele Daten wie möglich darüber sammeln, wie sich alte (noch nicht für Prescott optimierte) Programme mit dem neuen Prozessorkern verhalten. Hier das gleiche LAME: Es stellt sich heraus, dass Prescott ein neuer Prozessor ist, denn die Ergebnisse entsprechen in jeder Hinsicht überhaupt nicht dem, was wir bisher über Northwood wussten. Es stimmt, sie sind schlimmer geworden. Nun, es passiert. Wir sammeln weiterhin

Ogg Encoder zeigt ein nahezu identisches Bild: Prescott ist allen anderen Prozessoren ausnahmslos deutlich unterlegen, trotz verdoppeltem First-Level- und L2-Datencache. Es bleibt davon auszugehen, dass der Übeltäter die Vergrößerung der Förderbandlänge bei gleichbleibendem Trace-Cash-Volumen ist.

Selbst dem DivX-Codec, der sich für die NetBurst-Architektur interessiert, gefiel der neue Kern nicht. Nicht so sehr, aber es gefiel ihm trotzdem nicht. Es besteht jedoch eine gewisse Hoffnung, dass SSE3-DivX-Entwickler verschiedene Optimierungen einfach lieben (zumindest den Ankündigungen nach zu urteilen), sodass die Wahrscheinlichkeit sehr hoch ist, dass die einzige Anweisung zur Beschleunigung der Videokodierung ihren Platz in einer zukünftigen Version finden wird dieses Codecs. Allerdings liegt das alles in der Zukunft, aber vorerst leider

Die Ergebnisse von Tatsache ist, dass Prescotts Leistungssteigerung im Vergleich zu Northwood war 232% ! Leider lehnen wir die Verwendung solcher Tests einfach ab. Es sieht so aus, als ob ihre Ergebnisse von irgendetwas abhängen könnten.

Nun, hier ist der erste Sieg. Wenn wir jedoch auf das Thema Einstellungen für verschiedene Software zurückkommen, können wir feststellen, dass Windows Media Video 9 Hyper-Threading recht gut unterstützt und Daten aus Low-Level-Tests zeigten, dass die Effizienz der Verwendung virtueller CPUs mit dem neuen Kern zunimmt. Dies scheint das erste positive Ergebnis zu sein, das bei Prescott durch eine qualitative und nicht durch eine quantitative Änderung erzielt wurde. In allen vorherigen Fällen ist es ausschließlich aufgrund der großen Cache-Größe „verschwunden“.

Sehr, sehr interessantes Ergebnis. Der Mainconcept MPEG Encoder, dem wir die „ungeschickte“ Arbeit mit Hyper-Threading bei der Kodierung in das MPEG1-Format vorgeworfen haben, funktioniert recht gut mit virtuellen Prozessoren, wenn diese von Prescott und nicht von Northwood emuliert werden! Es ist an der Zeit, überhaupt darüber nachzudenken: Vielleicht sind die Programmierer nicht schuld, es gab nur einen „Stecker“ im Prozessorkern, der die Threads falsch parallelisierte? Es ist durchaus möglich, zumindest wenn man sich die Prescott-Ergebnisse ansieht, versteht man, dass diese Annahme auch ein Recht auf Leben hat. Andererseits schnitt der Prescott 2,8A GHz recht gut ab; von Hyper-Threading hatte ich noch nie gehört. Komische Situation. Vielleicht stehen wir kurz vor einer interessanten Entdeckung: Es kommt die Annahme auf, dass die gesamte „Optimierung von Hyper-Threading in Prescott“ auf die Tatsache zurückzuführen ist, dass diese Technologie in Northwood nicht über genügend Cache-Volumen verfügte, um ihr volles Potenzial auszuschöpfen!

Und wieder kann man sich über den neuen Kernel freuen: Im Mainconcept MPEG Encoder ist nicht nur der „Fehler“ bei der MPEG1-Kodierung verschwunden, sondern auch die Konvertierung in MPEG2 ist deutlich schneller geworden. Unter Berücksichtigung der Ergebnisse früherer Tests können wir fast eindeutig sagen, dass der Hauptheld des Anlasses die verbesserte Arbeit von Hyper-Threading ist (und vergessen Sie nicht, was es hätte verbessern können, wenn unsere Annahmen richtig wären). Das Interessanteste ist, dass Sie nicht einmal spezielle Befehle brauchten, um Threads aus dem SSE3-Satz zu steuern; der Prozessor selbst hat es perfekt herausgefunden (wir können nicht davon ausgehen, dass SSE3 in dieser Version des Encoders unterstützt wird; sie kam schon vor ziemlich langer Zeit heraus). vor).

Aber Canopus ProCoder bemerkte einfach fast nichts. Grundsätzlich gibt es einen leichten Leistungsunterschied, der sogar zugunsten von Prescott ausfällt. Aber in Wirklichkeit sind das ein paar Cent, eine Kleinigkeit. Angesichts der Cache-hungrigen Natur von ProCoder könnte man sogar sagen: Der gesamte große Cache wurde offenbar verwendet, um andere Mängel des neuen Kernels auszugleichen. Er zog Prescott einfach auf die gleiche Höhe wie Northwood, aber leider nicht mehr.

Archivierung

Wie üblich haben wir 7-Zip sowohl mit als auch ohne aktivierter Multithreading-Unterstützung getestet. Der erwartete Effekt wurde in diesem Programm nicht erreicht: Es fällt nicht auf, dass Multithreading auf Prescott einen viel größeren Effekt hatte als auf Northwood. Und im Allgemeinen gibt es keinen großen Unterschied zwischen dem alten und dem neuen Kernel. Es scheint, dass wir den oben erwähnten Effekt sehen: Die quantitativen Indikatoren von Prescott (L1-Daten- und L2-Cache-Volumen) konnten lediglich die eigene erweiterte Pipeline kompensieren.

Übrigens: einer der wenigen Tests, bei denen der Unterschied zwischen den Boards zumindest irgendwie sichtbar ist. Ansonsten ist das Bild immer noch dasselbe: Prescott und Northwood mit der gleichen Frequenz laufen nebeneinander, praktisch ohne Geschwindigkeitsunterschied. Pessimisten werden sagen: „schlecht“, Optimisten: „es könnte schlimmer sein“ :). Wir werden einfach schweigen

Spiele

Das Bild ist in allen drei Spielen ähnlich, es besteht also kein Grund, etwas Besonderes zu schreiben: Prescott ist immer noch langsamer. Stimmt, nicht viel.

Zusammenfassung der Ergebnisse

Nun, wenn wir aus den im Artikel enthaltenen Tests irgendwelche Schlussfolgerungen ziehen, dann sieht die Situation so aus: Der Prescott-Kern ist im Allgemeinen langsamer als Northwood. Manchmal kann dies kompensiert werden Ö Größerer Cache, wodurch die Leistung auf das Niveau des alten Kernels gebracht wird. Nun, wenn das Programm besonders empfindlich auf die L2-Lautstärke reagiert, kann Prescott sogar gewinnen. Darüber hinaus hat sich die Effizienz des Hyper-Threadings etwas verbessert (der Grund scheint jedoch wiederum in der Vergrößerung des L2-Cache zu liegen). Wenn ein Programm also beide Stärken des neuen Kernels nutzen kann – einen großen Cache und virtuelles Multiprocessing – dann ist der Gewinn spürbar. Im Allgemeinen entspricht die Leistung von Prescott in etwa der von Northwood und ist bei Verwendung mit alter, nicht optimierter Software sogar noch geringer. Leider ist die erwartete Revolution nicht eingetreten. Gab es andererseits einen Jungen? Aber mehr dazu weiter unten.

Was den Prescott 2,8A GHz mit 533 MHz Systembus und ohne Hyper-Threading-Unterstützung betrifft, dann ist hier alles ganz klar. Erstens ist dies für Intel einfach eine sehr gute Möglichkeit, aus den Kopien, die im „echten Prescott“-Modus einfach nicht funktionierten, zumindest etwas zu machen. Eine Art „Celeron unter Prescotts“ (obwohl dies offenbar darauf basieren wird). Kern und der offizielle Celeron). Zweitens deutet das Fehlen von Hyper-Threading höchstwahrscheinlich auf die grundsätzliche Zurückhaltung von Intel hin, HT auf einem veralteten Bus mit niedriger Geschwindigkeit zu sehen. Tatsächlich: Der einzige Vertreter von 533 MHz FSB + HT blieb der erste Prozessor, der diese Technologie unterstützte, der Pentium 4 mit 3,06 GHz. Und selbst dann aus einem völlig verständlichen Grund, der ihn entschuldigte: Damals gab es keine CPU mit 800-MHz-Bus.

Mögen uns die Intel-Ingenieure diese Freiheit verzeihen, der Pentium 4 2,8A GHz ist „als ob nicht Prescott“. Es handelt sich lediglich um einen relativ preiswerten Pentium 4 mit hoher Frequenz (niemand sonst kann ihn herstellen, weil ihn niemand kaufen wird). Dabei spielt es überhaupt keine Rolle, auf welchem ​​Kern er basiert, darum geht es nicht. Um ehrlich zu sein, war die Versuchung groß, ihn überhaupt nicht in dieses Material einzubeziehen, aber dann beschlossen wir, das Gegenteil zu tun: ihn für diese Stunde einmal und dann noch einmal „strahlen“ zu lassen. bei Kehren Sie nicht zum unteren Prozessor zurück. Aus einem einfachen Vergleich der Single-Frequenz-Kerne von Prescott und Northwood wird deutlich, dass Prescott 2,8 GHz ohne Hyper-Threading hinsichtlich der durchschnittlichen Leistung nicht einmal mit dem Pentium 4 2,8C (800 MHz FSB + HT) mithalten kann Indikatoren. Versionen

Ja, genau „Versionen“, nicht „Schlussfolgerungen“. Dieses Material erwies sich als zu zweideutig. Es wäre einfacher, sich auf die Analyse der Diagramme zu beschränken und die offensichtliche Schlussfolgerung zu ziehen, die an der Oberfläche liegt: „Wenn das neue nicht schneller (oder sogar langsamer) als das alte ist, bedeutet es, dass es schlechter ist.“ Schreiben Sie es sozusagen als Aufwand ab. Allerdings ist die einfachste Antwort nicht immer die richtigste. Aus diesem Grund haben wir uns entschieden, auf die Analyse einzugehen und die Ergebnisse von Prescott aus einer historischen Marktperspektive zu betrachten. Es stellte sich heraus, dass die Antworten auf die Frage „Was bringt Intel die Veröffentlichung des Pentium 4 auf dem Prescott-Kern?“ Tatsächlich gibt es mehrere, und jede davon kann logisch argumentiert werden.

Version eins oder großer Fehler

Warum nicht? Es war einmal ein Unternehmen namens Intel, und es hatte eine Idee: Bei der Entwicklung eines Prozessorkerns lag der Schwerpunkt nicht auf maximaler Effizienz (wenn wir Effizienz als Verhältnis von Leistung zu Frequenz betrachten), sondern auf einfacher Skalierbarkeit. Sie sagen, wenn unsere 2000 MHz gegenüber 1000 MHz eines Konkurrenten verlieren, spielt das keine Rolle, wir werden die Frequenz auf 4 GHz aufholen und alle zurücklassen. Aus rein technischer Sicht ist dies übrigens eine völlig ausreichende Lösung. Ist es wirklich wichtig? Den (gebildeten) Nutzer interessiert immer noch nicht Megahertz, sondern die Leistung. Welchen Unterschied macht das für ihn, wie wird sie erreicht? Die Hauptsache ist, dass die Skalierbarkeit genau das ist, was erreicht werden soll. Und nun stellt sich heraus, dass große Probleme mit der Skalierbarkeit begonnen haben. Wir erreichten 3,4 GHz, stoppten und mussten einen neuen Kern entwickeln, dessen Effizienz noch geringer ist und dessen Frequenz nicht bekannt ist und so weiter. Wir möchten Sie daran erinnern, dass dies eine Version ist. Schauen wir es uns im Vergleich zu realen Fakten genauer an.

Ein Fakt, der für diese Version spricht, ist die Zunahme der Häufigkeit von Pentium 4 im vergangenen Jahr 2003. Dennoch sind 200 MHz, und selbst in Bezug auf eine so „frequenzhungrige“ Architektur wie NetBurst, eindeutig nicht genug. Es ist jedoch bekannt, dass es keine sehr gute Vorgehensweise ist, eine Tatsache isoliert von anderen zu betrachten. Hat es Sinn gemacht, die Frequenz des Pentium 4 im letzten Jahr aktiv zu erhöhen? Es scheint nicht, dass der Hauptkonkurrent andere Probleme löst: Er hat eine neue Architektur, einen neuen Kern, er muss die Massenproduktion von Prozessoren auf Basis dieses Kerns organisieren und sie mit der entsprechenden Hardware in Form von Chipsätzen, Motherboards, Software usw. ausstatten. am Ende! Daher klingt eine der Antworten auf die Frage „Warum die Frequenz (und Leistung) des Pentium 4 im Jahr 2003 praktisch nicht gestiegen ist“ einfach: Es hatte keinen besonderen Sinn, sie zu erhöhen. Es scheint niemanden zu geben, der aufholen oder überholen kann. Es besteht also kein Grund, sich zu sehr zu beeilen.

Leider können wir immer noch keine Antwort auf die Hauptfrage bekommen: Wie wird der neue Kern „jagen“? Den äußeren Anzeichen nach zu urteilen, gibt es bisher keine Fakten, die die gute Skalierbarkeit von Prescott bestätigen. Allerdings ebenso wie diejenigen, die es widerlegen. 3,4-GHz-Versionen von Prescott und Northwood wurden angekündigt. Northwood 3,4 GHz wird voraussichtlich der letzte Prozessor sein, der auf diesem Kern basiert (obwohl es keine offizielle Bestätigung dieser Annahme gibt). Und die Tatsache, dass Prescott mit 3,4 GHz begann und nicht mit 3,8 oder 4,0, ist auch leicht zu erklären: Warum über die Stufen springen? Zusammenfassend lässt sich sagen: Die „Big Mistake“-Version hat grundsätzlich eine Daseinsberechtigung. Aber wenn die Häufigkeit (und genauer gesagt die Leistung) von Prescott schnell zunimmt, wird dies definitiv seine Inkonsistenz bestätigen.

Version zwei oder Übergangskern

Es ist kein Geheimnis, dass ein Hersteller manchmal ein Gerät herausbringen muss, das an sich ganz gewöhnlich ist (in einer anderen Situation verdient es den Titel eines Release-Produkts überhaupt nicht). Tatsache ist jedoch, dass die Veröffentlichung dieses Geräts notwendig ist, um andere auf dem Markt zu bewerben, die gleichzeitig oder etwas später angekündigt wurden. Dies war der Pentium 4 Willamette, der den Titel „guter und schneller Prozessor“ kaum verdiente, aber er zeigte deutlich, dass einer der größten Player auf dem Prozessormarkt am Ende seines Bestehens auf einen neuen Kern umstieg hat den „mittleren“ Sockel 423 durch einen „langlebigen“ ersetzt. Sockel 478. Was wäre, wenn Prescott eine ähnliche Rolle spielen würde?

Jeder weiß bereits, dass mit der Veröffentlichung von Grantsdale-P ein weiterer Prozessorsockel für den Pentium 4 (Socket T / Sockel 775 / LGA775) auf den Markt kommen wird und zunächst Prescott-basierte CPUs verbaut werden Es. Erst später wird der Pentium 4 „Tejas“ beginnen, sie nach und nach zu ersetzen. Und hier ist es ganz logisch, die Frage zu stellen: Wie schnell wird dieser Austausch erfolgen? Da wir immer noch nur Versionen vorlegen, werden wir unserer Fantasie keine Grenzen setzen und davon ausgehen, dass Intel diesen Prozess so weit wie möglich beschleunigen möchte. Mit was? Am wahrscheinlichsten ist es, dass Sockel 478 friedlich am unteren Ende der Leistungstabellen ruht und Sockel 775 zum Symbol einer aktualisierten, leistungsstarken und schnellen Plattform für den Pentium 4 wird. Dann wird alles klar: Prescott wird benötigt, damit es eine gibt Prozessor auf dem Markt, der beide Boards mit Sockel 478 und dem neuen Sockel 775 leisten kann. Tejas wird, wenn unsere Annahmen stimmen, nur im Sockel 775 verbaut und wird damit zum Totengräber sowohl für Prescott als auch für die veraltete Sockel-478-Plattform. Ist es logisch? Wir denken schon. In diesem Fall erscheint auch die folgende Annahme plausibel: Prescotts Leben ist für eine sehr kurze Zeit bestimmt

Version drei oder „Wer wird mit dem Schwert zu uns kommen“

Es ist kein Geheimnis, dass die Rivalität zwischen den beiden Hauptkonkurrenten Intel und AMD fast immer auf dem Gegensatz zweier Hauptargumente beruhte. Intel: „Unsere Prozessoren sind die schnellsten!“, AMD: „Aber unsere haben ein besseres Preis-Leistungs-Verhältnis!“ Die Rivalität besteht seit langem, ebenso wie die Auseinandersetzungen. Darüber hinaus haben sie sich auch mit der Veröffentlichung von AMD-Prozessoren auf K7/K8-Kernen nicht verändert, obwohl letztere deutlich leistungsstärker sind als der K6. Bisher machte Intel keine Ausnahmen von seiner Grundregel: Seine CPUs mit ähnlicher Leistung wie Konkurrenzprozessoren für etwas mehr zu verkaufen. Der Markt ist mancherorts sehr einfach, daher ist der Grund für dieses Verhalten klar: Wenn die Leute sie bereits kaufen, warum dann den Preis senken? Nochmals: Obwohl Intel an Preiskämpfen teilnehmen musste, hat AMD sie immer gestartet, das hat bereits Tradition. Die dritte Version basiert auf einer offensichtlichen Annahme: Was wäre, wenn Intel dieses Mal beschließen würde, aggressiver als üblich vorzugehen und zuerst einen Preiskampf zu beginnen?

Die Liste der Vorteile des neuen Prescott-Kerns umfasst nicht nur Neuheit, Cache-Größen und potenziell gute (wenn auch noch nicht bestätigte) Skalierbarkeit, sondern auch den Preis! Dabei handelt es sich um einen verhältnismäßig günstigen Kern in der Herstellung: Wenn mit der 90-Nanometer-Technologie die Ausbeute an geeigneten Chips mindestens so hoch ist wie die von Northwood, dann kann Intel diesen ohne absoluten Gewinnverlust verkaufen Prozessoren zu einem viel günstigeren Preis. Erinnern wir uns an eine offensichtliche Abhängigkeit: Eine CPU-Eigenschaft wie das „Preis-Leistungs-Verhältnis“ kann nicht nur durch Leistungssteigerung, sondern auch durch Preissenkung verbessert werden. Eigentlich hält dich niemand davon ab, die Leistung noch weiter zu senken (!). Hauptsache, der Preis sinkt noch mehr :). Den inoffiziellen Preisankündigungen für den Pentium 4 Prescott im Internet zufolge werden sie deutlich weniger kosten als der Pentium 4 Northwood. Wir können also davon ausgehen, dass Intel sich für eine Art „Flankierung“ entschieden hat: Während der Hauptkonkurrent auf altmodische Weise immer wieder auf der Jagd nach Leistung ist, wird ihm im Bereich der Middle-End-Systeme ein Schlag versetzt , wo Benutzer genau solche Indikatoren wie Preis / Leistung sorgfältig analysieren.

Version vier oder Geheimwaffe

Hier sollten wir einen kleinen lyrischen und historischen Exkurs für diejenigen machen, die „damals“ verschiedene kleine Nuancen im Prozessorsektor nicht sehr aktiv überwachten. So können wir uns beispielsweise daran erinnern, dass unmittelbar nach dem Erscheinen der ersten Prozessoren mit Hyper-Threading-Unterstützung (und es handelte sich nicht um Pentium 4 „Northwood“ + HT, sondern Xeon „Prestonia“) viele die Frage stellten: „Wenn die.“ Prestonia- und Northwood-Kerne sind sich so ähnlich, dass sie sich in ihren grundlegenden Eigenschaften praktisch nicht unterscheiden, aber Prestonia unterstützt Hyper-Threading und Northwood nicht. Ist es nicht logisch anzunehmen, dass Northwood es auch hat, es ist nur künstlich blockiert? Anschließend wurde diese Annahme indirekt durch die Ankündigung des Pentium 4 3,06 GHz auf demselben Northwood-Kern, jedoch mit Hyper-Threading, bestätigt. Darüber hinaus brachten die Mutigsten eine völlig aufrührerische Idee vor: Hyper-Threading gab es sogar in Willamette!

Erinnern wir uns nun an das, was wir kürzlich über die neuen Technologieinitiativen von Intel wussten. Sofort tauchen zwei Namen auf: „La Grande“ und „Vanderpool“. Die erste ist die Technologie des Hardware-Schutzes von Anwendungen vor Eingriffen von außen, die sich kurz mit den Worten beschreiben lässt: „um sicherzustellen, dass eine Software die Funktion einer anderen Software nicht beeinträchtigen kann“. Sie können jedoch auf unserer Website mehr über La Grande erfahren. Über Vanderpool gibt es weniger Informationen, aber anhand der heute verfügbaren Fragmente können wir den Schluss ziehen, dass es sich um eine Variation des Themas der vollständigen PC-Virtualisierung handelt, die ausnahmslos alle Hardwareressourcen umfasst. So (das einfachste, aber auch effektivste Beispiel) können zwei Betriebssysteme parallel auf einem Computer arbeiten und eines davon sogar neu gestartet werden, was jedoch keinerlei Auswirkungen auf den Betrieb des anderen hat.

Also: Es besteht ein sehr starker Verdacht, dass sowohl La Grande als auch Vanderpool bereits im Prescott-Kern implementiert, aber (wie zuvor bei Hyper-Threading) noch nicht aktiviert wurden. Wenn diese Annahme wahr ist, wird viel über den Kern selbst klar. Insbesondere, warum es so groß ist, warum die Entwicklung so lange gedauert hat, aber trotzdem in der Geschwindigkeit nicht mit dem Vorgänger mithalten kann. Basierend auf der „Geheimwaffen“-Hypothese können wir davon ausgehen, dass die Hauptressourcen des Entwicklungsteams nicht auf die Erzielung von Leistung, sondern auf das Debuggen neuer Funktionen gerichtet waren. Teilweise hat diese Version auf die eine oder andere Weise etwas mit der zweiten gemeinsam, aber wir haben es mit einem Übergangskern zu tun. Dementsprechend muss es überhaupt nicht perfekt sein, denn das ist nicht sein Hauptzweck. Die zweite und vierte Version werden übrigens auch durch die dritte erfolgreich ergänzt: Der niedrige Preis ist in diesem Fall genau das Bonbon, das dem Endverbraucher die „Transitivitäts“-Pille versüßt.

Zusammenfassen

Nicht umsonst haben wir diesen Artikel „einen halben Schritt nach vorne“ genannt. Prescott erwies sich als komplexer und mehrdeutiger als das erwartete „Northwood mit größerer Cache-Größe und höherer Häufigkeit“ (wie viele es empfanden). Natürlich kann man dem Hersteller die Schuld dafür geben, dass die Geschwindigkeitssteigerung im Durchschnitt nahe Null liegt (und an einigen Stellen negativ ist), für einen weiteren Sprung mit der Unterstützung von Prozessoren, die auf dem neuen Kern auf Motherboards basieren. Und übrigens Es ist durchaus fair, dies zu tun. Das sind schließlich nicht unsere Probleme, und doch sind wir diejenigen, die sich ihnen stellen müssen. Deshalb fügen wir am Ende des Artikels einfach ein „fett gedrucktes Auslassungszeichen“ ein. Das Standbild zeigt nur den Anfang des Schrittes: ein in der Luft schwebendes Bein oder, wenn Sie es vorziehen, ein startendes Flugzeug. Was kommt als nächstes für uns? Wird die „Landung“ (Tejas?...) günstig sein? Im Moment können wir nur raten.

Seit mehr als 5 Jahren werden viele Kerne und darauf basierende Pentium 4-Modelle veröffentlicht. Darüber hinaus wurde mit der Veröffentlichung eines neuen Modells entweder ein neuer Buchstabe oder eine andere Zahl zum Namen des Prozessors hinzugefügt, manchmal auch beides; All dies erschwert die Identifizierung eines bestimmten Modells erheblich.

Der Pentium 4-Prozessor basiert auf einer völlig neuen Architektur – NetBurst. Nachfolgend sind einige der Besonderheiten der ursprünglichen NetBurst-Architektur aufgeführt (von denen einige inzwischen geändert wurden).

  • . Die Pipelinelänge wurde auf 20 Schritte erhöht, was bedeutet, dass der Prozessor 20 Zyklen benötigte, um einen Befehl auszuführen. Dieser Schritt machte es viel einfacher, die Taktfrequenz zu erhöhen, außerdem würde er in Zukunft die Leistung deutlich steigern, allerdings war die Leistung pro 1 MHz geringer als bei früheren Prozessoren. Dies erklärt teilweise die schlechte Leistung des Pentium 4, der bei niedrigen Frequenzen arbeitet. Durch diese Innovation hat sich auch die Wartezeit erhöht.
  • Übergangs-(Zweig-)Vorhersagemodul. Um die Nachteile der Verwendung einer langen Pipeline auszugleichen, haben Intel-Ingenieure das Verzweigungsvorhersageschema verbessert. Dadurch wurde die richtige Verzweigung mit einer Wahrscheinlichkeit von bis zu 95 % vorhergesagt.
  • System Bus. Der Pentium 4 nutzt ein völlig neues 128-Bit mit zwei 64-Bit-Leitungen. Die Frequenz des neuen Busses () beträgt 100 MHz (bei den neuesten Pentium III-Modellen waren es 133 MHz), aufgrund der gleichzeitigen Übertragung von 4 Paketen pro Taktzyklus (QPB – Quad Pumped Bus) betrug die effektive Busfrequenz jedoch 400 MHz und der Durchsatz Die Buskapazität betrug 3200 Mbit/s.
  • Arithmetische Logikeinheit (oder ALU). Die ALU verarbeitet Integer-Anweisungen. Beim neuen Prozessor arbeitet die ALU mit der doppelten Kernfrequenz (beim Pentium 4 arbeitet die 1,5 GHz ALU aufgrund der Nutzung beider Signalflanken mit 3 GHz). Daher werden einige Befehle in einem halben Taktzyklus ausgeführt. Der Pentium 4 verwendet zwei ALUs.
  • erste Ebene (L1). Nach wie vor ist der L1-Cache in zwei Teile unterteilt: für Anweisungen und für Daten. Der Cache speichert nun dekodierte Befehle und ordnet sie in der Reihenfolge an, in der sie ausgeführt wurden (Trace-Cache-Technologie), was die Leistung steigert.
  • Mathematik(). Der mathematische Coprozessor enthält zwei Module für Gleitkommaoperationen. Aber nur ein Modul führt die eigentliche Rechenarbeit aus – das sind Additions- (FADD) und Multiplikationsoperationen (FMUL), das zweite Modul führt Austauschoperationen zwischen und Speicher (FSTORE) durch. Für den Pentium 4 1,4 GHz Prozessor liefert der Coprozessor eine Leistung von 1,4. Beispielsweise verwenden die Prozessoren einen Coprozessor, der aus drei Modulen besteht (eines für Operationen vom Typ FSTORE, die anderen beiden für Operationen vom Typ FADD und FMUL) und eine Leistung von 2 GFLOPS (für einen 1-GHz-Athlon-Prozessor) bietet.
  • SIMD-Erweiterungen. Der Pentium 4-Prozessor fügte einen neuen Satz SIMD-Erweiterungen (SSE2) hinzu, der 144 neue Befehle hinzufügte (68 Ganzzahlbefehle und 76 Gleitkommabefehle).

Im Allgemeinen war die Architektur auf den Betrieb bei hohen Frequenzen ausgerichtet, bei denen eine lange Pipeline ihr volles Potenzial entfalten konnte.

Willamette

Dieser Kern wurde erstmals 1998 in der Roadmap von Intel erwähnt. Man ging davon aus, dass es die 1-GHz-Frequenz ablösen und erobern sollte. Auf diesem Kern basierende Prozessoren wurden jedoch erst im Jahr 2000 als Pentium 4 angekündigt. Die in diesem Jahr veröffentlichten Prozessoren wurden im Sockel 423 verbaut und in einem FC-PGA2-Gehäuse hergestellt. Prozessoren für den Sockel 423 waren nicht beliebt, da Intel sofort erklärte, dass es sich bei diesem Sockel um einen Übergangssockel handele; außerdem waren Systeme auf Basis von Pentium 4 sehr teuer (die Prozessoren selbst kosteten zum Zeitpunkt der Ankündigung 644 US-Dollar und 819 US-Dollar für Pentium 4 1.4 und 1.5). GHz). Da der Prozessor mit einer 180-nm-Prozesstechnologie hergestellt wurde, konnten nur 256 KB L2-Cache auf dem Chip untergebracht werden. Die meisten Experten betrachteten die 1,4- und 1,5-GHz-Versionen als mittelmäßig – der Athlon-Prozessor erfreute sich immer größerer Beliebtheit und war dem Pentium III in der Leistung überlegen, eine weitere Verbesserung der Pentium-III-Architektur war noch nicht möglich. Intel hatte nicht die Absicht, Marktanteile zu verlieren, und brachte daher diese Prozessoren auf den Markt („rohe“ Produktionstechnologie erlaubte zu diesem Zeitpunkt nicht die Veröffentlichung schnellerer Modelle). Trotz der Unbeliebtheit der 1,4- und 1,5-GHz-Versionen kündigte Intel die 1,3-GHz-Version des Pentium 4 an, die 409 US-Dollar kostete. In verschiedenen Testtests verloren diese Prozessoren sowohl gegen Pentium III als auch gegen Athlon (und in einigen Fällen Athlon), die mit niedrigeren Frequenzen arbeiteten. Allerdings erschien bereits im April 2001 der Pentium 4 mit einer Frequenz von 1,7 GHz, im August dieses Jahres eine 2-GHz-Version sowie „neue alte“ Prozessoren für Sockel 478, die mehr als 2 Jahre durchhielten Jahre, im selben Monat kommt ein neuer Chipsatz von Intel (i845) auf den Markt. Der neue Chipsatz unterstützte nun PC133-SDRAM-Speicher, was eine deutliche Preissenkung für Systeme auf Basis des Intel Pentium 4 ermöglichte, allerdings reduzierte der Einsatz dieses Speichertyps die Leistung des Systems etwas (manchmal ganz deutlich). Um den Umsatz zu steigern, hat Intel diesen Prozessor aktiv beworben – seine Werbung war sowohl im Fernsehen als auch in Zeitungen/Zeitschriften zu sehen. Die Verkäufe des Pentium 4 stiegen, der Prozessor erfreute sich immer größerer Beliebtheit. Bald stellten viele Hersteller von Systemlogiken ihre Chipsätze für den Pentium 4 mit Speicherunterstützung vor, und Anfang des Jahres veröffentlichte Intel seine Chipsätze mit Unterstützung für diesen Speichertyp. Der Prozessor beginnt den Pentium III abzulösen und liegt leistungsmäßig tatsächlich auf Augenhöhe mit dem Athlon. Intel, das 16 Jahre lang die Spitzenposition innehatte und diese dann schnell wieder verlor, fängt nun an, wieder Fuß zu fassen. Und die Probleme, die mit der mangelnden Produktionskapazität bei AMD und der Veröffentlichung des Pentium 4 auf dem Northwood-Kern auftraten, festigten Intels führende Position, wenn auch nicht für lange.

Pentium 4-Prozessoren basierend auf dem Willamette-Kern
Kerntaktfrequenz (GHz) Ankündigungsdatum des Prozessors für Sockel 423 Ankündigungsdatum des Prozessors für Sockel 478 Anfängliche Prozessorkosten ($)
1,3 3. Januar 2001 409 - ?
1,4 20. November 2000 644 27. September 2001
1,5 819 27. August 2001
1,6 2. Juli 2001 294
1,7 23. April 2001 352
1,8 2. Juli 2001 562
1,9 27. August 2001 375 375
2,0 562 562

Northwood

Die ersten Prozessoren auf Basis dieses Kerns wurden dieses Jahr angekündigt. Der Kern unterscheidet sich nicht wesentlich von seinem Vorgänger, außer dass er einen fortschrittlicheren Technologieprozess verwendet – 130 nm, der es ermöglichte, 512 KB L2-Cache auf dem Chip zu platzieren und die Wärmeableitung des Prozessors zu reduzieren. Durch den Übergang zu einem neuen technischen Verfahren konnte die Taktfrequenz weiter erhöht werden (bis zu 3,4 GHz). Um Prozessoren, die auf dem Northwood-Kern basieren, von ähnlichen Modellen, die auf dem Willamette-Kern basieren, zu unterscheiden, wurde beschlossen, den Buchstaben „A“ am Ende der Namen neuer Prozessoren hinzuzufügen (der Pentium 4 2.0A basiert beispielsweise auf dem Northwood). Kern).

Prescott

Mobiler Pentium 4

Die ersten Versionen des Pentium 4 für Notebooks und Laptops wurden letztes Jahr angekündigt, basierten auf dem Northwood-Kern und hießen Mobile Pentium 4-M. Diese Prozessoren unterschieden sich von Desktop-Versionen durch eine niedrigere Versorgungsspannung (1,2–1,3 V) und Unterstützung für Technologie. Die Systembusfrequenz betrug für alle Prozessoren 400 MHz. Es wurden Modelle mit Frequenzen von 1,4 veröffentlicht; 1,5; 1,6; 1,7; 1,8; 1,9; 2,0; 2,2; 2,4; 2,5; 2,6, TDP für das neueste Modell beträgt 35 W.

Prescott 2M

Die ersten Gerüchte über den neuen Prescott-2-Kern tauchten Anfang 2005 auf. Es wurde davon ausgegangen, dass es über 2 MB L2-Cache und eine FSB-Frequenz von 266 MHz (effektive Frequenz 1066 MHz) verfügen würde. Es wurden Prozessoren angekündigt, die auf diesem Kern basieren. Dieser Kern unterscheidet sich vom Prescott-Kern nur durch das Vorhandensein von 2 MB L2-Cache. Die neuen Prozessoren erhielten auch eine neue Kennzeichnung: 6x0. Am 21. Februar 2005 wurden die Modelle Pentium 4 630, 640, 650, 660 mit Frequenzen 3.0 angekündigt; 3,2; 3,4; 3,6 GHz, später wurde der 670 eingeführt, der mit 3,8 GHz arbeitete.

Zedernmühle

Die Ankündigung der Prozessoren, die auf dem neuen Kern basieren, ist für die zweite Januarhälfte geplant. Der Cedar Mill-Kernel ist eine Single-Core-Modifikation des Kernels, der unter dem Codenamen bekannt ist. Cedar Mill wird mit der neuesten 65-nm-Technologie hergestellt. Tatsächlich handelt es sich beim Kern um einen Prescott 2M-Kern, die Prozessorserie hat sich nicht einmal geändert, Prozessoren ohne Unterstützung der Vanderpool-Virtualisierungstechnologie tragen die Bezeichnung 6x1, solche mit Vanderpool-Unterstützung tragen die Bezeichnung 6x3. Die Prozessoren werden zunächst Frequenzen zwischen 3,0 GHz und 3,8 GHz haben. Es wird empfohlen, hier mehr über den Grund für die Veröffentlichung von Cedar Mill zu lesen.

Der Cedar Mill-Kern ist der letzte in der Pentium 4-Reihe. Die nächsten Prozessorgenerationen, insbesondere Conroe, werden unter einer neuen Marke beworben, deren Name noch nicht bekannt gegeben wurde.

Tejas, Jayhawk und andere

Intel hatte große Hoffnungen in die NetBurst-Architektur gesetzt. In den Jahren 2001–2003 umfassten die Roadmaps von Intel Kerne wie Tejas, der einen 1066-MHz-Bus verwenden und mit Frequenzen von 4,4 bis 9,2 GHz arbeiten sollte und in der zweiten Hälfte des Jahres 2004 unter dem Namen Pentium 6 auf den Markt kommen sollte. Nehalem, Dieser Prozessor sollte einen 1200-MHz-Systembus verwenden und mit Frequenzen über 10 GHz arbeiten und sollte 2005 in den Handel kommen. Jayhawk, ein Xeon-Prozessor, der über einen 24 KB großen L1-Datencache und 16.000 Mikrooperationen verfügen sollte. Allerdings wurden alle diese Prozessoren im Jahr 2004 eingestellt.

Intel beabsichtigte, Prozessoren auf Basis der NetBurst-Architektur zu verwenden, um eine Frequenz von 10 GHz zu erreichen, doch vor dem Erreichen von 4 GHz war diese Architektur mit thermischen Problemen konfrontiert, die bisher (und es scheint nie wieder) lösbar waren. Dieses Problem veranlasste Intel, eine neue Architektur zu entwickeln und alle Projekte zur Entwicklung von Kernen auf Basis der NetBurst-Architektur einzustellen.

Rückblickend hinterlässt der Pentium 4 einen zwiespältigen Eindruck. Einerseits war es einer der beliebtesten Prozessoren, seine Promotion im Jahr 2011 und die damit verbundene enorme Beliebtheit bei der Bevölkerung ermöglichten es Intel, lange Zeit einen großen Teil des Marktes zu besetzen. Andererseits verfügte der Pentium 4 nicht über die erfolgreichste Architektur. Seine führende Position in Sachen Leistung konnte er nie festigen; in Sachen TDP (Wärmeableitung) verlor er fast immer gegen Konkurrenz-AMD-Athlon-Prozessoren, ebenso bei den Kosten. Und die Pentium-III-Architektur, die Intel einst als weniger vielversprechend als NetBurst betrachtete, ist bei Prozessoren wieder aufgetaucht.

Spezifikationen verschiedener Kerne

Für alle Modelle relevante Daten

  • Bittiefe: 32
  • Externe Busbreite: 128

Willamette

  • Datum der Ankündigung des ersten Modells: 20. November 2000
  • Taktfrequenzen (GHz): 1,3; 1,4; 1,5; 1,6; 1,7; 1,8; 1,9; 2,0
  • Effektive Systembusfrequenz (FSB) (MHz): 400
  • L2-Cache-Größe (KB): 256
  • Versorgungsspannung: 1,7 V oder 1,75 V
  • Anzahl der Transistoren (Millionen): 42
  • Kristallfläche (mm²): 217
  • Maximale TDP (Wärmeableitung): 75,3 W
  • Prozesstechnologie (nm): 180
  • Stecker: Buchse 423, später Buchse 478
  • Gehäuse: 423-poliger FC-PGA2 oder 478-poliger mPGA
  • Unterstützte Technologien: IA32, SSE2

Northwood

  • Datum der Ankündigung des ersten Modells: 7. August 2001
    • Prozessoren mit einer FSB-Frequenz von 400 MHz: 1,6; 1,8; 2,0; 2,2; 2,4; 2,5; 2,6; 2.8
    • Prozessoren mit einer FSB-Frequenz von 533 MHz: 2,26; 2,4; 2,53; 2,67; 2,8; 3.06
    • Prozessoren mit einer FSB-Frequenz von 800 MHz: 2,4; 2,6; 2,8; 3,0; 3,2; 3.4
  • Effektive Systembusfrequenz (FSB) (MHz): 400, 533, 800
  • L1-Cache-Größe: 8 KB (für Daten) + 12.000 Vorgänge
  • L2-Cache-Größe (KB): 512
  • Versorgungsspannung: 1,475-1,55 (je nach Modell)
  • Anzahl der Transistoren (Millionen): 55
  • Kristallfläche (mm²): 146, später 131
  • Maximale TDP (Wärmeableitung): 89 W
  • Prozesstechnologie (nm): 130
  • Anschluss: Buchse 478
  • Gehäuse: 478-Pin-mPGA
  • Unterstützte Technologien: IA32, MMX, SSE, SSE2, HT (nicht alle Modelle)

Neue „Frühlings“-Prozessoren begeistern uns weiterhin mit ihrem Aussehen. Dieses Mal zeichnete sich Intel dadurch aus, dass es auf dem ukrainischen Markt zwei Pentium 4-Prozessoren der Spitzenklasse mit einer Frequenz von 3,4 GHz vorstellte, die jedoch auf unterschiedlichen Kernen basierten – Northwood bzw. Prescott. Wir hoffen, dass dieser Test Ihnen bei der Entscheidung hilft, was solch ähnliche und doch so unterschiedliche CPUs dem Benutzer bieten können.
Dieses Mal haben wir uns entschieden, kein sperriges Material herzustellen, zumal es erst seit Kurzem so ist
Die Vorgängergenerationen dieser Prozessoren mit Frequenzen von 3,2 haben wir bereits ausführlich untersucht
GHz. Die meisten unserer Leser sind wahrscheinlich mit den Eigenschaften des Northwood-Kerns vertraut.
Edition, daher ändert sich die Leistung beim Wechsel zu einer neuen Frequenz
3,4 GHz können sogar mit einem Taschenrechner berechnet werden, der über die erforderliche Datenbasis verfügt
Testergebnisse. Das Design des Prozessors wurde jedoch leicht aktualisiert. Grundlagen
Die (äußere) Veränderung wirkte sich auf die Kraftelemente des Kristalls selbst aus. Wie bekannt,
Auf der Rückseite des Prozessorsubstrats befinden sich Aufhängeelemente (hauptsächlich
Shunt-Kondensatoren). Also, wenn früher in der 200 (800) MHz Northwood-Serie
Ihre Anzahl und Position waren gleich, dann ist das 3,4-GHz-Modell radikal anders
von ihren Vorgängern. Sein Substrat ist genau wie das des Pentium 4 in einem Pod
Extreme Edition. Die nahezu Verdoppelung der Anzahl der Kondensatoren ist vermutlich darauf zurückzuführen
der Wunsch, Überspannungen und den Geräuschpegel zu reduzieren, der in den Stromkreisen des Prozessors auftritt.
Wie sich herausstellte, wirkten sich diese Metamorphosen positiv auf das Übertaktungspotential aus,
aber dazu später mehr.

Prescott wurde ebenfalls zur Kenntnis genommen, in diesem Fall betreffen die Änderungen jedoch ausschließlich
Softwareteil. Aus technischer Sicht sind die Unterschiede zwischen dem neuen Modell und der Frequenz
3,4 GHz konnten wir von 3,2 GHz nicht erkennen. Was sind also diese Änderungen?
Werden sich die neuen Massen-CPUs von Intel in voller Pracht zeigen?

Konfigurationen
Testsysteme
Plattform
Intel
AMD
CPU Intel Pentium 4 (Prescott) 3,2/3,4E GHz Intel Pentium 4 (Northwood) 3,4C GHz AMD Athlon 64 3400+ 2,2 GHz
Hauptplatine Abit IC7-MAX3 (i875P-Chipsatz) ASUS K8V Deluxe (VIA K8T800 Chipsatz)
Erinnerung Kingston HyperX PC3500 (2?512
MB)
Grafikkarte SEINE Radeon 9800XT 256 MB
Festplatte Western Digital WD300BB 30
GB 7200 U/min
Betriebssystem Windows XP Professional SP2

Kernökosystem des Prescott-Prozessors

Vielleicht eine der bedeutendsten Errungenschaften
in letzter Zeit - richtiges „Verständnis“ des Prescott-Operationssaals
Windows XP-System mit installiertem Service Pack 2. Bis zur offiziellen Veröffentlichung davon
„Upgrade“ ist zu früh, um über mögliche Vorteile und ein neues Niveau zu sprechen
Kontrolle der Hyper-Threading-Technologie, aber der Trend selbst ist immer noch positiv.
Beim Testen ist uns noch ein weiteres interessantes Feature aufgefallen
- Motherboards, für die es neue BIOS-Versionen mit einer deklarierten 100 %
kompatibel mit dem Prescott-Kernel, weisen ein sehr ungewöhnliches Verhalten auf. Wirklich,
Nach dem Flashen erhöht sich die Geschwindigkeit der Arbeit mit dem Speicher und seine Latenz deutlich
nimmt leicht ab (denken Sie daran, wenn Sie eine Prescott-CPU installieren). Aber wenn die Gebühr
Mit der neuen BIOS-Installation von Northwood ist die Leistung des Speichersubsystems zwar unbedeutend,
aber es wird trotzdem fallen. Aus all dem lassen sich bisher zwei Schlussfolgerungen ziehen: a) Wenn Sie Pentium-Besitzer sind
4 Series B/C, beeilen Sie sich nicht, das BIOS auf Ihrem Motherboard zu aktualisieren; b) es ist zu früh
Sprechen Sie über die „Nuancen“ des BIOS als etabliertes Muster, aber das
Tatsache, dass drei beliebte Motherboard-Modelle dies immer noch vorweisen
Das Ergebnis regt zumindest zum Nachdenken an.

Wir stellen auch die langsame Implementierung der SSE3-Unterstützung in modernen Multimedia-Inhalten fest
VON. Die versprochenen Treiber von ATI und NVidia sind noch nicht erschienen, ebenso die Autoren der Medien-Codecs
Sie haben es nicht eilig, die Vorteile von SSE3 in ihren Produkten zu nutzen. Obwohl in Japan
- ein Land, das Hochtechnologie so sehr liebt - eine neue Gruppe von Teams reicht bereits aus
von „nationaler“ Software intensiv genutzt. Es ist uns sogar gelungen, Ergebnisse zu finden
Tests, bei denen im Fall von eine Leistungssteigerung von 10 % gemeldet wurde
Medienkodierung. Noch einmal: Wann wird uns die „Realität“ von SSE3 erreichen?
- es ist noch nicht bekannt. Aber die Tatsache, dass es zumindest ein Plus sein wird
und nicht „minus“, es ist schon erfreulich.


Testergebnisse

Der Primordia-Test aus dem Science Mark 2.0-Kit weist, wenn auch indirekt, darauf hin
dass Prescott nicht für komplexe Mathematik ausgelegt ist. Auch mit der neuen Frequenz
Mit 3,4 GHz liegt er weit von seinen Konkurrenten entfernt. Aber Northwood 3,4 GHz hat das bewiesen
bei Verwendung der Hyper-Threading-Technologie seine Rechenkapazitäten
dem Athlon 64 3400+ praktisch nicht unterlegen.

Die übrigen Ergebnisse können unter dem Gesichtspunkt globaler Muster betrachtet werden.
Es besteht eine echte Übereinstimmung zwischen der 3400+-Bewertung des Athlon 64 2,2 GHz und der echten.
Leistung Pentium 4 (Northwood) 3,4 GHz. Mit einigen Abweichungen
(Unreal Tournament schnitt auf CPUs immer besser ab
AMD und „Multimedia“ sind mit Intel-CPUs immer besser, insbesondere mit
Bei Verwendung von Software, die SMP unterstützt, beobachten wir grundsätzlich eine ähnliche Leistung.
Schauen wir uns nun an, wo der neue 90-nm-Intel-Prozessor an erster Stelle steht
Orte - Archivierung WinRAR, 3DMark 2003, SPECviewperf 7.1.1. Wieder bemerkenswert
- Wenn Prescott zurückbleibt, dann liegt er deutlich zurück, wenn er an der Spitze liegt, dann ist er auch sehr zurück
spürbar. Eine weitere Bestätigung dafür, dass der neue Intel-Prozessor nicht eindeutig sein kann
Nennen Sie es weder „gut“ noch „umgekehrt“. Erstens völlig
Das eigentliche Ökosystem, in dem er sich zu 100 % ausdrücken kann, hat sich nicht gebildet.
und zweitens, er einfach ein anderer(Anders als alles, was wir sind
Es hat lange gedauert, bis man sich daran gewöhnt hat).

Schlussfolgerungen

Nach dem eher revolutionären Auftritt der AMD64-Familie, der für Aufsehen sorgte
und was die IT-Community begeistert hat, ist wieder etwas Ruhe zu beobachten.
Wie unsere Tests gezeigt haben, handelt es sich um die neuen Mainstream-Prozessoren Intel Pentium 4 (Northwood).
3,4 GHz und AMD Athlon 64 3400+ 2,2 GHz sind wirklich „Top“
für beide Unternehmen und stehen einander in nichts nach, und die Wahl bleibt exklusiv
hinter dem Benutzer. Obwohl die AMD-Plattform den Käufer etwas weniger kosten wird,
aber der dramatische Unterschied, der im Fall des Athlon XP bestand, wird nicht mehr vorhanden sein.
Nun, wenn Sie neue High-End-Systeme erwerben möchten, unabhängig vom Hersteller
Die Plattform muss vergleichbare Beträge zahlen. Würden Sie den Kauf empfehlen?
Prescott eignet sich für diejenigen, die Eigentümer fortschrittlicher Technologien werden möchten
müssen sich in Zukunft beweisen. Die Plattform ist sozusagen „für Wachstum“ da.

Dennoch werden wir einige Beschwerden über Prescott äußern. Sie bestehen auch darin
hohe Wärmeentwicklung. Auch wenn alle Empfehlungen zur Zirkulation befolgt wurden
Luft erreichten wir im geschlossenen Gehäuse ca. 70 °C auf dem Chip. Im Falle einer Verwendung
Bei leistungsstarken Grafikkarten und PC3200-Speichermodulen kann dies zu Überhitzung führen
Im Inneren des Gehäuses wird die Temperatur 50 °C überschreiten – Sie stimmen zu, das ist zu viel. Wir hoffen, dass in
In zukünftigen Schritten wird Intel dieses Problem intensiv angehen, ansonsten weiter
Eine Erhöhung der Frequenzen kann sich als unsicher erweisen.

Übertakten

Für eine ernsthafte und stabile Übertaktung neuer Prozessoren von Intel ist dies erforderlich
Ersetzen Sie zumindest die Standardkühler durch etwas Leistungsstärkeres und fügen Sie sie dem Gehäuse hinzu
ein paar Fans. CPU mit Index „C“ konnte stabil arbeiten
bei einer Frequenz von 3,72 GHz (wahrscheinlich sind weitere Elemente im Stromkreis betroffen).
worüber wir am Anfang gesprochen haben). Prescott erreichte die Schwelle von 3,8 GHz, allerdings im offenen Zustand
Gehäuse und mit dem Zalman CNPS7000ACu-Kühler, so scheint es uns, können wir mehr erreichen
Frequenzen mit herkömmlichen Kühlmethoden werden einfach nicht gelingen.


Es scheint, dass der Pentium 4 2,8 GHz erst vor nicht allzu langer Zeit auf den Markt kam, aber das rastlose Intel-Unternehmen ist offenbar so stolz auf die Fähigkeit seines neuen Prozessorkerns, ständig zu „übertakten“, dass es uns mit Ankündigungen immer neuer Prozessoren verfolgt :). Allerdings unterscheidet sich unser heutiger Held nicht nur um rund 200 Megahertz vom bisherigen Spitzenmodell, auch etwas, wovon einige besonders fortgeschrittene Anwender schon lange geträumt haben, ist endlich wahr geworden: die bisherige Technologie, zwei Prozessoren auf einem Prozessorkern zu emulieren Das Eigentum nur ultrateuerer Xeons wurde schließlich „befreit“ und in die „freie Desktop-Navigation“ geschickt. Möchten Sie einen Heimcomputer mit zwei Prozessoren? Wir haben sie! Alle nachfolgenden Pentium 4-Modelle, beginnend mit dem in diesem Material besprochenen, werden Hyper-Threading unterstützen. Allerdings könnte sich jemand durchaus fragen: „Warum brauche ich zu Hause eine Dual-Prozessor-Maschine?“ Ich habe keinen Server!“ Und wirklich, warum? Genau das haben wir im Folgenden zu erklären versucht. Also: Hyper-Threading, was ist das und warum könnte es in normalen PCs benötigt werden?

SMP und Hyper-Threading: „im Galopp durch Europa“

Stellen wir uns zunächst einmal vor, dass wir „bei Null“ anfangen würden, d. h. dass uns die Funktionsmechanismen von Multiprozessorsystemen unbekannt sind. Wir werden mit diesem Artikel nicht eine Reihe von Monographien zu diesem Thema beginnen :), daher werden wir nicht auf komplexe Themen eingehen, die beispielsweise mit der Virtualisierung von Unterbrechungen und anderen Dingen zusammenhängen. Tatsächlich müssen wir uns nur vorstellen, wie ein klassisches SMP-System (Symmetric Multi-Processor) aus der Sicht der gewöhnlichen Logik funktioniert. Dies ist schon deshalb notwendig, weil es nicht so viele Anwender gibt, die ein gutes Verständnis dafür haben, wie ein SMP-System funktioniert und in welchen Fällen eine echte Leistungssteigerung durch den Einsatz von zwei Prozessoren statt einem zu erwarten ist und in welchen Fällen nicht . Ehrlich gesagt hat einer der Autoren dieses Materials irgendwie anderthalb Stunden seiner Zeit damit verschwendet, seinem, sagen wir, „nicht armen“ Freund zu beweisen, dass Unreal Tournament auf seinem Multiprozessorrechner nicht schneller laufen würde als auf einem normalen :) . Lustig? Ich versichere Ihnen nur von außen. Stellen wir uns also vor, wir hätten beispielsweise zwei Prozessoren (konzentrieren wir uns auf dieses einfachste Beispiel) statt einem. Was bringt uns das?

Im Allgemeinen nichts. Denn darüber hinaus benötigen wir auch ein Betriebssystem, das diese beiden Prozessoren nutzen kann. Dieses System muss per Definition multitaskingfähig sein (ansonsten macht es einfach keinen Sinn, zwei CPUs zu haben), aber darüber hinaus muss sein Kernel in der Lage sein, Berechnungen über mehrere CPUs hinweg zu parallelisieren. Ein klassisches Beispiel für ein Multitasking-Betriebssystem, das dies nicht kann, sind alle Microsoft-Betriebssysteme, der Kürze halber üblicherweise „Windows 9x“ genannt 95, 95OSR2, 98, 98SE, Me. Sie können einfach nicht erkennen, dass mehr als ein Prozessor im System vorhanden ist, und tatsächlich gibt es dazu nichts weiter zu erklären :). SMP-Unterstützung bieten Betriebssysteme desselben Herstellers, die auf dem NT-Kernel basieren: Windows NT 4, Windows 2000, Windows XP. Aufgrund ihrer Wurzeln verfügen auch alle Betriebssysteme, die auf der Unix-Ideologie basieren, über diese Unterstützung – alle Arten von Free-Net-BSD, kommerzielles Unix (wie Solaris, HP-UX, AIX) und zahlreiche Linux-Varianten. Ja, übrigens, MS DOS „versteht“ Multiprocessing im Allgemeinen auch nicht :).

Wenn dennoch zwei Prozessoren vom System identifiziert werden, ist der weitere Mechanismus zu ihrer Aktivierung im Allgemeinen (auf der „logischen“, wie wir betonen, Ebene!) recht einfach. Wenn zu einem bestimmten Zeitpunkt eine Anwendung ausgeführt wird, werden ihr alle Ressourcen eines Prozessors zugewiesen, während der zweite einfach im Leerlauf ist. Wenn es zwei Anwendungen gibt, wird die zweite zur Ausführung an die zweite CPU übergeben, sodass sich die Ausführungsgeschwindigkeit der ersten theoretisch überhaupt nicht verringern sollte. Es ist primitiv. In Wirklichkeit ist jedoch alles komplizierter. Zunächst einmal läuft möglicherweise nur eine ausführbare Benutzeranwendung, aber die Anzahl der Prozesse (d. h. Fragmente des Maschinencodes, die zur Ausführung einer bestimmten Aufgabe entwickelt wurden) in einem Multitasking-Betriebssystem ist immer viel größer. Beginnen wir mit der Tatsache, dass das Betriebssystem selbst auch eine Anwendung ist. Gehen wir also nicht tiefer – die Logik ist klar. Daher ist die zweite CPU tatsächlich in der Lage, sogar eine einzelne Aufgabe ein wenig zu „unterstützen“, indem sie die Bedienung der vom Betriebssystem generierten Prozesse übernimmt. Apropos Vereinfachungen: Dies ist genau die ideale Möglichkeit, die CPU zwischen der Benutzeranwendung und dem Betriebssystem aufzuteilen. Natürlich wird es immer noch nicht funktionieren, aber zumindest wird der Prozessor, der mit der Ausführung einer „nützlichen“ Aufgabe beschäftigt ist, weniger abgelenkt .

Darüber hinaus kann bereits eine Anwendung Threads generieren, die bei mehreren CPUs separat auf diesen ausgeführt werden können. So verhalten sich beispielsweise fast alle Rendering-Programme, sie wurden speziell unter Berücksichtigung der Fähigkeit geschrieben, auf Multiprozessorsystemen zu arbeiten. Daher ist der Nutzen von SMP bei der Verwendung von Threads manchmal recht groß Ö Ich bin sogar in einer „Single-Tasking“-Situation. Tatsächlich unterscheidet sich ein Thread nur in zweierlei Hinsicht von einem Prozess: Erstens wird er niemals vom Benutzer generiert (der Prozess kann sowohl vom System als auch von einer Person gestartet werden, im letzteren Fall ist der Prozess = Anwendung; das Erscheinen eines Thread wird ausschließlich durch den laufenden Prozess initiiert), und zweitens stirbt der Thread zusammen mit dem übergeordneten Prozess, unabhängig von seinem Wunsch. Wenn beispielsweise der übergeordnete Prozess „Störungen aufweist und abstürzt“, betrachtet das Betriebssystem alle von ihm erzeugten Threads als verwaist und „nagelt ab“. ” es selbst, automatisch.

Vergessen Sie auch nicht, dass in einem klassischen SMP-System beide Prozessoren jeweils mit ihrem eigenen Cache und Registersatz arbeiten, sich jedoch den Speicher teilen. Wenn also zwei Aufgaben gleichzeitig mit RAM arbeiten, stören sie sich gegenseitig, auch wenn jede über eine eigene CPU verfügt. Und zum Schluss noch das Letzte: In Wirklichkeit haben wir es nicht mit einem, nicht mit zwei, nicht einmal mit drei Prozessen zu tun. In der obigen Collage (dies ist eigentlich eine Collage, da alle Benutzerprozesse, d. h. Anwendungen, die „für die Arbeit“ gestartet wurden) aus dem Screenshot des Task-Managers entfernt wurden, ist deutlich zu erkennen, dass dies beim „nackten“ Windows XP selbst nicht der Fall war Dennoch hat jede gestartete Anwendung bereits 12 Prozesse erzeugt, viele davon auch Multithreading, und die Gesamtzahl der Threads erreicht zweihundertacht (!!!).

Daher besteht absolut keine Notwendigkeit, damit zu rechnen, dass wir zum Schema „eigene CPU für jede Aufgabe“ gelangen können und Prozessoren weiterhin zwischen Codefragmenten wechseln – sowohl physischen als auch virtuellen, und selbst wenn sie virtuell sind im Quadrat und jeweils 10 für jeden physischen Kern :). In Wirklichkeit ist jedoch bei gut geschriebenem Code nicht alles so traurig, ein Prozess (oder Thread), der gerade nichts tut, nimmt praktisch keine Prozessorzeit in Anspruch (dies ist auch in der Collage sichtbar).

Nachdem wir uns nun mit dem „physischen“ Multiprocessing befasst haben, gehen wir zum Hyper-Threading über. Tatsächlich ist dies auch Multiprocessing, nur virtuell. Denn eigentlich gibt es nur einen Pentium 4-Prozessor – hier steht er in einem Sockel, mit einem darauf geschlagenen Kühler :). Es gibt keine zweite Steckdose. Und das Betriebssystem sieht zwei Prozessoren. Wie ist es? Im Allgemeinen ist es sehr einfach. Schauen wir uns die Zeichnung an.

Hier müssen wir noch etwas tiefer in die technischen Details einsteigen, denn sonst lässt sich leider nichts erklären. Wer sich jedoch nicht für diese Details interessiert, kann diesen Absatz einfach überspringen. In unserem Fall wurde also der klassische „Single-Core“-Prozessor mit einem weiteren AS IA-32 Architectural State-Block hinzugefügt. Der Architekturstatus enthält den Status der Register (allgemeiner Zweck, Kontrolle, APIC, Service). Tatsächlich ist AS#1 plus ein einzelner physischer Kern (Zweigvorhersageeinheiten, ALU, FPU, SIMD-Blöcke usw.) ein logischer Prozessor (LP1) und AS#2 plus derselbe physische Kern ist ein zweiter logischer Prozessor (LP2). ). Jeder LP verfügt über einen eigenen Interrupt-Controller (APIC Advanced Programmable Interrupt Controller) und einen Satz Register. Für die korrekte Verwendung von Registern durch zwei LPs gibt es eine spezielle Tabelle RAT (Register Alias ​​​​Table), anhand derer Sie eine Entsprechung zwischen Allzweckregistern einer physischen CPU herstellen können. Jede LP hat ihre eigene RAT. Als Ergebnis haben wir ein Schema erhalten, bei dem zwei unabhängige Codefragmente frei auf demselben Kern ausgeführt werden können, d. h. de facto ein Multiprozessorsystem!

Hyper-Threading-Kompatibilität

Um auf das Praktische und Bodenständige zurückzukommen, möchte ich noch auf einen weiteren wichtigen Aspekt eingehen: Nicht alle Betriebssysteme, auch solche, die Multiprocessing unterstützen, können mit einer solchen CPU arbeiten. Dies ist auf einen so „subtilen“ Punkt wie die anfängliche Bestimmung der Anzahl der Prozessoren bei der Initialisierung des Betriebssystems zurückzuführen. Intel sagt direkt, dass ein Betriebssystem ohne ACPI-Unterstützung den zweiten logischen Prozessor nicht sehen kann. Darüber hinaus muss das Motherboard-BIOS auch in der Lage sein, das Vorhandensein eines Prozessors mit Hyper-Threading-Unterstützung zu erkennen und dies dem System zu „melden“. Tatsächlich bedeutet dies beispielsweise in Bezug auf Windows, dass wir „im Flug“ nicht nur die Windows 9x-Reihe haben, sondern auch Windows NT, mit dem letzteres aufgrund der fehlenden ACPI-Unterstützung nicht arbeiten kann ein neuer Pentium 4 wie bei zwei. Das Schöne ist jedoch, dass Windows XP Home Edition trotz der blockierten Fähigkeit, mit zwei physischen Prozessoren zu arbeiten, mit zwei logischen Prozessoren arbeiten kann, die mithilfe von Hyper-Threading erhalten wurden. Und Windows XP Professional „sieht“ übrigens, obwohl die Anzahl der physischen Prozessoren auf zwei begrenzt ist, mit zwei installierten CPUs mit Hyper-Threading-Unterstützung ehrlich gesagt vier :).

Nun ein wenig zur Hardware. Dass bei neuen CPUs mit einer Taktung von mehr als 3 GHz möglicherweise ein Austausch des Mainboards erforderlich werden muss, weiß wahrscheinlich schon jeder; die Erde (bzw. das Internet) ist schon lange voller Gerüchte. Leider stimmt das tatsächlich. Trotz der nominellen Beibehaltung des gleichen Sockels 478-Prozessorsockels konnte Intel den Stromverbrauch und die Wärmeableitung der neuen Prozessoren nicht beibehalten – sie verbrauchen mehr und werden dementsprechend heißer. Es kann davon ausgegangen werden (obwohl dies nicht offiziell bestätigt wurde), dass der Anstieg des Stromverbrauchs nicht nur mit einer Erhöhung der Frequenz verbunden ist, sondern auch mit der Tatsache, dass aufgrund der erwarteten Verwendung von „virtuellem Multiprocessing“ die Belastung des Kerns Im Durchschnitt erhöht sich daher der durchschnittliche Stromverbrauch. „Alte“ Mainboards in einigen Fällen möglicherweise mit neuen CPUs kompatibel aber nur, wenn sie „mit Vorbehalt“ durchgeführt wurden. Grob gesagt waren diejenigen Hersteller, die ihre Leiterplatten nach Intels eigenen Empfehlungen hinsichtlich der Leistungsaufnahme des Pentium 4 herstellten, im Nachteil gegenüber denen, die ein wenig „auf Nummer sicher“ gingen, indem sie einen VRM mit einem Spielraum auf die Platine setzten und es entsprechend aufteilen. Aber das ist nicht alles. Zusätzlich zu Betriebssystem, BIOS und Platinenelektronik mit Hyper-Threading-Technologie Auch der Chipsatz muss kompatibel sein. Daher werden nur diejenigen, deren Motherboard auf einem der neuen Chipsätze mit Unterstützung für 533 MHz FSB basiert: i850E, i845E, i845PE/GE, glückliche Besitzer von zwei Prozessoren zum Preis von einem sein :) Der i845G sticht ein wenig heraus, da es sich um die erste Revision dieses Hyper-Threading-Chipsatzes handelt nicht unterstützen, später ist bereits kompatibel.

Nun, es scheint, als hätten wir die Theorie und Kompatibilität geklärt. Aber lasst uns nichts überstürzen. OK, wir haben zwei „logische“ Prozessoren, wir haben Hyper-Threading, wow! das ist cool. Aber wie oben erwähnt hatten wir physisch nur einen Prozessor und haben ihn immer noch. Warum ist dann eine so komplexe „Emulations“-Technologie erforderlich, die man verwerfen kann, was man Freunden und Bekannten stolz vorführen kann? Task-Manager mit Diagrammen der Belastung auf zwei CPUs?

Hyper-Threading: Warum wird es benötigt?

Anders als üblich widmen wir uns in diesem Artikel etwas mehr Aufmerksamkeit als sonst Argumentation also keine technische Prosa (wo im Allgemeinen alles recht eindeutig interpretiert wird und auf der Grundlage der gleichen Ergebnisse völlig unabhängige Menschen am häufigsten dennoch sehr ähnliche Schlussfolgerungen ziehen), sondern „technische Texte“, also ein Versuch zu verstehen, was Intel uns bietet und wie wir es angehen sollten. Ich habe bereits mehrmals in der „Redaktionskolumne“ auf unserer Website geschrieben und möchte hier wiederholen, dass dieses Unternehmen, wenn man genau hinschaut, nie anders war absolut Die Perfektion ihrer Produkte, darüber hinaus erwiesen sich Variationen zu gleichen Themen anderer Hersteller teilweise als viel interessanter und konzeptionell stimmiger. Es stellte sich jedoch heraus, dass es nicht notwendig ist, alles perfekt zu machen; Hauptsache, der Chip repräsentiert eine Idee, und diese Idee kam zur richtigen Zeit und am richtigen Ort. Und auch, damit andere es einfach nicht haben.

Dies war beim Pentium der Fall, als Intel den AMD Am5x86 mit einer leistungsstarken FPU dem sehr schnellen Integer-Prozessor gegenüberstellte. Dies war beim Pentium II der Fall, der einen dicken Bus und einen schnellen Second-Level-Cache erhielt, dank dem nicht alle Sockel-7-Prozessoren mithalten konnten. Dies war auch der Fall (naja, zumindest halte ich es für einen vollendete Tatsachen) mit dem Pentium 4, der alle anderen mit der Präsenz der SSE2-Unterstützung und dem rasanten Frequenzanstieg konkurrierte und auch de facto gewann. Jetzt bietet uns Intel Hyper-Threading an. Und wir ermutigen Sie keineswegs dazu, in heiliger Hysterie mit der Stirn gegen die Wand zu schlagen und zu rufen: „Herr, erbarme dich“, „Allah ist groß“ oder „Der Intellekt regiert für immer.“ Nein, wir laden Sie nur dazu ein, darüber nachzudenken, warum ein Hersteller, der für die Kompetenz seiner Ingenieure (kein Wort über Vermarkter! :)) und die enormen Forschungsausgaben bekannt ist, uns diese Technologie anbietet.

Hyper-Threading als „nur einen weiteren Marketing-Gimmick“ zu bezeichnen, ist natürlich so einfach wie Birnen schälen. Vergessen Sie jedoch nicht, dass dies der Fall ist Technologie Es erfordert Recherche, Geld für die Entwicklung, Zeit und Mühe. Wäre es nicht einfacher, für einen geringeren Betrag weitere hundert PR-Manager einzustellen oder ein Dutzend schönerer Werbevideos zu erstellen? Anscheinend ist es nicht einfacher. Was bedeutet: „Da ist etwas drin.“ Jetzt werden wir versuchen, nicht einmal zu verstehen, was dabei geschah, sondern vielmehr, was die Entwickler der IAG (Intel Architecture Group) leitete, als sie die Entscheidung trafen (und eine solche Entscheidung wurde wahrscheinlich auch getroffen!), „diese interessante Idee“ weiterzuentwickeln , oder in einer Truhe aufzubewahren für Ideen, die lustig, aber nutzlos sind.

Seltsamerweise reicht es aus, zu verstehen, wie ein Multitasking-Betriebssystem funktioniert, um zu verstehen, wie Hyper-Threading funktioniert. Und wirklich gut, es erfüllt irgendwie eins Dutzende Aufgaben gleichzeitig verarbeiten? Dieses „Geheimnis“ ist seit langem jedem bekannt – tatsächlich läuft jeweils nur noch einer (auf einem Einprozessorsystem), der Wechsel zwischen Codeteilen für verschiedene Aufgaben erfolgt nur so schnell, dass die Illusion entsteht Es entsteht eine große Anzahl gleichzeitig laufender Anwendungen.

Im Wesentlichen bietet uns Hyper-Threading dasselbe, jedoch in Hardware implementiert, innerhalb der CPU selbst. Es gibt eine Reihe verschiedener Ausführungseinheiten (ALU, MMU, FPU, SIMD) und es gibt zwei „gleichzeitig“ ausgeführte Codefragmente. Ein spezieller Block überwacht, welche Befehle von jedem Fragment gerade ausgeführt werden müssen, und prüft dann, ob sie mit Arbeit geladen sind Alle Prozessorausführungseinheiten. Wenn einer von ihnen untätig ist, und er ist derjenige, der diesen Befehl ausführen kann Es wird an ihn weitergegeben. Selbstverständlich gibt es auch einen Mechanismus, um die Ausführung eines Befehls zu erzwingen, andernfalls könnte ein Prozess den gesamten Prozessor (alle Ausführungseinheiten) übernehmen und die Ausführung des zweiten Codeabschnitts (ausgeführt auf der zweiten „virtuellen CPU“) würde unterbrochen werden. Soweit wir wissen, ist dieser Mechanismus (noch?) nicht intelligent, d. h. er ist nicht funktionsfähig verschieden Prioritäten, sondern wechselt einfach Befehle aus zwei verschiedenen Ketten in der Reihenfolge ihrer Priorität ab, d. h. einfach nach dem Prinzip „Ich habe Ihren Befehl ausgeführt, jetzt geben Sie einem anderen Thread Platz.“ Es sei denn natürlich, es kommt zu einer Situation, in der die Befehle einer Kette hinsichtlich der Ausführungsblöcke nirgends mit den Befehlen einer anderen konkurrieren. In diesem Fall erhalten wir eine wirklich 100 % parallele Ausführung zweier Codefragmente.

Lassen Sie uns nun darüber nachdenken, warum Hyper-Threading potenziell gut ist und was nicht. Die offensichtlichste Konsequenz seines Einsatzes ist eine Steigerung der Effizienz des Prozessors. Wenn tatsächlich eines der Programme hauptsächlich Ganzzahlarithmetik verwendet und das zweite Gleitkommaberechnungen durchführt, dann tut die FPU während der Ausführung des ersten einfach nichts, und während der Ausführung des zweiten Programms tut die ALU im Gegenteil einfach nichts Nichts. Es scheint, dass dies das Ende sein könnte. Wir haben jedoch nur die ideale Option (im Hinblick auf die Verwendung von Hyper-Threading) in Betracht gezogen. Schauen wir uns nun etwas anderes an: Beide Programme nutzen die gleichen Prozessorblöcke. Es ist klar, dass es in diesem Fall ziemlich schwierig ist, die Ausführung zu beschleunigen, da sich die physische Anzahl der Ausführungseinheiten aufgrund der „Virtualisierung“ nicht geändert hat. Aber wird es nicht langsamer? Lass es uns herausfinden. Im Fall eines Prozessors ohne Hyper-Threading haben wir einfach eine „ehrliche“ alternative Ausführung zweier Programme auf demselben Kern mit einem Arbiter in Form eines Betriebssystems (das selbst ein anderes Programm ist) und der Gesamtzeit von ihre Wirkungsweise wird bestimmt:

  1. Ausführungszeit des Programmcodes Nr. 1
  2. Ausführungszeit des Programmcodes Nr. 2
  3. Zeitaufwand für den Wechsel zwischen Codefragmenten der Programme Nr. 1 und Nr. 2

Was haben wir im Fall von Hyper-Threading? Das Schema wird etwas anders:

  1. Ausführungszeit des Programms Nr. 1 auf Prozessor Nr. 1 (virtuell)
  2. Ausführungszeit des Programms Nr. 2 auf Prozessor Nr. 2 (virtuell)
  3. Zeit zum Wechseln eines physischen Kerns (als Satz von Ausführungseinheiten, die von beiden Programmen benötigt werden) zwischen zwei emulierten „virtuellen CPUs“

Es bleibt, das zuzugeben und hier handelt Intel ganz logisch: Nur Punkt Nummer drei konkurriert hinsichtlich der Leistung miteinander, und wenn im ersten Fall die Aktion in Software und Hardware ausgeführt wird (das Betriebssystem steuert den Wechsel zwischen Threads und nutzt dafür Prozessorfunktionen), dann sind wir im zweiten Fall tatsächlich haben vollständig Hardware-Lösung Der Prozessor erledigt alles selbst. Theoretisch ist eine Hardwarelösung immer schneller. Betonen wir: theoretisch. Wir haben noch einen Workshop vor uns.

Aber das ist nicht alles. Einer der gravierendsten, nein, keine Mängel, sondern eher unangenehme Momente ist auch, dass Befehle leider nicht im luftleeren Raum ausgeführt werden, sondern der Pentium 4 sich mit klassischem x86-Code auseinandersetzen muss, der aktiv die direkte Adressierung von Zellen und nutzt sogar ganze Arrays, die sich außerhalb des Prozessors im RAM befinden. Und im Allgemeinen liegen dort übrigens am häufigsten die meisten verarbeiteten Daten :). Daher „kämpfen“ unsere virtuellen CPUs untereinander nicht nur um Register, sondern auch um den gemeinsamen Prozessorbus, an dem Daten einfach nicht zur CPU gelangen können. Es gibt jedoch einen subtilen Punkt: Heutzutage befinden sich „ehrliche“ Dual-Prozessor-Systeme auf Pentium III und Xeon in genau der gleichen Situation! Denn unser guter alter AGTL+-Bus, den alle heutigen Intel-Prozessoren vom berühmten Pentium Pro geerbt haben (später wurde er nur noch modifiziert, die Ideologie wurde aber praktisch nicht angetastet), ist IMMER EINS, egal wie viele CPUs im System verbaut sind. Das ist so ein „Prozessorkoaxial“ :). Lediglich AMD hat auf x86 mit seinem Athlon MP versucht, von diesem Schema abzuweichen. AMD 760MP/760MPX wechselt von jedem Prozessor zur Northbridge des Chipsatzes separate Reifen. Aber selbst in einer so „fortgeschrittenen“ Version sind wir nicht weit von Problemen entfernt denn eigentlich haben wir genau einen Speicherbus und in diesem Fall ist es bereits überall (wir erinnern Sie daran, dass es sich um x86-Systeme handelt).

Allerdings hat jede Wolke einen Silberstreif am Horizont, und selbst in diesem im Allgemeinen nicht sehr angenehmen Moment kann Hyper-Threading einige Vorteile bringen. Fakt ist, dass wir theoretisch eine deutliche Leistungssteigerung nicht nur dann sehen sollten, wenn mehrere Aufgaben unterschiedliche Funktionsblöcke des Prozessors nutzen, sondern auch, wenn die Aufgaben unterschiedlich mit Daten im RAM arbeiten. Um auf das alte Beispiel in neuer Form zurückzukommen: Wenn eine Anwendung intensiv etwas „intern“ berechnet, während die andere ständig Daten aus dem RAM pumpt, dann sollte sich die Gesamtausführungszeit bei Verwendung von Hyper-Threading theoretisch verringern, selbst wenn Sie verwenden dieselben Befehlsausführungsblöcke, schon allein deshalb, weil Befehle zum Lesen von Daten aus dem Speicher verarbeitet werden können, während unsere erste Anwendung intensiv etwas liest.

Zusammenfassend lässt sich sagen: Aus theoretischer Sicht sieht die Hyper-Threading-Technologie sehr gut aus und wir würden sagen: „ausreichend“, das heißt, sie entspricht den heutigen Realitäten. Es ist schon recht selten, dass ein Benutzer ein einsames Fenster auf dem Bildschirm öffnet, in dem jeder gleichzeitig Musik hören, im Internet surfen, CDs mit seinen Lieblings-MP3s brennen und vor diesem Hintergrund vielleicht sogar ein Baller- oder Strategiespiel spielen möchte , die, wie Sie wissen, den Prozessor mit schrecklicher Kraft „lieben“ :). Andererseits ist bekannt, dass eine bestimmte Implementierung mit ihrer „Krümmung“ manchmal jede der besten Ideen zunichte machen kann, und das haben wir auch in der Praxis schon mehr als einmal erlebt. Nachdem wir mit der Theorie fertig sind, gehen wir nun zur Praxis und den Tests über. Sie sollten uns helfen, die zweite Hauptfrage zu beantworten: Ist Hyper-Threading jetzt so gut und nicht als Idee, sondern als konkrete Umsetzung dieser Idee „in Silizium“. Testen

Prüfstand:

  • Prozessor: Intel Pentium 4 3,06 GHz mit Unterstützung für Hyper-Threading-Technologie, Sockel 478
  • Motherboard: Gigabyte 8PE667 Ultra (BIOS-Version F3) auf i845PE-Chipsatz
  • Speicher: 512 MB PC2700 (DDR333) DDR SDRAM DIMM Samsung, CL 2
  • Grafikkarte: Palit Daytona GeForce4 Ti 4600
  • Festplatte: IBM IC35L040AVER07-0, 7200 U/min

Software:

  • Betriebssystem und Treiber:
    • Windows XP Professional SP1
    • DirectX 8.1b
    • Intel Chipsatz-Softwareinstallationsprogramm 4.04.1007
    • Intel Application Accelerator 2.2.2
    • Audiotreiber 3.32
    • NVIDIA Detonator XP 40.72 (VSync=Aus)
  • Testanwendungen:
    • (mit Unterstützung für Multiprocessing und Hyper-Threading-Technologie)
    • RazorLame 1.1.5.1342 + Lame-Codec 3.92
    • VirtualDub 1.4.10 + DivX-Codec 5.02 Pro
    • WinAce 2.2
    • Diskret 3ds max 4.26
    • BAPCo & MadOnion SYSmark 2002
    • MadOnion 3DMark 2001 SE Build 330
    • Gray Matter Studios & Nerve Software Return to Castle Wolfenstein v1.1
    • Croteam/GodGames Serious Sam: The Second Encounter v1.07

Anders als üblich werden wir heute nicht die Leistung des neuen Pentium 4 3,06 GHz im Vergleich zu Vorgängermodellen oder Konkurrenzprozessoren testen. Denn das ist grundsätzlich bedeutungslos. Die Tests, aus denen sich unsere Methodik zusammensetzt, haben sich über einen längeren Zeitraum nicht verändert, und diejenigen, die die notwendigen Vergleiche anstellen möchten, können die Daten aus früheren Materialien verwenden, aber wir werden uns auf das Wesentliche konzentrieren, ohne uns mit den Details zu beschäftigen. Und das Wichtigste in diesem Material ist, wie Sie sich vorstellen können, die Untersuchung der Hyper-Threading-Technologie und ihrer Auswirkungen auf die Leistung Was? Keine so leere Frage, wie sich herausstellt. Lassen wir uns jedoch nicht überstürzen. Beginnen wir mit den traditionellen Tests, durch die wir uns (im Kontext dieses Materials) den wichtigsten Tests reibungslos nähern.

WAV in MP3 kodieren (Lahm)
VideoCD in MPEG4 (DivX) kodieren
Archivierung mit WinAce mit 4MB Wörterbuch

Obwohl Hyper-Threading keinen offensichtlichen Vorteil zeigte, muss man sagen, dass wir dieser Technologie keine große Chance gegeben haben. Fast alle Anwendungen sind „Einzelprozessor“-Anwendungen, sie generieren keine gleichzeitig ausgeführten Threads (überprüft!), und Daher handelt es sich in diesen Fällen um einen regulären Pentium 4, dessen Frequenz leicht erhöht wurde. Es ist kaum angebracht, vor dem Hintergrund solch winziger Abweichungen über Trends zu sprechen, obwohl sie, wenn man sie wirklich aus der Luft holt, sogar leicht für Hyper-Threading sprechen.

3ds max 4.26

Ein klassischer Test, gleichzeitig aber auch die erste Anwendung in diesem Test, die Multiprocessing explizit unterstützt. Natürlich kann der Vorteil eines Systems mit aktivierter Hyper-Threading-Unterstützung nicht als kolossal bezeichnet werden (er beträgt etwa 3 %), aber vergessen wir nicht, dass Hyper-Threading in diesem Fall nicht in der für ihn besten Situation funktioniert hat: 3ds max implementiert SMP-Unterstützung aufgrund der Generierung Ströme, und sie dienen alle dem gleichen Zweck (Szenenwiedergabe) und enthalten daher ungefähr die gleichen Befehle und funktionieren daher auch auf die gleiche Weise (nach dem gleichen Schema). Wir haben bereits geschrieben, dass Hyper-Threading besser für den Fall geeignet ist, dass verschiedene Programme parallel ausgeführt werden und dabei unterschiedliche CPU-Blöcke verwenden. Umso erfreulicher ist es, dass die Technik auch in einer solchen Situation „aus heiterem Himmel“ für eine, wenn auch kleine, Leistungssteigerung sorgen konnte. Es gibt Gerüchte, dass 3ds max 5.0 größere Vorteile bietet, wenn Hyper-Threading aktiviert ist, und angesichts des Eifers, mit dem Intel seine Technologie in die Softwareindustrie drängt, ist dies zumindest einen Blick wert. Zweifellos werden wir dies tun, aber in späteren Materialien zu diesem Thema.

3DMark 2001SE

Die Ergebnisse sind im Allgemeinen recht natürlich und werden wahrscheinlich niemanden überraschen. Vielleicht ist es besser, 3D-Benchmarks genau für den Zweck zu verwenden, für den sie gedacht sind – zum Testen der Geschwindigkeit von Grafikkarten und nicht von Prozessoren? Das ist wahrscheinlich wahr. Allerdings sind die Ergebnisse, wie wir wissen, nicht überflüssig. Ein bisschen alarmierend weniger Punkte für ein System mit aktiviertem Hyper-Threading. Da der Unterschied jedoch etwa 1 % beträgt, würden wir daraus keine weitreichenden Schlussfolgerungen ziehen.

Rückkehr zum Schloss Wolfenstein,
Serious Sam: Die zweite Begegnung

Etwa ähnliche Situation. Allerdings sind wir noch nicht einmal annähernd an Tests herangekommen, die die Vor- (oder Nachteile) von Hyper-Threading irgendwie aufzeigen könnten. Manchmal (in unmerklich geringem Umfang) führt die Verwendung von „Pseudo-Multiprocessing“ zu einem negativen Ergebnis. Das sind jedoch nicht die Empfindungen, auf die wir warten, oder? :) Auch das Testen mit Sound hilft nicht viel, der theoretisch von einem separaten Thread berechnet werden sollte und somit dem zweiten logischen Prozessor eine Chance geben sollte, sich zu beweisen.

SYSmark 2002 (Büroproduktivität und Erstellung von Internetinhalten)

Aber jetzt möchte ich nur noch laut schreien: „Na, wer hat daran gezweifelt, dass Hyper-Threading wirklich in der Lage ist, die Leistung bei echten Aufgaben zu steigern?!“ Das Ergebnis: +1620 % ist wirklich atemberaubend. Und das Interessanteste ist, dass SYSmark versucht, genau das Betriebssystem zu emulieren, das Intel für die Einführung der Hyper-Threading-Technologie als das „erfolgreichste“ erachtet verschieden Anwendungen und gleichzeitiges Arbeiten mit ihnen. Darüber hinaus agiert SYSmark 2002 bei der Ausführung seines Skripts im Hinblick auf die Simulation der Benutzerarbeit recht kompetent, indem es einige Anwendungen „in den Hintergrund schickt“, die bereits ihre „Langzeitaufgabe“ erhalten haben. Beispielsweise erfolgt die Videokodierung vor dem Hintergrund der Ausführung anderer Anwendungen aus dem Internet Content Creation-Skript, und im Office-Subtest gibt es allgegenwärtige Antivirensoftware und Sprach-zu-Text-Dekodierung mit Dragon Naturally Speaking. Tatsächlich ist dies der erste Test, bei dem mehr oder weniger „freie“ Bedingungen für die Hyper-Threading-Technologie geschaffen wurden, und sie zeigte sich sofort von ihrer besten Seite! Wir entschieden uns jedoch, uns nicht ausschließlich auf Tests zu verlassen, die nicht von uns geschrieben wurden, und führten mehrere eigene indikative Experimente durch, „um den Effekt zu festigen“. Experimentieren mit Hyper-Threading

Gleichzeitiges Rendern in 3ds max und Archivieren in WinAce

Vor dem Hintergrund eines offensichtlich längeren Archivierungsprozesses wurde zunächst eine Standard-Testszene in 3ds max gerendert. Anschließend wurde vor dem Hintergrund des Renderns einer speziell gestreckten Szene eine standardmäßige Testarchivierung der Datei in WinAce durchgeführt. Das Ergebnis wurde mit der Abschlusszeit der sequentiellen Ausführung derselben Standardtests verglichen. Auf die erhaltenen Zahlen wurden zwei Korrekturfaktoren angewendet: um die Ausführungszeit von Aufgaben auszugleichen (wir glauben, dass der Beschleunigungseffekt aus der parallelen Ausführung von zwei Anwendungen nur dann korrekt berechnet werden kann, wenn die Dauer der ausgeführten Aufgaben gleich ist) und um „Entfernen“ Sie den Effekt der Ungleichmäßigkeit der zugewiesenen Prozessorressourcen für die Vordergrund-/Hintergrundanwendungen. Infolgedessen „zählten“ wir einen positiven Beschleunigungseffekt von 17 % durch den Einsatz der Hyper-Threading-Technologie.

So wurden die beeindruckenden Ergebnisse von SYSmark in einem Test mit zwei realen Programmen nebeneinander bestätigt. Natürlich ist die Beschleunigung nicht zweifach, und wir haben die Tests selbst paarweise ausgewählt, basierend auf der unserer Meinung nach günstigsten Situation für den Einsatz von Hyper-Threading. Betrachten wir diese Ergebnisse jedoch aus dieser Perspektive: Der Prozessor, dessen Leistung wir jetzt im Allgemeinen untersuchen, ist mit Ausnahme der Unterstützung für Hyper-Threading nur der seit langem bekannte Pentium 4. Tatsächlich ist die Spalte „ohne Hyper-Threading“ Das hätten wir sehen können, wenn diese Technologie nicht auf Desktops übertragen worden wäre. Es stellt sich sofort ein etwas anderes Gefühl ein, oder? Beschweren wir uns immer noch nicht (nach heimischer Tradition), dass „nicht alles so gut ist, wie es sein könnte“, sondern denken wir einfach daran, dass wir mit dem neuen Prozessor eine weitere Möglichkeit erhalten haben, die Ausführung einiger Vorgänge zu beschleunigen.

Hintergrundarchivierung in WinAce + Filmwiedergabe
Rendering in 3ds max + Hintergrundmusik abgespielt

Die Durchführung des Tests ist völlig trivial: Parallel zum Ansehen eines mit dem DivX-Codec im MPEG4-Format vorkomprimierten Films wurde im Hintergrund die Archivierung in WinAce gestartet (natürlich im Falle von Bildausfällen und Rucklern beim Anschauen, Dieser Test hätte keine praktische Bedeutung, es gab jedoch keine Beschwerden über die Anzeigequalität. Ebenso wurde beim Rendern einer regulären Testszene in 3ds max Musik aus einer MP3-Datei im Hintergrund abgespielt (über WinAmp) (und Audio-„Stottern“, die dadurch nie bemerkt wurden, wurden verfolgt). Beachten Sie die natürliche Verteilung der Haupt- und Hintergrundrollen in jedem Anwendungspaar. Das Ergebnis war wie üblich der Zeitpunkt der Archivierung bzw. der vollständigen Darstellung der Szene. Die Wirkung von Hyper-Threading in Zahlen: +13 % und +8 %.

Eine ziemlich reale Situation, genau das haben wir versucht zu reproduzieren. Im Allgemeinen (und dies wird später besprochen) ist Hyper-Threading nicht so offensichtlich, wie es scheint. Ein einfacher „frontaler“ Ansatz („Wir haben zwei Prozessoren im Betriebssystem sichtbar; behandeln wir sie als zwei Prozessoren“) hat keinen spürbaren Effekt und es entsteht sogar ein gewisses Gefühl der Täuschung. Kehren wir jedoch zum oben Gesagten zurück und versuchen wir, die Ergebnisse aus verschiedenen Blickwinkeln zu bewerten: Aufgaben, die normalerweise auf einmal erledigt werden, wenn Hyper-Threading aktiviert ist, werden in kürzerer Zeit erledigt. Wer wird versuchen zu behaupten, dass „etwas“ schlimmer ist als „nichts“? Das ist der springende Punkt: Sie bieten uns kein Allheilmittel, sondern „nur“ ein Mittel zur Beschleunigung des vorhandenen Prozessorkerns, der keine grundlegenden Änderungen erfahren hat. Es stellt sich heraus? Ja. Nun, welche weiteren Fragen könnte es im Großen und Ganzen geben? Natürlich erweisen sich die in der Pressemitteilung versprochenen 30 % in den meisten Fällen als weit entfernt, aber Sie sollten nicht so tun, als ob das, was im Leben passiert, vergleichen Sie die Pressemitteilung von Unternehmen X mit der Pressemitteilung von Unternehmen Y und vergewissern Sie sich dass es im ersten Fall weniger Versprechen gibt und sie „marktfähiger“ sind. :) :)

Testen mit CPU RightMark 2002B

Die neue Version von CPU RM unterstützt Multi-Threading (und damit auch Hyper-Threading) und natürlich konnten wir nicht umhin, die Gelegenheit zu nutzen, den neuen Prozessor anhand dieses Benchmarks zu testen. Machen wir einen Vorbehalt, dass dies bisher nur die erste „Ausgabe“ des CPU-RM in Tests von Multiprozessorsystemen ist. Wir können also sagen, dass die Studie „beidseitig“ war und wir Hyper-Threading als Sonderfall von SMP getestet haben ein System mit einem Pentium 4 3,06 GHz, und dieses System wiederum hat unseren Benchmark getestet :) auf die Gültigkeit der Ergebnisse und dementsprechend auf die korrekte Implementierung der Multithreading-Unterstützung darin. Ohne Übertreibung können wir sagen, dass beide Seiten mit den Ergebnissen zufrieden waren :). Trotz der Tatsache, dass der CPU RM zwar immer noch „nicht vollständig multiprozessorfähig“ ist (mehrere Threads werden nur im Rendering-Block erstellt, der Math Solving-Block bleibt Single-Threaded), deuten die von uns erhaltenen Ergebnisse eindeutig auf die Unterstützung von SMP und Hyper-Threading hin vorhanden ist, und die Vorteile ihrer Anwesenheit sind mit bloßem Auge sichtbar. Übrigens ist die Implementierung von Multithreading im „Solver“-Block im Allgemeinen eine viel weniger triviale Aufgabe als im Rendering-Block. Wenn also einer der Leser Ideen dazu hat, warten wir auf Ihre Kommentare, Ideen usw Vorschläge. Wir erinnern Sie daran, dass es sich beim CPU RightMark-Projekt um einen Open-Source-Benchmark handelt, sodass Programmierinteressierte ihn nicht nur nutzen, sondern auch Vorschläge zur Verbesserung des Codes machen können.

Bevor wir zu den Diagrammen übergehen, werfen wir einen genaueren Blick auf die Methodik. Anhand der Spaltenbeschriftungen lässt sich gut erkennen, dass die Systemleistung in gleich zwölf (!) Varianten getestet wurde. Daran ist jedoch nichts auszusetzen und es ist ganz einfach herauszufinden. Folgende Faktoren waren also veränderbar:

  1. Die Tests wurden mit aktiviertem und deaktiviertem Hyper-Threading durchgeführt.
  2. Es wurden die CPU-RM-Einstellungen für die Anzahl der erstellten Threads verwendet: eins, zwei und vier.
  3. Für die im Berechnungsmodul verwendeten Befehlstypen wurden CPU-RM-Einstellungen verwendet: SSE2 und „klassische“ x87-FPU.

Lassen Sie uns Letzteres erklären. Es scheint, dass die Weigerung, SSE2 auf dem Pentium 4 zu verwenden, völliger Unsinn ist (worüber wir bereits mehrfach geschrieben haben). Allerdings in diesem Fall rein theoretisch Dies war eine gute Gelegenheit, die Funktionsweise und Wirksamkeit der Hyper-Threading-Technologie zu testen. Der Punkt ist, dass die FPU-Anweisungen verwendet wurden nur im Berechnungsmodul, aber die SSE-Unterstützung war im Rendering-Modul weiterhin aktiviert. Diejenigen, die den theoretischen Teil sorgfältig gelesen haben, haben wahrscheinlich bereits verstanden, wo der Hund begraben ist. Wir haben verschiedene Teile des Benchmarks erzwungen Verwenden Sie unterschiedliche CPU-Recheneinheiten! Theoretisch hätte der Math Solving-Block des CPU-RM im Falle einer erzwungenen Aufgabe von SSE2 die Ausführungsblöcke der SSE/SSE2-Anweisungen „intakt“ lassen müssen, was es dem Rendering-Block desselben CPU-RM ermöglichte, dies zu tun Nutzen Sie sie voll aus. Jetzt ist es an der Zeit, zu den Ergebnissen überzugehen und zu sehen, wie richtig sich unsere Annahmen erwiesen haben. Beachten Sie außerdem, dass zur Erhöhung der Validität und Stabilität der Ergebnisse eine weitere Einstellung geändert wurde: Die Anzahl der Frames (Standard 300) wurde auf 2000 erhöht.

Hier gibt es praktisch nichts zu kommentieren. Wie oben erwähnt, blieb der „Löser“-Block (Math Solving) unberührt, sodass Hyper-Threading keinen Einfluss auf seine Leistung hat. Gleichzeitig ist es erfreulich, dass es nicht schadet! Schließlich wissen wir bereits, dass theoretisch die Entstehung von Situationen möglich ist, in denen „virtuelles Multiprocessing“ den Betrieb von Programmen beeinträchtigen kann. Wir raten Ihnen jedoch, sich an eine Tatsache zu erinnern: Sehen Sie, wie stark die Leistung des „Solver“-Blocks durch den Verzicht auf SSE2 beeinträchtigt wird! Wir werden etwas später und auf sehr unerwartete Weise auf dieses Thema zurückkommen.

Und hier ist der lang erwartete Triumph. Es ist leicht zu erkennen, dass, sobald die Anzahl der Threads in der Rendering-Einheit größer als eins wird (im letzteren Fall ist es, gelinde gesagt, schwierig, Hyper-Threading-Funktionen zu nutzen:), diese Konfiguration sofort mit einem ausgestattet wird der ersten Plätze. Auffällig ist auch, dass für Systeme mit Hyper-Threading genau zwei Threads optimal sind. Stimmt, vielleicht erinnert sich jemand an den Screenshot des Task-Managers, mit dem wir Sie oben „erschreckt“ haben, also reservieren wir zwei aktiv arbeiten fließen. Im Allgemeinen ist dies offensichtlich und ziemlich logisch – da wir zwei virtuelle CPUs haben, wäre es am richtigsten, eine Situation zu schaffen, in der es auch zwei Threads gibt. Vier ist bereits „Brute Force“, da mehrere Threads beginnen, um jede der virtuellen CPUs zu „kämpfen“. Doch selbst in diesem Fall gelang es dem System mit aktiviertem Hyper-Threading, seinen „Einzelprozessor“-Konkurrenten zu übertreffen.

Es ist immer üblich, ausführlich und mit Geschmack über Erfolge zu sprechen, und natürlich ist es noch ausführlicher und köstlicher, darüber zu sprechen, wenn es Ihre eigenen sind. Wir stellen fest, dass auch das „Experiment mit der Umstellung auf FPU-Anweisungen“ sicherlich ein Erfolg war. Es scheint, dass der Verzicht auf SSE2 einen enormen Einfluss auf die Leistung hätte haben müssen (erinnern Sie sich schnell an die verheerenden Ergebnisse von Math Solving Speed ​​​​mit FPU-Anweisungen im ersten Diagramm dieses Abschnitts). Doch was sehen wir! in der zweiten Zeile, ganz oben, bei den Champions ist genau diese Konfiguration! Die Gründe sind wiederum klar, und das ist sehr erfreulich, denn ihre Klarheit lässt uns Rückschlüsse darauf ziehen Vorhersagbarkeit Verhalten von Systemen, die die Hyper-Threading-Technologie unterstützen. Das „Minus“-Ergebnis des Math Solving-Blocks auf einem System mit aktiviertem Hyper-Threading wurde durch seinen Beitrag zur Gesamtleistung des Rendering-Blocks „kompensiert“, der vollständig den SSE/SSE2-Ausführungseinheiten überlassen wurde. Darüber hinaus entschädigte es so gut, dass aufgrund der Ergebnisse ein solches System im Vordergrund stand. Vielleicht bleibt nur noch einmal zu wiederholen, was oben bereits mehrfach besprochen wurde: Das volle Potenzial von Hyper-Threading zeigt sich in Situationen, in denen aktiv laufende Programme (oder Threads) unterschiedliche CPU-Ausführungseinheiten nutzen. In dieser Situation war diese Funktion besonders ausgeprägt, da es sich um gut und sorgfältig optimierten CPU-RM-Code handelte. Die wichtigste Schlussfolgerung ist jedoch: Im Prinzip funktioniert Hyper-Threading bedeutet, dass es in anderen Programmen funktioniert. Je mehr Zeit ihre Entwickler der Optimierung des Codes widmen, desto besser.

Schlussfolgerungen

Zur Freude aller fortschrittlichen Menschheit hat Intel erneut einen neuen Pentium 4 herausgebracht, dessen Leistung sogar noch höher ist als die des vorherigen Pentium 4, aber das ist nicht die Grenze, und bald werden wir einen noch schnelleren Pentium sehen 4 Hmmm Nicht, dass es nicht wahr wäre. Tatsächlich ist es so. Wir haben jedoch bereits vereinbart, dass wir in diesem Artikel die Leistung des oben genannten Pentium 4 3,06 GHz in Verbindung mit anderen Prozessoren aus eben dem oben im Text genannten Grund nicht betrachten. Sie sehen, wir interessieren uns für Hyper-Threading. So wählerisch sind wir – wir kümmern uns nicht um die vorhersehbaren Ergebnisse einer Erhöhung der Betriebsfrequenz eines seit langem bekannten und vorhersehbaren Prozessorkerns um weitere 200 MHz; geben Sie uns etwas Neues, an das wir noch nie gedacht haben. Und wie scharfsinnige Leser wahrscheinlich bereits vermutet haben, werden sich unsere Schlussfolgerungen erneut dieser tief verwurzelten Technologie und allem, was damit zusammenhängt, widmen. Warum? Wahrscheinlich, weil du alles andere selbst sehr gut weißt.

Und da wir gerade über Hyper-Threading sprechen, klären wir zunächst die Hauptsache für uns selbst: Wie behandelt man es? Wie ist sie? Ohne den Anspruch auf Vollständigkeit zu erheben, formulieren wir die allgemeine Meinung, die wir auf der Grundlage der Testergebnisse haben: Hyper-Threading ist kein SMP. "Ja!!!" Fans der Alternative werden schreien. „Wir wussten es!!!“ Sie werden aus vollem Halse schreien. „Hyper-Threading ist ein unehrliches SMP!!!“ Diese Schreie werden noch lange in den endlosen Weiten des Runet zu hören sein. Wir werden als Älteste, die von Saxauls weise sind (oder umgekehrt? :), einwenden: „Leute, wer hat es eigentlich versprochen?“ Wer hat diese aufrührerische Abkürzung ausgesprochen? SMP, erinnern wir uns daran, dass es sich hierbei um symmetrisches Multi-Processing handelt Multiprozessor die Architektur. Und hier, sorry, nur ein Prozessor. Ja, es ist mit einer bestimmten, umgangssprachlich gesprochenen „Funktion“ ausgestattet, die es einem ermöglicht, so zu tun, als gäbe es zwei dieser Prozessoren. Aber macht irgendjemand einen Hehl daraus, dass dies tatsächlich nicht der Fall ist? Es scheint, als hätten wir das nicht bemerkt. Es handelt sich also um ein „Feature“ und um nichts weiter. Und Sie sollten es so und nicht anders behandeln. Deshalb lasst uns keine Götzen stürzen, die niemand errichtet hat, und ruhig Lass uns darüber nachdenken, ob das so ist Besonderheit irgendeine Bedeutung.

Testergebnisse deuten darauf hin, dass dies in einigen Fällen der Fall ist. Tatsächlich hat das, was wir im ersten Teil des Artikels rein theoretisch besprochen haben, seine praktische Bestätigung gefunden, die die Hyper-Threading-Technologie ermöglicht Erhöhen Sie die Prozessoreffizienz in bestimmten Situationen. Insbesondere in Situationen, in denen Anwendungen unterschiedlicher Art gleichzeitig ausgeführt werden. Stellen wir uns die Frage: „Ist das ein Plus?“ Unsere Antwort: „Ja, das ist ein Plus.“ Ist es umfassend und global? Dies scheint jedoch nicht der Fall zu sein, da der Effekt von Hyper-Threading nur in einigen Fällen beobachtet wird. Ist dies jedoch so wichtig, wenn wir die Technologie als Ganzes betrachten? Es ist klar, dass das Aufkommen einer CPU, die alles, was bisher getan wurde, doppelt so schnell erledigen kann, ein großer Durchbruch ist. Doch wie die alten Chinesen sagten: „Gott bewahre, dass wir in einer Zeit des Wandels leben.“ Intel hat den Beginn einer solchen Ära nicht eingeleitet, sondern lediglich seinen Prozessor um diese Fähigkeit erweitert etwas mach es schneller. Ein klassischer westlicher Grundsatz, der in unserer ballverliebten Gesellschaft nicht gut ankommt: „Man kann etwas Besseres bekommen, wenn man etwas mehr bezahlt.“

Zurück zur Praxis: Hyper-Threading kann nicht als „Papier“-Technologie bezeichnet werden, da es bei bestimmten Kombinationen einen durchaus spürbaren Effekt ergibt. Fügen wir noch einen viel größeren Effekt hinzu, als er manchmal beobachtet wird, wenn beispielsweise zwei Plattformen mit demselben Prozessor auf unterschiedlichen Chipsätzen verglichen werden. Es sollte jedoch klar sein, dass dieser Effekt nicht immer beobachtet wird und maßgeblich davon abhängt, dass der wahrscheinlich akzeptabelste Begriff „Stil“ wäre. Aus Stil die Arbeit des Benutzers mit dem Computer. Darüber hinaus manifestiert sich hier, was wir gleich zu Beginn gesagt haben: Hyper-Threading ist kein SMP. Der „klassische SMP-Stil“, bei dem sich der Anwender auf die Reaktion eines ebenso klassischen „ehrlichen“ Multiprozessorsystems verlässt, wird hier nicht zum gewünschten Ergebnis führen.

„Hyper-Threading-Stil“ ist eine Kombination von Prozessen, wir haben keine Angst vor diesem Wort, „Unterhaltung“ oder „Service“ mit „funktionierenden“ Prozessen. Bei den meisten klassischen Multiprocessing-Aufgaben oder wenn Sie dazu neigen, jeweils nur eine Anwendung auszuführen, werden Sie von einer CPU, die diese Technologie unterstützt, keinen großen Schub bekommen. Aber Sie werden es höchstwahrscheinlich bekommen Reduzierung der Ausführungszeit vieler Hintergrundaufgaben, als „Ergänzung“ zur regulären Arbeit durchgeführt. Tatsächlich hat Intel uns alle noch einmal daran erinnert, dass die Betriebssysteme, die wir verwenden Multitasking. Und sie schlug einen Weg zur Beschleunigung vor, aber nicht so sehr einen Prozess an sich, sondern eine Reihe von Anwendungen, die gleichzeitig ausgeführt werden. Dies ist ein interessanter Ansatz, der unserer Meinung nach sehr beliebt ist. Jetzt hat er seinen Namen gefunden. Ohne Umschweife möchte ich sagen: Es ist einfach gut, dass jemand auf diese originelle Idee gekommen ist. Noch besser ist, dass er es in ein konkretes Produkt umsetzen konnte. Den Rest wird die Zeit zeigen, wie immer.

Intel Pentium 4(„Intel Pentium 4“) ist ein 32-Bit-Mikroprozessor der siebten Generation der x86-Architektur, der im November 2000 von Intel entwickelt wurde. Er ist keine Fortsetzung der P6-Reihe (siehe Pentium Pro, Pentium II, Pentium III) und ist es auch basierend auf einem grundlegend neuen Kern.

Er unterscheidet sich vom Pentium III durch folgende Merkmale: Unterstützung der NetBurst-Technologie; 144 neue SSE2-Anweisungen zur Unterstützung von Multimedia-, Video- und dreidimensionalen Grafiken sowie Internettechnologien; 20-stufiger Förderer; verbessertes Verzweigungsvorhersagemodul; 128-Bit-Systembus mit einer Taktfrequenz von 100 MHz (effektive Frequenz 400 MHz); 2 ALUs mit doppelter Kernfrequenz; Cache-Speicher der ersten Ebene mit Verfolgung der Befehlsausführung (Execution Trace Cache); 256 Kilobyte integrierter Second-Level-Cache mit erhöhter Bandbreite (Advanced Transfer Cache); Möglichkeit der Verwendung von Hochleistungs-RDRAM-Speicher.

Trotz aller Verbesserungen zeigten die ersten Pentium 4-Modelle (auf dem Willamette-Kern) eine geringere Leistung als der Pentium III oder AMD Athlon mit niedrigeren Frequenzen. Geringe Leistung, die Notwendigkeit, neue Motherboards und teuren Speicher zu verwenden, sowie die hohen Kosten der Prozessoren selbst haben sich negativ auf ihre Beliebtheit ausgewirkt. Sie wurden in 0,18-Mikron-Technologie mit Frequenzen von 1,3 bis 2 GHz hergestellt und in den Sockel 423-Anschluss eingebaut. Im März 2001 wurde eine Serverversion veröffentlicht – Xeon, und im August erschienen Pentium 4-Modelle für Sockel 478-Anschlüsse, die SDRAM-Speicher unterstützen (anstelle von teurem RDRAM). Dies ermöglichte es, die Preise für Computer mit neuen Prozessoren zu senken, deren Leistung jedoch weiter zu reduzieren.

Im Januar 2002, nach der Veröffentlichung des konkurrierenden AMD Athlon XP, veröffentlichte das Unternehmen einen neuen Northwood-Kern. Er wurde mit der 0,13-Mikron-Technologie hergestellt, die es ermöglichte, 512 Kilobyte L2-Cache-Speicher auf dem Chip unterzubringen. Im April wurde dem neuen Kern die Unterstützung für einen 133/533-MHz-Bus hinzugefügt.

Im selben Monat wurde eine mobile Version des Prozessors vorgestellt – Pentium 4-M, und im Mai wurden preisgünstige Celerons mit dem alten Willamette-Kern veröffentlicht. Im November kamen die ersten Modelle auf Basis des Northwood-Kerns mit Unterstützung der Hyper-Threading-Technologie in den Handel und im April 2003 200/800-MHz-Busse. Auf diesem Kern basierende Prozessoren wurden mit Frequenzen von 1,6 bis 3,4 GHz hergestellt. Durch die vorgenommenen Verbesserungen konnten die Prozessoren aufholen und den Athlon XP übertreffen.

Im September 2003, eine Woche vor der Veröffentlichung des Athlon 64 FX, erschien ein Hochleistungsprozessor von Intel – der Pentium 4 Extreme Edition. Im Februar 2004 erschien ein neuer Prescott-Kern, der mit der 0,09-Mikron-Technologie hergestellt wurde. Im Vergleich zum Vorgängerkern wurde die Pipeline vergrößert (bis zu 31 Stufen) und der L2-Cache (bis zu 1 Megabyte) sowie SSE3-Anweisungen hinzugefügt. Im August wurden EM64T-Anweisungen hinzugefügt (für 64-Bit-Computing) und der Sockel auf Sockel 775 geändert. Im September erschien Unterstützung für die NX-Bit-Technologie und im Februar 2005 wurde eine neue Version dieses Kerns veröffentlicht – Prescott 2M. Die Buchstaben 2M standen für 2 Megabyte; Das ist genau die Größe des integrierten L2-Cache. Darüber hinaus wurde Unterstützung für die Enhanced SpeedStep-Technologie hinzugefügt, die es dem Betriebssystem ermöglicht, die Prozessortaktrate anzupassen.

Prozessoren mit Frequenzen von 2,4 bis 3,8 GHz wurden auf Prescott- und Prescott 2M-Kernen veröffentlicht. Zu diesem Zeitpunkt wurde klar, dass die Leistung von Pentium 4-Prozessoren nicht nur von ihrer Taktrate abhängt. Daher erhalten Prozessoren, beginnend mit Prescott, Symbole, die aus mehreren Buchstaben und Zahlen bestehen (z. B. 519J), die Faktoren wie Systembusfrequenz, Cache-Größe und unterstützte Technologien kodieren.

Im Mai 2005 wurde ein Dual-Core-Analogon des Pentium 4, der Pentium D, vorgestellt. Die neue Version des Kerns für den Pentium 4 hieß Cedar Mill. Es erschien im Januar 2006 und war eine exakte Kopie von Prescott 2M, hergestellt mit 0,065-Mikrometer-Technologie. Gleichzeitig erschienen Prozessoren auf Basis der älteren P6-Architektur – Intel Core Solo und Intel Core Duo. .



 


Lesen:



So finden Sie einen Spitznamen für Instagram

So finden Sie einen Spitznamen für Instagram

Das Wort „Spitzname“ kommt vom englischen Wort „nickname“ und bedeutet übersetzt (Spitzname, Spitzname, Pseudonym). Wird in sozialen Netzwerken verwendet...

Ist es möglich, ohne Passwort und Login direkt zur VK-Seite zu gelangen?

Ist es möglich, ohne Passwort und Login direkt zur VK-Seite zu gelangen?

Der Verlust des Schlüssels zu einer persönlichen Seite auf VKontakte kann verschiedene Gründe haben: Der Benutzer hat sich längere Zeit nicht in sein Profil eingeloggt und es einfach vergessen;...

Programme zur Wiederherstellung von Flash-Laufwerken

Programme zur Wiederherstellung von Flash-Laufwerken

Grüße an alle Blog-Leser! Vermutlich verfügen die meisten Menschen, die mehr oder weniger häufig mit einem Computer arbeiten, über ein Flash-Laufwerk (oder sogar mehrere). Manchmal...

Was tun, wenn Windows ein Flash-Laufwerk nicht formatieren kann? Das Flash-Laufwerk ist sichtbar, kann aber nicht formatiert werden

Was tun, wenn Windows ein Flash-Laufwerk nicht formatieren kann? Das Flash-Laufwerk ist sichtbar, kann aber nicht formatiert werden

Wir sind daran gewöhnt, dass das Ziel der Informationswiederherstellung meist die Festplatte ist; Aus irgendeinem Grund werden Solid-State-Laufwerke in Betracht gezogen...

Feed-Bild RSS