Was ist Intel Netburst Architektur?

  • Autor: Lumen


    Intel NetBurst-Architektur


    Die Intel Netburst-Architektur stellte bis zur Einführung der Core-Mikroarchitektur im Sommer 2006 die Grundlage für die meisten Systeme bei Intel dar. Dabei wurde unter anderem versucht mit einer deutlichen Taktsteigerung und Befehlsverbesserungen den steigenden Anforderungen der Software gerecht zu werden. Dabei wurde bei der Entwicklung vor allem ein starker Leistungsbedarf für multimediale Anwendungen vorausgesagt, der durch NetBurst abgedeckt werden sollte. Die Architektur wurde mit dem Pentium 4 eingeführt, verbreitet, und man findet somit dort die Merkmale wieder. Prozessoren wie Pentium M, Xeon und Itanium nutzen aber ebenfalls die Architektur, solche wie der Pentium M aber nicht in ihrer vollen Gänze.
    Die Architektur ergibt sich aus unterschiedlichen Designmerkmalen die im Folgenden kurz umrissen werden. Allgemein wird hierbei sehr gern der Begriff Hyper ins Spiel gebracht weil damit eine sehr hohe Leistungsfähigkeit suggeriert werden soll.


    Hyper Pipelined Technologie


    Umschreibt die Verdoppelung der Anzahl der Stufen in der Verarbeitungspipeline auf 20. Beim später eingeführten Prescott-Kern wurden sogar gewaltige 31 Stufen implementiert. Dabei werden die Befehle in so genannten Mikro Operations (µOps) zerlegt, und dann der Pipeline zur Berechnung angeboten. Die Einzelstufen der Pipeline Fetch - Decode – Execute (– Write Back) sind weiterhin identisch, werden aber teilweise doppelt ausgeführt.
    Je mehr Stufen eine Pipeline hat, umso höher lässt sich das System im Regelfall takten. Jedoch benötigt die so entstandene Pipeline eine höhere Verwaltung und ist empfindlicher gegenüber dem Leerlaufen der Pipeline.
    Die Technologie ist nur auf die Behandlung der µOps ausgerichtet!


    Quad Pumped Bus


    Der kurz genannte QDR wertet das Taktsignal des Front-Side-Busses (FSB) 4-fach aus und erhöht somit deutlich die Leistungsfähigkeit des Systems. Mit dem QDR wurde auch der Dual Channel salonfähig, der erst durch den RAMBUS, später auch durch den deutlich billigeren DDR-SDRAM genutzt wurde. Der QDR ist ein Designmerkmal, das auch heutige Core-Prozessoren von Intel benutzen, damit die Leistungsfähigkeit erhöht werden kann. Vor allem Mehrkernprozessoren benötigen solche Bandbreiten, da der Speichercontroller bei Intel im Chipsatz liegt. Alle Daten müssen also über den FSB gesendet werden.


    Advanced Dynamic Execution


    ADR ist ein Rechenkern der versucht die Rechenwerke möglichst gut auszulasten. Dabei werden bis zu 126 µOps betrachtet, die vorher aus dem Speicher geholt und entpackt wurden. Zudem arbeitet hier eine bessere Sprungvorhersage für eine bessere Treffervorhersage, und gewisse Befehle können out-of-order abgearbeitet werden damit die Rechenwerke voll ausgelastet werden. Ziel ist es immer, dass die Pipeline maximal ausgelastet wird, um Latenzen zu verhindern.


    Rapid Execution Engine


    Die REE ist ein Rechenwerk das aus 7 Teileinheiten besteht und die eigentliche Arbeit der Berechnung ausführt.

    • 3x ALU (Arithmetic Logical Unit)
    • 2x AGU ( Address Generation Unit)
    • 1x FPU (Floating Point Unit) für Load und Store Befehle
    • 1x FPU für MMX und SSE2 Befehle.


    Die Taktrate der Pipelines wird häufig mit der doppelten Taktrate des Prozessors angegeben. Da die Einheiten aber doppelt ausgeführt sind gilt diese Angabe nur für den Verteiler vor den entsprechenden Einheiten. Dieser verteilt die Aufgaben abwechselnd, so dass es aufgrund der Parallelität wie eine doppelte Taktung erscheint.


    Advanced Transfer Cache


    L2 Cache der mit 256 Bit und vollem Prozessortakt angebunden wird, und eine Cache-Linelänge von 128 Byte bietet.
    Somit ergibt sich beispielsweise bei 3.6Ghz Taktung eine theoretische Bandbreite von 112,5 GB/s.


    Trace Execution Cache


    L1 Cache der 8 kB bzw circa 12000 µOps fasst und direkt an den Rechenwerken angebunden wird. Damit wird der Zugriff deutlich beschleunigt und eine erneute Decodierung entfällt. Maximal können 3 µOps gleichzeitig behandelt werden.
    Der L1 Cache besitzt eine eigene Sprungvorhersage, damit die Latenzen möglichst gering gehalten werden und die Pipes immer gefüllt sind.


    Streaming SIMD Extensions 2 (SSE2)


    Stellt im eigentlichen die Erweiterung des SSE1 dar, wobei die Genauigkeit der Berechnungen von 64 auf 128 Bit gestiegen ist. Die Implementierung der Befehlserweiterung ist aber weiterhin durch Software nötig, da die Befehle sonst nicht genutzt werden.


    Hardware Prefetcher


    Soll einen Daten Prefetch bereitstellen, damit der Datenzugriff und die Verarbeitung zeitlich möglichst überlappend auftritt. Der Prefetch soll dabei möglichst automatisiert ablaufen, ohne eine Lösung in Software. Somit wird die Zugriffzeit auf Daten deutlich verkürzt damit keine Latenz entsteht. Der Prefetch ist eine Vorhersage für wahrscheinlich genutzte Daten, ähnlich der Sprungvorhersage im Cache. Prefetch soll vermeiden, dass Wartezeiten entstehen wenn Daten erst von langsamen Medien wie Festplatten geladen werden müssen. Der Prefetcher läd diese Daten also in den Speicher vor.


    TechDocs zum Pentium 4
    Intel Technology Journal - Past Journals - 2001
    “Vol. 5 Issue 1 (February 2001) Pentium® 4 Processor”


    Artikel als pdf:[Blockierte Grafik: http://www.paules-pc-infothek.de/ppf2/images/smiles/pdf.gif]

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!