Fehlerlokalisierung in prozessorinternen Kommunikationsnetzen für Vielkern-Prozessoren

  • Zukünftige Vielkernprozessoren stellen große Herausforderungen an die zugrunde liegenden Hardware-Architekturen. Die steigende Integrationsdichte von Transistoren und Leiterbahnen erhöht das Risiko von Fehlern auf dem Prozessor-Chip. Gleichzeitig zwingen strikte Energie-Budgets der Prozessoren zu mehr Umsicht bei der Platzierung von Prozessen auf den Kernen, um Datenlokalität der Software möglichst gut auszunutzen und so Kommunikation einzusparen. Eine intelligente Platzierung ist aber nur dann möglich, wenn Fehler, die zur Laufzeit des Prozessors auftreten, der Prozessverwaltung bekannt sind. Obwohl bereits ein breites Spektrum an Fehlertoleranztechniken und Prozessverwaltungen entwickelt wurden, fehlt ein Mechanismus, der beide Bereiche verbindet. Diese Dissertationsarbeit greift die Lücke auf und präsentiert ein leichtgewichtiges, dezentrales Verfahren, um fehlerhafte Komponenten im Kommunikationsnetz zu lokalisieren und den aktuellen Zustand des Netzes an die VerwaltungseinheitenZukünftige Vielkernprozessoren stellen große Herausforderungen an die zugrunde liegenden Hardware-Architekturen. Die steigende Integrationsdichte von Transistoren und Leiterbahnen erhöht das Risiko von Fehlern auf dem Prozessor-Chip. Gleichzeitig zwingen strikte Energie-Budgets der Prozessoren zu mehr Umsicht bei der Platzierung von Prozessen auf den Kernen, um Datenlokalität der Software möglichst gut auszunutzen und so Kommunikation einzusparen. Eine intelligente Platzierung ist aber nur dann möglich, wenn Fehler, die zur Laufzeit des Prozessors auftreten, der Prozessverwaltung bekannt sind. Obwohl bereits ein breites Spektrum an Fehlertoleranztechniken und Prozessverwaltungen entwickelt wurden, fehlt ein Mechanismus, der beide Bereiche verbindet. Diese Dissertationsarbeit greift die Lücke auf und präsentiert ein leichtgewichtiges, dezentrales Verfahren, um fehlerhafte Komponenten im Kommunikationsnetz zu lokalisieren und den aktuellen Zustand des Netzes an die Verwaltungseinheiten zu propagieren. Das Lokalisierungsverfahren basiert auf der TERAFLUX-Prozessorarchitektur und ist Teil der Fehlertoleranzeinheit dieses Prozessorentwurfs. Kernstück der Lokalisierung ist das zeitliche Verhalten der Statusnachrichten, die von den überwachten Prozessorkernen an die Fehlertoleranzeinheit übertragen werden. Diese Arbeit zeigt, dass einzelne Fehler präzise lokalisiert werden können. Bei multiplen Fehlern liegt die Lokalisierungsrate bei bis zu 98%. Gleichzeitig stellt diese Arbeit eine neue Routing-Strategie vor, um den Einfluss auf Anwendungsnachrichten durch Statusnachrichten zu minimieren. Mit der verbesserten Lastverteilung der Statusnachrichten konnten die maximalen Wartezeiten für Anwendungsnachrichten um bis zu 30% reduziert werden.show moreshow less
  • Future many-core processors pose a challenging demand to both, hardware architects and software architects. The ever increasing integration density of transistors and interconnects give rise to on-chip error-rates. This trend is amplified by manufacturing process variations or due to diverse aging phenomena. Simultaneously, strict energy budgets force task schedulers to take advantage of data locality in order to minimize onchip communication and thereby energy dissipation. However, a smart task placement is only possible with prober information regarding hardware errors occurring during runtime. Regardless the fact, that a broad research has been done for both domains on-chip fault tolerance techniques and task scheduling algorithms, there is missing a mechanism that interfaces with both domains to connect them. This thesis picks up on this missing interface and presents a lightweight and decentralized method to localize faults within the on-chip interconnection network and toFuture many-core processors pose a challenging demand to both, hardware architects and software architects. The ever increasing integration density of transistors and interconnects give rise to on-chip error-rates. This trend is amplified by manufacturing process variations or due to diverse aging phenomena. Simultaneously, strict energy budgets force task schedulers to take advantage of data locality in order to minimize onchip communication and thereby energy dissipation. However, a smart task placement is only possible with prober information regarding hardware errors occurring during runtime. Regardless the fact, that a broad research has been done for both domains on-chip fault tolerance techniques and task scheduling algorithms, there is missing a mechanism that interfaces with both domains to connect them. This thesis picks up on this missing interface and presents a lightweight and decentralized method to localize faults within the on-chip interconnection network and to propagate the gathered state information to the scheduling unit. This localization method bases on the TERAFLUX-Microprocessor architecture and is part of the fault tolerance unit within this architecture. The heart of the localization technique is the timing behavior of the status messages which are transmitted from the monitored processor cores to the fault tolerance unit. It will be shown that single faults within the network can be localized precisely. For multiple faults, the approach gains localization rates up to 98% of coverage. Additionally, this work presents a new routing strategy which relaxes the impact of status messages on application message traversal times. The routing strategy broadens the workload of status messages over the network and hence lowering the maximum delays by 30%.show moreshow less

Download full text files

Export metadata

Statistics

Number of document requests

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Arne Garbade
URN:urn:nbn:de:bvb:384-opus4-27434
Frontdoor URLhttps://opus.bibliothek.uni-augsburg.de/opus4/2743
Advisor:Theo Ungerer
Type:Doctoral Thesis
Language:German
Publishing Institution:Universität Augsburg
Granting Institution:Universität Augsburg, Fakultät für Angewandte Informatik
Date of final exam:2014/05/16
Release Date:2014/10/08
Tag:many-core processors; network-on-chip
GND-Keyword:Fehlerortung; Fehlertoleranz; Zuverlässigkeit; Mehrkernprozessor
Institutes:Fakultät für Angewandte Informatik
Fakultät für Angewandte Informatik / Institut für Informatik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Licence (German):Deutsches Urheberrecht mit Print on Demand