Self-healing distributed systems

  • The growing complexity of distributed systems demands for new ways of control. This work addresses self-healing in distributed environments. The term self-healing represents a quite new area of research and is used in a fairly broad way, but can be seen as dynamic fault tolerance. This work proposes generic concepts and algorithms to build self-healing systems. The detection of node failures in distributed environments is a non-trivial problem. Failure detectors are an important component of many fault tolerant distributed systems. In this work a new failure detection algorithm is proposed with noteworthy features like a high flexibility and good performance. Furthermore an approach is presented to save the message overhead of failure detectors. New grouping algorithms are introduced in this work to enable a scalable self-monitoring property. This allows an autonomous installation of monitoring relations in complex large scale distributed systems. A failure recovery engine based onThe growing complexity of distributed systems demands for new ways of control. This work addresses self-healing in distributed environments. The term self-healing represents a quite new area of research and is used in a fairly broad way, but can be seen as dynamic fault tolerance. This work proposes generic concepts and algorithms to build self-healing systems. The detection of node failures in distributed environments is a non-trivial problem. Failure detectors are an important component of many fault tolerant distributed systems. In this work a new failure detection algorithm is proposed with noteworthy features like a high flexibility and good performance. Furthermore an approach is presented to save the message overhead of failure detectors. New grouping algorithms are introduced in this work to enable a scalable self-monitoring property. This allows an autonomous installation of monitoring relations in complex large scale distributed systems. A failure recovery engine based on automated planning, which manages a distributed system according to user-defined objectives, is proposed. It is able to generate and execute plans to autonomously recover a system from unwanted states. Finally, ideas for a generic self-healing architecture for highly complex distributed systems are presented. The design is based on psychological and sociological concepts.show moreshow less
  • Aufgrund der zunehmenden Komplexität verteilter Systeme werden neue Steuerungs- und Administrierungsmethodiken benötigt. Die vorliegende Arbeit befasst sich mit der Thematik der Selbstheilung in verteilten Umgebungen. Der Begriff Selbstheilung stellt einen relativ neuen Forschungsbereich dar und wird thematisch breit benutzt, kann jedoch als dynamische Fehlertoleranz aufgefasst werden. Diese Arbeit schlägt generische Konzepte zur Erstellung selbstheilender Systeme vor. Das Erkennen von Knotenausfällen in verteilten Systemen ist ein nicht-triviales Problem. Fehlerdetektoren sind eine wichtige Komponente vieler fehlertoleranter verteilter Systeme. Diese Arbeit führt einen neuen, besonders flexiblen Fehlerdetektionsalgorithmus mit guten Erkennungsraten ein. Zusätzlich wird ein Ansatz präsentiert, der den Einsatz von Fehlerdetektoren effizienter gestaltet. Es werden neue Gruppierungsalgorithmen eingeführt, die eine skalierbare Selbstüberwachung ermöglichen und ÜberwachungsbeziehungenAufgrund der zunehmenden Komplexität verteilter Systeme werden neue Steuerungs- und Administrierungsmethodiken benötigt. Die vorliegende Arbeit befasst sich mit der Thematik der Selbstheilung in verteilten Umgebungen. Der Begriff Selbstheilung stellt einen relativ neuen Forschungsbereich dar und wird thematisch breit benutzt, kann jedoch als dynamische Fehlertoleranz aufgefasst werden. Diese Arbeit schlägt generische Konzepte zur Erstellung selbstheilender Systeme vor. Das Erkennen von Knotenausfällen in verteilten Systemen ist ein nicht-triviales Problem. Fehlerdetektoren sind eine wichtige Komponente vieler fehlertoleranter verteilter Systeme. Diese Arbeit führt einen neuen, besonders flexiblen Fehlerdetektionsalgorithmus mit guten Erkennungsraten ein. Zusätzlich wird ein Ansatz präsentiert, der den Einsatz von Fehlerdetektoren effizienter gestaltet. Es werden neue Gruppierungsalgorithmen eingeführt, die eine skalierbare Selbstüberwachung ermöglichen und Überwachungsbeziehungen autonom aufbauen. Eine Fehlerbehebungskomponente basierend auf einem automatischen Planungsansatz wird vorgestellt, die ein verteiltes System gemäß benutzerdefinierter Ziele verwaltet. Sie ist in der Lage, Pläne zu generieren und auszuführen, um selbständig einen spezifizierten Systemzustand wiederherzustellen. Den Abschluss dieser Arbeit bilden Ideen einer generischen Architektur für hochkomplexe selbstheilende Systeme, basierend auf psychologischen und soziologischen Konzepten.show moreshow less

Download full text files

Export metadata

Statistics

Number of document requests

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Benjamin SatzgerGND
URN:urn:nbn:de:bvb:384-opus-13394
Frontdoor URLhttps://opus.bibliothek.uni-augsburg.de/opus4/1246
Title Additional (German):Selbstheilende verteilte Systeme
Advisor:Theo Ungerer
Type:Doctoral Thesis
Language:English
Publishing Institution:Universität Augsburg
Granting Institution:Universität Augsburg, Fakultät für Angewandte Informatik
Date of final exam:2008/12/18
Release Date:2009/04/16
Tag:Selbstheilung
distributed system; self-healing
GND-Keyword:Verteiltes System; Organic Computing; Fehlererkennung; Fehlertoleranz; Automatische Handlungsplanung
Institutes:Fakultät für Angewandte Informatik
Fakultät für Angewandte Informatik / Institut für Informatik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik