Towards a combined local and global explanation framework for deep reinforcement learning agents with visual input: novel methods and insights from human evaluation
- In recent years, considerable advances have been made in the development of Deep Reinforcement Learning (DRL) algorithms. As a result of these advances, DRL agents are increasingly introduced into high-risk domains such as healthcare or automated vehicles. To ensure proper use in these critical domains, users must understand the agents' strategies and know when to rely on them. At the same time, the increasing complexity and opacity of DRL algorithms present substantial hurdles to their explainability, especially when applied to large visual states. This thesis is dedicated to improving the explainability of DRL agents with visual input. While there has been a resurgence of interest in developing eXplainable Artificial Intelligence (XAI), it has primarily focused on classification tasks. However, DRL presents its own set of challenges and requirements for explainability. First, DRL agents engage in sequential decision-making where actions are interconnected and contribute to aIn recent years, considerable advances have been made in the development of Deep Reinforcement Learning (DRL) algorithms. As a result of these advances, DRL agents are increasingly introduced into high-risk domains such as healthcare or automated vehicles. To ensure proper use in these critical domains, users must understand the agents' strategies and know when to rely on them. At the same time, the increasing complexity and opacity of DRL algorithms present substantial hurdles to their explainability, especially when applied to large visual states. This thesis is dedicated to improving the explainability of DRL agents with visual input. While there has been a resurgence of interest in developing eXplainable Artificial Intelligence (XAI), it has primarily focused on classification tasks. However, DRL presents its own set of challenges and requirements for explainability. First, DRL agents engage in sequential decision-making where actions are interconnected and contribute to a long-term strategy that is potentially influenced by delayed rewards. Second, DRL agents learn by interacting with an environment in which their goals are only indirectly defined by the rewards they receive for their actions. Consequently, the strategies developed by DRL agents might deviate from human expectations, even if they are optimal for the given reward function. To address these specific challenges for explainable deep reinforcement learning, this dissertation pursues five objectives. The first three objectives relate to the development of novel explanation methods that are tailored to the needs of DRL. First, this thesis introduces a novel saliency map algorithm that identifies relevant information for an agent's decision. Compared to other saliency map methods, this algorithm focuses on more selective areas within the input. As a result, it helps to quickly interpret multiple states and uncover their interrelationship within the agent's strategy. Second, this dissertation proposes a model-agnostic method for generating counterfactual explanations for visual DRL agents, illustrating how states can be changed to alter the agent's action. Third, to extend the insights from the local explanations to the global strategy of the agent, this dissertation introduces a novel combination of local explanations with global strategy summaries. Strategy summary methods identify representative states for the agent's strategy and thus allow users to gain a good understanding of the agent's strategy by examining a limited budget of states. The last two objectives of this dissertation are concerned with the evaluation of XRL methods. Here, this thesis starts by evaluating the proposed methods and other local explanation methods with computational metrics that assess their fidelity to the agent's internal reasoning. Finally, the complementary and individual contributions of the global and local explanations in the aforementioned combination are investigated in three user studies. These studies measure agent understanding, appropriate trust, and satisfaction with the explanations. The results of the experiments in this dissertation demonstrate the significant potential of combined explanations for DRL agents and identify challenges that inform the development of future explanation frameworks for DRL.…
- In den letzten Jahren wurden beträchtliche Fortschritte bei der Entwicklung von Algorithmen des tiefen bestärkenden Lernens (Deep Reinforcement Learning, DRL) erzielt. Diese Fortschritte haben dazu geführt, dass DRL-Agenten zunehmend in Hochrisikobereichen wie dem Gesundheitswesen oder automatisierten Fahrzeugen eingesetzt werden. Um den richtigen Einsatz in diesen kritischen Bereichen zu gewährleisten, müssen die Nutzer die Strategien der Agenten verstehen und wissen, wann sie sich auf sie verlassen können. Gleichzeitig stellen die zunehmende Komplexität und Undurchsichtigkeit der DRL-Algorithmen jedoch erhebliche Hürden für ihre Erklärbarkeit dar, insbesondere wenn sie auf große visuelle Zustände angewendet werden. Diese Arbeit widmet sich der Verbesserung der Erklärbarkeit von DRL-Agenten mit visuellem Input. Während das Interesse an der Entwicklung von erklärbarer künstlicher Intelligenz (eXplainable Artificial Intelligence, XAI) wieder auflebt, konzentriert es sichIn den letzten Jahren wurden beträchtliche Fortschritte bei der Entwicklung von Algorithmen des tiefen bestärkenden Lernens (Deep Reinforcement Learning, DRL) erzielt. Diese Fortschritte haben dazu geführt, dass DRL-Agenten zunehmend in Hochrisikobereichen wie dem Gesundheitswesen oder automatisierten Fahrzeugen eingesetzt werden. Um den richtigen Einsatz in diesen kritischen Bereichen zu gewährleisten, müssen die Nutzer die Strategien der Agenten verstehen und wissen, wann sie sich auf sie verlassen können. Gleichzeitig stellen die zunehmende Komplexität und Undurchsichtigkeit der DRL-Algorithmen jedoch erhebliche Hürden für ihre Erklärbarkeit dar, insbesondere wenn sie auf große visuelle Zustände angewendet werden. Diese Arbeit widmet sich der Verbesserung der Erklärbarkeit von DRL-Agenten mit visuellem Input. Während das Interesse an der Entwicklung von erklärbarer künstlicher Intelligenz (eXplainable Artificial Intelligence, XAI) wieder auflebt, konzentriert es sich hauptsächlich auf Klassifikationsaufgaben. DRL stellt jedoch eine eigene Reihe von Herausforderungen und Anforderungen an die Erklärbarkeit. Erstens treffen DRL-Agenten sequenzielle Entscheidungen, bei denen Aktionen miteinander verbunden sind und zu einer langfristigen Strategie beitragen, die möglicherweise durch verzögerte Belohnungen beeinflusst wird. Zweitens lernen DRL-Agenten durch Interaktion mit einer Umgebung, in der ihre Ziele nur indirekt durch die Belohnungen, die sie für ihre Handlungen erhalten, definiert sind. Folglich können die von DRL-Agenten entwickelten Strategien von den menschlichen Erwartungen abweichen, selbst wenn sie für die gegebene Belohnungsfunktion optimal sind. Um diese spezifischen Herausforderungen für erklärbares tiefes bestärkendes Lernen anzugehen, verfolgt diese Dissertation fünf Ziele. Die ersten drei Ziele betreffen die Entwicklung neuartiger Erklärungsmethoden, die auf die Bedürfnisse von DRL zugeschnitten sind. Zunächst wird in dieser Arbeit ein neuartiger Saliency-Map-Algorithmus vorgestellt, der relevante Informationen für die Entscheidung eines Agenten identifiziert. Im Vergleich zu anderen Saliency-Map-Methoden konzentriert sich dieser Algorithmus auf selektive Bereiche innerhalb des Inputs. Dadurch hilft er, mehrere Zustände schnell zu interpretieren und ihre Wechselbeziehungen innerhalb der Strategie des Agenten aufzudecken. Zweitens wird in dieser Dissertation eine modellunabhängige Methode zur Generierung kontrafaktischer Erklärungen für visuelle DRL-Agenten vorgeschlagen, die veranschaulicht, wie Zustände geändert werden können, um die Aktion des Agenten zu verändern. Drittens: Um die Erkenntnisse aus den lokalen Erklärungen auf die globale Strategie des Agenten auszuweiten, wird in dieser Dissertation eine neuartige Kombination von lokalen Erklärungen mit globalen Strategiezusammenfassungen vorgestellt. Die Methoden der Strategiezusammenfassung identifizieren repräsentative Zustände für die Strategie des Agenten und ermöglichen es dem Benutzer, durch die Untersuchung einer begrenzten Anzahl von Zuständen ein gutes Verständnis für die Strategie des Agenten zu erlangen. Die letzten beiden Ziele dieser Dissertation befassen sich mit der Evaluation von Erklärungsmethoden für DRL-Agenten. Dazu werden zunächst die in dieser Dissertation vorgeschlagenen Methoden und andere lokale Erklärungsmethoden mit rechnerischen Metriken bewertet, die ihre Übereinstimmung mit der internen Logik des Agenten messen. Schließlich werden die komplementären und individuellen Beiträge der globalen und lokalen Erklärungen in der oben genannten Kombination in drei Nutzerstudien untersucht. Diese Studien messen Agentenverständnis, angemessenes Vertrauen und die Zufriedenheit mit den Erklärungen. Die Ergebnisse der Experimente in dieser Dissertation zeigen das bedeutende Potenzial kombinierter Erklärungen für DRL-Agenten. Außerdem identifizieren sie Herausforderungen für die Entwicklung zukünftiger Erklärungssysteme für DRL-Agenten.…
Author: | Tobias HuberORCiDGND |
---|---|
URN: | urn:nbn:de:bvb:384-opus4-1164771 |
Frontdoor URL | https://opus.bibliothek.uni-augsburg.de/opus4/116477 |
Advisor: | Elisabeth André |
Type: | Doctoral Thesis |
Language: | English |
Year of first Publication: | 2024 |
Publishing Institution: | Universität Augsburg |
Granting Institution: | Universität Augsburg, Fakultät für Angewandte Informatik |
Date of final exam: | 2024/07/17 |
Release Date: | 2024/12/16 |
Tag: | Deep Reinforcement Learning; Explainable Artificial Intelligence; Interpretable Machine Learning; XAI; DRL |
GND-Keyword: | Bestärkendes Lernen <Künstliche Intelligenz>; Explainable Artificial Intelligence |
Pagenumber: | 281 |
Institutes: | Fakultät für Angewandte Informatik |
Fakultät für Angewandte Informatik / Institut für Informatik | |
Fakultät für Angewandte Informatik / Institut für Informatik / Lehrstuhl für Menschzentrierte Künstliche Intelligenz | |
Dewey Decimal Classification: | 0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik |
Licence (German): | Deutsches Urheberrecht mit Print on Demand |