Benutzer:Leonry/Mehrarmiger Bandit

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Der mehrarmige Bandit, auch -armiger Bandit oder stochastischer Bandit genannt, ist Forschungsgegenstand der Spieltheorie und Stochastik. Erkenntnisse in Bezug auf den mehrarmigen Banditen finden Anwendung in der Finanzmathematik oder dem maschinellen Lernen.[1]

Das Problem des mehrarmigen Banditen lässt sich informell wiefolgt beschreiben. Ein Spieler hat die Möglichkeit an einarmigen Banditen sein Glück zu versuchen. Jeder Spielautomat wirft dabei mit verschiedener Wahrscheinlichkeit einen verschiedentlichen Ertrag aus. Die Wahrscheinlichkeitsverteilungen der Gewinnausschüttungen der einzelnen Spielautomaten ist zu Beginn unbekannt. Wie muss der Spieler sein Geld einsetzen, um den höchstmöglichen Betrag zu gewinnen?

Anders formuliert lässt sich das Problem auch im Rahmen des Arbeitsalltages darstellen. Ein Mitarbeiter ist in verschiedenen Projekten im Unternehmen beteiligt. Dabei sind mit jedem Projekt eine verschiedene, zu Beginn unbekannte Erfolgswahrscheinlichkeit und eine verschiedene Belohnung (zum Beispiel Bonuszahlung) verbunden. Wie sollte der Mitarbeiter seine Zeit je Projekt einteilen, um die höchstmögliche Belohnung zu erhalten?

Problemstellung

[Bearbeiten | Quelltext bearbeiten]

Sei entweder die natürlichen Zahlen (unbeschränkte Laufzeit) oder die aufsteigende Zahlenfolge für ein (beschränkte Laufzeit). Zu jedem Zeitpunkt wählt der Spieler eine Handlungstaktik aus allen möglichen Handlungstaktiken aus. Er beobachtet einen Belohnungsprozess verteilt nach , wobei . Das Ziel des Spielers ist die Summe der Belohnungen zu maximieren.

Lösungsansätze

[Bearbeiten | Quelltext bearbeiten]

Im Jarh 1979 bewies Gittins, dass sich das Problem des mehrarmigen Banditen auf eine Menge einfacherer Probleme reduzieren lässt. Dabei wird die Leistung des dynamischen Lösungsansatzes durch den sogenannten Gittins-Index geprüft.[2]

Verschiedene sogenannte Bandit-Algorithmen wurden entwickelt, u.a. Epsilon Greedy, Oberes Konfidenzniveau und Thompson-Probe.[3][4]

Das Problem lässt in seiner Allgemeinheit als dynamisches Zuteilproblem sehen. Dadurch lässt es sich in ein Darstellungsproblem für einen stochastischen Prozess durch das laufende Supremum eines weiteren stochastischen Prozesses umformulieren.[1]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. a b Peter Bank, Hans Föllmer: American Options, Multi–armed Bandits, and Optimal Consumption Plans: A Unifying View. In: Paris-Princeton Lectures on Mathematical Finance 2002. Band 1814. Springer Berlin Heidelberg, Berlin, Heidelberg 2003, ISBN 978-3-540-40193-3, S. 1–42, doi:10.1007/978-3-540-44859-4_1 (Publizierter Artikel und Artikelentwurf auf der Website des Erstautors [abgerufen am 22. Juni 2024]).
  2. Esther Frostig, Gideon Weiss: Four proofs of Gittins’ multiarmed bandit theorem. In: Annals of Operations Research. Band 241, Nr. 1-2, Juni 2016, ISSN 0254-5330, S. 127–165, doi:10.1007/s10479-013-1523-0 (springer.com [abgerufen am 22. Juni 2024]).
  3. Marina Wyss: Multi-Armed Bandits als Alternative zum A/B-Test. INWT Statistics GmbH, abgerufen am 22. Juni 2024.
  4. Mehrarmiger Bandit. In: Optimierungsglossar. Optimizely, 7. Juli 2021, abgerufen am 22. Juni 2024.


[[Kategorie:Stochastik]]

[[Kategorie:Spieltheorie]]