KI-Glossar ·Grundlagen

Bestärkendes Lernen

Auch: Reinforcement Learning, RL, Verstärkendes Lernen, Bestärktes Lernen

Bestärkendes Lernen (englisch Reinforcement Learning) ist die dritte Grundform des maschinellen Lernens: Ein Agent lernt durch Versuch und Rückmeldung, indem er in einer Umgebung handelt, für gutes Verhalten Belohnung erhält und sein Vorgehen so anpasst, dass die Belohnung über die Zeit möglichst groß wird.

Lernen durch Belohnung

Anders als beim überwachten Lernen gibt es keine vorgegebene richtige Antwort für jede Situation. Stattdessen erhält der Agent nur ein Belohnungssignal: ein Wert, der sagt, wie gut eine Handlung war. Aus vielen solchen Rückmeldungen lernt er nach und nach eine Strategie (eine Policy), die langfristig die höchste Belohnung verspricht.

Die Grundbegriffe

Vier Größen beschreiben das Verfahren: der Zustand (die aktuelle Lage der Umgebung), die Aktion (was der Agent tut), die Belohnung (die Rückmeldung danach) und die Policy (die Regel, welche Aktion in welchem Zustand zu wählen ist). Eine Schwierigkeit ist die verzögerte Belohnung: Eine gute Aktion zahlt sich oft erst viele Schritte später aus.

Anwendungen

Bestärkendes Lernen brachte die Erfolge bei Brett- und Videospielen — etwa AlphaGo, das 2016 einen Weltklassespieler im Go schlug. Weitere Felder sind Robotik, Steuerungs- und Regelungsaufgaben sowie das Ausrichten von Sprachmodellen: Beim RLHF dient menschliches Feedback als Belohnungssignal.

Einordnung

Neben dem überwachten und dem unüberwachten Lernen ist es die dritte klassische Grundform. Es unterscheidet sich von beiden dadurch, dass die Daten nicht vorab feststehen, sondern erst durch das Handeln des Agenten entstehen.

Im Netz verbunden

ist ein/eine

Maschinelles Lernen

nutzt

Zustandsraum Policy Belohnung

wird genutzt von

Monte-Carlo-Baumsuche RLHF

abzugrenzen von

Unüberwachtes Lernen Überwachtes Lernen

Im Wissensnetz ansehen