Reinforcement Learning with Human Feedback

## Zusammenfassung von RLHF ### Reward Modeling Reward Modeling ist ein Ansatz in der Künstlichen Intelligenz (KI), bei dem ein Modell für seine Antworten auf gegebene Aufforderungen eine Belohnung oder Punktzahl erhält. Dieses Belohnungssignal dient als Verstärkung und leitet das KI-Modell dazu an, gewünschte Ergebnisse zu erzeugen. Das Hauptziel eines Belohnungsmodells besteht darin, zu bewerten, wie gut die Antwort eines Modells mit menschlichen Präferenzen übereinstimmt. ![[../../media/Pasted image 20240623230209.png]] Der Prozess umfasst mehrere Elemente: 1. **Zieldefinition**: Zu Beginn wird das Ziel oder die Aufgabe klar definiert, die das KI-System erreichen soll. Dies kann das Erzeugen grammatisch korrekter und kohärenter Texte, das Erstellen lebensechter Bilder oder das Komponieren ästhetisch ansprechender Musik umfassen. 2. **Belohnungsfunktion**: Diese Funktion quantifiziert den Erfolg des KI-Systems beim Erreichen des definierten Ziels und weist jedem vom System erzeugten Output eine Belohnungspunktzahl zu. Eine höhere Belohnung bedeutet, dass der Output dem gewünschten Ziel näher kommt. 3. **Trainingsschleife**: In diesem iterativen Prozess generiert das KI-Modell Inhalte, erhält Feedback von der Belohnungsfunktion und passt seine Parameter an, um die Belohnung zu maximieren. Dieser Zyklus setzt sich fort, bis die Leistung des Modells den gewünschten Standards entspricht. 4. **Fine-Tuning**: Reward Modeling ermöglicht das Fine-Tuning des Verhaltens des KI-Modells. Mit zunehmender Generierung von Inhalten und dem Erhalt von Feedback verbessert sich das Modell allmählich in seiner Fähigkeit, Outputs zu erzeugen, die den festgelegten Zielen entsprechen. ![[../../media/Pasted image 20240623230238.png]] ### Proximal Policy Optimization (PPO) PPO, oder Proximal Policy Optimization, ist eine Technik, die verwendet wird, um Probleme im Zusammenhang mit dem Lehren von Computern durch **Versuch** und **Irrtum** zu lösen. In der Kontext von RL ist eine Policy _π_ einfach eine Funktion, die eine mögliche Aktion a für einen gegebenen Zustand _s_ zurückgibt. 1. **Policy**: Ein Sprachmodell, das eine Eingabeaufforderung erhält und eine Textsequenz (oder nur Wahrscheinlichkeitsverteilungen über Text) zurückgibt. 2. **Aktionsraum**: Alle Token, die dem Vokabular des Sprachmodells entsprechen (oft etwa 50.000 Token). 3. **Beobachtungsraum**: Die Verteilung möglicher Eingabe-Token-Sequenzen, die ebenfalls sehr groß ist (die Dimension entspricht ungefähr der Größe des Vokabulars hoch der Länge der Eingabe-Token-Sequenz). 4. **Belohnungsfunktion**: Eine Kombination aus dem Präferenzmodell und einer Einschränkung der Policy-Änderung. Ziel ist es, den Wertverlust zu verringern – den Unterschied zwischen der tatsächlichen zukünftigen Belohnung und der Schätzung der Wertfunktion – und dadurch die Vorhersagen für zukünftige Belohnungen zu verbessern. ![[../../media/1__WJuYYBvzARK3kvgRI2JTQ.webp]] Quellen: [Q-73], [Q-86], [Q-88], [Q-90], [Q-94], [Q-96] ----