Įkeliama...
Sistema negali atlikti operacijos. Bandykite vėliau dar kartą.
Šaltinių per metus
Dubliuoti šaltiniai
Toliau nurodyti straipsniai sujungti Mokslinčiuje. Jų
suderinti šaltiniai
skaičiuojami tik pirmajam straipsniui.
Sujungti šaltiniai
Į grafą „Cituota“ įeina šaltiniai į toliau nurodytus straipsnius Mokslinčiuje. Pažymėti
*
gali skirtis nuo straipsnių profilyje.
Pridėti bendraautorius
Bendraautoriai
Stebėti
Nauji šio autoriaus straipsniai
Nauji šio autoriaus šaltiniai
Nauji su šio autoriaus tyrimu susiję straipsniai
El. pašto adresas atnaujinimams
Baigta
Mano profilis
Mano biblioteka
Metrika
Įspėjimai
Nustatymai
Registruotis
Registruotis
Gauti savo profilį
Cituota
Visi
Nuo 2019
Šaltiniai
21
20
h-rodyklė
2
2
i10-rodyklė
1
1
0
12
6
2022
2023
2024
2
12
6
Stebėti
Stephane Hatgis-Kessell
UT Austin
Patvirtintas el. paštas utexas.edu
reinforcement learning from human feedback
preference learning
safe AI
Straipsniai
Cituota
Pavadinimas
Rūšiuoti
Rūšiuoti pagal šaltinius
Rūšiuoti pagal metus
Rūšiuoti pagal pavadinimą
Cituota
Cituota
Metai
Models of human preference for learning reward functions
WB Knox, S Hatgis-Kessell, S Booth, S Niekum, P Stone, A Allievi
arXiv preprint arXiv:2206.02231
, 2022
19
2022
Learning optimal advantage from preferences and mistaking it for reward
WB Knox, S Hatgis-Kessell, SO Adalgeirsson, S Booth, A Dragan, P Stone, ...
Proceedings of the AAAI Conference on Artificial Intelligence 38 (9), 10066 …
, 2024
2
2024
Sistema negali atlikti operacijos. Bandykite vėliau dar kartą.
Straipsniai 1–2
Rodyti daugiau
Privatumas
Sąlygos
Pagalba
Apie Mokslinčių
Paieškos pagalba