Stebėti
Stephane Hatgis-Kessell
Stephane Hatgis-Kessell
Patvirtintas el. paštas utexas.edu
Pavadinimas
Cituota
Cituota
Metai
Models of human preference for learning reward functions
WB Knox, S Hatgis-Kessell, S Booth, S Niekum, P Stone, A Allievi
arXiv preprint arXiv:2206.02231, 2022
192022
Learning optimal advantage from preferences and mistaking it for reward
WB Knox, S Hatgis-Kessell, SO Adalgeirsson, S Booth, A Dragan, P Stone, ...
Proceedings of the AAAI Conference on Artificial Intelligence 38 (9), 10066 …, 2024
22024
Sistema negali atlikti operacijos. Bandykite vėliau dar kartą.
Straipsniai 1–2