‪Usman Anwar‬ - ‪Google Scholar‬

Get my own profile

Cited by

	All	Since 2019
Citations	428	428
h-index	7	7
i10-index	5	5

0

300

150

75

225

202020212022202320242 6 19 109 292

Usman Anwar

Usman Anwar

University of Cambridge

Verified email at cam.ac.uk - Homepage

Reinforcement Learning


Title Sort by citations Sort by year Sort by title	Cited by Cited by	Year
Open problems and fundamental limitations of reinforcement learning from human feedback S Casper, X Davies, C Shi, TK Gilbert, J Scheurer, J Rando, R Freedman, ... arXiv preprint arXiv:2307.15217, 2023	259	2023
Inverse Constrained Reinforcement Learning S Malik, U Anwar, A Aghasi, A Ahmed International Conference on Machine Learning, 7390-7399, 2021	52*	2021
Reward model ensembles help mitigate overoptimization T Coste, U Anwar, R Kirk, D Krueger arXiv preprint arXiv:2310.02743, 2023	42	2023
Foundational challenges in assuring alignment and safety of large language models U Anwar, A Saparov, J Rando, D Paleka, M Turpin, P Hase, ES Lubana, ... arXiv preprint arXiv:2404.09932, 2024	34	2024
Bayesian methods for constraint inference in reinforcement learning D Papadimitriou, U Anwar, DS Brown	19*	2022
Learning to solve differential equations across initial conditions S Malik, U Anwar, A Ahmed, A Aghasi arXiv preprint arXiv:2003.12159, 2020	9	2020
Open problems and fundamental limitations of reinforcement learning from human feedback. CoRR, abs/2307.15217, 2023. doi: 10.48550 S Casper, X Davies, C Shi, TK Gilbert, J Scheurer, J Rando, R Freedman, ... arXiv preprint ARXIV.2307.15217, 0	7
& Hadfield-Menell, D.(2023). Open problems and fundamental limitations of reinforcement learning from human feedback S Casper, X Davies, C Shi, TK Gilbert, J Scheurer, J Rando, R Freedman, ... arXiv preprint arXiv:2307.15217, 0	5
Domain Generalization for Robust Model-Based Offline Reinforcement Learning A Clark, SA Siddiqui, R Kirk, U Anwar, S Chung, D Krueger arXiv preprint arXiv:2211.14827, 2022	1	2022
IDs for AI Systems A Chan, N Kolt, P Wills, U Anwar, CS de Witt, N Rajkumar, L Hammond, ... arXiv preprint arXiv:2406.12137, 2024		2024

The system can't perform the operation now. Try again later.

Articles 1–10