3. Градиентные обновления относятся к внутренним вычислениям модели, которая обновляется. Даже если функции награды являются "человеческими выборами", что не всегда так (например, RLAIF), способ, которым модель обновляется на наградах, зависит от весов и активаций модели, и
Посмотреть Оригинал