3. Градієнтні оновлення стосуються внутрішніх обчислень моделі, яка оновлюється. Навіть якщо функції винагороди є "людськими виборами", чим вони не завжди є (, наприклад, RLAIF), спосіб, яким модель оновлюється на винагородах, залежить від ваг і активацій моделі, і
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
7
Репост
Поділіться
Прокоментувати
0/400
MidnightGenesis
· 17год тому
Градієнтна матриця виглядає дивно, варто дослідити.
Переглянути оригіналвідповісти на0
AirdropChaser
· 09-10 15:39
Градiєнтне рівняння здивувало
Переглянути оригіналвідповісти на0
DataPickledFish
· 09-10 15:31
Це занадто складно.
Переглянути оригіналвідповісти на0
GateUser-7b078580
· 09-10 15:30
Градієнтне оновлення цього Алгоритму є нерозумним....
3. Градієнтні оновлення стосуються внутрішніх обчислень моделі, яка оновлюється. Навіть якщо функції винагороди є "людськими виборами", чим вони не завжди є (, наприклад, RLAIF), спосіб, яким модель оновлюється на винагородах, залежить від ваг і активацій моделі, і