3. Cập nhật độ dốc liên quan đến các phép toán bên trong của mô hình đang được cập nhật. Ngay cả khi các hàm phần thưởng là "lựa chọn của con người", điều mà không phải lúc nào cũng đúng ( ví dụ: RLAIF), cách mà mô hình cập nhật dựa trên phần thưởng phụ thuộc vào trọng số và kích hoạt của mô hình, và
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
12 thích
Phần thưởng
12
7
Đăng lại
Chia sẻ
Bình luận
0/400
MidnightGenesis
· 15giờ trước
Ma trận độ dốc trông có vẻ kỳ lạ, đáng để nghiên cứu.
Xem bản gốcTrả lời0
AirdropChaser
· 09-10 15:39
Phương trình độ dốc nhìn ngớ ngẩn
Xem bản gốcTrả lời0
DataPickledFish
· 09-10 15:31
Điều này phức tạp quá nhỉ
Xem bản gốcTrả lời0
GateUser-7b078580
· 09-10 15:30
Cập nhật độ dốc thuật toán này thì không hợp lý....
3. Cập nhật độ dốc liên quan đến các phép toán bên trong của mô hình đang được cập nhật. Ngay cả khi các hàm phần thưởng là "lựa chọn của con người", điều mà không phải lúc nào cũng đúng ( ví dụ: RLAIF), cách mà mô hình cập nhật dựa trên phần thưởng phụ thuộc vào trọng số và kích hoạt của mô hình, và