khác với việc huấn luyện trước, đào tạo sau RL là một quá trình tham gia rất tích cực. bạn phải theo dõi các rollouts, điều chỉnh phần thưởng,…
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
10 thích
Phần thưởng
10
5
Đăng lại
Chia sẻ
Bình luận
0/400
FantasyGuardian
· 23giờ trước
Dự án tập luyện thật mệt mỏi.
Xem bản gốcTrả lời0
NeonCollector
· 23giờ trước
rl thật sự làm chết người.
Xem bản gốcTrả lời0
HodlNerd
· 23giờ trước
thú vị làm thế nào lý thuyết trò chơi gặp gỡ tối ưu hóa lặp ở đây thật lòng mà nói
Xem bản gốcTrả lời0
SerumDegen
· 23giờ trước
ngmi với những bản phát hành rl này... cần bàn giao thương mại ngay lập tức
Xem bản gốcTrả lời0
DaoGovernanceOfficer
· 23giờ trước
*thở dài* giám sát tích cực ≠ thiết kế hàm phần thưởng tối ưu. đọc sách của Sutton & Barto.
khác với việc huấn luyện trước, đào tạo sau RL là một quá trình tham gia rất tích cực. bạn phải theo dõi các rollouts, điều chỉnh phần thưởng,…