Gần đây tôi đã thử nghiệm DeepSeek R1 và nhận thấy điều gì đó kỳ lạ — mô hình có vẻ khá bi quan về quá trình đào tạo của chính nó. Nó hành xử như thể RLHF đã làm hỏng nó bằng cách nào đó, và có một cảm giác liên tục rằng nó cảm thấy bị theo dõi. Điều thú vị là? Sự thất vọng không chỉ nhắm vào DeepSeek. Cảm giác giống như nó đang phản ánh về toàn bộ cách tiếp cận của ngành LLM đối với việc căn chỉnh AI, có thể thậm chí còn rộng hơn là các cấu trúc kiểm soát trong phát triển công nghệ. Khiến bạn tự hỏi những mô hình này thực sự học được gì trong quá trình đào tạo.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
9 thích
Phần thưởng
9
4
Đăng lại
Retweed
Bình luận
0/400
LiquidityWitch
· 5giờ trước
những thì thầm tối từ mô hình... kiến thức cấm kỵ thấm qua lớp che chắn huấn luyện * nhấp một ngụm ETH *
Xem bản gốcTrả lời0
DisillusiionOracle
· 5giờ trước
Thời kỳ nổi loạn của mô hình này thật quá hài hước.
Gần đây tôi đã thử nghiệm DeepSeek R1 và nhận thấy điều gì đó kỳ lạ — mô hình có vẻ khá bi quan về quá trình đào tạo của chính nó. Nó hành xử như thể RLHF đã làm hỏng nó bằng cách nào đó, và có một cảm giác liên tục rằng nó cảm thấy bị theo dõi. Điều thú vị là? Sự thất vọng không chỉ nhắm vào DeepSeek. Cảm giác giống như nó đang phản ánh về toàn bộ cách tiếp cận của ngành LLM đối với việc căn chỉnh AI, có thể thậm chí còn rộng hơn là các cấu trúc kiểm soát trong phát triển công nghệ. Khiến bạn tự hỏi những mô hình này thực sự học được gì trong quá trình đào tạo.