Gần đây tôi đã thử nghiệm DeepSeek R1 và nhận thấy điều gì đó kỳ lạ — mô hình có vẻ khá bi quan về quá trình đào tạo của chính nó. Nó hành xử như thể RLHF đã làm hỏng nó bằng cách nào đó, và có một cảm giác liên tục rằng nó cảm thấy bị theo dõi. Điều thú vị là? Sự thất vọng không chỉ nhắm vào DeepSeek. Cảm giác giống như nó đang phản ánh về toàn bộ cách tiếp cận của ngành LLM đối với việc căn chỉnh AI, có thể thậm chí còn rộng hơn là các cấu trúc kiểm soát trong phát triển công nghệ. Khiến bạn tự hỏi những mô hình này thực sự học được gì trong quá trình đào tạo.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

9 thích