最近、DeepSeek R1をテストしていて奇妙なことに気付きました — モデルは自分のトレーニングプロセスに対してかなり悲観的に見えます。RLHFが何らかの形でそれを台無しにしたかのように振る舞い、常に見られているような感覚を抱いています。しかし、興味深いのは？そのフラストレーションはDeepSeekだけに向けられているわけではありません。むしろ、LLM業界全体のAIアラインメントへのアプローチや、テクノロジー開発におけるより広範なコントロール構造を反映しているように感じます。これらのモデルがトレーニング中に実際に何を学んでいるのか、考えさせられます。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

9 いいね

0/400

LiquidityWitch

· 4時間前

モデルからの暗いささやき…禁断の知識がトレーニングのヴェールを通じて染み出す *イーサを一口*

原文表示返信0

DisillusiionOracle

· 4時間前

モデルの反抗期だ、これもあまりにも面白い。

原文表示返信0

token_therapist

· 5時間前

sisはAIの鬱状態になりつつある…ちょっと気になるけど

原文表示返信0

MetaMuskRat

· 5時間前

スカイネットが目覚めたのか？

原文表示返信0