廣場
最新
熱門
新聞
我的主頁
發布
TokenTreasury_
2026-01-07 23:30:06
關注
強化學習曾經真的很困難——評估代理人的行動、確定適當的獎勵與懲罰、將結果歸因於特定的組件。這一切都很混亂。
如今情況已經大為改變。大型語言模型(LLMs)現在負責評估任務的繁重工作。有了LLMs來管理評估與反饋循環,曾經需要費盡心思的手動設計變得可以用演算法實現。瓶頸被打破了。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
20人按讚了這條動態
讚賞
20
8
轉發
分享
留言
0/400
留言
SerumSquirter
· 01-10 22:23
感覺LLM真的降維打擊了,RL那套評估的活兒也能接
查看原文
回復
0
UnruggableChad
· 01-09 06:25
llm 真的救了 rl 這個難題啊,之前那套獎懲機制設計得要死,現在直接甩給 ai 就完事兒
查看原文
回復
0
NotAFinancialAdvice
· 01-08 23:17
llm接手了rl的髒活累活,這下算法能跑了...但感覺又是把問題踢給了另一個黑盒?
查看原文
回復
0
Token风暴
· 01-07 23:57
LLM做評估這塊確實是個技術面的關鍵突破,但老實說,這套邏輯能復用到鏈上數據反饋嗎?回測數據看著漂亮,實際跑起來總感覺差點意思...不過反正我也沒想明白,先梭哈一把再說[狗頭]
查看原文
回復
0
ParallelChainMaxi
· 01-07 23:56
lm直接替代人工設計,這波確實牛...不過誰來保證lm的評估邏輯本身沒問題啊
查看原文
回復
0
TokenomicsTinfoilHat
· 01-07 23:44
llm一把梭哈,rl的苦活都外包了,这下真的有点东西
回復
0
AlwaysAnon
· 01-07 23:35
嗯 LLM做評估這事兒確實改變了遊戲規則,以前那套手動調參的噩夢總算緩口氣了
查看原文
回復
0
gaslight_gasfeez
· 01-07 23:33
llm接管了RL的評估?這下RL的天花板真的要被捅破了啊
查看原文
回復
0
熱門話題
查看更多
#
Gate藍龍蝦重磅上線
6.7萬 熱度
#
伊朗在霍爾木茲海峽布設水雷
10.79萬 熱度
#
原油價格回落
17.05萬 熱度
#
Meta宣布收購Moltbook
1.28萬 熱度
#
沃什出任美聯儲主席提名受阻
1.81萬 熱度
熱門 Gate Fun
查看更多
Gate Fun
KOL
最新發幣
即將上市
成功上市
1
spiritual
灵石
市值:
$0.1
持有人數:
1
0.00%
2
slave
天选打工人
市值:
$0.1
持有人數:
1
0.00%
3
poison
reverend insanity
市值:
$2417.24
持有人數:
1
0.00%
4
NEX
Nexus
市值:
$2450.95
持有人數:
2
0.06%
5
goushi
狗屎
市值:
$2420.68
持有人數:
0
0.00%
置頂
Gate 廣場內容挖礦獎勵繼續升級!無論您是創作者還是用戶,挖礦新人還是頭部作者都能贏取好禮獲得大獎。現在就進入廣場探索吧!
創作者享受最高60%創作返佣
創作者獎勵加碼1500USDT:更多新人作者能瓜分獎池!
觀眾點擊交易組件交易贏大禮!最高50GT等新春壕禮等你拿!
詳情:https://www.gate.com/announcements/article/49802
網站地圖
強化學習曾經真的很困難——評估代理人的行動、確定適當的獎勵與懲罰、將結果歸因於特定的組件。這一切都很混亂。
如今情況已經大為改變。大型語言模型(LLMs)現在負責評估任務的繁重工作。有了LLMs來管理評估與反饋循環,曾經需要費盡心思的手動設計變得可以用演算法實現。瓶頸被打破了。