📌 AI只会“抄答案”?谷歌SRL新框架,让它学会“解题思路”!深度解析监督强化学习
Original URL: https://youtu.be/dc59mSz3FzE
📌 AI只会“抄答案”?谷歌SRL新框架,让它学会“解题思路”!深度解析监督强化学习
⓵ 容易懂 Easy Know
想像一下,你正在學解一個超複雜的魔術方塊,這需要很多步驟。傳統的教法有兩種。第一種是「死背公式」(SFT),你只能一模一樣地照抄老師的動作,如果遇到新的狀況就會當場卡住,而且永遠無法比老師更厲害。第二種是「只看結果」(RLVR),只有你完全解開魔術方塊才能得到獎勵,但如果它太難了,你試一百次都失敗,根本不知道哪一步做錯了,最後就會放棄學習。
新的 SRL 方法就像一位超棒的教練。他不只看你最後有沒有解開,而是把你解方塊的過程拆成很多小動作(例如「轉左邊九十度」)。然後在你每做完一個小動作後,他會立刻告訴你:「做得像專家!」或「這裡有點不像」。教練給你鼓勵,讓你每一步都能得到明確的指導,但又允許你自己思考(例如先想一下下一步怎麼轉)。這樣一來,