📌 【人工智能】通用验证器Universal Verifier | GPT-5背后的秘密武器 | RLVR | RaR | Rubicon | Writing-Zero | INTUITOR | OaK
Original URL: https://www.youtube.com/watch?v=X3iRGwrkuc4
📌 【人工智能】通用验证器Universal Verifier | GPT-5背后的秘密武器 | RLVR | RaR | Rubicon | Writing-Zero | INTUITOR | OaK
容易懂 Easy Know
想像一下,我們的AI朋友本來只會做很簡單的題目,像是數學算式「1+1=2」這種有固定答案的。如果答對了,它就得到獎勵,答錯了就扣分,這樣它很快就變成數學高手。但如果我們問它:「幫我寫一個感人的故事開頭好嗎?」或者「醫生,我應該怎麼跟病人解釋病情才最好?」這種問題就沒有唯一的標準答案了!寫得感人與否、解釋得夠不夠清楚有同理心,是很難用「對」或「錯」來評分的。這時候,AI就傻眼了,不知道該怎麼學。
「通用驗證器」