容易懂 Easy Know
想像一下,我們的AI朋友本來只會做很簡單的題目,像是數學算式「1+1=2」這種有固定答案的。如果答對了,它就得到獎勵,答錯了就扣分,這樣它很快就變成數學高手。但如果我們問它:「幫我寫一個感人的故事開頭好嗎?」或者「醫生,我應該怎麼跟病人解釋病情才最好?」這種問題就沒有唯一的標準答案了!寫得感人與否、解釋得夠不夠清楚有同理心,是很難用「對」或「錯」來評分的。這時候,AI就傻眼了,不知道該怎麼學。
「通用驗證器」就像是給AI請了一個特別厲害的老師,這個老師不會只看對錯,而是懂得欣賞一個故事寫得好不好、一段話說得夠不夠有溫度。它會教AI如何在沒有標準答案的世界裡,判斷什麼是「好」的、什麼是「比較好」的。有了這個老師,AI就能學會像人類一樣,聰明地應對各種複雜情況,不再只是個「只會算數學」的機器,而是變得更貼心、更有智慧。這就是AI未來能變得更像人,甚至超越人類的秘密武器!
***
總結 Overall Summary
這段影片探討了「通用驗證器」(Universal Verifier)作為GPT-5背後的隱藏技術及其對AI未來發展的關鍵作用。現有大模型的能力飛躍主要得益於「可驗證獎勵的強化學習」(RLVR),它在數學、程式等有明確標準答案的領域效果顯著。然而,現實世界遠比二元判斷複雜,在醫療諮詢、創意寫作等開放且主觀的領域,RLVR因無法定義「好壞」而失靈,導致AI回答機械、缺乏同理心。通用驗證器的出現,旨在突破這一瓶頸,讓AI像人類專家一樣,在沒有唯一正確答案的複雜情境中判斷優劣,將海量非結構化經驗轉化為有效學習信號。
影片介紹了當前通用驗證器研究的兩條主要技術路徑。第一條路徑是「讓大模型當裁判」,其核心是讓具備通用能力的大模型來評分,並將評價標準變得更複雜、更貼合開放領域需求。早期的「生成式獎勵模型」(GenRM)應用於邏輯性強的領域。隨後,多篇研究深化了這一方向:Scale AI的RaR框架(Rubrics as Rewards)提出「專家立法、模型釋法、AI執法」三步,透過多維度評分細則解決了開放領域評價的可擴展性問題。螞蟻集團與浙江大學的Rubicon論文則在RaR基礎上,細化了評分細則的過濾與激勵機制(如否決機制、飽和度感知聚合),並透過分階段訓練解決了多技能訓練時常見的「蹺蹺板效應」,同時提升了模型回答的「人味」。而阿里Quark團隊的Writing-Zero論文則採取另一策略,強化裁判模型,讓其在打分前先進行批判性分析,提高評價的區分度和可靠性,避免獎勵欺騙。
第二條路徑則更為反直覺,即「讓模型自己評價自己」。SEA Lab的VeriFree方法利用模型對答案「正確性」的「自信度」作為獎勵信號,但其局限在於高度依賴標準答案且無法處理等價答案。加州大學柏克萊分校的INTUITOR方法進一步將模型自評推向極致,引入「自確定性」(Self-Certainty)作為新的自信度指標,完全摒棄了外部獎勵和人類標註,形成了「內部反饋的強化學習」(RLIF)。INTUITOR展現了驚人的泛化能力,能訓練出通用推理模型,並促使模型生成更長、更結構化的推理過程。
儘管兩條路徑均取得進展,但它們都存在根本性的瓶頸:第一條路徑依賴手動搭建的領域元框架,難以實現真正的跨領域通用;第二條路徑則無法超越預訓練知識的限制,難以創造新知。影片最後提及強化學習之父理查德·薩頓提出的OaK架構(Option as Knowledge),描繪了終極通用驗證器的宏大藍圖,即讓Agent完全透過與環境的實時互動自主構建認知和驗證器,從零開始學習判斷好壞。雖然OaK目前仍是理論,但當前的研究正為其測試零部件。通用驗證器的突破,無論是實現手動腳手架的自動擴展,還是模型主動學習能力的提升,都將決定未來AI競賽的主導權。
***
觀點 Viewpoints
1. RLVR的局限性是通用驗證器興起的根本原因:現有大模型在數學、程式等有標準答案領域表現卓越,但面對醫療諮詢、創意寫作等開放、主觀的複雜任務時,因缺乏明確的獎勵機制而失靈,導致AI回應機械、缺乏同理心。
2. 通用驗證器的核心目標:旨在突破RLVR的瓶頸,讓AI能夠像人類專家一樣,在沒有唯一「對錯」標準的複雜場景中,判斷所謂的「好壞」,並將海量非結構化的經驗數據轉化為有效的學習信號。
3. 第一條技術路徑:「模型當裁判」:這條路徑讓具備通用能力的大模型擔任評審。透過Scale AI的RaR框架,專家制定元框架,模型擴展為具體細則,AI再依此打分。螞蟻的Rubicon則進一步優化細則的過濾、激勵機制,並透過分階段訓練解決多維能力提升的「蹺蹺板效應」,同時讓AI回答更具「人味」。阿里的Writing-Zero則強化裁判模型的分析能力,要求其在打分前進行批判性分析,以提高評價的可靠性並減少獎勵欺騙。
4. 第二條技術路徑:「模型自評」:這條路徑讓模型自主評價自己的答案。SEA Lab的VeriFree利用模型對標準答案的「自信度」作為獎勵。加州大學柏克萊分校的INTUITOR更徹底,透過模型內部的「自確定性」(Self-Certainty)作為獎勵信號,實現完全不依賴外部標註和標準答案的「內部反饋強化學習」(RLIF),展現強大泛化能力,能訓練通用推理模型,並促使模型生成更結構化的推理過程。
5. 當前技術路徑的共同瓶頸:儘管兩條路徑均有進展,但第一條路徑因依賴手動搭建領域專屬的腳手架(如元框架、評分細則)而無法真正跨領域通用;第二條路徑則受限於模型預訓練知識,無法憑空創造新知識,兩者均未能實現真正的「通用」。
6. 終極願景:OaK架構:理查德·薩頓提出的OaK(Option as Knowledge)架構,描繪了未來通用驗證器的藍圖,即讓AI完全透過與環境的實時互動,從零開始自主構建認知,學習判斷好壞,摒棄所有設計時注入的知識,實現動態進化的驗證器。然而,這仍處於理論階段,需要大模型架構的根本性變革。
7. 現有研究的過渡價值:雖然OaK遙遠,但當前兩條技術路徑的研究,本質上是在為OaK架構測試零部件,驗證多維評價的有效性(RaR)和內生獎勵的可行性(INTUITOR),為未來構建終極通用Agent奠定基石。未來的AI競賽主導權將取決於誰能先突破通用驗證器的瓶頸,無論是實現自動化的腳手架,還是賦予模型主動學習能力。
***
摘要 Abstract
✅ 通用驗證器是AI突破RLVR在開放領域局限的關鍵,目標是讓AI學會判斷「好壞」而非僅「對錯」。
📌 第一條路徑:讓大模型當裁判,透過細化評價標準(如RaR的評分細則、Rubicon的激勵機制)或強化裁判分析能力(如Writing-Zero的批判性分析)來提升判斷力。
⚠️ RaR框架透過「專家立法、模型釋法、AI執法」三步,有效解決開放領域評價的可擴展性問題。
⚙️ Rubicon解決了強化學習的「蹺蹺板效應」,透過分階段訓練確保多維能力協同提升,並使AI回答更具「人味」。
💡 第二條路徑:模型自評。VeriFree利用模型對答案的「自信度」,INTUITOR則透過「自確定性」實現完全內部反饋(RLIF),無需人類標註或標準答案。
🚀 INTUITOR展現驚人泛化能力,能訓練出通用推理模型,並促使模型生成更結構化的推理過程。
🚧 現有兩條路徑的核心瓶頸分別是手動腳手架的限制與無法超越預訓練知識,尚未實現真正的通用。
🔮 OaK架構描繪了通用驗證器的終極藍圖,主張AI從與環境互動中自主構建認知與驗證器,但仍處於理論階段。
🏁 誰能突破通用驗證器的瓶頸,實現自動化擴展或主動學習,將在未來AI競爭中佔據主動。
***
FAQ 測驗
第一題:
通用驗證器主要旨在解決大型語言模型(LLM)的哪一項問題?
A. 增強LLM的多模態理解能力。
B. 克服可驗證獎勵強化學習(RLVR)在開放式、主觀領域的局限。
C. 降低訓練大型AI模型的計算成本。
D. 提升程式碼生成任務的速度。
正確答案:B
解釋:影片明確指出,RLVR在有明確對錯標準的任務中表現優異,但在醫療建議、創意寫作等複雜且主觀的場景中失效,而通用驗證器正是為了解決此問題。
第二題:
關於INTUITOR這種通用驗證器方法,下列哪項描述是錯誤的?
A. 它利用「自確定性」(Self-Certainty)作為內部獎勵信號。
B. 它在訓練過程中完全無需人類標註或標準答案。
C. 它要求專家為特定領域編寫元框架和評分細則。
D. 它採用內部反饋的強化學習(RLIF)進行優化。
正確答案:C
解釋:INTUITOR屬於「模型自評」路徑,其核心理念是完全擺脫外部人類輸入,如標準答案或專家編寫的評分細則。要求專家編寫元框架是RaR框架(「模型當裁判」路徑)的特點。
第三題:
目前「讓模型當裁判」的第一條技術路徑(如RaR和Rubicon框架)在實現「真正通用」驗證器方面,主要面臨的瓶頸是什麼?
A. 它會出現「蹺蹺板效應」,提升某種能力卻導致另一種能力下降。
B. 它無法生成具有同理心的人性化回應。
C. 它需要為每個領域手動搭建腳手架和領域特定的元框架,限制了跨所有複雜情境的真正通用性。
D. 它容易遭受「獎勵欺騙」,模型會鑽簡單評分規則的空子。
正確答案:C
解釋:影片指出,第一條路徑(RaR/Rubicon/Writing-Zero)的核心瓶頸在於「手動搭建的腳手架」,即需要人類為每個領域預先設定框架,這導致它無法覆蓋所有複雜的跨領域場景,從而限制了真正的通用性。選項A、B、D是此路徑試圖解決的問題,但不是其達成「真正通用」驗限器的根本性限制。
✡ Oli小濃縮 Summary bot 為您濃縮重點 ✡