全自動的瀏覽器 Agent ,幾乎沒一個能用的。
原文
https://www.facebook.com/share/p/1BDVxMyW8R/
ㅤ
我花了整整一天的時間,總共測試了九種「Browser Use Agent」,讓 AI 幫你操作瀏覽器完成工作的 Agent。
ㅤ
甚至就為了這個評測,我還額外再買了一次 200 美金的 ChatGPT Pro 方案、加值了 20 美金的 Claude API、買了 Simular AI 的 20 美金月費。
ㅤ
結論:「除了 ChatGPT Agent 以外,其他的產品幾乎不能用。」
ㅤ
真的,包括最近火熱的 Perplexity Comet 也失敗了。
ㅤ
▋ 我的測試任務
ㅤ
「請你進入一個線上課程的網站,不斷點擊下一部影片推進課程進度,收集課程材料,並且完成測驗。」
ㅤ
我選擇這個任務當作測試任務,
是因為這個課程的介面有點混亂(人工設計陽春),
會出現多種測驗方式(有單選題、是非題、0~10 的按鈕題),
而且課程頁面有大量的 JS 腳本,是對機器人互動難度比較高的網頁。
ㅤ
我估計從 0~10 分,對機器人的難度大約有 7 分左右,是挺不錯的壓力測試。
ㅤ
▋ 實測結果
ㅤ
1. GPT Agent:一開始不願意執行,覺得我要做壞事。(明明是我自己買的自己要上的課程!)。但是當我把任務拆解開來之後,GPT 更願意執行了。執行速度跟準度是目前最高的。
ㅤ
2. Perplexity Comet:找不到「下一部影片」的按鈕,一直去按主選單。直接失敗。
ㅤ
3. Manus AI:有找到「下一部影片」按鈕成功推進課程進度,但是找不到測驗的按鈕,無法自動答題。一半失敗。
ㅤ
4. Browser-use:找不到推進下一個課程頁面,一直按錯。找不到測驗的按鈕,無法自動答題。直接失敗。
ㅤ
5. Claude Desktop+BrowserMCP:可以推進下一個課程頁面,但是找不到測驗的按鈕,無法答題。一半失敗。
ㅤ
6. Cursor+BrowserMCP:根本看不到頁面,瀏覽器上有畫面,但模型回報一直在載入中。直接失敗。
ㅤ
7. Simular AI:難得竟然可以完成測驗!但是進入課程頁面之後一樣找不到按鈕位置,無法推進課程進度。一半失敗。
ㅤ
8. Claude Computer Use Demo:終於成功找到按鈕!終於可以通過考試測驗!但是操作 5 分鐘就會自動斷線(回報 WebSocket 相關的錯誤)。我使用的是官方建議的「Demo」架構,可能裡面有個 Bug,我試過幾次 VIbe Coding 無法修復放棄。還是失敗。
ㅤ
9. Fellou AI:勉強可以找到課程往下的按鈕,但會被課程頁面的訊息誤導,把「總進度條」當成這個課程頁面的進度條之類(那個課程沒有設計得很好)。可以推進課程進度,但大概往下兩三步之後就會自己卡住。還是失敗。
ㅤ
結果:幾乎沒一個能打的。
ㅤ
只有 ChatGPT Agent 可以理解我的指令,點擊正確的按鈕,幾乎沒有犯下任何錯誤。
ㅤ
ChatGPT 也是唯一可以持續操作超過五分鐘的 Agent,甚至當畫面上出現我沒有指引過的新課程內容跟按鈕,也可以正確完成,脈絡理解能力大勝。
ㅤ
其他的 Agent,要嘛是無法理解我的指令、跑到一半自行斷線,或者乾脆幻覺,告訴我它大有進展但畫面靜止不動。
ㅤ
Claude 的 Computer Use 則是表現最接近 ChatGPT Agent 的,應該是也具備電腦視覺的能力,可以用人眼視角看畫面。
ㅤ
但缺點是,在官方 doc 上建議的做法,真的就是一個「Quickstart demo」而已,穩定性非常差,跑大約五分鐘就會斷線。
ㅤ
要解決這個問題,可能要手動開發一個架構,等於要直接做一個 有 Computer use 功能的 Browser Agent 產品,我沒有這個開發能力。
ㅤ
八月底 Anthropic 剛推出新的 Claude Browser Use Agent,功能跟 ChatGPT Agent 接近,也許有機會超出表現。但我還沒有使用權限不知道。
ㅤ
所以在我這個程式能力薄弱的小白手上,ChatGPT 是唯一可以完成任務的解決方案。
ㅤ
但即便是如此,ChatGPT 每一次操作還是有一個「會話時間限制」,大約過十分鐘就會自己斷線,要人工介入重新按一次,沒辦法做到真的自動化。
ㅤ
▋ 心得一:Agent 產品還是大公司比較穩定。
ㅤ
直接打包成產品賣的 Agent ,如 Perplexity Comet、Manus、Browser-use、Simular、Fellou 等,模型理解能力都很差,要花很大的力氣才能理解我的指令。
ㅤ
我猜可能是為了 cost down,不可能給你太好的深度推理模型。
ㅤ
如果你要追求模型理解力強,可以使用 Claude Desktop 或 Cursor 串接 Browser MCP。
ㅤ
但缺點是,串接的 MCP 模組是開源的,似乎只有基本的 DOM 架構讀取能力,無法模擬人類看見電腦畫面的 computer vision。
ㅤ
於是就會出現一個弔詭現象,例如我只想要 AI 「點擊那個該死的按鈕,直到按鈕不再出現」,但卻完全做不到。
ㅤ
原因是,課程頁面背景有大量的 JS 腳本在運行,一下是 iframe 又是 SCORM 的。人眼看那個按鈕非常顯眼,但在 AI 讀到的資料,那個按鈕卻是藏在一大堆代碼裡面,庭院深深深幾許。
ㅤ
再加上真實網路環境充滿大量的雜訊,課程 UX 設計不是很好,模型幾乎 100% 都會誤會去點擊錯誤的按鈕。(跟人類一樣)
ㅤ
可見這類 Agent 任務非常技術密集,也會消耗大量算力,在這輪評測裡面,小公司的產品通常只能做最低階的任務,很難真的玩好這個遊戲。
ㅤ
我最驚訝的是,竟然連 Perplexity 來勢洶洶都輸了!人家好歹是誇口要買下 Google 的,而且大灑幣要擴張使用者數量,我真心以為 Agent 會有點搞頭的。
ㅤ
在這一次經驗後,我對小公司做的 AI 產品越來越沒有信心了。
ㅤ
因為大多數這些公司在解決的問題,都是我簡單 Vibe Coding 串個 n8n 就可以收納到我的工作流程裡面解決的。
ㅤ
但是到了超出我能力範圍的問題,小公司通常又沒有足夠的資本跟技術徹底解決。
ㅤ
▋心得二:Power User 與 Average User 的分化越來越明顯。
ㅤ
雖然小公司的 AI 產品對我來說沒有用,但這不代表小公司就會倒光,這只是受眾分化的問題。
ㅤ
我感覺市場正在分化成 Power User 導向的產品,以及 Average User 產品。
ㅤ
這沒有任何褒貶的意思,只是受眾群像不同。
ㅤ
Power User 更想要的是主控權,我可以 build something on top of it.
ㅤ
例如 Notion 一開始只是一個單純的筆記軟體,但後來變成 Power user 的資料庫、自動化流程工具。
ㅤ
或者 Cursor,我不只是用來寫程式,也可以電馭寫作、寫 Agent 腳本、串接 MCP 控制其他 App 等等。
ㅤ
Power User 需要的越來越接近一種「多功能平台」,
我願意花更大的力氣學習新的工具,但我要換來更強的主控權。
(這個方向走到極端就是成為工程師)
ㅤ
Average User 想要的則是「解決單一痛點」。
ㅤ
只要你滿足他一個功能,他願意付跟 Power User 一樣的費用。
ㅤ
例如 Plaud 錄音筆的月費,跟我買 Cursor 的月費是很接近的,但 Plaud 成功在於切入商務人士只需要解決「會議記錄」的問題。
ㅤ
商務人士沒有空去研究 n8n、Vibe Coding,他們有的是錢可以解決這個問題。
ㅤ
要想清楚這個定位,不太容易。
ㅤ
例如 OpenAI 推 GPT-5 的過程,竟然直接把 GPT-4 系列模型給砍了,就是完全忽略了自己的受眾有多少人是 Average User,需要的只是 GPT 的情感陪伴,而不是多 AGI 的強大功能。
ㅤ
而有時候一個產品,可能在某些部分是面對 Average User 的,某些部分是面對 Power User。
ㅤ
例如 ChatGPT,在 AI 電馭寫作上相比 Cursor 越來越不給力,我已經很久(快一個月)沒有用 ChatGPT 寫作了。
ㅤ
但是 ChatGPT 的 Agent 跟 Deep Research 可能還是目前表現最前段班的,對 Power User 是很好用的。
ㅤ
▋ 心得三:對 Agent 下提詞,最好的心法是「步步為營」
ㅤ
這一輪操作下來,真的很像在訓練黑猩猩用電腦,你要不斷引導它忽略雜訊,去點擊正確的地方。
ㅤ
我發現最好的操作方式,跟 Vibe Coding 心法完全一樣:先從最基本的地方開始,一步一步推進。
ㅤ
事情做不成,通常是太著急了。
ㅤ
我一開始會給詳細的完整提詞,想要一步到位。到後面被各家 Agent 搞到很心累,只好退回到最基本的一步:
ㅤ
「請你告訴我,畫面下方的箭頭按鈕,它是什麼顏色的?」
ㅤ
基本到不能再基本了。
如果模型連顏色都判斷錯,那接下來的工作都不用做了。
ㅤ
光是這一關就刷掉了約八成的模型,因為大多數 Agent 產品只會讀 DOM 代碼架構,不會像人類一樣看到畫面(後者比較耗資源)
ㅤ
最後顏色判斷正確了,再來一次只給一個口令:「請你點擊這個按鈕」。
ㅤ
進入下一頁了,再來設定條件:「請你監控畫面,等待按鈕再次變成紅色,就點擊之」。
ㅤ
再進入下一頁了,才設定反覆邏輯:「請你反覆操作,直到按鈕不再出現」。
ㅤ
▋ 結論:我們離全自動化 Agent,還有很長一段路
ㅤ
這次評測,感覺很像是回到 GPT-3.5 的時代,模型還真的很笨,你要花超大量的力氣在提詞設下規範,要模型做什麼,不要做什麼。
ㅤ
甚至有時候規範沒有用了,你要手把手引導模型去完成你想要做的事情。
ㅤ
這種時候,真的會有一種「AI 進展是很快速,但什麼問題也沒有解決」的感覺。
ㅤ
這次經驗,我也會重新審視挑選資訊來源:我會開始忽略大部分的「benchmark 跑分」、「Demo 展示」...等等新聞,開始把這些東西歸類為雜訊。
ㅤ
因爲「展示」距離「落地」,中間有非常大的落差。一直知道最新的炫砲展示沒有意義,但別人的實作經驗才會對你落地真正有幫助。這些故事才是稀缺的,有價值的資訊。
ㅤ
這是一個方向。忽略掉 AI 新聞的雜音,主動去挖掘別人的實作經驗,應該是在這個資訊爆炸世界裡面,讓頭腦保持清晰的最好策略。