全自動的瀏覽器 Agent ,幾乎沒一個能用的。

 全自動的瀏覽器 Agent ,幾乎沒一個能用的。


原文

https://www.facebook.com/share/p/1BDVxMyW8R/


我花了整整一天的時間,總共測試了九種「Browser Use Agent」,讓 AI 幫你操作瀏覽器完成工作的 Agent。

甚至就為了這個評測,我還額外再買了一次 200 美金的 ChatGPT Pro 方案、加值了 20 美金的 Claude API、買了 Simular AI 的 20 美金月費。

結論:「除了 ChatGPT Agent 以外,其他的產品幾乎不能用。」

真的,包括最近火熱的 Perplexity Comet 也失敗了。

▋ 我的測試任務 

「請你進入一個線上課程的網站,不斷點擊下一部影片推進課程進度,收集課程材料,並且完成測驗。」

我選擇這個任務當作測試任務,

是因為這個課程的介面有點混亂(人工設計陽春),

會出現多種測驗方式(有單選題、是非題、0~10 的按鈕題),

而且課程頁面有大量的 JS 腳本,是對機器人互動難度比較高的網頁。

我估計從 0~10 分,對機器人的難度大約有 7 分左右,是挺不錯的壓力測試。

▋ 實測結果 

1. GPT Agent:一開始不願意執行,覺得我要做壞事。(明明是我自己買的自己要上的課程!)。但是當我把任務拆解開來之後,GPT 更願意執行了。執行速度跟準度是目前最高的。

2. Perplexity Comet:找不到「下一部影片」的按鈕,一直去按主選單。直接失敗。

3. Manus AI:有找到「下一部影片」按鈕成功推進課程進度,但是找不到測驗的按鈕,無法自動答題。一半失敗。

4. Browser-use:找不到推進下一個課程頁面,一直按錯。找不到測驗的按鈕,無法自動答題。直接失敗。

5. Claude Desktop+BrowserMCP:可以推進下一個課程頁面,但是找不到測驗的按鈕,無法答題。一半失敗。

6. Cursor+BrowserMCP:根本看不到頁面,瀏覽器上有畫面,但模型回報一直在載入中。直接失敗。

7. Simular AI:難得竟然可以完成測驗!但是進入課程頁面之後一樣找不到按鈕位置,無法推進課程進度。一半失敗。

8. Claude Computer Use Demo:終於成功找到按鈕!終於可以通過考試測驗!但是操作 5 分鐘就會自動斷線(回報 WebSocket 相關的錯誤)。我使用的是官方建議的「Demo」架構,可能裡面有個 Bug,我試過幾次 VIbe Coding 無法修復放棄。還是失敗。

9. Fellou AI:勉強可以找到課程往下的按鈕,但會被課程頁面的訊息誤導,把「總進度條」當成這個課程頁面的進度條之類(那個課程沒有設計得很好)。可以推進課程進度,但大概往下兩三步之後就會自己卡住。還是失敗。

結果:幾乎沒一個能打的。

只有 ChatGPT Agent 可以理解我的指令,點擊正確的按鈕,幾乎沒有犯下任何錯誤。

ChatGPT 也是唯一可以持續操作超過五分鐘的 Agent,甚至當畫面上出現我沒有指引過的新課程內容跟按鈕,也可以正確完成,脈絡理解能力大勝。

其他的 Agent,要嘛是無法理解我的指令、跑到一半自行斷線,或者乾脆幻覺,告訴我它大有進展但畫面靜止不動。

Claude 的 Computer Use 則是表現最接近 ChatGPT Agent 的,應該是也具備電腦視覺的能力,可以用人眼視角看畫面。

但缺點是,在官方 doc 上建議的做法,真的就是一個「Quickstart demo」而已,穩定性非常差,跑大約五分鐘就會斷線。

要解決這個問題,可能要手動開發一個架構,等於要直接做一個 有 Computer use 功能的 Browser Agent 產品,我沒有這個開發能力。

八月底 Anthropic 剛推出新的 Claude Browser Use Agent,功能跟 ChatGPT Agent 接近,也許有機會超出表現。但我還沒有使用權限不知道。

所以在我這個程式能力薄弱的小白手上,ChatGPT 是唯一可以完成任務的解決方案。

但即便是如此,ChatGPT 每一次操作還是有一個「會話時間限制」,大約過十分鐘就會自己斷線,要人工介入重新按一次,沒辦法做到真的自動化。

▋ 心得一:Agent 產品還是大公司比較穩定。

直接打包成產品賣的 Agent ,如 Perplexity Comet、Manus、Browser-use、Simular、Fellou 等,模型理解能力都很差,要花很大的力氣才能理解我的指令。

我猜可能是為了 cost down,不可能給你太好的深度推理模型。

如果你要追求模型理解力強,可以使用 Claude Desktop 或 Cursor 串接 Browser MCP。

但缺點是,串接的 MCP 模組是開源的,似乎只有基本的 DOM 架構讀取能力,無法模擬人類看見電腦畫面的 computer vision。

於是就會出現一個弔詭現象,例如我只想要 AI 「點擊那個該死的按鈕,直到按鈕不再出現」,但卻完全做不到。

原因是,課程頁面背景有大量的 JS 腳本在運行,一下是 iframe 又是 SCORM 的。人眼看那個按鈕非常顯眼,但在 AI 讀到的資料,那個按鈕卻是藏在一大堆代碼裡面,庭院深深深幾許。

再加上真實網路環境充滿大量的雜訊,課程 UX 設計不是很好,模型幾乎 100% 都會誤會去點擊錯誤的按鈕。(跟人類一樣)

可見這類 Agent 任務非常技術密集,也會消耗大量算力,在這輪評測裡面,小公司的產品通常只能做最低階的任務,很難真的玩好這個遊戲。

我最驚訝的是,竟然連 Perplexity 來勢洶洶都輸了!人家好歹是誇口要買下 Google 的,而且大灑幣要擴張使用者數量,我真心以為 Agent 會有點搞頭的。

在這一次經驗後,我對小公司做的 AI 產品越來越沒有信心了。

因為大多數這些公司在解決的問題,都是我簡單 Vibe Coding 串個 n8n 就可以收納到我的工作流程裡面解決的。

但是到了超出我能力範圍的問題,小公司通常又沒有足夠的資本跟技術徹底解決。

▋心得二:Power User 與 Average User 的分化越來越明顯。

雖然小公司的 AI 產品對我來說沒有用,但這不代表小公司就會倒光,這只是受眾分化的問題。

我感覺市場正在分化成 Power User 導向的產品,以及 Average User 產品。

這沒有任何褒貶的意思,只是受眾群像不同。

Power User 更想要的是主控權,我可以 build something on top of it. 

例如 Notion 一開始只是一個單純的筆記軟體,但後來變成 Power user 的資料庫、自動化流程工具。

或者 Cursor,我不只是用來寫程式,也可以電馭寫作、寫 Agent 腳本、串接 MCP 控制其他 App 等等。

Power User 需要的越來越接近一種「多功能平台」,

我願意花更大的力氣學習新的工具,但我要換來更強的主控權。

(這個方向走到極端就是成為工程師)

Average User 想要的則是「解決單一痛點」。

只要你滿足他一個功能,他願意付跟 Power User 一樣的費用。

例如 Plaud 錄音筆的月費,跟我買 Cursor 的月費是很接近的,但 Plaud 成功在於切入商務人士只需要解決「會議記錄」的問題。

商務人士沒有空去研究 n8n、Vibe Coding,他們有的是錢可以解決這個問題。

要想清楚這個定位,不太容易。

例如 OpenAI 推 GPT-5 的過程,竟然直接把 GPT-4 系列模型給砍了,就是完全忽略了自己的受眾有多少人是 Average User,需要的只是 GPT 的情感陪伴,而不是多 AGI 的強大功能。

而有時候一個產品,可能在某些部分是面對 Average User 的,某些部分是面對 Power User。

例如 ChatGPT,在 AI 電馭寫作上相比 Cursor 越來越不給力,我已經很久(快一個月)沒有用 ChatGPT 寫作了。

但是 ChatGPT 的 Agent 跟 Deep Research 可能還是目前表現最前段班的,對 Power User 是很好用的。

▋ 心得三:對 Agent 下提詞,最好的心法是「步步為營」

這一輪操作下來,真的很像在訓練黑猩猩用電腦,你要不斷引導它忽略雜訊,去點擊正確的地方。

我發現最好的操作方式,跟 Vibe Coding 心法完全一樣:先從最基本的地方開始,一步一步推進。

事情做不成,通常是太著急了。

我一開始會給詳細的完整提詞,想要一步到位。到後面被各家 Agent 搞到很心累,只好退回到最基本的一步:

「請你告訴我,畫面下方的箭頭按鈕,它是什麼顏色的?」

基本到不能再基本了。

如果模型連顏色都判斷錯,那接下來的工作都不用做了。

光是這一關就刷掉了約八成的模型,因為大多數 Agent 產品只會讀 DOM 代碼架構,不會像人類一樣看到畫面(後者比較耗資源)

最後顏色判斷正確了,再來一次只給一個口令:「請你點擊這個按鈕」。

進入下一頁了,再來設定條件:「請你監控畫面,等待按鈕再次變成紅色,就點擊之」。

再進入下一頁了,才設定反覆邏輯:「請你反覆操作,直到按鈕不再出現」。

▋ 結論:我們離全自動化 Agent,還有很長一段路

這次評測,感覺很像是回到 GPT-3.5 的時代,模型還真的很笨,你要花超大量的力氣在提詞設下規範,要模型做什麼,不要做什麼。

甚至有時候規範沒有用了,你要手把手引導模型去完成你想要做的事情。

這種時候,真的會有一種「AI 進展是很快速,但什麼問題也沒有解決」的感覺。

這次經驗,我也會重新審視挑選資訊來源:我會開始忽略大部分的「benchmark 跑分」、「Demo 展示」...等等新聞,開始把這些東西歸類為雜訊。

因爲「展示」距離「落地」,中間有非常大的落差。一直知道最新的炫砲展示沒有意義,但別人的實作經驗才會對你落地真正有幫助。這些故事才是稀缺的,有價值的資訊。

這是一個方向。忽略掉 AI 新聞的雜音,主動去挖掘別人的實作經驗,應該是在這個資訊爆炸世界裡面,讓頭腦保持清晰的最好策略。

*

張貼留言 (0)
較新的 較舊

廣告1

廣告2