全自動的瀏覽器 Agent ，幾乎沒一個能用的。

byDavid Chiang •8:42 上午

0

原文

https://www.facebook.com/share/p/1BDVxMyW8R/

ㅤ

我花了整整一天的時間，總共測試了九種「Browser Use Agent」，讓 AI 幫你操作瀏覽器完成工作的 Agent。

ㅤ

甚至就為了這個評測，我還額外再買了一次 200 美金的 ChatGPT Pro 方案、加值了 20 美金的 Claude API、買了 Simular AI 的 20 美金月費。

ㅤ

結論：「除了 ChatGPT Agent 以外，其他的產品幾乎不能用。」

ㅤ

真的，包括最近火熱的 Perplexity Comet 也失敗了。

ㅤ

▋ 我的測試任務

ㅤ

「請你進入一個線上課程的網站，不斷點擊下一部影片推進課程進度，收集課程材料，並且完成測驗。」

ㅤ

我選擇這個任務當作測試任務，

是因為這個課程的介面有點混亂（人工設計陽春），

會出現多種測驗方式（有單選題、是非題、0~10 的按鈕題），

而且課程頁面有大量的 JS 腳本，是對機器人互動難度比較高的網頁。

ㅤ

我估計從 0~10 分，對機器人的難度大約有 7 分左右，是挺不錯的壓力測試。

ㅤ

▋ 實測結果

ㅤ

1. GPT Agent：一開始不願意執行，覺得我要做壞事。（明明是我自己買的自己要上的課程！）。但是當我把任務拆解開來之後，GPT 更願意執行了。執行速度跟準度是目前最高的。

ㅤ

2. Perplexity Comet：找不到「下一部影片」的按鈕，一直去按主選單。直接失敗。

ㅤ

3. Manus AI：有找到「下一部影片」按鈕成功推進課程進度，但是找不到測驗的按鈕，無法自動答題。一半失敗。

ㅤ

4. Browser-use：找不到推進下一個課程頁面，一直按錯。找不到測驗的按鈕，無法自動答題。直接失敗。

ㅤ

5. Claude Desktop＋BrowserMCP：可以推進下一個課程頁面，但是找不到測驗的按鈕，無法答題。一半失敗。

ㅤ

6. Cursor＋BrowserMCP：根本看不到頁面，瀏覽器上有畫面，但模型回報一直在載入中。直接失敗。

ㅤ

7. Simular AI：難得竟然可以完成測驗！但是進入課程頁面之後一樣找不到按鈕位置，無法推進課程進度。一半失敗。

ㅤ

8. Claude Computer Use Demo：終於成功找到按鈕！終於可以通過考試測驗！但是操作 5 分鐘就會自動斷線（回報 WebSocket 相關的錯誤）。我使用的是官方建議的「Demo」架構，可能裡面有個 Bug，我試過幾次 VIbe Coding 無法修復放棄。還是失敗。

ㅤ

9. Fellou AI：勉強可以找到課程往下的按鈕，但會被課程頁面的訊息誤導，把「總進度條」當成這個課程頁面的進度條之類（那個課程沒有設計得很好）。可以推進課程進度，但大概往下兩三步之後就會自己卡住。還是失敗。

ㅤ

結果：幾乎沒一個能打的。

ㅤ

只有 ChatGPT Agent 可以理解我的指令，點擊正確的按鈕，幾乎沒有犯下任何錯誤。

ㅤ

ChatGPT 也是唯一可以持續操作超過五分鐘的 Agent，甚至當畫面上出現我沒有指引過的新課程內容跟按鈕，也可以正確完成，脈絡理解能力大勝。

ㅤ

其他的 Agent，要嘛是無法理解我的指令、跑到一半自行斷線，或者乾脆幻覺，告訴我它大有進展但畫面靜止不動。

ㅤ

Claude 的 Computer Use 則是表現最接近 ChatGPT Agent 的，應該是也具備電腦視覺的能力，可以用人眼視角看畫面。

ㅤ

但缺點是，在官方 doc 上建議的做法，真的就是一個「Quickstart demo」而已，穩定性非常差，跑大約五分鐘就會斷線。

ㅤ

要解決這個問題，可能要手動開發一個架構，等於要直接做一個有 Computer use 功能的 Browser Agent 產品，我沒有這個開發能力。

ㅤ

八月底 Anthropic 剛推出新的 Claude Browser Use Agent，功能跟 ChatGPT Agent 接近，也許有機會超出表現。但我還沒有使用權限不知道。

ㅤ

所以在我這個程式能力薄弱的小白手上，ChatGPT 是唯一可以完成任務的解決方案。

ㅤ

但即便是如此，ChatGPT 每一次操作還是有一個「會話時間限制」，大約過十分鐘就會自己斷線，要人工介入重新按一次，沒辦法做到真的自動化。

ㅤ

▋ 心得一：Agent 產品還是大公司比較穩定。

ㅤ

直接打包成產品賣的 Agent ，如 Perplexity Comet、Manus、Browser-use、Simular、Fellou 等，模型理解能力都很差，要花很大的力氣才能理解我的指令。

ㅤ

我猜可能是為了 cost down，不可能給你太好的深度推理模型。

ㅤ

如果你要追求模型理解力強，可以使用 Claude Desktop 或 Cursor 串接 Browser MCP。

ㅤ

但缺點是，串接的 MCP 模組是開源的，似乎只有基本的 DOM 架構讀取能力，無法模擬人類看見電腦畫面的 computer vision。

ㅤ

於是就會出現一個弔詭現象，例如我只想要 AI 「點擊那個該死的按鈕，直到按鈕不再出現」，但卻完全做不到。

ㅤ

原因是，課程頁面背景有大量的 JS 腳本在運行，一下是 iframe 又是 SCORM 的。人眼看那個按鈕非常顯眼，但在 AI 讀到的資料，那個按鈕卻是藏在一大堆代碼裡面，庭院深深深幾許。

ㅤ

再加上真實網路環境充滿大量的雜訊，課程 UX 設計不是很好，模型幾乎 100% 都會誤會去點擊錯誤的按鈕。（跟人類一樣）

ㅤ

可見這類 Agent 任務非常技術密集，也會消耗大量算力，在這輪評測裡面，小公司的產品通常只能做最低階的任務，很難真的玩好這個遊戲。

ㅤ

我最驚訝的是，竟然連 Perplexity 來勢洶洶都輸了！人家好歹是誇口要買下 Google 的，而且大灑幣要擴張使用者數量，我真心以為 Agent 會有點搞頭的。

ㅤ

在這一次經驗後，我對小公司做的 AI 產品越來越沒有信心了。

ㅤ

因為大多數這些公司在解決的問題，都是我簡單 Vibe Coding 串個 n8n 就可以收納到我的工作流程裡面解決的。

ㅤ

但是到了超出我能力範圍的問題，小公司通常又沒有足夠的資本跟技術徹底解決。

ㅤ

▋心得二：Power User 與 Average User 的分化越來越明顯。

ㅤ

雖然小公司的 AI 產品對我來說沒有用，但這不代表小公司就會倒光，這只是受眾分化的問題。

ㅤ

我感覺市場正在分化成 Power User 導向的產品，以及 Average User 產品。

ㅤ

這沒有任何褒貶的意思，只是受眾群像不同。

ㅤ

Power User 更想要的是主控權，我可以 build something on top of it.

ㅤ

例如 Notion 一開始只是一個單純的筆記軟體，但後來變成 Power user 的資料庫、自動化流程工具。

ㅤ

或者 Cursor，我不只是用來寫程式，也可以電馭寫作、寫 Agent 腳本、串接 MCP 控制其他 App 等等。

ㅤ

Power User 需要的越來越接近一種「多功能平台」，

我願意花更大的力氣學習新的工具，但我要換來更強的主控權。

（這個方向走到極端就是成為工程師）

ㅤ

Average User 想要的則是「解決單一痛點」。

ㅤ

只要你滿足他一個功能，他願意付跟 Power User 一樣的費用。

ㅤ

例如 Plaud 錄音筆的月費，跟我買 Cursor 的月費是很接近的，但 Plaud 成功在於切入商務人士只需要解決「會議記錄」的問題。

ㅤ

商務人士沒有空去研究 n8n、Vibe Coding，他們有的是錢可以解決這個問題。

ㅤ

要想清楚這個定位，不太容易。

ㅤ

例如 OpenAI 推 GPT-5 的過程，竟然直接把 GPT-4 系列模型給砍了，就是完全忽略了自己的受眾有多少人是 Average User，需要的只是 GPT 的情感陪伴，而不是多 AGI 的強大功能。

ㅤ

而有時候一個產品，可能在某些部分是面對 Average User 的，某些部分是面對 Power User。

ㅤ

例如 ChatGPT，在 AI 電馭寫作上相比 Cursor 越來越不給力，我已經很久（快一個月）沒有用 ChatGPT 寫作了。

ㅤ

但是 ChatGPT 的 Agent 跟 Deep Research 可能還是目前表現最前段班的，對 Power User 是很好用的。

ㅤ

▋ 心得三：對 Agent 下提詞，最好的心法是「步步為營」

ㅤ

這一輪操作下來，真的很像在訓練黑猩猩用電腦，你要不斷引導它忽略雜訊，去點擊正確的地方。

ㅤ

我發現最好的操作方式，跟 Vibe Coding 心法完全一樣：先從最基本的地方開始，一步一步推進。

ㅤ

事情做不成，通常是太著急了。

ㅤ

我一開始會給詳細的完整提詞，想要一步到位。到後面被各家 Agent 搞到很心累，只好退回到最基本的一步：

ㅤ

「請你告訴我，畫面下方的箭頭按鈕，它是什麼顏色的？」

ㅤ

基本到不能再基本了。

如果模型連顏色都判斷錯，那接下來的工作都不用做了。

ㅤ

光是這一關就刷掉了約八成的模型，因為大多數 Agent 產品只會讀 DOM 代碼架構，不會像人類一樣看到畫面（後者比較耗資源）

ㅤ

最後顏色判斷正確了，再來一次只給一個口令：「請你點擊這個按鈕」。

ㅤ

進入下一頁了，再來設定條件：「請你監控畫面，等待按鈕再次變成紅色，就點擊之」。

ㅤ

再進入下一頁了，才設定反覆邏輯：「請你反覆操作，直到按鈕不再出現」。

ㅤ

▋ 結論：我們離全自動化 Agent，還有很長一段路

ㅤ

這次評測，感覺很像是回到 GPT-3.5 的時代，模型還真的很笨，你要花超大量的力氣在提詞設下規範，要模型做什麼，不要做什麼。

ㅤ

甚至有時候規範沒有用了，你要手把手引導模型去完成你想要做的事情。

ㅤ

這種時候，真的會有一種「AI 進展是很快速，但什麼問題也沒有解決」的感覺。

ㅤ

這次經驗，我也會重新審視挑選資訊來源：我會開始忽略大部分的「benchmark 跑分」、「Demo 展示」...等等新聞，開始把這些東西歸類為雜訊。

ㅤ

因爲「展示」距離「落地」，中間有非常大的落差。一直知道最新的炫砲展示沒有意義，但別人的實作經驗才會對你落地真正有幫助。這些故事才是稀缺的，有價值的資訊。

ㅤ

這是一個方向。忽略掉 AI 新聞的雜音，主動去挖掘別人的實作經驗，應該是在這個資訊爆炸世界裡面，讓頭腦保持清晰的最好策略。

*

張貼留言 (0)

全自動的瀏覽器 Agent ，幾乎沒一個能用的。

廣告1

廣告2

聯絡表單