用 AI Agent 做過內容或數據採集的都知道,抓網頁是最髒最累的活。


我平時工作流裡靠 Chrome cookie 抓數據,cookie 過期就廢;遇到 Cloudflare 或反爬嚴格的站點直接 403;X 的內容更別提,登入態動不動失效,API 配額用完就得換方案。一個連結進來,得準備三四層兜底,經常跑到最後一層還是抓不到。花在"讓數據進來"上的精力,比"用數據做事"還多。
試了下 XCrawl,給我的 OpenClaw bot 裝了它的 skill。
第一個測試——跟 bot 說"抓一下 的內容",幾十個預測市場的賠率、成交量、截止時間,全部結構化 markdown 回來了。JS 動態渲染的頁面,一個請求搞定。
第二個測試更狠——丟了一條自己的 X Article 連結進去。幾千字的長文連 views、likes、bookmarks 都一起回來了。X 的內容是出了名的難抓,之前要單獨寫一套邏輯,現在一句話的事。
看了下消耗,每次請求 1-2 個 credit。內置住宅代理和 JS 渲染,不用自己搭基建。輸出的 markdown 直接喂 LLM 或者存數據庫,不用二次清洗。
API 有五種模式——單頁抓取、全站爬取、站點地圖、搜索、SERP,基本覆蓋了日常採集場景。OpenClaw 用戶裝個 skill 就能用,註冊送 1000 credits 夠跑一陣。
說實話,數據採集這層基建早該有人做成服務了。自己搭的成本太高,維護更累。按需調用,省下來的時間去做真正有價值的分析和決策。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言
  • 熱門 Gate Fun

    查看更多
  • 市值:$0.1持有人數:1
    0.00%
  • 市值:$2258.62持有人數:1
    0.00%
  • 市值:$2262.06持有人數:1
    0.00%
  • 市值:$2262.06持有人數:1
    0.00%
  • 市值:$2262.06持有人數:1
    0.00%