Cloudflare baru saja meluncurkan endpoint /crawl dan semua orang kehilangan akal sehat mereka.


tenang. biarkan saya memberi tahu Anda apa itu sebenarnya, apa itu bukan, dan mengapa Anda mungkin tidak membutuhkannya.

endpoint /crawl adalah wrapper. Anda memberikan URL, itu menjalankan headless browser di infra Cloudflare, mengikuti tautan, merender JavaScript, dan mengembalikan markdown atau JSON kepada Anda. semua dengan 1 API call.

itu keren tapi bukan revolusioner.

Firecrawl melakukan ini. Crawl4AI melakukan ini. Spider melakukan ini. mereka telah melakukan ini selama berbulan-bulan. Cloudflare hanya menambahkannya ke produk Browser Rendering yang sudah ada dan semua orang bertindak seolah-olah mereka menemukan crawling.

apa yang MENARIK: itu Cloudflare. itu berarti harganya murah ($0.09/jam).

tapi masalahnya adalah Anda mungkin bahkan tidak membutuhkan crawler.

ada 8 cara agen AI dapat membaca halaman web. sebagian besar langsung melompat ke yang kompleks ketika HTTP request 50ms akan bekerja. jadi mari kita uraikan semuanya, dari yang paling sederhana hingga yang paling berlebihan.

1. raw HTTP fetch
agen Anda mengirim permintaan, mendapatkan HTML kembali. itu saja.

seperti membaca kode sumber buku bukan halaman cetakan. bekerja bagus untuk situs sederhana, blog, wiki, docs. rusak pada apa pun yang menggunakan JavaScript untuk memuat konten.

kecepatan: ~50ms. biaya: gratis.

2. readability parser
hal yang sama, tetapi dengan langkah pembersihan. menghilangkan navbar, iklan, footer, banner cookie. memberikan Anda hanya teks artikel dalam markdown yang bersih.

tidak menangani konten yang dirender JavaScript. tetapi untuk artikel dan docs, itu sempurna, dan itu yang saya gunakan setiap hari.

kecepatan: ~100ms. biaya: gratis.

3. headless browser (lokal)
meluncurkan Chrome yang tidak terlihat yang memuat halaman seperti manusia. JavaScript berjalan, konten dirender, semuanya dimuat. Anda dapat mengklik, menggulir, mengisi form, login.

masalahnya: lambat (2-10s), mengonsumsi ~200MB RAM per instance, dan Anda mempertahankan infra.

tools: Playwright, Puppeteer, Selenium.

4. cloud browser API
sama seperti #3 tetapi seseorang lain menjalankan browser. Anda mengirim URL, mendapatkan halaman yang dirender kembali. di sinilah /crawl Cloudflare berada, bersama Browserbase dan Steel.

tidak ada kerumitan infra, skala mudah, murah. tradeoff: kontrol kurang atas interaksi.

5. managed scraping API
ini adalah tier anti-bot warfare. ScrapingBee, Bright Data, rotating proxy, CAPTCHA solving, residential IP. untuk ketika situs secara aktif melawan Anda.

bekerja. biaya $49-499+/bulan.

6. AI-native crawler
Firecrawl, Crawl4AI, Spider. crawl + render + auto-convert ke clean markdown/JSON. dibangun untuk RAG pipeline. tentukan extraction schema dalam bahasa alami.

"gelombang baru" yang sekarang Cloudflare kompetisi dengan.

7. LLM extraction
lewati kode sepenuhnya. buang konten halaman ke LLM, tanya "berapa harganya?" dalam bahasa Inggris biasa. tidak ada CSS selector, tidak ada regex, tidak ada pemeliharaan ketika situs redesign.

downside: mahal dalam skala (token menumpuk cepat). terbaik sebagai langkah akhir setelah pembersihan dengan metode 1-6.

8. official APIs
yang satu yang semua orang lupa. X, Reddit, sebagian besar SaaS, mereka memiliki API. data terstruktur, tidak ada parsing, tidak ada permainan anti-bot. ketika API ada, itu selalu pilihan yang tepat.

setup yang bagus menggabungkan 2-3:
→ fetch → readability → LLM untuk ekstraksi artikel murah
→ cloud browser → LLM untuk situs yang berat JavaScript
→ sniff API sebenarnya di DevTools → panggil langsung, holy grail, gratis, tercepat, paling dapat diandalkan
→ AI crawler → vector DB untuk basis pengetahuan lengkap

biaya nyata di 10,000 halaman/bulan
• HTTP Fetch: $0
• Jina Reader: $0
• Cloudflare Browser: ~$5
• Spider: ~$4.80
• Firecrawl: $47/bulan
• ScrapingBee: $49-147/bulan
• Bright Data: $499+/bulan

2 aturan yang saya ikuti:
mulai sederhana. API > fetch > readability > browser. hanya tambahkan kompleksitas ketika metode yang lebih sederhana gagal. saya melihat orang-orang menjalankan Playwright untuk situs tempat curl bekerja baik.

kebanyakan situs tidak membutuhkan JS rendering. 60%+ dari web adalah static atau server-rendered. test dengan simple fetch pertama.
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan