Cloudflare только что выпустил endpoint /crawl, и все теряют голову.


Спокойно. Позвольте вам рассказать, что это на самом деле, что это не является, и почему вам это, вероятно, не нужно.

endpoint /crawl — это обёртка. Вы даёте ему URL, он запускает headless браузеры на инфраструктуре Cloudflare, следует по ссылкам, рендерит JavaScript и возвращает вам markdown или JSON. Всё с одним вызовом API.

Это классно, но не революционно.

Firecrawl это делает. Crawl4AI это делает. Spider это делает. Они делают это уже месяцы. Cloudflare просто добавил это к своему существующему продукту Browser Rendering, и все сделали вид, что они изобрели краулинг.

Что ИНТЕРЕСНО: это Cloudflare. Это означает, что это дёшево ($0.09/час).

Но вот в чём дело — вам, вероятно, вообще не нужен краулер.

Есть 8 способов, которыми AI агент может прочитать веб-страницу. Большинство сразу переходят к сложным, когда бы HTTP запрос на 50ms справился с работой. Давайте разберём их все, от самого простого к самому избыточному.

1. Простой HTTP fetch
Ваш агент отправляет запрос, получает назад HTML. Вот и всё.

Как читать исходный код книги вместо печатной страницы. Отлично работает для простых сайтов, блогов, вики, документации. Ломается на всём, что использует JavaScript для загрузки контента.

Скорость: ~50ms. Стоимость: бесплатно.

2. Readability парсер
То же самое, но с этапом очистки. Удаляет навбары, объявления, подвалы, баннеры с cookies. Даёт вам просто текст статьи в чистом markdown.

Не обрабатывает контент, отрендеренный JavaScript. Но для статей и документации это идеально, и я это использую ежедневно.

Скорость: ~100ms. Стоимость: бесплатно.

3. Headless браузер (локальный)
Запускает невидимый Chrome, который загружает страницу, как человек. JavaScript работает, контент рендерится, всё загружается. Вы можете кликать, скроллить, заполнять формы, логиться.

Проблема: медленно (2-10s), съедает ~200MB RAM на один экземпляр, и вы содержите инфраструктуру.

Инструменты: Playwright, Puppeteer, Selenium.

4. Cloud браузер API
То же, что #3, но кто-то другой запускает браузер. Вы отправляете URL, получаете обратно отрендеренную страницу. Это то, где живёт /crawl от Cloudflare, вместе с Browserbase и Steel.

Никаких забот об инфраструктуре, легко масштабируется, дёшево. Компромисс: меньше контроля над взаимодействиями.

5. Managed scraping API
Это уровень противодействия анти-ботам. ScrapingBee, Bright Data, ротирующиеся прокси, CAPTCHA решение, жилые IP адреса. Для тех случаев, когда сайт активно вас блокирует.

Работает. Стоит $49-499+/месяц.

6. AI-нативный краулер
Firecrawl, Crawl4AI, Spider. краулинг + рендеринг + автоматическое преобразование в чистый markdown/JSON. Создано для RAG пайплайнов. Определите схемы извлечения на естественном языке.

«Новая волна», с которой Cloudflare сейчас конкурирует.

7. LLM извлечение
Пропустите код полностью. Скормите контент страницы LLM, спросите «какая цена?» на простом английском. Никаких CSS селекторов, никакого regex, никакого обслуживания, когда сайт переделает дизайн.

Минус: дорого в масштабе (токены быстро накапливаются). Лучше всего в качестве последнего этапа после очистки методами 1-6.

8. Официальные API
Тот, который все забывают. X, Reddit, большинство SaaS, у них есть API. Структурированные данные, никакого парсинга, никаких анти-ботовских игр. Когда API существует, это всегда правильный выбор.

Хорошие установки объединяют 2-3:

→ fetch → readability → LLM для дешёвого извлечения статей
→ cloud браузер → LLM для JavaScript-тяжёлых сайтов
→ найти реальный API в DevTools → вызвать его напрямую, святой грааль, бесплатно, быстрее всего, самый надёжный
→ AI краулер → vector DB для полных баз знаний

Реальные затраты при 10,000 страниц/месяц
• HTTP Fetch: $0
0$$0

• Jina Reader: $5
0$
• Cloudflare браузер: ~$0.68
• Spider: ~$4.80
• Firecrawl: $47/месяц
• ScrapingBee: $49-147/месяц
• Bright Data: $499+/месяц

2 правила, которым я следую:

Начните с простого. API > fetch > readability > браузер. Добавляйте сложность только когда более простой метод не работает. Я вижу людей, запускающих Playwright для сайтов, где curl справляется.

Большинству сайтов не нужен JS рендеринг. 60%+ веба это статический или серверный рендеринг. Сначала протестируйте простой fetch.
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить