Agent Browser WorkspaceКто пользовался Perplexity Deep Research, наверняка ловил два чувства сразу:"Ого, он реально копает.""Жаль, что нельзя посмотреть, что прAgent Browser WorkspaceКто пользовался Perplexity Deep Research, наверняка ловил два чувства сразу:"Ого, он реально копает.""Жаль, что нельзя посмотреть, что пр

Дешевле Perplexity, но локально — и с любым агентом: Agent Browser Workspace

2026/03/04 17:45
5м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com
Agent Browser Workspace
Agent Browser Workspace

Кто пользовался Perplexity Deep Research, наверняка ловил два чувства сразу:

  1. "Ого, он реально копает."

  2. "Жаль, что нельзя посмотреть, что происходит внутри, вмешаться, перезапустить шаг или расширить сбор — это чёрный ящик."

Agent Browser Workspace — не "одна кнопка SaaS". Это локальный набор инструментов, который даёт любому ИИ-агенту (Cursor, ваш собственный агент, LLM-оркестратор) настоящий браузер для исследований.

Работает на вашей машине, через ваш Chrome, но в отдельном профиле. Без Docker, без экзотических окружений.

Кратко

  • Дешевле Perplexity: на DeepResearch Bench получили 44.37 (RACE overall) на Claude Haiku 4.5 — модель заметно дешевле типичных "фронтирных" стэков.

  • Локально и прозрачно: реальный Chrome перед глазами — можно остановить, залогиниться, закрыть баннер, перезапустить шаг, расширить сбор, уточнить запрос. Итераций — сколько угодно.

  • Не только deep research: ещё и инструмент для браузерной автоматизации + извлечения контента, форм, HTML-данных.

  • Расширяемо: новые сайты добавляются профилями в scripts/sites/*.json — селекторы и "контролы" живут отдельно от кода и промптов.

Что внутри?

Agent Browser Workspace — репозиторий с двумя уровнями:

1) Низкий уровень (utils/)

  • utils/browserUse.js — управление реальным Chrome через Playwright: навигация, клики, ввод, скроллинг (включая infinite scroll), скриншоты, загрузка файлов и картинок, выполнение JS на странице, вкладки, CDP.

  • utils/getDataFromText.js — парсинг готового HTML без браузера: находит навигацию, основной контент, формы и конвертирует контент в Markdown.

2) Высокий уровень (scripts/)

Готовые блоки для исследовательского пайплайна:

  • getContent — сохранить страницу в Markdown + скачать картинки и переписать ссылки на локальные файлы.

  • getForms — найти формы, классифицировать (search/auth/filter/contact/subscribe) и построить готовые CSS-селекторы для заполнения.

  • getAll — контент + формы за один проход (один HTML-снимок).

  • googleSearch — пошаговый Google-поиск: запрос → органические ссылки → открыть → извлечь → закрыть вкладку → пагинация.

Чем это лучше типичного deep research SaaS

1) Контроль остаётся у вас

В SaaS-deep-research обычно виден только прогресс-бар и итог. Тут по-другому:

  • Браузер реальный — не "виртуальный скриншотный чёрный ящик".

  • Можно вмешаться: закрыть cookie-баннер, пройти логин, подтвердить возраст, поправить фильтр.

  • Можно перезапустить конкретный шаг: открыть следующую ссылку, повторно извлечь контент, изменить стратегию ожидания (SPA/JS-рендеринг), прокрутить infinite scroll перед извлечением.

  • Можно расширять бесконечно: "добавь ещё 10 источников", "перепроверь цифры", "дополни раздел таблицей", "собери список альтернатив", "пройди по снежному кому ссылок".

Исследование становится итеративным. Один провалившийся шаг не убивает весь процесс.

2) Артефакты и воспроизводимость

Deep research — не только итоговый текст. Это ещё и доказательная база:

  • links.jsonстабильный снимок выдачи Google по всем запросам (можно продолжить позже, не повторяя поиск).

  • Скачанные страницы в Markdown + images/ — источники лежат на диске.

  • insights.md — накопительный черновик (в методологии RESEARCH.md это часть процесса).

3) Локально, без лишней инфраструктуры

Ни контейнеров, ни удалённых браузеров, ни специальных платформ:

  • npm install

  • npx playwright install chrome

  • npm run chrome (поднимает Chrome с CDP на 9222)

Три команды — и готово. Подробности — в INSTALLATION.md.

Расширяемость: профили сайтов вместо хардкода

Типичная боль в browser-agents — селекторы ломаются. Сайты меняют разметку, и агент начинает угадывать.

Тут иначе — через site profiles:

  • scripts/sites/*.json хранит селекторы и "controls" (какие элементы важны, что с ними делать).

  • Скрипты возвращают поле site, и агент использует готовые селекторы без угадывания.

Нужно поддержать новый сайт? Добавляете JSON-профиль. Google поменял разметку? Правите scripts/sites/google-search.json, а не переписываете код.

DeepResearch Bench: зачем нужны цифры

Когда все заявляют "у нас лучший deep research", нужна внешняя мерка.

Такой меркой стал DeepResearch Bench (DRB) — 100 задач "PhD-уровня", две метрики (RACE/FACT) и публичная методология оценки.

Ссылки:

  • Официальный сайт DRB: https://deepresearch-bench.github.io/

  • Репозиторий: https://github.com/Ayanami0730/deep_research_bench

Цифры, которые можно проверить

На официальной странице DRB в секции Main Results для категории "Deep Research Agent" (RACE overall):

  • Gemini-2.5-Pro Deep Research: 48.88

  • OpenAI Deep Research: 46.98

  • Perplexity Deep Research: 42.25

А вот результат Agent Browser Workspace:

Результаты отправлены в лидерборд и находятся на рассмотрении.

Почему "44.37 на Haiku" — не просто цифра

В большинстве сравнений забывают про цену и управляемость.

Тут выигрыш сразу по трём направлениям:

  1. Качество рядом с топами (DRB overall близко к OpenAI/Gemini).

  2. Стоимость ниже (Haiku-класс моделей).

  3. Контроль и воспроизводимость — на вашей машине, с реальными артефактами (links.json + скачанные источники).

Как попробовать за 5 минут

1) Установить

npm install npx playwright install chrome

2) Запустить локальный Chrome для агента

npm run chrome

3) Сохранить любую страницу в Markdown (с картинками)

node scripts/getContent.js --url https://example.com --dir ./output --name page.md

4) Deep research: Google → открыть → сохранить источник

# Стабильный снимок выдачи (links.json) node scripts/googleSearch.js "best AI newsletters 2026" --links --dir ./archive/my-research # Открыть результат 0 и сохранить контент node scripts/googleSearch.js "best AI newsletters 2026" --open 0 --dir ./archive/my-research --name source-0.md

PDF тоже поддерживается: если в выдаче попался .pdf, getContent/googleSearch автоматически извлекают текст.

Если сайт "пустой" (SPA, JS-рендеринг, lazy-load)

Классический провал "быстрых" веб-скраперов: HTML пришёл, а контента нет.

В проекте есть эскалация (подробности — в AGENTS.md):

  • gotoAndWaitForContent() — подождать стабилизацию DOM после JS-рендеринга

  • evaluate(() => document.body.innerText) — вытащить видимый текст напрямую

  • scroll({ times: N }) — подгрузить lazy-контент или ленту

  • screenshot({ fullPage: true }) — если текст недоступен программно

Логика простая: страница важна — не пропускаем — поднимаем уровень извлечения.

Не только deep research: где ещё пригодится

1) Продуктовый и маркетинговый ресёрч

Можно собрать выдачу, зафиксировать links.json, сохранить 30–60 источников в Markdown, а потом на локальных артефактах просить агента "дополни / сравни / перепроверь / сделай таблицу".

2) Автоматизация веб-рутины

Войти, нажать, скачать, заполнить, сделать скриншоты, сохранить доказательства — всё здесь.

3) Сбор форм и готовых селекторов

getForms находит формы и поля, отдаёт готовые CSS-селекторы.

Дальше агент вызывает browser.fill() или browser.fillForm() без угадывания.

Почему "локально + наблюдаемо" — это принципиально

Закрытые deep-research-продукты удобны, когда нужен быстрый ответ.

Но если вы работаете с исследованиями, бизнес-решениями, источниками, проверками и итерациями — нужен другой режим:

  • наблюдать,

  • останавливать,

  • чинить препятствия,

  • перезапускать шаги,

  • добавлять глубину,

  • докручивать отчёт,

  • продолжать, пока результат не устроит.

Agent Browser Workspace про это.

Где почитать и что дальше

  • GitHub: https://github.com/k-kolomeitsev/agent-browser-workspace

  • Обзор инструментов и правила работы: AGENTS.md

  • Установка и "QOL"-инструкции (профили/ярлыки/проверка): INSTALLATION.md

  • Методология глубокого исследования: RESEARCH.md

Если хотите помочь open source-проекту — вот самые полезные вклады:

  • новые и улучшенные site profiles в scripts/sites/

  • улучшение извлечения контента на сложных сайтах (SPA, paywall-оверлеи, lazy-render)

  • более умные правила детекции форм и полей

Источник

Возможности рынка
Логотип DeepBook
DeepBook Курс (DEEP)
$0.027602
$0.027602$0.027602
+0.18%
USD
График цены DeepBook (DEEP) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.