Microsoft Fara1.5: Новый ИИ-агент обошел OpenAI и Google

Microsoft Research представила Fara1.5 — открытого ИИ-агента, который разгромил OpenAI Operator и Google Gemini в решении реальных задач в браузере.

Microsoft Fara1.5: Новый ИИ-агент обошел OpenAI и Google

Эра автономного веб-серфинга: Как Microsoft обошла гигантов рынка

Представьте, что вы поручаете компьютеру найти варианты аренды жилья для отпуска, сравнить предложения на пяти разных сайтах, заполнить форму бронирования и подтвердить тот вариант, который находится ближе всего к пляжу. Пока вы наливаете кофе, система делает всю рутинную работу за вас. Именно это обещают автономные ИИ-агенты (computer use agents) — новое поколение искусственного интеллекта, способное считывать информацию с экрана, кликать по ссылкам, прокручивать страницы и вводить текст точно так же, как это делает человек.

В этой гонке уже пытались заявить о себе крупнейшие игроки. OpenAI запустила проект Operator в январе 2025 года по цене $200 в месяц, но позже закрыла его. У Google есть инструмент Gemini 2.5 Computer Use. Однако оба этих решения являются закрытыми, облачными и крайне дорогими в обслуживании. На этой неделе исследовательское подразделение Microsoft Research совершило тихий переворот, представив семейство компактных моделей под названием Fara1.5, которые превзошли именитых конкурентов на ключевых бенчмарках.

«Переход от пассивных чат-ботов к активным агентам управления компьютером — это следующий многомиллиардный рубеж в корпоративном ПО. Решение Microsoft открыть исходный код Fara1.5 демократизирует эту технологию, фактически разрушая барьер высокой стоимости, который пытались построить Google и OpenAI», — отмечает ведущий аналитик рынка ИИ-технологий.

Результаты теста Online-Mind2Web (успешное выполнение задач на реальных сайтах):

  • Fara1.5-27B (Microsoft): 72.0%
  • Navigator n1 (Yutori): 64.7%
  • Fara1.5-9B (Microsoft): 63.4%
  • Operator (OpenAI): 58.3%
  • Gemini 2.5 Computer Use (Google): 57.3%

Битва на реальных сайтах: Почему бенчмарки имеют значение

Для оценки эффективности агентов использовался тест Online-Mind2Web. Он проверяет, насколько успешно ИИ справляется с 300 сложными повседневными задачами на 136 популярных сайтах — от сравнения цен на товары до бронирования билетов в реальном времени. Результат оценивается по проценту полностью и корректно завершенных операций.

Модель Fara1.5-27B показала феноменальный результат в 72%. Даже ее облегченная версия Fara1.5-9B с показателем 63.4% обогнала флагманские закрытые системы от OpenAI (58.3%) и Google (57.3%). Другие открытые альтернативы остались далеко позади: например, GUI-Owl-1.5 от Alibaba набрала всего 48.6%, а предыдущая модель самой Microsoft (Fara-7B) — скромные 34.1%.

На втором важном бенчмарке, WebVoyager, измеряющем успех действий в живом интернете, Fara1.5-27B достигла точности в 88.6%, обойдя Operator от OpenAI (87.0%) и Holo2 от H Company (83.0%).

Секретное оружие: Метод «Учитель-Ученик»

Чтобы обучить столь эффективную и компактную модель, инженеры Microsoft использовали оригинальный подход. В качестве «учителя» для генерации обучающих данных (через систему FaraGen1.5) они задействовали мощнейшую закрытую модель GPT-5.4 от OpenAI. Фактически, Microsoft использовала передовой интеллект конкурента, чтобы натренировать собственную бесплатную и открытую модель.

Безопасность превыше всего: Песочница MagenticLite

Предоставление ИИ доступа к реальному браузеру сопряжено с огромными рисками безопасности. При запуске ChatGPT Agent в OpenAI открыто предупреждали, что система получит доступ к конфиденциальным данным пользователей, включая почту и платежные аккаунты.

Microsoft решила эту проблему иначе. Во-первых, в процессе обучения использовались шесть точных симуляторов популярных сервисов (календари, почтовые клиенты, маркетплейсы), где модель могла тренироваться совершать необратимые действия (например, отправку писем или покупку) без риска для реальных учетных записей. Во-вторых, Fara1.5 работает в изолированной среде MagenticLite, которая протоколирует каждый шаг и позволяет пользователю мгновенно остановить процесс.

Модель спроектирована так, чтобы запрашивать подтверждение перед выполнением любого критического действия. Вся линейка моделей (размером 4B, 9B и 27B параметров) построена на базе открытой архитектуры Qwen3.5 от Alibaba и доступна на GitHub и Azure AI Foundry. В планах Microsoft — перенести этот опыт из браузеров на управление всей операционной системой компьютера.

Часто задаваемые вопросы (FAQ)

Что такое ИИ-агент Fara1.5?

Это семейство открытых моделей искусственного интеллекта от Microsoft Research, специально обученных для управления интерфейсом веб-браузера (клики, прокрутка, заполнение форм) для автоматизации рутинных задач.

Правда ли, что Fara1.5 лучше решений от Google и OpenAI?

Да, на авторитетном бенчмарке Online-Mind2Web модель Fara1.5-27B набрала 72%, опередив OpenAI Operator (58.3%) и Google Gemini 2.5 (57.3%).

Является ли эта технология безопасной?

Microsoft внедрила систему MagenticLite — изолированную «песочницу», которая требует подтверждения пользователя перед совершением любых необратимых действий (например, проведение оплаты или отправка писем).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *