logo

Amazon Nova: Новый игрок на рынке ИИ, бросающий вызов OpenAI, Microsoft и Salesforce

Amazon запускает Nova Act – экспериментальный набор для создания автономных AI-агентов, способных работать в веб-браузерах. Узнайте, как он сравнивается с предложениями от Microsoft, Salesforce и OpenAI, и о новом подходе Amazon к разработке AI-агентов.

Amazon Nova: Новый игрок на рынке ИИ, бросающий вызов OpenAI, Microsoft и Salesforce
Amazon запускает Nova Act – экспериментальный набор для создания автономных AI-агентов, способных работать в веб-браузерах. Узнайте, как он сравнивается с предложениями от Microsoft, Salesforce и OpenAI, и о новом подходе Amazon к разработке AI-агентов.

Amazon Nova Act: экспериментальный набор разработчика для создания веб-агентов

Компания Amazon представила семейство фундаментальных моделей Amazon Nova, способных генерировать текст, изображения и видео. Вслед за этим, подразделение Amazon AGI анонсировало выпуск Amazon Nova Act – экспериментального набора разработчика (SDK) с открытым исходным кодом (лицензия Apache 2.0) для создания агентов ИИ, работающих в веб-браузерах. SDK предназначен для использования исключительно с моделями Amazon Nova.

Главная цель – предоставить разработчикам инструменты для создания надежных агентов ИИ, способных эффективно выполнять задачи в веб-среде.

Интересно сравнить Amazon Nova Act с аналогичными платформами, такими как Microsoft AutoGen, Salesforce Agentforce и OpenAI Agents SDK.

Новый подход к созданию агентов ИИ

Многие существующие системы «агентов», основанные на больших языковых моделях (LLM), ограничиваются ответами в текстовом формате или поиском информации в базах данных. Nova Act отражает отраслевый тренд на создание агентов, ориентированных на действия – систем, способных выполнять реальные задачи в цифровом пространстве от имени пользователя. В качестве примера можно привести новый API Responses от OpenAI, позволяющий агентам автономно управлять браузером.

В Amazon AGI отмечают, что современные системы агентов часто ненадёжны и требуют постоянного контроля со стороны человека, особенно при выполнении сложных многоэтапных задач. Nova Act призван решить эту проблему, предлагая набор атомарных команд, которые можно комбинировать для создания надежных рабочих процессов. Это позволяет создавать более сложные и управляемые процессы, чем это было возможно ранее.

В представленном видеоролике Дениз Бирликчи из Amazon описал перспективу будущего, где количество агентов ИИ, работающих от имени пользователей, превысит число самих пользователей.

Дэвид Луан, вице-президент Amazon и руководитель лаборатории AGI SF, подчеркнул, что агенты являются основой будущих вычислений. По его словам, Amazon Nova Act – это экспериментальная модель ИИ, обученная выполнять действия в веб-браузере. Луан, ранее соучредитель и генеральный директор Adept AI, присоединился к Amazon в 2024 году после приобретения компании.

В целом, Amazon Nova Act представляет собой значительный шаг в развитии технологий агентов ИИ, предлагая разработчикам новый, более надежный и эффективный инструмент для создания сложных и автономных систем, способных взаимодействовать с веб-средой.

о он давно является сторонником агентов ИИ. «В Adept мы были первой компанией, которая действительно начала работать над агентами ИИ. На данный момент всем известно, насколько важны агенты. Было очень здорово немного опередить своё время», — добавил он.

Что Nova Act предлагает разработчикам

SDK Nova Act предоставляет разработчикам среду для построения веб-агентов автоматизации с использованием запросов на естественном языке, разбитых на чёткие, управляемые шаги. В отличие от типичных агентов на основе LLM, которые пытаются выполнить весь рабочий процесс по одному запросу, что часто приводит к ненадежному поведению, Nova Act предназначен для пошагового выполнения меньших, проверяемых задач.

Некоторые из ключевых особенностей Nova Act включают:

Разработчики могут разбивать сложные цифровые рабочие процессы на более мелкие вызовы `act()`, каждый из которых направляет агента на выполнение конкретных взаимодействий с пользовательским интерфейсом. Nova Act интегрируется с Playwright, фреймворком автоматизации браузера с открытым исходным кодом, разработанным Microsoft. Playwright позволяет разработчикам программно управлять веб-браузерами — кликать по элементам, заполнять формы или переходить по страницам — без необходимости полагаться исключительно на прогнозы ИИ. Эта интеграция особенно полезна для обработки конфиденциальных задач, таких как ввод паролей или данных кредитных карт. Например, вместо отправки конфиденциальной информации модели, разработчики могут поручить Nova Act сосредоточиться на поле пароля, а затем использовать API Playwright для безопасного ввода пароля, без доступа к нему модели. Такой подход повышает безопасность и конфиденциальность при автоматизации веб-взаимодействий. SDK позволяет разработчикам чередовать код Python с командами Nova Act, включая стандартные инструменты Python, такие как точки останова, утверждения или пулы потоков для параллельного выполнения. SDK поддерживает извлечение структурированных данных с помощью схем Pydantic, позволяя агентам преобразовывать содержимое экрана в структурированные форматы. Разработчики могут запускать несколько экземпляров Nova Act одновременно и планировать автоматизированные рабочие процессы без необходимости постоянного вмешательства человека. Луан подчеркнул, что Nova Act — это инструмент для разработчиков, а не универсальный чат-бот. «Nova Act создан для разработчиков. Это не чат-бот, с которым можно общаться ради удовольствия. Он предназначен для того, чтобы разработчики могли создавать полезные продукты», — сказал он. Например, один из примеров рабочих процессов, показанных в документации Amazon, демонстрирует, как Nova Act может автоматизировать поиск квартир, извлекая данные о предложениях аренды и вычисляя расстояние до железнодорожных станций на велосипеде, а затем сортируя результаты в структурированной таблице. Другой показанный пример использует Nova Act для заказа определенного салата из Sweetgreen каждый вторник, полностью без участия человека и по расписанию, иллюстрируя, как разработчики могут автоматизировать повторяющиеся цифровые задачи надежным и настраиваемым способом. Центральным сообщением в объявлении Amazon является то, что надежность, а не только интеллект, является ключевым препятствием для широкого внедрения агентов. Современные модели на самом деле довольно хрупки при управлении агентами ИИ, при этом агенты обычно достигают 30% - 60% успеха в многошаговых задачах на основе браузера, по данным Amazon. Однако Nova Act делает акцент на подходе, основанном на строительных блоках, набирая более 90% во внутренних оценках задач, которые представляют сложности для других моделей — таких как взаимодействие с раскрывающимися списками, средствами выбора даты или всплывающими окнами. Луан подчеркнул, почему важна именно эта концентрация на надежности. «Мы действительно сосредоточились на том, как сделать агентов действительно надежными? Если вы попросите его обновить запись в Salesforce, и он удалит вашу базу данных один раз из десяти, вы, вероятно, больше никогда его не будете использовать», — сказал он. Amazon AGI сравнила Nova Act с конкурирующими моделями, включая Anthropic's Claude 3.7 Sonnet и OpenAI's CUA model. На бенчмарке ScreenSpot Web Text, который проверяет выполнение инструкций для текстовых элементов экрана, Nova Act получил оценку 0,939, превзойдя Claude 3.7 Sonnet (0,900) и OpenAI CUA (0,883). На бенчмарке ScreenSpot Web Icon, который фокусируется на визуальных элементах пользовательского интерфейса, Nova Act набрал 0,879, снова опередив другие модели. Однако на бенчмарке GroundUI Web, который проверяет общее взаимодействие с пользовательским интерфейсом, Nova Act набрал 0,805, немного отстав от конкурентов. Эти оценки были измерены внутренне Amazon с использованием согласованных запросов и критериев оценки. Amazon также отметила ранние результаты способности Nova Act к обобщению за пределами стандартных сред. Например, член команды Рик Лю продемонстрировал,

Возможности агента Nova Act от Amazon

Агент Nova Act продемонстрировал способность успешно взаимодействовать с веб-игрой, самостоятельно определяя характеристики, сражаясь с противниками и продвигаясь по уровням, без явного предварительного обучения. Эта способность к обобщению является ключевой для долгосрочных планов Amazon.

Универсальность и ограничения Nova Act

Amazon позиционирует Nova Act как универсальное решение для работы в браузере, стремясь обеспечить агенту возможность выполнять любые действия, доступные пользователю на компьютере. Однако, несмотря на доступность для разработчиков по всему миру (nova.amazon.com), Nova Act тесно связан с внутренними моделями Nova от Amazon. В отличие от SDK других компаний, таких как OpenAI или Anthropic, разработчики не могут интегрировать внешние большие языковые модели.

Это не просто оболочка над универсальной большой языковой моделью. Nova Act изначально обучен для работы в интернете от имени пользователя. Хотя SDK можно использовать локально или в любом другом облаке, а не только в AWS, такая привязка может ограничить гибкость для компаний, предпочитающих использовать разные модели.

Для организаций, работающих в экосистеме Amazon или AWS, Nova Act представляет собой привлекательное решение, особенно учитывая его специализацию на навигации по веб-сайтам с различными интерфейсами.

Безопасность, лицензирование и ценообразование

SDK Nova Act распространяется под открытой лицензией Apache версии 2.0. Однако сама модель, её веса и данные обучения остаются закрытыми. Это решение обусловлено тесной интеграцией модели и SDK, необходимой для обеспечения надёжности. В настоящее время Nova Act предоставляется бесплатно в рамках исследовательского превью. Коммерческие условия использования и ценообразование (по модели оплаты за использование и с гарантией масштабируемости) будут объявлены позже.

Amazon планирует стимулировать разработку новых приложений на основе агентов, предоставляя разработчикам возможность создавать действительно полезные инструменты как для личного пользования, так и для коммерческого использования.

Будущее Nova Act

Выпуск Nova Act отражает стремление Amazon сделать агентов ИИ основой вычислений. Amazon видит будущее, где агенты станут основными строительными блоками, на базе которых будут создаваться новые стартапы и продукты.

SDK Nova Act доступен для экспериментирования и прототипирования на веб-сайте Amazon и на GitHub.