Недавнее масштабное тестирование, включая симуляцию рынка Microsoft и соревнование Red Teaming, выявило значительные уязвимости безопасности и функциональные ограничения ведущих ИИ-агентов. Несмотря на достижения, существующие ИИ-агенты испытывают трудности с принятием сложных решений, взаимодействием и подвержены манипуляциям, что свидетельствует о их неготовности к широкому внедрению в реальных условиях.

