Des tests à grande échelle récents, notamment une simulation de marché réalisée par Microsoft et une compétition d'évaluation des vulnérabilités (red teaming), ont révélé d'importantes failles de sécurité et des limitations fonctionnelles dans les principaux agents d'IA. Malgré les progrès réalisés, les agents d'IA actuels peinent à prendre des décisions complexes, à collaborer et sont vulnérables à la manipulation, ce qui indique qu'ils ne sont pas encore prêts pour un déploiement à grande échelle dans le monde réel.

