AI News

Microsoft 提出 Agentic Observability,AI 运维进入自治系统时代

Microsoft 讨论 Agentic Observability,指出云运维要面对更自主、更快速变化的 AI Agent 系统,监控方式也必须升级。

Microsoft 提出 Agentic Observability,AI 运维进入自治系统时代

事件概览

Microsoft 近期在官方博客中讨论 Agentic Observability,认为云运维正在进入新阶段。过去运维主要监控服务器、容器、数据库、接口和用户请求;现在 AI Agent 开始自主调用工具、修改状态、跨系统协作,系统行为会变得更动态、更难预测。传统监控只看 CPU、延迟、错误率已经不够,企业还要观察 Agent 为什么做出某个动作、用了哪些工具、有没有偏离目标。

为什么普通监控不够用

传统软件一般按确定逻辑运行,输入相同,输出大体可预期。Agent 系统不同,它会根据上下文、模型输出、工具返回和历史记忆决定下一步。一个客服 Agent 可能查知识库、调用订单系统、生成回复;一个运维 Agent 可能读日志、重启服务、开工单;一个开发 Agent 可能修改代码、运行测试、提交变更。如果只监控接口成功率,就看不到智能体的推理链路和决策风险。

Agentic Observability 需要看什么

新的可观测性至少要覆盖五类信息:任务目标、模型输入输出、工具调用、权限边界和结果反馈。企业需要知道 Agent 是否理解任务,是否调用了被允许的工具,是否访问了敏感数据,是否遇到不确定信息,用户是否接受了结果。对于高风险动作,还要记录人工审批。这样一来,Agent 不只是黑箱,而是可以审计、回放和改进的系统。

对企业落地的启发

很多企业现在急于上线 Agent,但忽视了运维体系。真正上线前,应先定义哪些动作可以自动执行,哪些动作必须确认,哪些错误需要降级到人工。还要建立评测集,持续测试 Agent 在边界条件下的表现。Agent 不是一次发布就结束,而是需要像生产软件一样版本管理、灰度发布、回滚和监控。

趋势判断

Agentic Observability 会成为企业 AI 基础设施的关键模块。未来判断一个 Agent 平台是否成熟,不只看模型多强,还要看能不能解释、监控、审计和回滚。AI 越能做事,运维越不能只看结果,而要看过程。

参考来源:Microsoft 官方博客《Rethinking cloud operations with agentic observability》、Microsoft Build 2026 相关资料。