Microsoft 提出 Agentic Observability，AI 运维进入自治系统时代

事件概览

Microsoft 近期在官方博客中讨论 Agentic Observability，认为云运维正在进入新阶段。过去运维主要监控服务器、容器、数据库、接口和用户请求；现在 AI Agent 开始自主调用工具、修改状态、跨系统协作，系统行为会变得更动态、更难预测。传统监控只看 CPU、延迟、错误率已经不够，企业还要观察 Agent 为什么做出某个动作、用了哪些工具、有没有偏离目标。

为什么普通监控不够用

传统软件一般按确定逻辑运行，输入相同，输出大体可预期。Agent 系统不同，它会根据上下文、模型输出、工具返回和历史记忆决定下一步。一个客服 Agent 可能查知识库、调用订单系统、生成回复；一个运维 Agent 可能读日志、重启服务、开工单；一个开发 Agent 可能修改代码、运行测试、提交变更。如果只监控接口成功率，就看不到智能体的推理链路和决策风险。

Agentic Observability 需要看什么

新的可观测性至少要覆盖五类信息：任务目标、模型输入输出、工具调用、权限边界和结果反馈。企业需要知道 Agent 是否理解任务，是否调用了被允许的工具，是否访问了敏感数据，是否遇到不确定信息，用户是否接受了结果。对于高风险动作，还要记录人工审批。这样一来，Agent 不只是黑箱，而是可以审计、回放和改进的系统。

对企业落地的启发

很多企业现在急于上线 Agent，但忽视了运维体系。真正上线前，应先定义哪些动作可以自动执行，哪些动作必须确认，哪些错误需要降级到人工。还要建立评测集，持续测试 Agent 在边界条件下的表现。Agent 不是一次发布就结束，而是需要像生产软件一样版本管理、灰度发布、回滚和监控。

趋势判断

Agentic Observability 会成为企业 AI 基础设施的关键模块。未来判断一个 Agent 平台是否成熟，不只看模型多强，还要看能不能解释、监控、审计和回滚。AI 越能做事，运维越不能只看结果，而要看过程。

参考来源：Microsoft 官方博客《Rethinking cloud operations with agentic observability》、Microsoft Build 2026 相关资料。