AI Agents

找到 6 篇关于此标签的文章

LangSmithDeepEval

别再追逐排行榜：伯克利揭露有缺陷的 AI Agent 基准测试

伯克利研究人员揭示了顶级 AI 基准测试中的关键数据污染问题。了解如何验证您自己的 Agent 工具、避免过拟合，并构建更可靠的系统。

OpenAI CodexAnthropic Claude

Harness Engineering 崛起：OpenAI 与 Anthropic 将其定义为 AI Agent 核心工程discipline

OpenAI 与 Anthropic 正式将「Harness Engineering」确立为 AI Agent 落地的关键工程层，决定模型能否在生产环境中稳定运行。

IBM ResearchALTK-Evolve

IBM ALTK-Evolve 使 AI 智能体能够在部署期间持续学习

IBM Research 发布 ALTK-Evolve，这是一个工具包，允许 AI 智能体根据实际任务经验更新其行为，而无需进行完整重新训练。

Meta 如何构建预计算引擎为 AI 代理绘制代码库地图

Meta 部署了 50 多个专用 AI 代理，将 4100 多个文件中的隐性知识编码化，使代理工具调用次数减少 40%。

Amazon BedrockAgentCore Gateway

Amazon Bedrock AgentCore Gateway 现已支持 MCP 服务器的 OAuth 2.0

AgentCore Gateway 利用 OAuth 2.0 授权码流程集中管理 MCP 服务器认证，消除了逐服务器凭证管理的繁琐。

Claude Opus 4Anthropic

Claude Opus 4 在《艾尔登法环》中受挫：对 AGI 宣称的现实检验

一名开发者测试 Claude Opus 4 玩《艾尔登法环》，模型无法走出初始房间，质疑 Jensen Huang 关于 AGI 已实现的宣称。