三张显卡跑Agent集群 — 本地AI的瓶颈从显存转向编排
相关推荐
基于 #llama.cpp 推荐
MiMo-2.5llama.cpp
两台 128GB 小主机跑起 MiMo-2.5,本地大模型正在逼近企业可用线
一位开发者用两台 128GB 机器和消费级显卡跑起 MiMo-2.5,并给出 356 tokens/s 预填充、15 tokens/s 生成速度。我们注意到,这不是“玩家炫技”那么简单,而是本地部署大模型正从实验阶段走向部分企业可用阶段。
6月21日·www.reddit.com
DeepSeek豆包
7家大模型都答错一道《坦克大战》题,问题不在识图而在规则推理
一次《坦克大战》图片测试里,豆包、DeepSeek、Qwen、GPT、Claude 等 7 家模型全部答错。值得我们关心的,不是哪家“翻车”,而是主流模型在视觉识别之外,仍明显依赖旧规则和模板化知识,遇到“如果”这类条件改写时,推理稳定性不足。
6月22日·juejin.cn
斯坦福CS336
斯坦福一份优化器作业走红,说明大模型竞争已回到训练基本功
一篇围绕斯坦福 CS336 的 AdamW 优化器教学文章在中文社区传播,内容并不新,但信号很明确:当大模型参数、应用故事越来越同质化,训练环节里的“基本功”重新成为行业分水岭,值得从业者和管理者认真补课。
6月21日·juejin.cn
AnthropicClaude
Claude 将要求部分用户实名认证,AI 平台开始把风控前置到入口
Anthropic 已在支持文档中说明,Claude 将对部分使用场景要求身份验证。我们判断,这不只是一次账号规则更新,而是主流 AI 平台把合规、滥用防控和高风险功能管理,提前到注册与使用入口。
6月21日·www.reddit.com
DeepSeekToken
1M token 不是“无限记忆”:大模型真正稀缺的是上下文预算
DeepSeek 这类模型已把上下文窗口做到 1M token,但这不等于 AI 真能“记住一切”。值得我们关心的是,token 不只是计费单位,它决定了模型能看多少、记多久、成本有多高,也决定了企业做 AI 应用时的真实边界。
6月21日·juejin.cn
LangChainLangGraph
LangChain 不是被 LangGraph 取代,AI Agent 真正门槛已转向落地编排
LangChain 和 LangGraph 处理的不是同一层问题:前者管“把大模型能力接进应用”,后者管“让 Agent 稳定跑完流程”。值得关心的是,AI 项目的难点正在从“能不能做出来”转向“能不能上线、可恢复、可审计”。
6月21日·juejin.cn