AMD R9700local deploymentmulti-agentllama.cpphybrid architecture··2 min read·joinopc.com·via www.reddit.com·
3 GPUs Run Agent Clusters: Local AI Bottleneck Shifts to Orchestration
相关推荐
基于 #llama.cpp 推荐
RTX 5090RTX Pro 4500
一张 5090 再拼一张专业卡,不是低成本扩显存的稳妥答案
一位本地大模型用户想用 RTX 5090 加 RTX Pro 4500 凑出 64GB 显存,目标是跑更大的 Qwen 模型。我们判断,这种“混搭双卡”能解决容量问题,却未必解决效率问题;对多数人来说,它更像技术妥协,而不是通用方案。
6月22日·www.reddit.com
MiMo-2.5llama.cpp
两台 128GB 小主机跑起 MiMo-2.5,本地大模型正在逼近企业可用线
一位开发者用两台 128GB 机器和消费级显卡跑起 MiMo-2.5,并给出 356 tokens/s 预填充、15 tokens/s 生成速度。我们注意到,这不是“玩家炫技”那么简单,而是本地部署大模型正从实验阶段走向部分企业可用阶段。
6月21日·www.reddit.com
OpenAIGPT-5
GPT-5 帮免疫学家解开 3 年难题,AI 开始进入科研判断环节
OpenAI 披露,GPT-5 Pro 协助免疫学家 Derya Unutmaz 梳理并推进一个困扰 3 年的 T 细胞研究难题。值得关心的不是“AI 会不会写论文”,而是它开始参与提出解释、缩小假设范围,这比文献检索更接近科研核心。
6月23日·openai.com
TokenEmbedding
一篇技术科普讲清 Token 与 Embedding,但更重要的是别再把大模型当黑盒
这篇文章没有发布新产品,而是把大模型“如何读文字”拆成 Token(把文本切成模型可识别的片段)和 Embedding(把片段变成有语义的向量)两步。值得关心的是,企业和个人如果连这层基础都不懂,后续谈成本、效果和落地,判断很容易失真。
6月23日·juejin.cn
Loop EngineeringAddy Osmani
Loop Engineering 不是新技术,它只是把 AI 自动干活这件事重新命名
Loop Engineering 最近被频繁讨论,但核心并不复杂:让智能体自动启动、自动检查结果,持续循环完成任务。值得关心的是,这说明 AI 工程的竞争点正从“会不会调用模型”转向“能不能稳定落地自动化”。
6月23日·juejin.cn
Cloudflarehyper
Cloudflare 花 6 周修掉 4 行代码 bug,说明 AI 时代底层软件风险更值钱了
Cloudflare 披露:一个只在大图片、偶发场景下出现的底层 HTTP 库 bug,让请求表面返回 200、实际数据却被截断。我们认为,这不是普通技术事故,而是一个信号:当 AI 与媒体处理越来越依赖实时调用,基础软件里的小缺陷会直接变成业务风险。
6月22日·blog.cloudflare.com