开发者用 1900 年前文本训练 LLM，意外“重新发现”相对论

发生了什么

开发者 Michael Hla 仅使用 1900 年之前的科学与文学文本，从零开始训练了一个语言模型，并测试该模型能否独立推导出 20 世纪的物理学概念。尽管该模型按现代标准来看规模较小，限制了其深度推理能力，但在被提示描述具有里程碑意义的历史实验时，它输出了“光由确定的能量量子组成”的陈述，并提出了引力与加速度之间的等价性——这正是量子力学与广义相对论的核心思想。该项目的数据集、模型权重及训练代码均以 gpt1900 为名在 GitHub 上开源。一个经过早期指令微调的检查点的实时演示可在 gpt1900.com 访问。

为何重要

该项目是对一个根本性问题的实际压力测试：LLM 是在进行推理还是仅做模式匹配？结果颇具 nuanced。该模型仅凭语料库统计就展现出涌现的直觉，无需任何物理学微调。对于构建领域专用 LLM 的独立开发者及中小企业而言，这证明了即使参数规模较小，窄域高质量数据集也能产生令人惊讶的专用模型能力。这也验证了基于精选垂直数据从零训练，而非总是对大型基础模型进行微调的方法论。

完整数据集与模型权重已开源，可用于研究或作为基线
在有限 GPU 预算下，针对窄域语料从零训练对独立开发者切实可行
该项目将物理学“重新发现”定义为开放基准问题，邀请社区贡献

亚太视角

正在构建垂直 LLM 的中国及东南亚开发者——例如训练于中国古典文学、中医典籍或前现代法律文档的模型——可直接应用此方法论。gpt1900 代码库提供了一套可复现的流程，涵盖语料库构建、Tokenizer 训练及针对历史或领域特定文本的指令微调。中国 AI 初创团队若正尝试为专业知识领域开发更小、更廉价的模型（鉴于高端 GPU 出口管制，这是常见约束），将发现这种“小规模从零训练”的方法尤为相关。该开源数据集也可作为多语言迁移实验的纯净英语基准语料库。

本周行动项

克隆 gpt1900 GitHub 仓库，审查数据集构建脚本，并从您自己的领域（如法律文件、技术手册或历史记录）中识别一个窄域文本语料库，以便使用相同流程训练一个可比的领域专用模型。

开发者用 1900 年前文本训练 LLM，意外“重新发现”相对论

发生了什么

为何重要

亚太视角

本周行动项

相关推荐

高盛警告：标普500指数已经约等于半个“AI指数”

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

客户聊天记录太长、 AI 总「断片」？ De epSeek 新版能一口气读完一本书的内容了

同样的AI 对话质量，费用只要四分之一 — 我最近在帮客户省这笔钱