专题 | Needle 将 Gemini 3.1 蒸馏为 26M 模型，Tiny AI 时代正在到来

模型蒸馏Tiny AIGemini本地 AI开源模型行业观察

当 26M 参数的模型就能完成工具调用，当蒸馏技术让消费级设备也能运行强大的 AI，“Tiny AI”不再是一个口号，而是一个正在发生的范式转移。

Needle：把 Gemini 3.1 蒸馏成 26M

Cactus Compute 发布了一个名为 Needle 的开源项目，他们将 Gemini 3.1 的工具调用（Tool Calling）能力蒸馏进了一个仅有 2600 万参数的模型。这个数字意味着什么？它比最小的开源编程模型还要小一个数量级，小到可以在普通手机、智能手表甚至智能眼镜上运行。

Needle 采用的是 Cactus Compute 自己提出的 Simple Attention Network 架构——一种实验性的注意力网络设计。它由 12 层编码器（Encoder）和 8 层解码器（Decoder）组成，使用 GQA+RoPE、交叉注意力等机制，但去掉了传统的 FFN（前馈网络），大幅压缩了参数量。

在性能方面，Needle 在 Cactus 推理引擎上达到了 6000 toks/sec 的预填充速度和 1200 toks/sec 的解码速度。在单轮函数调用任务上，它击败了 FunctionGemma-270M、Qwen-0.6B、Granite-350M 等专门设计的小模型。

更值得关注的是它的训练效率：在 16 块 TPU v6e 上预训练 200B tokens 仅用了 27 小时，后训练阶段使用 2B tokens 的单轮函数调用数据集仅花了 45 分钟。权重和数据集生成代码都已完全开源。

AI Pulse 观点： Needle 的意义不在于它取代了 Gemini——它在对话能力上远不如那些几百 B 参数的模型。它的意义在于证明了一个关键论点：特定任务不需要通用大模型。工具调用这个场景，26M 参数就够了。这意味着未来每个消费设备都可以内置一个专用的”AI 工具调用引擎”，不需要联网、不需要云端推理、不需要付费。这是”端侧 AI”从概念走向现实的标志性事件。

Tiny AI：从”越大越好”到”刚刚好就好”

Needle 不是孤例。过去几个月，AI 行业出现了一个明显的趋势转向：

模型蒸馏正在加速。 不仅仅是 Needle，Google 的 FunctionGemma、Meta 的蒸馏版 Llama、阿里通义的 TinyLLM 系列都在验证同一个方向：把大模型在特定任务上的能力”压缩”到小模型中，让小模型在特定场景下拥有接近大模型的表现。

消费级设备成为新战场。 苹果 M4 芯片的 24GB 统一内存、高通骁龙 X Elite 的 NPU、联发科天玑 9400 的端侧大模型推理能力——芯片厂商正在为本地 AI 铺路。Needle 这样的 26M 模型意味着，未来的 AI 功能可以出厂预装在手机、手表、耳机里，而不是依赖云端 API。

开源社区在重新定义”足够好”。 当 26M 的模型就能完成工具调用，当 14B 的模型（如 NousCoder-14B）就能胜任大多数编程任务，“多大才算大”这个问题正在被重新回答。对于大多数应用场景，“够用”的小模型比”万能”的大模型更实用、更便宜、更隐私。

AI Pulse 观点： “Tiny AI”不是对大模型的替代，而是补充。未来的 AI 架构很可能是分层的：云端大模型负责复杂推理和创造性任务，端侧小模型负责高频、低延迟的专用任务。但关键的转折点在于——当端侧小模型的能力跨越了某个阈值（比如 Needle 在工具调用上达到了可用水平），大量原本必须依赖云端的场景会被迁移到本地。这个迁移过程一旦开始，就会形成自我强化的飞轮：更多本地场景 → 更多本地数据 → 更好的本地模型 → 更多本地场景。

Anthropic 的中小企业战略

在 Needle 发布的同一时期，Anthropic 宣布推出 Claude for Small Business——一套面向中小企业的连接器和即用型工作流，让 Claude 直接嵌入小企业日常使用的工具中。

这个产品的定价和定位值得注意。它不是面向大型企业的定制部署，也不是面向个人用户的订阅服务，而是瞄准了一个长期被忽略的市场：那些需要 AI 能力但没有专门 IT 团队的中小企业。

AI Pulse 观点： Anthropic 的小企业战略和 Needle 的 Tiny AI 看似是两个方向，实际上指向同一个趋势——AI 正在从”科技公司和大型企业的专属工具”变成”每个人都可用的基础设施”。Anthropic 通过降低使用门槛（预置工作流、连接器）来实现这一点，而 Needle 这类开源小模型通过降低部署门槛（本地运行、零成本）来实现这一点。两条路线最终会汇合：中小企业既需要易用的云端 AI 服务，也需要能在本地运行的轻量级 AI 能力。

OpenAI 的 Codex 扩展与 DeployCo

与此同时，OpenAI 也在密集布局：

Codex 登陆 Windows。 OpenAI 发布了在 Windows 上安全运行 Codex 的沙箱方案。这意味着 Codex——OpenAI 的 AI 编程代理——不再局限于 macOS 和 Linux，Windows 开发者也可以使用。考虑到 Windows 在桌面端的统治地位，这是一个重要的市场扩张。

DeployCo 成立。 OpenAI 宣布成立 Deployment Company（DeployCo），专门帮助企业构建和部署围绕 AI 能力的业务流程。这标志着 OpenAI 从”提供模型 API”向”提供端到端企业解决方案”的转型。

AI Pulse 观点： OpenAI 的这一系列动作和 Needle 的 Tiny AI 看似是相反的路线——OpenAI 在把 AI 做”重”（企业级部署、沙箱、端到端解决方案），而 Needle 在把 AI 做”轻”（26M 参数、本地运行、零部署成本）。但这两种路线并不矛盾。企业市场需要可控、安全、可审计的 AI 部署（OpenAI 的路线），而个人开发者和消费级设备需要轻量、低成本、即插即用的 AI 能力（Needle 的路线）。2026 年的 AI 行业正在同时向两端扩张，而中间的”通用云服务”地带会被两头挤压。

总结：2026 年的三个 AI 范式转移

把这四条新闻放在一起看，你会发现 AI 行业正在同时经历三个范式转移：

从”越大越好”到”刚刚好就好”——Needle 证明了 26M 参数就能完成工具调用，模型蒸馏技术正在打破”只有大模型才有用”的假设。
从”云端专属”到”本地优先”——消费级芯片的 NPU 能力加上轻量模型的成熟，让本地 AI 从极客玩具变成了可行的产品路线。
从”科技巨头专属”到”人人可用”——无论是 Anthropic 的小企业产品、OpenAI 的 DeployCo，还是 Needle 的开源蒸馏方案，都在把 AI 能力推向更广泛的用户群。

这不是四个独立的故事。这是一个行业在重新定义 AI 的价值主张：不再是最强的模型赢，而是最合适的模型赢。