← 返回专题列表
讨论 2026-05-14

专题 | Needle 将 Gemini 3.1 蒸馏为 26M 模型,Tiny AI 时代正在到来

模型蒸馏Tiny AIGemini本地 AI开源模型行业观察

当 26M 参数的模型就能完成工具调用,当蒸馏技术让消费级设备也能运行强大的 AI,“Tiny AI”不再是一个口号,而是一个正在发生的范式转移。


Needle:把 Gemini 3.1 蒸馏成 26M

Cactus Compute 发布了一个名为 Needle 的开源项目,他们将 Gemini 3.1 的工具调用(Tool Calling)能力蒸馏进了一个仅有 2600 万参数的模型。这个数字意味着什么?它比最小的开源编程模型还要小一个数量级,小到可以在普通手机、智能手表甚至智能眼镜上运行。

Needle 采用的是 Cactus Compute 自己提出的 Simple Attention Network 架构——一种实验性的注意力网络设计。它由 12 层编码器(Encoder)和 8 层解码器(Decoder)组成,使用 GQA+RoPE、交叉注意力等机制,但去掉了传统的 FFN(前馈网络),大幅压缩了参数量。

在性能方面,Needle 在 Cactus 推理引擎上达到了 6000 toks/sec 的预填充速度1200 toks/sec 的解码速度。在单轮函数调用任务上,它击败了 FunctionGemma-270M、Qwen-0.6B、Granite-350M 等专门设计的小模型。

更值得关注的是它的训练效率:在 16 块 TPU v6e 上预训练 200B tokens 仅用了 27 小时,后训练阶段使用 2B tokens 的单轮函数调用数据集仅花了 45 分钟。权重和数据集生成代码都已完全开源。

AI Pulse 观点: Needle 的意义不在于它取代了 Gemini——它在对话能力上远不如那些几百 B 参数的模型。它的意义在于证明了一个关键论点:特定任务不需要通用大模型。工具调用这个场景,26M 参数就够了。这意味着未来每个消费设备都可以内置一个专用的”AI 工具调用引擎”,不需要联网、不需要云端推理、不需要付费。这是”端侧 AI”从概念走向现实的标志性事件。


Tiny AI:从”越大越好”到”刚刚好就好”

Needle 不是孤例。过去几个月,AI 行业出现了一个明显的趋势转向:

模型蒸馏正在加速。 不仅仅是 Needle,Google 的 FunctionGemma、Meta 的蒸馏版 Llama、阿里通义的 TinyLLM 系列都在验证同一个方向:把大模型在特定任务上的能力”压缩”到小模型中,让小模型在特定场景下拥有接近大模型的表现。

消费级设备成为新战场。 苹果 M4 芯片的 24GB 统一内存、高通骁龙 X Elite 的 NPU、联发科天玑 9400 的端侧大模型推理能力——芯片厂商正在为本地 AI 铺路。Needle 这样的 26M 模型意味着,未来的 AI 功能可以出厂预装在手机、手表、耳机里,而不是依赖云端 API。

开源社区在重新定义”足够好”。 当 26M 的模型就能完成工具调用,当 14B 的模型(如 NousCoder-14B)就能胜任大多数编程任务,“多大才算大”这个问题正在被重新回答。对于大多数应用场景,“够用”的小模型比”万能”的大模型更实用、更便宜、更隐私。

AI Pulse 观点: “Tiny AI”不是对大模型的替代,而是补充。未来的 AI 架构很可能是分层的:云端大模型负责复杂推理和创造性任务,端侧小模型负责高频、低延迟的专用任务。但关键的转折点在于——当端侧小模型的能力跨越了某个阈值(比如 Needle 在工具调用上达到了可用水平),大量原本必须依赖云端的场景会被迁移到本地。这个迁移过程一旦开始,就会形成自我强化的飞轮:更多本地场景 → 更多本地数据 → 更好的本地模型 → 更多本地场景。


Anthropic 的中小企业战略

在 Needle 发布的同一时期,Anthropic 宣布推出 Claude for Small Business——一套面向中小企业的连接器和即用型工作流,让 Claude 直接嵌入小企业日常使用的工具中。

这个产品的定价和定位值得注意。它不是面向大型企业的定制部署,也不是面向个人用户的订阅服务,而是瞄准了一个长期被忽略的市场:那些需要 AI 能力但没有专门 IT 团队的中小企业。

AI Pulse 观点: Anthropic 的小企业战略和 Needle 的 Tiny AI 看似是两个方向,实际上指向同一个趋势——AI 正在从”科技公司和大型企业的专属工具”变成”每个人都可用的基础设施”。Anthropic 通过降低使用门槛(预置工作流、连接器)来实现这一点,而 Needle 这类开源小模型通过降低部署门槛(本地运行、零成本)来实现这一点。两条路线最终会汇合:中小企业既需要易用的云端 AI 服务,也需要能在本地运行的轻量级 AI 能力。


OpenAI 的 Codex 扩展与 DeployCo

与此同时,OpenAI 也在密集布局:

Codex 登陆 Windows。 OpenAI 发布了在 Windows 上安全运行 Codex 的沙箱方案。这意味着 Codex——OpenAI 的 AI 编程代理——不再局限于 macOS 和 Linux,Windows 开发者也可以使用。考虑到 Windows 在桌面端的统治地位,这是一个重要的市场扩张。

DeployCo 成立。 OpenAI 宣布成立 Deployment Company(DeployCo),专门帮助企业构建和部署围绕 AI 能力的业务流程。这标志着 OpenAI 从”提供模型 API”向”提供端到端企业解决方案”的转型。

AI Pulse 观点: OpenAI 的这一系列动作和 Needle 的 Tiny AI 看似是相反的路线——OpenAI 在把 AI 做”重”(企业级部署、沙箱、端到端解决方案),而 Needle 在把 AI 做”轻”(26M 参数、本地运行、零部署成本)。但这两种路线并不矛盾。企业市场需要可控、安全、可审计的 AI 部署(OpenAI 的路线),而个人开发者和消费级设备需要轻量、低成本、即插即用的 AI 能力(Needle 的路线)。2026 年的 AI 行业正在同时向两端扩张,而中间的”通用云服务”地带会被两头挤压。


总结:2026 年的三个 AI 范式转移

把这四条新闻放在一起看,你会发现 AI 行业正在同时经历三个范式转移:

  1. 从”越大越好”到”刚刚好就好”——Needle 证明了 26M 参数就能完成工具调用,模型蒸馏技术正在打破”只有大模型才有用”的假设。

  2. 从”云端专属”到”本地优先”——消费级芯片的 NPU 能力加上轻量模型的成熟,让本地 AI 从极客玩具变成了可行的产品路线。

  3. 从”科技巨头专属”到”人人可用”——无论是 Anthropic 的小企业产品、OpenAI 的 DeployCo,还是 Needle 的开源蒸馏方案,都在把 AI 能力推向更广泛的用户群。

这不是四个独立的故事。这是一个行业在重新定义 AI 的价值主张:不再是最强的模型赢,而是最合适的模型赢。