开yun体育网同期针对着力作念了脱落优化-开云「中国内陆」官方网站更高效、更智能、更环保

开云「中国内陆」官方网站更高效、更智能、更环保

发布日期：2026-01-23 08:12 点击次数：118

开yun体育网同期针对着力作念了脱落优化-开云「中国内陆」官方网站更高效、更智能、更环保

梦晨发自凹非寺

量子位 | 公众号 QbitAI

智谱AI上市后，再发新恶果。

开源轻量级大谈话模子GLM-4.7-Flash，径直替代前代GLM-4.5-Flash，API免费绽开调用。

这是一个30B总参数、仅3B激活参数的搀杂内行（MoE）架构模子，官方给它的定位是“土产货编程与智能体助手”。

在SWE-bench Verified代码建筑测试中，GLM-4.7-Flash拿下59.2分，“东说念主类临了的考验”等评测中也显赫超过同范围的Qwen3-30B和GPT-OSS-20B。

动作客岁12月发布的旗舰模子GLM-4.7的轻量化版块，GLM-4.7-Flash采纳了GLM-4系列在编码和推理上的中枢才智，同期针对着力作念了脱落优化。

除了编程，官方还推选将这个模子用于创意写稿、翻译、长高下文任务，以至脚色上演场景。

30B参数只激活3B，MLA架构初次上线

GLM-4.7-Flash沿用了该系列的”搀杂念念考模子”的蓄意。

总参数目300亿，但本体推理时仅激活约30亿参数，使模子在保合手才智的同期大幅裁减预计支拨。

高下文窗口守旧到200K，既不错云表API调用，也守旧土产货部署。

现在官方还莫得给出本事证据，更多细节还要从建设文献我方挖掘。

有开导者凝视到一个蹙迫细节：GLM团队此次初次采纳了MLA（Multi-head Latent Attention）架构。这一架构此前由DeepSeek-v2领先使用并考证有用，如今智谱也跟进了。

从具体结构来看，GLM-4.7-Flash的深度与GLM-4.5 Air和Qwen3-30B-A3B接近，但内行数目有所不同——它采纳64个内行而非128个，激活时只调用5个（算上分享内行）。

现在发布不到12小时，HuggingFace、vLLM等主流平台就提供了day0守旧。

官方也在第一时候提供了对华为昇腾NPU的守旧。

土产货部署方面，经开导者实测在32GB长入内存、M5芯片的苹果条记本上能跑到43 token/s的速率。

官方API平台上基础版GLM-4.7-Flash弥漫免费（限1个并发），高速版GLM-4.7-FlashX价钱也极端白菜。

对比同类模子，在高下文长度守旧和输出token价钱上有上风，但现在蔓延和微辞量还有待优化。

HuggingFace：

https://huggingface.co/zai-org/GLM-4.7-Flash

参考邻接：

[1]https://x.com/Zai_org/status/2013261304060866758