开云「中国内陆」官方网站 更高效、更智能、更环保  

你的位置:开云「中国内陆」官方网站 更高效、更智能、更环保 > 新闻资讯 >

开yun体育网同期针对着力作念了脱落优化-开云「中国内陆」官方网站 更高效、更智能、更环保

发布日期:2026-01-23 08:12    点击次数:115

开yun体育网同期针对着力作念了脱落优化-开云「中国内陆」官方网站 更高效、更智能、更环保

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

智谱AI上市后,再发新恶果。

开源轻量级大谈话模子GLM-4.7-Flash,径直替代前代GLM-4.5-Flash,API免费绽开调用。

这是一个30B总参数、仅3B激活参数的搀杂内行(MoE)架构模子,官方给它的定位是“土产货编程与智能体助手”。

在SWE-bench Verified代码建筑测试中,GLM-4.7-Flash拿下59.2分,“东说念主类临了的考验”等评测中也显赫超过同范围的Qwen3-30B和GPT-OSS-20B。

动作客岁12月发布的旗舰模子GLM-4.7的轻量化版块,GLM-4.7-Flash采纳了GLM-4系列在编码和推理上的中枢才智,同期针对着力作念了脱落优化。

除了编程,官方还推选将这个模子用于创意写稿、翻译、长高下文任务,以至脚色上演场景。

30B参数只激活3B,MLA架构初次上线

GLM-4.7-Flash沿用了该系列的”搀杂念念考模子”的蓄意。

总参数目300亿,但本体推理时仅激活约30亿参数,使模子在保合手才智的同期大幅裁减预计支拨。

高下文窗口守旧到200K,既不错云表API调用,也守旧土产货部署。

现在官方还莫得给出本事证据,更多细节还要从建设文献我方挖掘。

有开导者凝视到一个蹙迫细节:GLM团队此次初次采纳了MLA(Multi-head Latent Attention)架构。这一架构此前由DeepSeek-v2领先使用并考证有用,如今智谱也跟进了。

从具体结构来看,GLM-4.7-Flash的深度与GLM-4.5 Air和Qwen3-30B-A3B接近,但内行数目有所不同——它采纳64个内行而非128个,激活时只调用5个(算上分享内行)。

现在发布不到12小时,HuggingFace、vLLM等主流平台就提供了day0守旧。

官方也在第一时候提供了对华为昇腾NPU的守旧。

土产货部署方面,经开导者实测在32GB长入内存、M5芯片的苹果条记本上能跑到43 token/s的速率。

官方API平台上基础版GLM-4.7-Flash弥漫免费(限1个并发),高速版GLM-4.7-FlashX价钱也极端白菜。

对比同类模子,在高下文长度守旧和输出token价钱上有上风,但现在蔓延和微辞量还有待优化。

HuggingFace:

https://huggingface.co/zai-org/GLM-4.7-Flash

参考邻接:

[1]https://x.com/Zai_org/status/2013261304060866758