首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

投稿

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 智能時(shí)代>人工智能

智譜發(fā)布可持續(xù)工作 8 小時(shí)的旗艦?zāi)Ｐ?GLM-5.1，同時(shí)提價(jià) 10%

2026/4/8 10:49:27 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評論：

感謝IT之家網(wǎng)友 Domado、GreatMOLA、素以為絢兮、Nuc_F、一只Zenon、JARK006、補(bǔ)藥吖、不一樣的體驗(yàn) 的線索投遞！

IT之家 4 月 8 日消息，智譜正式發(fā)布新一代開源模型 GLM-5.1，官方稱這是目前全球最強(qiáng)的開源模型。據(jù)官方介紹，其是唯一達(dá)到 8 小時(shí)級持續(xù)工作的開源模型，在最接近真實(shí)軟件開發(fā)的 SWE-bench Pro 基準(zhǔn)測試中，GLM-5.1 實(shí)現(xiàn)國產(chǎn)模型首次超越 Opus 4.6。

OpenRouter 顯示，伴隨此次發(fā)布，智譜 GLM 再度提價(jià) 10%。調(diào)價(jià)后，GLM-5.1 在 Coding 場景的緩存命中 Token 價(jià)格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。這是國產(chǎn)大模型首次在核心場景實(shí)現(xiàn)與海外頭部廠商的價(jià)格對齊。

IT之家附官方詳細(xì)介紹如下：

從 3 分鐘的 Vibe Coding（氛圍編程）到 30 分鐘的 Agentic Engineering（智能體工程），再到本次我們帶來的 8 小時(shí) Long-Horizon Task（長程任務(wù)），GLM-5.1 再次取得突破。

GLM-5.1 是我們迄今最智能的旗艦?zāi)Ｐ?，也是目前全球最?qiáng)的開源模型。GLM-5.1 大大提高了代碼能力，在完成長程任務(wù)方面提升尤為顯著。和此前分鐘級交互的模型不同，它能夠在一次任務(wù)中獨(dú)立、持續(xù)工作超過 8 小時(shí)，期間自主規(guī)劃、執(zhí)行、自我進(jìn)化，最終交付完整的工程級成果。

代碼能力是模型智能水平進(jìn)一步提升的關(guān)鍵。下圖是業(yè)內(nèi)最具代表性的三個(gè)代碼評測基準(zhǔn)的平均結(jié)果，包括衡量模型專業(yè)軟件開發(fā)工作的 SWE-Bench Pro、操作命令行解決問題的 Terminal-Bench 2.0、從零構(gòu)建完整代碼倉庫的 NL2Repo，GLM-5.1 取得全球模型第三、國產(chǎn)模型第一、開源模型第一。

智譜發(fā)布可持續(xù)工作 8 小時(shí)的旗艦?zāi)Ｐ?GLM-5.1，同時(shí)提價(jià) 10%

在最接近真實(shí)軟件開發(fā)的 SWE-bench Pro 基準(zhǔn)測試中，GLM-5.1 刷新全球最佳成績，超過 GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真實(shí) GitHub 倉庫中定位并修復(fù)高難度工程 Bug，是衡量模型能否勝任專業(yè)軟件開發(fā)的最硬指標(biāo)。

智譜發(fā)布可持續(xù)工作 8 小時(shí)的旗艦?zāi)Ｐ?GLM-5.1，同時(shí)提價(jià) 10%

你睡覺的 8 小時(shí)，是模型上班的 8 小時(shí)

過去兩年，行業(yè)用 Benchmark 衡量模型有多智能。我們認(rèn)為，下一階段的衡量標(biāo)準(zhǔn)應(yīng)該是“能工作多久”，即模型在 Long-Horizon Task 中的表現(xiàn)，能獨(dú)立完成多長時(shí)間的人類任務(wù)。

在長程任務(wù)中保持穩(wěn)定輸出，模型面對的不只是更大代碼量，而是一連串復(fù)雜的工程決策點(diǎn)：主動跑 benchmark、定位瓶頸、修改方案、再跑測試。這對模型提出更高的要求，需要像人類工程師一樣，形成“實(shí)驗(yàn) → 分析 → 優(yōu)化”的完整閉環(huán)，而不是寫完代碼停下來等人打分。

在 METR 榜單的同等評估標(biāo)準(zhǔn)下，GLM-5.1 是唯一達(dá)到 8 小時(shí)級持續(xù)工作的開源模型，也是全球范圍內(nèi)除 Claude Opus 4.6 外少數(shù)具備這一能力的模型。我們的終極目標(biāo)是全自治智能體（Autonomous Agent），模型 7×24 小時(shí)不間斷地分解目標(biāo)、執(zhí)行交付、自我評價(jià)與糾正、自我進(jìn)化，從此無需人類介入。

看看模型的一天 8 小時(shí)工作，都能做些什么。

場景一：8 小時(shí)從零構(gòu)建 Linux 桌面

白天畫好架構(gòu)草圖，睡前交給 GLM-5.1，早上醒來已產(chǎn)出完整系統(tǒng)。歷時(shí) 8 小時(shí)整，執(zhí)行 1200 多步，20 分鐘時(shí)產(chǎn)生第一個(gè)有意義的成果，8 小時(shí)產(chǎn)出了一套功能完善的 Linux 桌面系統(tǒng)，包括：完整的桌面、窗口管理器、狀態(tài)欄、應(yīng)用程序、VPN 管理器、中文字體支持、游戲庫等，4.8MB 的配套文件，這相當(dāng)于一個(gè) 4 人團(tuán)隊(duì)一周的開發(fā)工作量。

以下視頻是 GLM-5.1 在 8 小時(shí)內(nèi)的代碼提交結(jié)果：這些不是四五行的小 patch，每一次提交都是具有實(shí)質(zhì)意義的系統(tǒng)級演進(jìn)，而且全程沒有人參與測試、審查代碼。模型甚至給自己的代碼寫了一些回歸測試，而且跑過了。

場景二：655 次迭代打破向量數(shù)據(jù)庫優(yōu)化瓶頸

向量數(shù)據(jù)庫是 AI 搜索和推薦系統(tǒng)背后的核心引擎，而近似最近鄰檢索則是其中非常關(guān)鍵、也非常考驗(yàn)算法與工程能力的一環(huán)。這個(gè)過程既要求模型掌握 IVF、HNSW、向量量化等底層算法知識，也要求它具備真實(shí)的工程判斷力，能夠在一條優(yōu)化路徑碰壁時(shí)主動識別瓶頸、切換策略，而不是盲目重復(fù)同一個(gè)方向。

GLM-5.1 不是只會微調(diào)參數(shù)，而是一路自己完成了從全庫掃描切到 IVF 分桶召回、引入半精度壓縮、加入量化粗排、做兩級路由，再到提前剪枝的整套優(yōu)化鏈條。在 655 輪迭代里，它持續(xù)自主跑 Benchmark、定位瓶頸、調(diào)整方案，最終把向量數(shù)據(jù)庫的查詢吞吐從初次交付的 3108 QPS 一路推到 21472 QPS，提升到初始正式版本的 6.9 倍。

場景三：1000 輪工具調(diào)用優(yōu)化真實(shí)機(jī)器學(xué)習(xí)模型負(fù)載

GLM-5.1 展現(xiàn)的長時(shí)間工作和自進(jìn)化能力，讓其從單純的“代碼生成器”進(jìn)化為“主動的系統(tǒng)優(yōu)化器”。我們在涵蓋 50 個(gè)真實(shí)機(jī)器學(xué)習(xí)計(jì)算負(fù)載的 KernelBench Level 3 優(yōu)化基準(zhǔn)上，讓 GLM-5.1 對每個(gè)負(fù)載獨(dú)立進(jìn)行持續(xù)優(yōu)化。在超過 24 小時(shí)的不間斷迭代中，GLM-5.1 自主完成了多輪編譯 — 測試 — 分析 — 重寫循環(huán)，最終取得 3.6 倍的幾何平均加速比，顯著高于 torch.compile max-autotune 模式的 1.49 倍。

模型展現(xiàn)出的優(yōu)化深度與創(chuàng)造力尤其值得關(guān)注。GLM-5.1 能夠自主編寫定制 Triton Kernel 和 CUDA Kernel，運(yùn)用 cuBLASLt epilogue 融合并實(shí)施 shared memory tiling 與 CUDA Graph 優(yōu)化。這些優(yōu)化策略覆蓋了從高層算子融合到微架構(gòu)級調(diào)優(yōu)的完整技術(shù)棧，每一步都是模型的自主決策。

這一結(jié)果表明，在 GPU 內(nèi)核優(yōu)化這一傳統(tǒng)上高度依賴專家經(jīng)驗(yàn)的領(lǐng)域，AI 模型已經(jīng)展現(xiàn)出從問題分析、方案設(shè)計(jì)到迭代調(diào)優(yōu)的端到端自主工作能力。在 GPU 以及更廣泛的高性能計(jì)算領(lǐng)域，長期制約工程效率的優(yōu)化瓶頸正在被 AI 逐步打破。

智譜發(fā)布可持續(xù)工作 8 小時(shí)的旗艦?zāi)Ｐ?GLM-5.1，同時(shí)提價(jià) 10%

Behind the 8h

讓模型跑 8 小時(shí)并不難，真正難的是讓第 8 小時(shí)的工作仍然有效。

此前包括 GLM-5 在內(nèi)的模型，在面對復(fù)雜優(yōu)化任務(wù)時(shí)，往往在早期快速取得收益后就進(jìn)入瓶頸期。它們會反復(fù)嘗試已知的優(yōu)化手段，但無法在一條路走不通時(shí)主動切換策略。

GLM-5.1 的訓(xùn)練目標(biāo)是突破這個(gè)瓶頸。在向量數(shù)據(jù)庫優(yōu)化任務(wù)中，我們觀察到一個(gè)典型的 " 階梯型 " 優(yōu)化軌跡：模型在一個(gè)固定策略內(nèi)進(jìn)行增量調(diào)優(yōu)，當(dāng)收益趨于停滯時(shí)，主動分析 Benchmark 日志、定位當(dāng)前瓶頸，然后跳轉(zhuǎn)到結(jié)構(gòu)性不同的方案 —— 從全庫掃描到 IVF 分桶，從單精度到量化粗排，從單層路由到兩級剪枝。每一次跳躍都伴隨著短暫的 Recall 下降，因?yàn)槟Ｐ驮谔剿餍路较驎r(shí)會暫時(shí)打破約束，隨后再調(diào)回來。這個(gè) " 打破-修復(fù) " 的循環(huán)本身就是有效優(yōu)化的標(biāo)志。

在 KernelBench 上，我們通過對比多個(gè)模型的優(yōu)化曲線，更直接地看到了這個(gè)差異。GLM-5 在前期上升較快，但很早就趨于平坦；GLM-5.1 在同樣的時(shí)間窗口內(nèi)持續(xù)上升得更久，最終達(dá)到了 GLM-5 的 1.4 倍。關(guān)鍵在于模型能把 " 有效優(yōu)化 " 的窗口延伸多遠(yuǎn)。

在 Linux 桌面構(gòu)建任務(wù)中，挑戰(zhàn)又不一樣了。前兩個(gè)場景都有明確的數(shù)值指標(biāo)（QPS、加速比）可以用來衡量每一步是否有效，但構(gòu)建一個(gè)完整的桌面系統(tǒng)沒有單一指標(biāo)，什么算 " 好 " 取決于功能完整度、視覺一致性、交互質(zhì)量的綜合判斷。這要求模型具備初步的自我評估能力：在每一輪執(zhí)行后審視自己的產(chǎn)出，判斷哪里需要改進(jìn)、繼續(xù)優(yōu)化。這是三個(gè)場景中反饋信號最弱的一個(gè)，也是當(dāng)前最需要突破的方向。

我們認(rèn)為，延長模型的 " 有效工作時(shí)長 " 是提升智能體能力的一個(gè)基礎(chǔ)維度。在這條路上仍然有顯著的技術(shù)挑戰(zhàn)：如何克服模型面對復(fù)雜任務(wù)的上下文焦慮、如何在數(shù)千次工具調(diào)用后保持執(zhí)行的一致性、如何更早地跳出局部最優(yōu)，以及更重要的是如何在沒有確定數(shù)值指標(biāo)的任務(wù)上建立可靠的自我評估機(jī)制。GLM-5.1 是我們在這個(gè)方向上邁出的一步，我們會持續(xù)推進(jìn)。

GLM-5.1 不只是一個(gè)更強(qiáng)的模型，而是一種新的技術(shù)范式的開啟。此刻，嘗試給它一個(gè)指令，然后離開 8 小時(shí)。

開源與使用方式

1.官方 API 接入

BigModel 開放平臺：https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
Z.ai：https://docs.z.ai/guides/llm/glm-5.1

2.產(chǎn)品體驗(yàn)

GLM-5.1 即將登陸 Z.ai：https://chat.z.ai
GLM-5.1 已納入 GLM Coding Plan (Max / Pro / Lite)，支持 Claude Code、OpenCode 等主流開發(fā)工具。

3.開源鏈接

GitHub：https://github.com/zai-org/GLM-5
Hugging Face：https://huggingface.co/zai-org/GLM-5.1
ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.1

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

智譜發(fā)布可持續(xù)工作 8 小時(shí)的旗艦?zāi)Ｐ?GLM-5.1，同時(shí)提價(jià) 10%

你睡覺的 8 小時(shí)，是模型上班的 8 小時(shí)

Behind the 8h

開源與使用方式

相關(guān)文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

智譜發(fā)布可持續(xù)工作 8 小時(shí)的旗艦?zāi)Ｐ?GLM-5.1，同時(shí)提價(jià) 10%

你睡覺的 8 小時(shí)，是模型上班的 8 小時(shí)

Behind the 8h

開源與使用方式

相關(guān)文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

智譜發(fā)布可持續(xù)工作 8 小時(shí)的旗艦?zāi)Ｐ?GLM-5.1，同時(shí)提價(jià) 10%

你睡覺的 8 小時(shí)，是模型上班的 8 小時(shí)