91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

智譜發(fā)布可持續(xù)工作 8 小時(shí)的旗艦?zāi)P?GLM-5.1,同時(shí)提價(jià) 10%

2026/4/8 10:49:27 來源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋
感謝IT之家網(wǎng)友 DomadoGreatMOLA、素以為絢兮Nuc_F、一只ZenonJARK006、補(bǔ)藥吖不一樣的體驗(yàn) 的線索投遞!

IT之家 4 月 8 日消息,智譜正式發(fā)布新一代開源模型 GLM-5.1,官方稱這是目前全球最強(qiáng)的開源模型。據(jù)官方介紹,其是唯一達(dá)到 8 小時(shí)級持續(xù)工作的開源模型,在最接近真實(shí)軟件開發(fā)的 SWE-bench Pro 基準(zhǔn)測試中,GLM-5.1 實(shí)現(xiàn)國產(chǎn)模型首次超越 Opus 4.6。

OpenRouter 顯示,伴隨此次發(fā)布,智譜 GLM 再度提價(jià) 10%。調(diào)價(jià)后,GLM-5.1 在 Coding 場景的緩存命中 Token 價(jià)格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。這是國產(chǎn)大模型首次在核心場景實(shí)現(xiàn)與海外頭部廠商的價(jià)格對齊。

IT之家附官方詳細(xì)介紹如下:

從 3 分鐘的 Vibe Coding(氛圍編程)到 30 分鐘的 Agentic Engineering(智能體工程),再到本次我們帶來的 8 小時(shí) Long-Horizon Task(長程任務(wù)),GLM-5.1 再次取得突破。

GLM-5.1 是我們迄今最智能的旗艦?zāi)P?,也是目前全球最?qiáng)的開源模型。GLM-5.1 大大提高了代碼能力,在完成長程任務(wù)方面提升尤為顯著。和此前分鐘級交互的模型不同,它能夠在一次任務(wù)中獨(dú)立、持續(xù)工作超過 8 小時(shí),期間自主規(guī)劃、執(zhí)行、自我進(jìn)化,最終交付完整的工程級成果。

代碼能力是模型智能水平進(jìn)一步提升的關(guān)鍵。下圖是業(yè)內(nèi)最具代表性的三個(gè)代碼評測基準(zhǔn)的平均結(jié)果,包括衡量模型專業(yè)軟件開發(fā)工作的 SWE-Bench Pro、操作命令行解決問題的 Terminal-Bench 2.0、從零構(gòu)建完整代碼倉庫的 NL2Repo,GLM-5.1 取得全球模型第三、國產(chǎn)模型第一、開源模型第一。

在最接近真實(shí)軟件開發(fā)的 SWE-bench Pro 基準(zhǔn)測試中,GLM-5.1 刷新全球最佳成績,超過 GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真實(shí) GitHub 倉庫中定位并修復(fù)高難度工程 Bug,是衡量模型能否勝任專業(yè)軟件開發(fā)的最硬指標(biāo)。

你睡覺的 8 小時(shí),是模型上班的 8 小時(shí)

過去兩年,行業(yè)用 Benchmark 衡量模型有多智能。我們認(rèn)為,下一階段的衡量標(biāo)準(zhǔn)應(yīng)該是“能工作多久”,即模型在 Long-Horizon Task 中的表現(xiàn),能獨(dú)立完成多長時(shí)間的人類任務(wù)。

在長程任務(wù)中保持穩(wěn)定輸出,模型面對的不只是更大代碼量,而是一連串復(fù)雜的工程決策點(diǎn):主動跑 benchmark、定位瓶頸、修改方案、再跑測試。這對模型提出更高的要求,需要像人類工程師一樣,形成“實(shí)驗(yàn) → 分析 → 優(yōu)化”的完整閉環(huán),而不是寫完代碼停下來等人打分。

在 METR 榜單的同等評估標(biāo)準(zhǔn)下,GLM-5.1 是唯一達(dá)到 8 小時(shí)級持續(xù)工作的開源模型,也是全球范圍內(nèi)除 Claude Opus 4.6 外少數(shù)具備這一能力的模型。我們的終極目標(biāo)是全自治智能體(Autonomous Agent),模型 7×24 小時(shí)不間斷地分解目標(biāo)、執(zhí)行交付、自我評價(jià)與糾正、自我進(jìn)化,從此無需人類介入。

看看模型的一天 8 小時(shí)工作,都能做些什么。

場景一:8 小時(shí)從零構(gòu)建 Linux 桌面

白天畫好架構(gòu)草圖,睡前交給 GLM-5.1,早上醒來已產(chǎn)出完整系統(tǒng)。歷時(shí) 8 小時(shí)整,執(zhí)行 1200 多步,20 分鐘時(shí)產(chǎn)生第一個(gè)有意義的成果,8 小時(shí)產(chǎn)出了一套功能完善的 Linux 桌面系統(tǒng),包括:完整的桌面、窗口管理器、狀態(tài)欄、應(yīng)用程序、VPN 管理器、中文字體支持、游戲庫等,4.8MB 的配套文件,這相當(dāng)于一個(gè) 4 人團(tuán)隊(duì)一周的開發(fā)工作量。

以下視頻是 GLM-5.1 在 8 小時(shí)內(nèi)的代碼提交結(jié)果:這些不是四五行的小 patch,每一次提交都是具有實(shí)質(zhì)意義的系統(tǒng)級演進(jìn),而且全程沒有人參與測試、審查代碼。模型甚至給自己的代碼寫了一些回歸測試,而且跑過了。

場景二:655 次迭代打破向量數(shù)據(jù)庫優(yōu)化瓶頸

向量數(shù)據(jù)庫是 AI 搜索和推薦系統(tǒng)背后的核心引擎,而近似最近鄰檢索則是其中非常關(guān)鍵、也非常考驗(yàn)算法與工程能力的一環(huán)。這個(gè)過程既要求模型掌握 IVF、HNSW、向量量化等底層算法知識,也要求它具備真實(shí)的工程判斷力,能夠在一條優(yōu)化路徑碰壁時(shí)主動識別瓶頸、切換策略,而不是盲目重復(fù)同一個(gè)方向。

GLM-5.1 不是只會微調(diào)參數(shù),而是一路自己完成了從全庫掃描切到 IVF 分桶召回、引入半精度壓縮、加入量化粗排、做兩級路由,再到提前剪枝的整套優(yōu)化鏈條。在 655 輪迭代里,它持續(xù)自主跑 Benchmark、定位瓶頸、調(diào)整方案,最終把向量數(shù)據(jù)庫的查詢吞吐從初次交付的 3108 QPS 一路推到 21472 QPS,提升到初始正式版本的 6.9 倍。

場景三:1000 輪工具調(diào)用優(yōu)化真實(shí)機(jī)器學(xué)習(xí)模型負(fù)載

GLM-5.1 展現(xiàn)的長時(shí)間工作和自進(jìn)化能力,讓其從單純的“代碼生成器”進(jìn)化為“主動的系統(tǒng)優(yōu)化器”。我們在涵蓋 50 個(gè)真實(shí)機(jī)器學(xué)習(xí)計(jì)算負(fù)載的 KernelBench Level 3 優(yōu)化基準(zhǔn)上,讓 GLM-5.1 對每個(gè)負(fù)載獨(dú)立進(jìn)行持續(xù)優(yōu)化。在超過 24 小時(shí)的不間斷迭代中,GLM-5.1 自主完成了多輪編譯 — 測試 — 分析 — 重寫循環(huán),最終取得 3.6 倍的幾何平均加速比,顯著高于 torch.compile max-autotune 模式的 1.49 倍。

模型展現(xiàn)出的優(yōu)化深度與創(chuàng)造力尤其值得關(guān)注。GLM-5.1 能夠自主編寫定制 Triton Kernel 和 CUDA Kernel,運(yùn)用 cuBLASLt epilogue 融合并實(shí)施 shared memory tiling 與 CUDA Graph 優(yōu)化。這些優(yōu)化策略覆蓋了從高層算子融合到微架構(gòu)級調(diào)優(yōu)的完整技術(shù)棧,每一步都是模型的自主決策。

這一結(jié)果表明,在 GPU 內(nèi)核優(yōu)化這一傳統(tǒng)上高度依賴專家經(jīng)驗(yàn)的領(lǐng)域,AI 模型已經(jīng)展現(xiàn)出從問題分析、方案設(shè)計(jì)到迭代調(diào)優(yōu)的端到端自主工作能力。在 GPU 以及更廣泛的高性能計(jì)算領(lǐng)域,長期制約工程效率的優(yōu)化瓶頸正在被 AI 逐步打破。

Behind the 8h

讓模型跑 8 小時(shí)并不難,真正難的是讓第 8 小時(shí)的工作仍然有效。

此前包括 GLM-5 在內(nèi)的模型,在面對復(fù)雜優(yōu)化任務(wù)時(shí),往往在早期快速取得收益后就進(jìn)入瓶頸期。它們會反復(fù)嘗試已知的優(yōu)化手段,但無法在一條路走不通時(shí)主動切換策略。

GLM-5.1 的訓(xùn)練目標(biāo)是突破這個(gè)瓶頸。在向量數(shù)據(jù)庫優(yōu)化任務(wù)中,我們觀察到一個(gè)典型的 " 階梯型 " 優(yōu)化軌跡:模型在一個(gè)固定策略內(nèi)進(jìn)行增量調(diào)優(yōu),當(dāng)收益趨于停滯時(shí),主動分析 Benchmark 日志、定位當(dāng)前瓶頸,然后跳轉(zhuǎn)到結(jié)構(gòu)性不同的方案 —— 從全庫掃描到 IVF 分桶,從單精度到量化粗排,從單層路由到兩級剪枝。每一次跳躍都伴隨著短暫的 Recall 下降,因?yàn)槟P驮谔剿餍路较驎r(shí)會暫時(shí)打破約束,隨后再調(diào)回來。這個(gè) " 打破-修復(fù) " 的循環(huán)本身就是有效優(yōu)化的標(biāo)志。

在 KernelBench 上,我們通過對比多個(gè)模型的優(yōu)化曲線,更直接地看到了這個(gè)差異。GLM-5 在前期上升較快,但很早就趨于平坦;GLM-5.1 在同樣的時(shí)間窗口內(nèi)持續(xù)上升得更久,最終達(dá)到了 GLM-5 的 1.4 倍。關(guān)鍵在于模型能把 " 有效優(yōu)化 " 的窗口延伸多遠(yuǎn)。

在 Linux 桌面構(gòu)建任務(wù)中,挑戰(zhàn)又不一樣了。前兩個(gè)場景都有明確的數(shù)值指標(biāo)(QPS、加速比)可以用來衡量每一步是否有效,但構(gòu)建一個(gè)完整的桌面系統(tǒng)沒有單一指標(biāo),什么算 " 好 " 取決于功能完整度、視覺一致性、交互質(zhì)量的綜合判斷。這要求模型具備初步的自我評估能力:在每一輪執(zhí)行后審視自己的產(chǎn)出,判斷哪里需要改進(jìn)、繼續(xù)優(yōu)化。這是三個(gè)場景中反饋信號最弱的一個(gè),也是當(dāng)前最需要突破的方向。

我們認(rèn)為,延長模型的 " 有效工作時(shí)長 " 是提升智能體能力的一個(gè)基礎(chǔ)維度。在這條路上仍然有顯著的技術(shù)挑戰(zhàn):如何克服模型面對復(fù)雜任務(wù)的上下文焦慮、如何在數(shù)千次工具調(diào)用后保持執(zhí)行的一致性、如何更早地跳出局部最優(yōu),以及更重要的是如何在沒有確定數(shù)值指標(biāo)的任務(wù)上建立可靠的自我評估機(jī)制。GLM-5.1 是我們在這個(gè)方向上邁出的一步,我們會持續(xù)推進(jìn)。

GLM-5.1 不只是一個(gè)更強(qiáng)的模型,而是一種新的技術(shù)范式的開啟。此刻,嘗試給它一個(gè)指令,然后離開 8 小時(shí)。

開源與使用方式

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:GLM5.1,智譜,開源模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知

南安市| 峡江县| 海晏县| 石阡县| 鸡东县| 隆林| 牡丹江市| 新晃| 浮山县| 东兴市| 宿迁市| 盐边县| 彩票| 嵊州市| 鹤山市| 泰宁县| 东城区| 航空| 沈丘县| 额济纳旗| 大石桥市| 大余县| 明溪县| 炉霍县| 永康市| 北辰区| 棋牌| 通许县| 宣恩县| 虹口区| 成都市| 基隆市| 武义县| 东源县| 宁安市| 嘉黎县| 油尖旺区| 盱眙县| 吉安县| 郎溪县| 桓台县|