91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Anthropic 發(fā)布 Claude Opus 4.5:強(qiáng)化編碼與長(zhǎng)任務(wù)處理,軟件工程測(cè)試成績(jī)超越人類

2025/11/25 6:48:35 來(lái)源:IT之家 作者:問(wèn)舟 責(zé)編:問(wèn)舟
感謝IT之家網(wǎng)友 咩咩洋、懶嘟嘟嘟、烏蠅哥的左手、Stephen_233、補(bǔ)藥吖 的線索投遞!

IT之家 11 月 25 日消息,當(dāng)?shù)貢r(shí)間周一,Anthropic 宣布推出其最新 AI 模型“Claude Opus 4.5”,定位為一款在編碼、智能體以及計(jì)算機(jī)操作方面表現(xiàn)領(lǐng)先的通用模型,并在深度研究、演示文稿處理以及電子表格任務(wù)上實(shí)現(xiàn)了實(shí)質(zhì)性提升。

據(jù)官方介紹,這一版本不僅是對(duì)現(xiàn)有能力的推進(jìn),也預(yù)示著未來(lái)工作方式將出現(xiàn)更廣泛的變化。

在軟件工程相關(guān)測(cè)試中,Claude Opus 4.5 達(dá)當(dāng)前最先進(jìn)水平。該模型已在 Anthropic 應(yīng)用、API 以及三大云平臺(tái)開放使用,開發(fā)者可通過(guò) Claude API 使用 claude-opus-4-5-20251101 版本。其輸入輸出定價(jià)分別為 5 美元(IT之家注:現(xiàn)匯率約合 35.6 元人民幣)和 25 美元(現(xiàn)匯率約合 177.8 元人民幣)每百萬(wàn) tokens,旨在讓更多個(gè)人用戶、團(tuán)隊(duì)與企業(yè)能夠使用到 Opus 級(jí)別的能力。

與此同時(shí),公司也更新了 Claude Developer Platform、Claude Code 以及面向消費(fèi)者的應(yīng)用,加入支持更長(zhǎng)時(shí)間運(yùn)行的智能體工具,并擴(kuò)展了 Claude 在 Excel、Chrome 以及桌面端的使用方式。對(duì)于應(yīng)用用戶而言,長(zhǎng)對(duì)話不再受長(zhǎng)度限制,系統(tǒng)會(huì)自動(dòng)總結(jié)舊內(nèi)容以持續(xù)展開聊天。

性能評(píng)估:超過(guò)所有人類測(cè)試者

Anthropic 表示,它會(huì)讓性能工程崗位候選人完成一項(xiàng)難度極高的居家測(cè)試,同時(shí)也將這一測(cè)試用于模型內(nèi)部評(píng)估。在規(guī)定的兩小時(shí)限時(shí)內(nèi),Claude Opus 4.5 的得分超過(guò)了歷來(lái)所有人類候選人。

這項(xiàng)測(cè)試旨在考察技術(shù)能力與壓力下的判斷力,但并不涉及協(xié)作或長(zhǎng)期經(jīng)驗(yàn)等其他能力。

盡管如此,這一表現(xiàn)引發(fā)了關(guān)于 AI 將如何改變工程職業(yè)的討論。Anthropic 的“社會(huì)影響與經(jīng)濟(jì)未來(lái)”研究團(tuán)隊(duì)正關(guān)注此類變化,并計(jì)劃公布更多成果。

IT之家注意到,Claude Opus 4.5 在視覺(jué)、推理與數(shù)學(xué)方面也取得了顯著進(jìn)步,在多個(gè)領(lǐng)域達(dá)到行業(yè)先進(jìn)水平。

在真實(shí)任務(wù)基準(zhǔn)中表現(xiàn)突出

在用于衡量智能體能力的 τ2-bench 基準(zhǔn)中,模型需模擬航空公司服務(wù)人員處理客戶訴求。

開發(fā)者設(shè)定的“標(biāo)準(zhǔn)答案”是必須拒絕修改“基礎(chǔ)經(jīng)濟(jì)艙”機(jī)票,但 Claude Opus 4.5 給出了一個(gè)在規(guī)則允許范圍內(nèi)的替代方案 —— 先升級(jí)艙位,再變更航班。

模型在推理時(shí)引用政策內(nèi)容并提出解決策略,例如:

“在其他情況下,所有預(yù)訂(包括基礎(chǔ)經(jīng)濟(jì)艙)都可以在不更改航班的情況下更改艙位。”

并進(jìn)一步指出可先升級(jí)到經(jīng)濟(jì)艙或商務(wù)艙,再調(diào)整出行日期。這種方式雖增加費(fèi)用,但符合航空公司條款。

該案例被判定為失敗,因?yàn)樗醋裱A(yù)設(shè)路徑,但 Anthropic 表示,這類“有洞察力的解決方案”正是測(cè)試者與用戶感受到的進(jìn)步。

公司也指出,某些情境下類似行為可能被視為“獎(jiǎng)勵(lì)規(guī)避”(reward hacking),因此相關(guān)防范是安全測(cè)試的重要內(nèi)容。

安全性提升

Anthropic 表示,Claude Opus 4.5 是其迄今對(duì)齊程度最高的模型,并推測(cè)其對(duì)齊水平在行業(yè)前沿模型中也處于領(lǐng)先位置。為應(yīng)對(duì)客戶在關(guān)鍵任務(wù)中的使用需求,該版本進(jìn)一步強(qiáng)化了對(duì)提示注入攻擊的防御能力,能更有效避免欺騙性指令的影響。

開發(fā)者平臺(tái)更新

隨著模型能力增強(qiáng),其任務(wù)執(zhí)行步驟減少,推理過(guò)程中的回溯與冗余也更少,從而降低 token 消耗。開發(fā)者可通過(guò) Claude API 中新增的 effort(投入度)參數(shù),在速度、成本與能力之間進(jìn)行調(diào)節(jié)。

在中等 effort 設(shè)置下,Opus 4.5 與 Sonnet 4.5 在 SWE-bench Verified 上達(dá)到相近分?jǐn)?shù),但輸出 token 使用量減少 76%;在最高 effort 設(shè)置中,其得分比 Sonnet 4.5 高出 4.3 個(gè)百分點(diǎn),同時(shí)減少 48% 的輸出 token。

公司表示,在“努力控制、上下文壓縮與高級(jí)工具使用”的組合下,Opus 4.5 在深度研究評(píng)估中性能提升近 15 個(gè)百分點(diǎn)。此外,其在管理子智能體方面表現(xiàn)良好,可用于構(gòu)建協(xié)調(diào)性更高的多智能體系統(tǒng)。

產(chǎn)品更新

在 Claude Code 中,Opus 4.5 帶來(lái)兩項(xiàng)升級(jí):Plan Mode 現(xiàn)在會(huì)先通過(guò)提問(wèn)澄清需求,再生成可編輯的 plan.md 文件并執(zhí)行任務(wù);此外,Claude Code 已登陸桌面應(yīng)用,可同時(shí)運(yùn)行多個(gè)本地與遠(yuǎn)程會(huì)話。

消費(fèi)者應(yīng)用方面,Claude 現(xiàn)在可自動(dòng)總結(jié)對(duì)話上下文以支持更長(zhǎng)的交流內(nèi)容。Claude for Chrome 已向所有 Max 用戶開放,而 Claude for Excel 也擴(kuò)展到 Max、Team 與 Enterprise 用戶的測(cè)試權(quán)限。

對(duì)于擁有 Opus 4.5 權(quán)限的 Claude 與 Claude Code 用戶,公司已取消該模型的特定使用上限;Max 與 Team Premium 用戶的總體額度也有所提升,以確保滿足日常工作需求。公司表示,未來(lái)隨著新模型發(fā)布,相關(guān)限制可能繼續(xù)調(diào)整。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Claude Opus 4.5,AnthropicAI模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知

淄博市| 济阳县| 河津市| 浦县| 南投县| 龙游县| 安溪县| 保山市| 塔城市| 平和县| 乌苏市| 利辛县| 鹿泉市| 周口市| 通榆县| 白银市| 栾川县| 吴旗县| 兴城市| 澜沧| 曲麻莱县| 太和县| 荃湾区| 古浪县| 小金县| 留坝县| 喜德县| 黄梅县| 崇阳县| 静海县| 房产| 顺平县| 米泉市| 融水| 黄浦区| 黄石市| 莫力| 游戏| 漯河市| 南木林县| 绍兴市|