IT之家 5 月 13 日消息,在今天凌晨舉辦的 2026 年 The Android Show | I/O Edition 活動(dòng)結(jié)束后,谷歌 DeepMind 發(fā)布博文,詳細(xì)介紹了適用于 Googlebook 的 Magic Pointer 功能。
定位方面,Magic Pointer 是光標(biāo)交互功能,不只識(shí)別“指到了什么”,還要理解“為什么這對(duì)用戶(hù)重要”。該功能的核心目標(biāo)是盡量不打斷原有操作流,讓 AI 主動(dòng)進(jìn)入用戶(hù)當(dāng)前使用的工具和頁(yè)面。
其理念是用“更簡(jiǎn)單、更直觀的交互方式”取代“文字過(guò)多的提示”。
谷歌在博文中指出,當(dāng)前大部分 AI 工具都停留在獨(dú)立界面中,用戶(hù)常常需要把網(wǎng)頁(yè)、文檔、圖片或數(shù)據(jù)復(fù)制、拖拽到 AI 窗口里,再輸入完整提示詞。

這種使用方式會(huì)打斷工作節(jié)奏,新方案希望反過(guò)來(lái),讓 AI 直接出現(xiàn)在用戶(hù)正在使用的工具里,依據(jù)指針位置和語(yǔ)音命令理解上下文。
DeepMind 總結(jié)了 4 條核心原則:
第 1 條是“保持工作流”,即 AI 能力應(yīng)覆蓋各類(lèi)應(yīng)用場(chǎng)景,例如指向 PDF 后要求生成要點(diǎn)摘要并粘貼進(jìn)郵件,懸停統(tǒng)計(jì)表格后要求生成餅圖,選中菜譜后要求把全部配料翻倍。
第 2 條是“邊指邊說(shuō)”,通過(guò)捕捉指針周?chē)囊曈X(jué)與語(yǔ)義信息,讓系統(tǒng)知道用戶(hù)究竟想處理哪個(gè)詞、哪段文字、哪塊圖片或哪段代碼。
第 3 條強(qiáng)調(diào)“這個(gè)”“那個(gè)”的自然表達(dá)方式。人與人交流時(shí),本就依賴(lài)手勢(shì)和共享語(yǔ)境,不必每次都說(shuō)完整長(zhǎng)句。若 AI 能同時(shí)理解上下文、指向動(dòng)作和語(yǔ)音,用戶(hù)只需說(shuō)“改一下這個(gè)”或“把那個(gè)移到這里”,也能發(fā)出復(fù)雜請(qǐng)求。
第 4 條原則則是把像素轉(zhuǎn)化為可操作實(shí)體,比如地點(diǎn)、日期、物體等,從而讓一張潦草便簽變成交互式待辦清單,讓旅行視頻中的餐廳畫(huà)面直接對(duì)應(yīng)預(yù)訂鏈接。
谷歌還在 AI Studio 上線 2 個(gè)演示,并正把這項(xiàng)能力逐步引入 Chrome 中的 Gemini,讓用戶(hù)直接圍繞網(wǎng)頁(yè)局部?jī)?nèi)容發(fā)問(wèn)與操作。IT之家附上相關(guān)演示如下:
參考
相關(guān)閱讀:
安卓海量新消息公布,The Android Show | I/O Edition 專(zhuān)題
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。