从"感知"到"生成",再到自主手脚的"智能体",AI 正在结尾侧掀翻一场无声的算力转变。
在量子位 MEET2026 智能明天大会上,高通公司 AI 居品时间中国区矜重东说念主万卫星指出:
尽管当今行业关爱点仍然纠合在生成式 AI 上,但通盘产业其实正呈现出从生成式 AI 向智能体 AI 演进的阶梯。
他将这一演进过程梳理为四个阶段——从传统的感知 AI 启航,历经刻下的生成式 AI、正在到来的智能体 AI,最终迈向领悟确凿定律的物理 AI。
而当今产业正处于从"生成"向"智能体"跃迁的关节窗口期,结尾侧的才能也正从单一翰墨模态,向全模态交互加快演进。

在他看来,在端侧启动大模子,最大的护城河在于"个性化"——在离数据产生最近的场合作念推理,不仅能杀青阴私保护,更能提供无需联网的即时反映。
干系词,要在手机、PC 等高集成度建设上部署百亿级参数模子,必须直面内存受限、带宽瓶颈与功耗适度这三大挑战。 对此,万卫星分享了高通的破局之说念。
临了,关于明天的结尾体验,他形色了一个搀和 AI 与漫衍式协同的图景——智能眼镜、手机、汽车将杀青跨端的 AI 推理。
为了完好体现万卫星的想考,在不改变本旨的基础上,量子位对演讲实质进行了剪辑整理,但愿能给你带来更多启发。
MEET2026 智能明天大会是由量子位专揽的行业峰会,近 30 位产业代表与会琢磨。线下参会不雅众近 1500 东说念主,线上直播不雅众 350 万 +,赢得了主流媒体的庸碌关爱与报说念。
中枢不雅点梳理
AI 应用的演进,不错分为感知 AI、生成式 AI、智能体 AI 和物理 AI 四个阶段。
从模态来看,结尾侧正在从单一翰墨模态,向多模态以至全模态标的演进。
生态系统从单体模子向复合系统的转变是迈向智能体 AI 的基础。
在结尾侧启动大模子,最大的平正之一是个性化。
在结尾侧启动谎言语模子主要濒临内存结尾、带宽结尾和功耗适度等挑战。
为惩办这些挑战,高通进行了一系列时间储备与预研:量化与压缩、并行解码时间等以提高推理效用、先进 NPU 与异构诡计架构。

以下为万卫星演讲原文
AI 应用演进的四个阶段
今天我想跟全球分享一下高通在结尾侧 AI 以及搀和 AI 上的效用和想考。
领先,咱们来看一下 AI 应用在通盘行业中的演进。
第一个阶段不错称之为感知 AI,包括全球比较老练的、传统的当然话语处理、语音降噪、图片识别和分割等 AI 时间,都属于这个领域。
这些时间其实在好多年前就照旧在许多结尾侧建设上杀青交易化落地。
第二个阶段是生成式 AI,是跟着 ChatGPT 的兴起而来的,这一阶段主要基于大都数据进行预测验,并在东说念主类监督下完成某类具体任务。
包括文生图、聊天机器东说念主,或是欺诈大模子进行翻译等在内,都属于"生成式 AI "。

第三个阶段,咱们称之为智能体 AI。
与生成式 AI 比较,智能体 AI 不错在险些莫得东说念主类监督或无侵略的情况下,进行自主手脚、展望、意图领悟与任务编排。
咱们大约看到,尽管当今行业关爱点仍然纠合在生成式 AI 上,但通盘产业其实正呈现出从生成式 AI 向智能体 AI 演进的阶梯。
第四个阶段,咱们叫作念物理 AI。
在这个阶段,AI 不错领悟确凿的物理全国,并凭据确凿的物理定律与礼貌作念出相应的反馈和反映。
当今,物理 AI 尚处于有计划和探索的初期。
端侧 AI 的上风和挑战
咱们看到在结尾侧生成式 AI 的生态中,模子尺寸正在连续增大——
当今手机不错复旧快要 100 亿参数的大模子部署;
PC 不错复旧约 200 亿参数的大模子结尾侧部署;
在车载场景中,模子复旧的规模则更大,可部署的参数目级已达到 200 亿至 600 亿之间。

在模子尺寸连续扩大的同期,模子质料也连续升迁。
本年级首咱们照旧大约将复旧想维链(CoT)和推理才能的模子完满部署在端侧。
同期,端侧模子所复旧的落魄文长度也在显赫增长——从两年前端侧仅能处理 1K 到 2K 的落魄文,到昨年已升迁至 4K,而本年则已大约复旧 8K 到 16K 的典型用例在端侧进行部署。
事实上,就像咱们在本年 9 月的骁龙峰会上展示的那样,在某些迥殊场景下,照旧不错杀青 128K 落魄文窗口的端侧大模子部署。
从模态的角度来看,结尾侧 AI 也呈现出从单一的翰墨模态,向复旧文本、图片、视频、音频、语音等多模态,以至全模态演进的趋势。

再来看一下在端侧启动 AI 的上风,以及所濒临的挑战。
咱们以为在结尾侧启动大模子或 AI,最大的平正之一是个性化——
数据的产生都在结尾侧,在距离数据产生最近的场合作念推理,是自干系词然的事情,同期也相配有意于保护用户的阴私和安全。
和云表比较,端侧还具备两个上风,一是完满免费,二是无需任何收集流畅。
那么挑战有哪些呢?在这里我想驻扎分享两点。
领先是内存结尾,结尾侧有限的内存大小结尾了可启动模子参数目的大小,从而不断了结尾侧模子的才能上限。
其次是带宽结尾,结尾侧有限的带宽决定了 AI 的推理速率,因此会影响用户体验。
诚然,在手机这类集成度相配高的结尾去启动谎言语模子,对能效适度也提倡了极致条款,因为要是功耗过高,就容易触发建设的温控机制。

面对这些挑战,高通公司都有哪些时间储备和预研呢?
第一是量化和压缩。从 8 bit、4 bit 到本年杀青的 2 bit,通过更极致的量化压缩,咱们使端侧大约复旧的模子尺寸越来越大,其所占用的内存越来越小;
第二是在端侧带宽不断下,咱们采选并行解码时间以提高谎言语模子的 token 速率;
第三是通过先进的 NPU,包括 eNPU 的架构和卓绝的异构诡计系统,咱们让端侧 AI 从以往的被迫式工作向主动式、个性化的 AI 工作迈进。

接下来,我想就并行解码时间再进行张开教育。
刻下谎言语模子大部分是基于自记忆架构,它需要把统统的输入和权重一都加载到内存中,才能生成一个 token。
从效用的角度来讲,这口舌常不经济的手脚。尤其是跟着模子规模捏续增大,token 的生成速率会相配慢,进而导致时延加多、影响用户体验。
高通通过并行解码时间,先在端侧启动一个较小的草稿模子,一次性推理出多个 token,然后将这些 token 交予原始的、较大的模子进行校验。

因为草稿模子是基于原始大模子测验而来,在原始大模子上进行 token 考据时,大约保证较高的接受率,从而杀青并行解码,达到提高端侧解码速率的野心。
从生成式 AI 向智能体 AI 演进
咱们正处在从生成式 AI 向智能体 AI 演进的旅途上。
从用例的角度来讲,生成式 AI 主要能复旧关节的"单体"用例,比确乎时翻译、文生图或者实质创作、撮要、续写等任务。

智能体 AI 是更复合、更复杂、更主动式的 AI 工作。
杀青智能体 AI 需要许多基础模块,领先需要一个具有推理才能的大模子,它不错在端侧或者云上启动以领悟用户意图;
在领悟用户的意图和任务之后,智能体不错通过查询个东说念主常识图谱等个东说念主腹地数据,生成个性化的任务编排;
临了,智能体还要通过调用腹地或云上的 API 执行相应的任务。

底下不错看一个具体的智能体 AI 用例。
用户不错欺诈智能体发布微博,这个过程中领先要通过当然话语和智能体进行交互。
当智能体领悟了用户"需要发布微博"的意图后,会绽放微博 APP,搜索需要发布的像片,同期凭据用户过往的个东说念主偏好给像片加滤镜,最终完成通盘发布过程。
不仅如斯,用户还不错通过当然话语交互监测复兴,并进行相应操作,比如我绝顶可爱某个评述时,不错去点赞或复兴。
这个用例在本年 9 月的骁龙峰会上进行展示时,通盘经由是一都启动在端侧的。
除了手机除外,高通的芯片也笼罩了丰富品类的居品,包括智能眼镜、PC、汽车、智高腕表、IoT 等居品,况兼咱们大约复旧统统骁龙建设之间的智能互联。

全球不错设想一下,智能眼镜、智高腕表等算力较小的建设,不错通过 Wi-Fi 或者蓝牙与手机、汽车流畅,去分享它们之间的腹地数据,将大模子推理从较小建设中膺惩平直机、PC 以至汽车等算力较大的建设上,杀青漫衍式的个性化大模子推理。
临了,咱们确信 AI 体验在明天会向搀和 AI的标的发展。

也等于说,在结尾侧启动垂类的、比较高效的模子,提供更好的、更安全的个性化 AI 工作;在云表,启动更大尺寸的模子,提供才能更强、更通用、更极致的 AI 工作。
高通公司也将凭借低时延、高速且安全的流畅时间,确保搀和 AI 场景下的端云协同和端云流畅。
一键三连「点赞」「转发」「堤防心」
接待在评述区留住你的主义!
— 完 —
� � 点亮星标 � �
科技前沿发扬逐日见天元证券_股票配资模式深度指南_实盘交易与多倍杠杆讲解
天元证券_股票配资模式深度指南_实盘交易与多倍杠杆讲解提示:本文来自互联网,不代表本网站观点。