谷歌Gemma 4实测：手机断网也能用，但逻辑题竟全军覆没-36氪

各家都在闷声鼓捣那些偏向商业落地的应用，几家大厂们满脑子都是怎么把OpenClaw的概念融入到自家的产品里，真正让人觉得眼前一亮的底层技术突破反倒不怎么看得到了。

于是乎，就在前几天，谷歌推出了新一代开源模型Gemma 4，包括E2B、E4B、26B、31B四个规格，其中 E2B、E4B 两个较小模型直接可以在手机、树莓派等设备上部署运行，26B、31B也只需要一张消费级显卡就能跑起来。

要知道，前两年吵得沸沸扬扬的AI手机，大家买回家用了半年才发现，超过九成的核心功能依然得依靠网络把数据传到云端服务器才能实现，一旦断网就是个哑巴，这实在让人觉得差点意思。

谷歌这边就表示，Gemma 4的发布代表了移动设备端AI的重大进步，它为手机、平板、笔记本电脑等端侧设备带来了强大的多模态功能，可以让用户体验到过去只有云端先进模型上才能体验的高效处理性能。

为了看看这玩意的真实成色，小雷也去下载了谷歌发布的最新模型进行测试，接下来就给大家说说里面的亮点吧。

Gemma 4 E2B/E4B是谷歌利用MatFormer架构打造的轻量化端侧大模型，它借由PLE和Hybrid Attention结构实现了长上下文和低内存消耗设计，内存占用与传统的2B和4B模型相当，最低只要3.2GB内存就能正常调用。

过去的手机端大模型，大多是简单粗暴地把云端模型切掉一大部分参数，然后硬塞进手机里，这就导致它们往往是个偏科生，只能做点简单的文字问答。

但这次Gemma 4的E2B和E4B型号彻底改变了思路，就像上面说的那样，它们从底层架构开始就采用了原生多模态设计。

原生多模态就是说，这个模型原生支持图像、音视频等多种输入模态，它不需要先把你说的话翻译成文字再慢慢理解，而是能直接听懂语气和语意；它在看图的时候也不需要把高分辨率的照片暴力压缩，而是能直接看清画面里的细节。

放在一年前，想在手机上部署端侧大模型其实是一件异常复杂的事情，往往还要借助Linux虚拟机的帮助才能实现，雷科技曾经还为此推出过一篇教程，因此大家会有这样的疑问也是很合理的。