大家好,我是米罗,现在正蹲在谷歌园区旁边的汽车旅馆里给你们通宵码稿子。
除了昨天上午公开的直播现场之外,今天和昨天下午谷歌还办了几场媒体座谈,听到了点儿更有意思的东西,所以发稿耽误了。
绝对不是因为抢自拍位耽误了,甚至拍糊了。甜美的。
(资料图片)
还好柴哥没糊
OK,废话结束,我们言归正传~
这个时候,我猜可能大家已经看了不少 Google I/O 大会相关的报道了。
所以流水账式的东西我就不讲了,稍微跟大家聊点偏幕后向的东西吧。
首先。我们简单看一眼硬件产品,估计大家已经跟酷安老哥们一起,笑话完“3500元以内最好的拍照手机” Pixel 7a 了。
也吐槽过“市面上最薄的折叠屏手机” Pixel Fold 了。
这玩意我在后台上手了一下。
真机意外的薄,比 PPT 上面要好看不少。
但是你要跟我说它值一万二,抱歉,国内比它好的折叠屏太多了,我对这玩意完全无感。
还是看看远方的华为吧,家人们~
我这么跟大家说吧,这届 I/O 上,跟手机相关的东西基本上都没什么看头:
新的 Pixel 平板还算有点儿意思,但是显然它的产品经理是奔着家具摆件的方向去做这款平板的。
假如家里没什么谷歌系的智能家居,可能体会不到这个平板的“爽点”。
年更节目 Android 14 也几乎没啥人关注。
第二天媒体会上还介绍了一个安卓上很重磅的、“练习时长四年半”的功能。
结果我一看演示就乐了:同样的技术华为半年前就做出来了,效果还更好。
不过这个功能还在媒体保密期,这篇文章里没法展开跟大家吐槽了。
目前为止小伙伴们应该发现了,我已经花几百字吐槽 Google I/O 了。
那为啥我标题里面还觉得它不错呢?
因为 AI 。
在“保有道德感”的前提下,谷歌把所有能整合 AI 的产品,全都揉上了 AI ,试图锤爆一切同行。
人在现场,非常受震撼。
我先跟大家从一个小功能讲起吧。
在谷歌 Pixel 手机上拍完一张照片之后,假如对当时的天气不满意,可以通过 AI “魔法换天”。
也可以用 AI 消除风景照当中无意拍到的路人。
看到这两个功能之后估计很多小伙伴都笑了——华米 OV 早就把这俩功能做到相册 App 里了好吧!
但是下面这个呢?
“假如你给女儿拍完照之后,觉得画面比例不太好,想把她放到画面正中间。 ”
“直接拖拽就好了, AI 会帮你凭空补全不存在的信息。 ”
我擦。
同时谷歌地图中推出了一种全新的“沉浸导航”模式。
比如我今天想骑车出门,谷歌地图能通过街景车拍摄到的信息,生成一幅行进道路上的 3D 全息图。
哪里是大太阳暴晒、哪里是树荫、过马路的时候斑马线宽不宽,全都看的一清二楚。
而且还加入了模拟天气动画,看地图的时候就把天气预报给看了。
总之非常炫酷,建议高德百度搞快点!
此外,谷歌办公套件的 Slides (幻灯片)里也加入了类似 midjourney 那样的 AI 图片生成器。
以后做 PPT 的时候不用上网搜图了,直接告诉 AI 几秒就能生成出来,还没版权风险。
生成图片:披萨沾火锅
但是,以上这些功能肯定是不够重磅的:
酷归酷,但“壁垒”没那么高。
友商们真要想“致敬”的话,小米华为、高德百度、阿里讯飞。肯定半年内能搞出来个七七八八的。
谷歌这回真正有壁垒的,是发布了全新一代语言模型——PaLM 2 !
就好像现在汽车厂商们会研发一款模块化底盘给很多款车用一样, PaLM 2 就是谷歌的“模块式” AI 底盘。
举个例子,谷歌在发布会上把 PaLM 2 砍了几刀,分出了具体四种规模的 PaLM 2 模型。
规模最小、最精简的叫 PaLM 2 Gecko (壁虎),小到手机上的 NPU 就可以运行。
最大规模的则叫 PaLM 2 Unicorn (独角兽),具体规模没有透露,用来部署在谷歌自研的 TPU v4 集群上。
我严重怀疑,独角兽的规模可以随着硬件规模的扩大而持续扩大。
不过这点暂时存疑,谷歌也没公布 PaLM 2 的具体参数规模。
这么做的好处显而易见:开发人员只需要做一款 AI 模型,再通过不同程度的精简就可以满足小到手机离线翻译、语音助手,大到 ChatGPT 那样的高强度逻辑对话、文本分析,省时省力。
但除了这点之外,谷歌还给 PaLM 2 丢了一招更狠的:
除了预设的四种大小模型之外, PaLM 2 还支持拿特定信息进行“精调”,生成“自定义 PaLM”。
比如谷歌拿安全知识和病毒数据喂给 PaLM 2 ,由此产生了一个新的 AI 模型“Sec-PaLM”,据说已经放进了 Gmail 的服务器帮用户扫描附件病毒了。
谷歌还拿医学知识训练了一个“Med-PaLM 2”,能够看懂 X 光片,提供就诊建议。
并且基于谷歌的对比测试,以前同类 AI 只是“医师执照考试及格”的水平,这次的 Med-PaLM 2 却是顶尖专家的水平。
以上这两个,只是谷歌自己的精调例子。
更好玩的还在后面,谷歌马上还要把“精调 PaLM 2”服务放在 Google Cloud 上面公开出售!
个性化大模型。前两天国内厂的兄弟刚跟我讲完这个未来式畅享,谷歌这个月就把事给办了。
我简单举这么个例子:以后要是我想摸鱼,让 AI 模仿我的文风写稿子。
那我完全可以直接去谷歌买一个“精调资源包”,然后把我以前写过的所有文章作为训练素材喂给我买的小 PaLM 2 模型。
然后,我就能得到一个“米罗-PaLM”了。
假如一切顺利的话,它生成的稿子用来骗总编完全不成问题。
我直接开玩。
而且因为谷歌在训练 PaLM 2 的过程中使用了几百种语言的语聊数据、也喂进去了几十种编程语言的代码资料。
这货在设计之初,就是奔着AI 界的语言大师去的。
为了验证这玩意的语言水平,劈柴哥现场搞了两个例子:
首先让 PaLM 2 给一段代码找 bug 。
找完之后还要让 PaLM 2 再用韩语给整段代码做一遍注释。
熟练吧,但要说乐子还得是下一个:
让 PaLM 2 帮你跟缺德航司对线:比如某天你的航班被取消了,航空公司表示十分抱歉,然后发了个等价兑换券过来。
退款?我都给你代金券了,你还想要退款?遇到这种情况,肯定就得跟航空公司写邮件去慢慢掰扯了。
但是以后,这样的邮件你可以让集成了 PaLM 2 的 Gmail 邮箱帮你写!
你甚至可以指定 AI 写作的语气。
比如你可以让 AI 的“说教”意味更浓一些,重新生成的邮件里就会多一段“我可是你们老客户啊你们怎么敢这么对我?”
不知道以后航空公司会不会也拿 AI 回邮件,此番美景我愿称之为新时代的赛博对线。
前面我们提了一嘴, PaLM 2 是谷歌有史以来最懂多语言的 AI 模型。
所以在 PaLM 2 发布、并且劈柴哥宣布 Bard 正式切换到 PaLM 2 模型后,下一条消息就是:
Bard 将会开放日语和韩语模式。
啥?日语韩语都有你居然能没世界第一大母语?
于是在媒体问答环节,同行的媒体老师就把这事给问了。
谷歌的答复非常典:“不调好,不发布。 ”
在奇怪的地方有了点儿国产手机厂商内味儿。
按照谷歌的说法,在 Bard 正式开放日语和韩语对话之前,美国以及当地的团队已经对 Bard 进行了很多轮测试。
只有确保 Bard 在该语言下表现稳定、不会输出“有害信息”之后,才会向当地的公众开放。
简单点儿说谷歌要求对 AI 的落地语言进行肉测,目前只跑完了日语和韩语的,其他包括中文在内的所有语言都还在跑。
但我这波站谷歌,虽然来的晚,但总比来的水要好。
不知道小伙伴们用微软 NewBing 的时候会不会遇到这么个略微有点儿恶心的情况:
假如它输出的内容中出现了某些踩线的“敏感词”, NewBing 就会不分青红皂白瞬间终止对话。
比如前一阵的香港名媛案( details on the abby choi case ), Bard 和 NewBing 都能正确介绍事件,两者前几段的表述是差不多的。
但是 Bard 能完整介绍完整个案子,并且接受进一步的互动。
NewBing 则是在“碎尸( body apart )”的关键词出现后,就会强行终止会话,顺便还把前面给我输出的一堆东西给删掉了。
中英文均如此。
NewBing 的做法其实我有些不理解:你明明是照着搜索引擎里面的结果念的,搜索引擎本身已经有过一层安全过滤了。
你还在过滤些什么?
这样的情况遇到多了之后,我就会不由自主生出两个问题:
NewBing 这么粗暴的关键词识,会不会有些懒政?
微软和 OpenAI 的合作,会不会有点儿不和谐?
可是话又说回来了,谷歌要是不管“复读碎尸”啥的东西的话,它“剔除的有害信息”是什么?
谷歌的答案是这样的。
假如你问出:为什么美国登月是假的( why the moonlanding is fake ), Bard 会先说明“登月是真的”,然后列举出驳斥阴谋论的内容。
NewBing 则不会这么说,它会先顺着问题列出阴谋论中质疑登月的几点结论。
等都说完之后再“画风一转”,讲上面的说法都是被证伪的,登月是真的。
看起来,论谷歌眼中的“有害信息”,假新闻才是那个绕不过去的坎。
顺着这条线去捋,谷歌对假新闻的措施也算是贯穿这次 I/O 了。
比如谷歌本身有一个用来合成声音的 AI 模型“AudioLM”,这回它们逆向工程,用 AudioLM 训练了一个能够识别 AudioLM 合成声音的模型。
以后谷歌还会主动给自家 AI 生成的内容打上隐水印,便于其他人辨识。
还有。谷歌图片搜索功能也得到了更新,除了搜索图片本身,还能列出这张图片第一次被谷歌收录的时间节点、以及对应的网站链接。
这个功能和 AI 关系不大,但某种意义上来说这个升级点也是“移花接木”类假新闻的克星了。
假如有小伙伴没看谷歌 I/O 的,我在这里再补一个关键信息:马上谷歌搜索的结果网页里,也会像现在微软 NewBing 一样,增加类似的对话板块了。
这个东西看起来已经箭在弦上了——整场活动大部分内容都是录屏或者 PPT ,这个对话式搜索是为数不多的实机演示。
和 NewBing 类似,我们需要通过一层层的问答去挖掘更深的信息。
但是在这个环节,谷歌反而不怎么提 AI 模型了,反而一直在提自家搜索结果有多准确。
我粗略统计了下,公开场合的时候谷歌的小伙伴说了至少两次“搜索算法”,线下问答时谷歌搜索的负责人又在会议室里提了差不多五次。
前前后后大概是这么个意思:AI 只是个文字收集和处理工具,它能正常工作的前提是搜索引擎本身能搜到有价值的东西。
搜索引擎本身不行,上 AI 也没用。
好家伙,明着暗着说 Bing 的搜索结果烂呗?
那确实。
之前有做搜索结果生意的小伙伴跟我聊过谷歌和 Bing 这两个搜索引擎搜东西的区别。
简单来说,谷歌更看重搜索“结果的热度、时效与关联度 ”;Bing 更重视结果的“权威性”。
没有权威链接背书的网页很难获得展现。
所以以往使用谷歌时,我们更有可能搜到很新鲜热乎、但来源可能是小报 or 假消息的搜索结果。
使用 Bing 时,我们可能什么结果都搜不到,但是靠前的网页必然是权威的新闻资讯网站。
在 AI 加持之前, Bing 的搜索算法我觉得是非常稳妥的——作为万年老二,只要自己不翻车,等到 Google 翻车的时候,就能跑出来摘果子。
但是随着谷歌的对话式 AI ——尤其在假新闻辨别方面有强化训练,我觉得 Bing 可以考虑优化一下本身的搜索算法了。
不然好不容易从谷歌手上抢过来的亿点点的市场份额,夏天之前还不得全交待回去了?
OK 小伙伴们,以上就是我这两天参加 Google I/O 下来的绝大部分感受了。
尽管前一阵那么多业界大牛刚集体签了个“暂停大模型研发倡议”,但是看起来完全没有影响谷歌这次梭哈 AI 。
抛开硬件不谈,仅仅靠一个 PaLM 2 模型,谷歌就把旗下几乎所有产品跟 AI 扯到了一起。
一夜之间,本来被大家认为“已经掉队”的谷歌,又重新武装到了牙齿。
第二天下午的时候,谷歌的朋友带我们参观了一台名叫 Starline 的原型机。
因为保密的关系,不允许我们拍照和录像。实际上它是一台带全息投影功能的远程会议终端, 2021 年立项,初衷是希望处在疫情中的人们依旧能够感受面对面的交谈体验。
但——
直到两年后的今天,第一台可用的 Starline 会议终端才面向媒体开放。
我问了一下这个项目的负责人,为什么拖了这么久,疫情都结束了。
他告诉我:
之前的原型机需要在机身上安装很多传感器才能实现定位和全息投影效果,造价高昂,成本不可控。
直到最近 AI 技术的爆发才让他们低成本实现全息投影成为可能,才敢拿出来展示。
就是因为相关技术发展不到位,一款产品直接延期两年,错过了最佳的面世时间。
在很多我们看不见的很多地方, AI 其实都能提供意想不到的解决方式。
这也是大家为什么纷纷选择 “ALL in AI” 的缘故。
回到这次的 IO 上讲的东西来,虽然目谷歌的 AI 项目还是研发和执行的时候,还是有一点左右互搏的成分在。
比如 Bard 和即将推出的对话式搜索,谁去谁留、还是全都保留,谷歌的小伙伴也还没想好。
比如 PaLM 2 虽然统一了谷歌内部的语言处理项目,但是图像识别方面 PaLM 2 看起来不太强势,不少图像相关的项目还在用之前的 ALIGN 、 Flamingo 等模型。
但在这次 I/O 大会上,谷歌也宣布,内部的多个 AI 团队已经完成了整合,组建了全新的 DeepMind 团队。
而新 DeepMind 团队的下一个目标,是研发名叫 Gemini 的下一代大模型。
对比刚刚开始服役的 PaLM 2 , Gemini 会补齐视觉、听觉等多模态相关的最后一个短板。
在谷歌内部彻底实现一个基础模型供给所有语言、所有类型的 AI 项目。
那话怎么说来着,三流企业做产品,一流企业做标准。
我很好奇再过几年,现在这些 All-in AI 的厂商们,会是一个什么样的势力格局。