谷歌I/O大会:AI如何融入我们的数字生活
北京时间5月15日,谷歌召开了年度I/O开发者大会。不出所料,人工智能成为了贯穿始终的绝对主角。从理解我们日常对话的AI助手,到能生成视频和图像的创作工具,谷歌正试图将AI技术编织进搜索、手机乃至云端芯片的每一个角落。我的理解是,这次大会更像是一次全景展示,告诉我们AI不再遥远,它正以各种具体形态,准备进入普通人的数字生活。
Gemini模型的全面进化
谷歌对其核心AI模型Gemini家族进行了一系列重要更新。首先,推出了一个名为“Gemini 1.5 Flash”的新模型,定位是现有Pro版本更具成本效益的替代品,旨在平衡性能与开销。而此前发布的Gemini 1.5 Pro也将迎来能力升级,其上下文处理窗口将从100万tokens扩大到200万。这意味着它能一次性分析更大量的信息,例如长达2小时的视频或超过140万个单词。
此外,专为手机端设计的Gemini Nano模型,能力从纯文本扩展到了可以理解图片输入。谷歌强调,这一切处理都在设备本地完成,有助于保护用户隐私。对于开发者社区,谷歌的开源模型Gemma也将更新,预计下月推出的Gemma 2参数规模将达到270亿。
从生成图像到理解视频
在内容生成领域,谷歌发布了多项新产品,直接回应了当下的技术竞赛。针对文本生成视频的需求,谷歌推出了自己的模型“Veo”,它能根据文字、图片或视频提示,生成高质量1080P视频,并且能理解“延时拍摄”这类电影术语。同时,新一代图像生成模型“Imagen 3”也宣告推出,据称能生成细节更丰富、更少瑕疵的图像。
一个值得注意的细节是,谷歌正将其AI内容标识工具“SynthID”从图像扩展到文本和视频领域。例如,由Veo生成的视频都会携带这种不可见的水印。这或许是在AI生成内容泛滥的时代,谷歌试图建立技术溯源标准的一种努力。
更“聪明”的搜索与相册
作为谷歌的根基,搜索引擎的AI化是重中之重。从本周开始,美国用户将陆续体验到名为“AI概览”的功能,搜索引擎会直接归纳总结搜索结果,而不仅仅是提供链接列表。它还被赋予了多步骤推理能力,可以一次性处理带有多个条件的复杂问题,比如“找一个提供新手优惠、且离我家步行可达的瑜伽教室”。
AI也让管理个人数字记忆变得更容易。谷歌宣布,将在Google Photos中推出“Ask Photos”功能。用户可以通过自然语言对话来查找照片,例如询问“展示我女儿游泳进步的过程”,相册会自动筛选并呈现相关图片。这项功能计划在今年夏季晚些时候推出。
面向未来的AI智能体与硬件
大会上,谷歌展示了一个更具前瞻性的项目“Astra”,旨在开发一种能通过视觉和对话理解环境并做出反应的通用AI智能体。它被描述为需要能记忆所见所闻,理解上下文,并能自然地与用户交流。这让人联想到科幻电影中的智能助手,但要实现它,正如DeepMind负责人所言,“将响应时间缩短为对话式的内容是一项艰巨的工程挑战”。
强大的AI应用离不开底层算力支持。谷歌推出了第六代TPU芯片“Trillium”,称其计算性能比上一代提升了4.7倍,并将在年底提供给云客户。同时,谷歌云也将成为首批提供英伟达新一代Blackwell GPU的云服务商之一,这显示了在激烈的AI基础设施竞赛中,谷歌构建多元化算力体系的策略。
结语
纵观整场发布会,谷歌描绘的是一幅AI深度融入现有产品与服务的图景。从提升模型效率、生成多媒体内容,到重构搜索交互、探索未来智能体,每一步都试图让AI变得更实用、更易得。虽然许多功能仍处于预览或即将推出的阶段,但它清晰地指明了方向:人工智能正在从实验室和聊天框,走向我们每天使用的搜索框、手机相册和云端服务之中。
```excel_export_meta {"belongs_channel_1":"科技资讯","summary":"本文概述了2024年谷歌I/O开发者大会的核心内容,聚焦于人工智能技术的多项更新与应用,包括Gemini模型升级、视频图像生成工具、AI赋能