谷歌I/O大会：AI如何融入我们的数字生活

2024-05-16 免费资源

北京时间5月15日，谷歌召开了年度I/O开发者大会。不出所料，人工智能成为了贯穿始终的绝对主角。从理解我们日常对话的AI助手，到能生成视频和图像的创作工具，谷歌正试图将AI技术编织进搜索、手机乃至云端芯片的每一个角落。我的理解是，这次大会更像是一次全景展示，告诉我们AI不再遥远，它正以各种具体形态，准备进入普通人的数字生活。

Gemini模型的全面进化

谷歌对其核心AI模型Gemini家族进行了一系列重要更新。首先，推出了一个名为“Gemini 1.5 Flash”的新模型，定位是现有Pro版本更具成本效益的替代品，旨在平衡性能与开销。而此前发布的Gemini 1.5 Pro也将迎来能力升级，其上下文处理窗口将从100万tokens扩大到200万。这意味着它能一次性分析更大量的信息，例如长达2小时的视频或超过140万个单词。

此外，专为手机端设计的Gemini Nano模型，能力从纯文本扩展到了可以理解图片输入。谷歌强调，这一切处理都在设备本地完成，有助于保护用户隐私。对于开发者社区，谷歌的开源模型Gemma也将更新，预计下月推出的Gemma 2参数规模将达到270亿。

从生成图像到理解视频

在内容生成领域，谷歌发布了多项新产品，直接回应了当下的技术竞赛。针对文本生成视频的需求，谷歌推出了自己的模型“Veo”，它能根据文字、图片或视频提示，生成高质量1080P视频，并且能理解“延时拍摄”这类电影术语。同时，新一代图像生成模型“Imagen 3”也宣告推出，据称能生成细节更丰富、更少瑕疵的图像。

一个值得注意的细节是，谷歌正将其AI内容标识工具“SynthID”从图像扩展到文本和视频领域。例如，由Veo生成的视频都会携带这种不可见的水印。这或许是在AI生成内容泛滥的时代，谷歌试图建立技术溯源标准的一种努力。

更“聪明”的搜索与相册

作为谷歌的根基，搜索引擎的AI化是重中之重。从本周开始，美国用户将陆续体验到名为“AI概览”的功能，搜索引擎会直接归纳总结搜索结果，而不仅仅是提供链接列表。它还被赋予了多步骤推理能力，可以一次性处理带有多个条件的复杂问题，比如“找一个提供新手优惠、且离我家步行可达的瑜伽教室”。

AI也让管理个人数字记忆变得更容易。谷歌宣布，将在Google Photos中推出“Ask Photos”功能。用户可以通过自然语言对话来查找照片，例如询问“展示我女儿游泳进步的过程”，相册会自动筛选并呈现相关图片。这项功能计划在今年夏季晚些时候推出。

面向未来的AI智能体与硬件

大会上，谷歌展示了一个更具前瞻性的项目“Astra”，旨在开发一种能通过视觉和对话理解环境并做出反应的通用AI智能体。它被描述为需要能记忆所见所闻，理解上下文，并能自然地与用户交流。这让人联想到科幻电影中的智能助手，但要实现它，正如DeepMind负责人所言，“将响应时间缩短为对话式的内容是一项艰巨的工程挑战”。

强大的AI应用离不开底层算力支持。谷歌推出了第六代TPU芯片“Trillium”，称其计算性能比上一代提升了4.7倍，并将在年底提供给云客户。同时，谷歌云也将成为首批提供英伟达新一代Blackwell GPU的云服务商之一，这显示了在激烈的AI基础设施竞赛中，谷歌构建多元化算力体系的策略。

结语

纵观整场发布会，谷歌描绘的是一幅AI深度融入现有产品与服务的图景。从提升模型效率、生成多媒体内容，到重构搜索交互、探索未来智能体，每一步都试图让AI变得更实用、更易得。虽然许多功能仍处于预览或即将推出的阶段，但它清晰地指明了方向：人工智能正在从实验室和聊天框，走向我们每天使用的搜索框、手机相册和云端服务之中。

```excel_export_meta {"belongs_channel_1":"科技资讯","summary":"本文概述了2024年谷歌I/O开发者大会的核心内容，聚焦于人工智能技术的多项更新与应用，包括Gemini模型升级、视频图像生成工具、AI赋能