微软开源轻量级视觉模型 Florence-2

2024-07-06 人工智能计算机视觉开源模型微软

最近，微软开源了一个名为 Florence-2 的视觉模型。它虽然体积小巧，却能完成多种图像理解任务，并且可以直接在浏览器中运行。这或许意味着，一些原本需要强大云端算力的视觉AI功能，未来能更便捷地来到我们身边。

一个模型，多种视觉任务

Florence-2 是一个“多面手”。根据介绍，它能处理超过10种不同的视觉任务，比如为图片生成文字描述（图像字幕）、识别并框出图片中的物体（对象检测）、指出某个文字描述对应图片中的哪个区域（视觉定位），以及对图片中的物体进行像素级的划分（分割）。简单来说，它既能“看懂”图片里有什么，也能“指出”这些东西具体在哪里。

“小身材”与“大能耐”

这个模型的一个突出特点是“小”。它提供了两个版本：Florence-2-base 和 Florence-2-large，参数规模分别为2.3亿和7.7亿。在AI模型动辄数百亿甚至千亿参数的今天，这个尺寸堪称轻量级。正因如此，它能够运行在手机等资源受限的移动设备上。

但“小”并不意味着能力弱。原文提到，尽管尺寸很小，Florence-2 在多项基准测试中的“零样本”表现，却能与参数规模大得多的模型（如拥有16亿参数的Kosmos-2）相媲美。这种能力很大程度上得益于其训练所使用的、规模庞大的FLD-5B数据集。

统一提示与本地化运行

Florence-2 采用了一种统一的处理方式：通过简单的文本提示来执行不同任务。用户只需用文字告诉模型想要做什么（例如，“描述这张图”或“检测图中的所有狗”），模型就能输出相应的文本或结构化的结果。这种方法简化了多任务处理的流程。

更值得关注的是其本地化运行的能力。得益于 Transformers.js 和 ONNX Runtime Web 等技术的支持，Florence-2 可以直接在支持 WebGPU 的浏览器中独立运行。这意味着数据处理可以完全在用户本地设备上进行，无需上传至云端服务器，这既保护了用户隐私，也降低了使用门槛和成本。

结语

总体来看，微软开源的 Florence-2 模型展示了一条不同的路径：不盲目追求模型的巨大参数量，而是通过高质量的数据集和精巧的设计，在保持轻量化的同时实现强大的通用视觉理解能力。其能够本地化在浏览器中运行的特性，为AI视觉技术的普及和隐私友好型应用提供了新的可能性。