微软开源轻量级视觉模型 Florence-2

2024-07-06 人工智能 计算机视觉 开源模型 微软
微软开源轻量级视觉模型 Florence-2

最近,微软开源了一个名为 Florence-2 的视觉模型。它虽然体积小巧,却能完成多种图像理解任务,并且可以直接在浏览器中运行。这或许意味着,一些原本需要强大云端算力的视觉AI功能,未来能更便捷地来到我们身边。

一个模型,多种视觉任务

Florence-2 是一个“多面手”。根据介绍,它能处理超过10种不同的视觉任务,比如为图片生成文字描述(图像字幕)、识别并框出图片中的物体(对象检测)、指出某个文字描述对应图片中的哪个区域(视觉定位),以及对图片中的物体进行像素级的划分(分割)。简单来说,它既能“看懂”图片里有什么,也能“指出”这些东西具体在哪里。

“小身材”与“大能耐”

这个模型的一个突出特点是“小”。它提供了两个版本:Florence-2-base 和 Florence-2-large,参数规模分别为2.3亿和7.7亿。在AI模型动辄数百亿甚至千亿参数的今天,这个尺寸堪称轻量级。正因如此,它能够运行在手机等资源受限的移动设备上。

但“小”并不意味着能力弱。原文提到,尽管尺寸很小,Florence-2 在多项基准测试中的“零样本”表现,却能与参数规模大得多的模型(如拥有16亿参数的Kosmos-2)相媲美。这种能力很大程度上得益于其训练所使用的、规模庞大的FLD-5B数据集。

统一提示与本地化运行

Florence-2 采用了一种统一的处理方式:通过简单的文本提示来执行不同任务。用户只需用文字告诉模型想要做什么(例如,“描述这张图”或“检测图中的所有狗”),模型就能输出相应的文本或结构化的结果。这种方法简化了多任务处理的流程。

更值得关注的是其本地化运行的能力。得益于 Transformers.js 和 ONNX Runtime Web 等技术的支持,Florence-2 可以直接在支持 WebGPU 的浏览器中独立运行。这意味着数据处理可以完全在用户本地设备上进行,无需上传至云端服务器,这既保护了用户隐私,也降低了使用门槛和成本。

结语

总体来看,微软开源的 Florence-2 模型展示了一条不同的路径:不盲目追求模型的巨大参数量,而是通过高质量的数据集和精巧的设计,在保持轻量化的同时实现强大的通用视觉理解能力。其能够本地化在浏览器中运行的特性,为AI视觉技术的普及和隐私友好型应用提供了新的可能性。