在Meta推出“分割任何东西模型”(SAM)之前,Roboflow的CEO Joseph Nelson回忆道,用户想要在图像中分割物体时必须仔细地逐点点击,每次都需耗费大量时间。图像分割——即标记图像中与目标对象对应的像素——是创建某些模型训练数据的重要步骤。2023年,Meta的SAM模型问世,改变了这一繁琐过程,SAM带来了交互式和自动化的分割功能,操作更灵活。2024年7月,Meta发布了SAM 2,实现了图像和视频的实时分割,进一步提升了效率。
Nelson表示,“SAM 2几乎能自动识别大多数对象的分割区域,用户在创建自定义数据集时节省了大量时间。SAM 1和SAM 2的累计应用覆盖了超过6000万个多边形,累计节省了约74年的时间。”
得益于SAM的开源特性,用户可以广泛探索其潜力,社区参与推动了SAM功能的持续改进,带来更多新用途。SAM团队积极与AI研究人员和技术社区合作,使SAM 2在精度和实用性上较SAM 1有了显著进步,充分体现了开源模式在技术发展和共享中的优势。这种协作环境不仅增加了透明度,还为创新和解决问题提供了空间,促进了技术生态的多样化。
Roboflow以“让世界更加可编程”为使命,借助SAM帮助客户实现视觉理解,从灾后恢复到实时体育赛事回放,再到保险公司利用航空影像处理理赔,SAM的应用场景不断扩大。无论用户经验如何,他们都可以通过Roboflow的工具创建和部署适用于商业和社会影响的计算机视觉应用。
用户借助Roboflow的工具,结合自身数据,能够迅速训练分类、目标检测、图像分割等模型。SAM让用户能够快速自动标注、准备和整理视觉数据集,为各类行业的创新铺平道路。Roboflow Universe拥有50多万个公开数据集,约3.5亿张用户标注的图像,为SAM这样的技术开辟了广阔前景。
Nelson指出,Roboflow的客户中有生产电动汽车的企业、运输公司、甚至冰淇淋制造商,很多都在制造和物流中应用SAM以确保产品达到标准。这些出人意料的应用证明了SAM的广泛适用性和强大影响力。
通过为机器赋予“视觉理解”能力,SAM系列模型打开了创新的大门。例如,在旧金山的Exploratorium博物馆,游客可以在显微镜下观察微生物,探索其行为背后的问题;在其他地方,SAM被用来监测鱼类种群、评估珊瑚礁修复的成效等。
Nelson总结道:“SAM改变了人们创建高质量模型的速度,Roboflow社区也在利用SAM赋予机器视觉的能力,为各类下游任务带来新可能。”