云从科技视觉大模型刷新四项世界纪录
(资料图片仅供参考)
8月1日,记者从云从科技获悉,云从科技视觉大模型取得重要进展,行人基础大模型在PA-100K、RAP V2、PETA、HICO-DET四个数据集上刷新世界纪录,意味着该技术首次达到大规模商用水平。
云从科技在PA-100K、RAP V2、PETA行人属性数据集上的表现
行人基础大模型已经发展成为视觉大模型的基础。此次刷新世界纪录的四个数据集,所涉及范围覆盖人体全局属性(性别、年龄),局部属性(穿戴风格、配饰),携带属性(手机、刀棍、手提包等)、人-物交互HOI(抽烟,持刀棍,手机拍屏幕)等。
据介绍,云从行人基础大模型,使用了超20亿的数据,包括大量无标签数据集以及图文多模态数据集,数据集的丰富多样使得模型能够提取到稳健特征,轻松应用于多种行人任务。
基于自监督学习范式,云从科技充分结合了对比学习和掩码学习的优点,使得模型包含丰富的语义信息,同时具有丰富的纹理细节提取能力。为了让模型学习拥有更加丰富的行人语义信息,结合多模态继续使用弱监督训练范式,进一步提升模型的效果。
基于从容大模型平台,开发者可以大幅降低对数据的依赖和提升训练效率,仅需要1%的数据量即可达到与原场景定制化开发模型相接近的效果,适合获取真实样本代价非常高的特殊行业。
目前,该技术已广泛应用于矿山、建筑工地以及特殊场所的安全布控。
“这也意味着计算机视觉已经迈入大模型时代。”云从科技相关负责人表示,此前云从科技跨镜追踪技术于2018-2020连续三年三次打破世界纪录,行人基础大模型的突破,表明云从从容大模型已经整合西部算力中心、联合研发中心、行业数据等资源,打造出了更优秀的人工智能视觉大模型,为实现人机协同操作系统和行业专用大模型在行业智能化升级领域的大规模实践打下基础。
关键词: