云从科技发布商品基础大模型 刷新多项世界纪录
近日,云从科技从容大模型在多模态方面取得重要进展,商品基础大模型在MUGE、Product1M 两个规模最大的开源中文多模态商品检索数据集上从百度、快手、京东和OPPO等多家知名高校、企业与研究机构脱颖而出,刷新了世界纪录。
目前,云从商品基础大模型在Product1M数据集上Top10的平均精度均值(Mean Average Precision,mAP)达到87.68%,比此前最好成绩(State Of The Art,SOTA)高出2%。
Table 1.从容多模态大模型在Product1M上的表现
在MUGE电商图文检索任务上的平均查全率(meanRecall)达到90.77%,比此前最好成绩高出0.76%,模型仅基于平均长度为5的查询文本对商品图片进行检索召回。
Table 2. 从容多模态大模型在MUGE-Retrieval上的表现
技术行业领先 无需标注即可高效训练
现有多模态图文预训练方案的训练数据主要为图文对数据,但真实场景中的多模态数据不仅限于简单的图文对,更有多维度的信息来源,即多源信息。以商品搜索场景为例,多源信息就包括文本模态(搜索输入、场景文字、文本标题、类目标签)、视觉模态(商品图、同款标签)的多维多模态信息。多源蕴含丰富的语义关联,具有极大的挖掘利用潜力与应用价值。但是,多源商品信息通常存在模态信息缺失的问题,是多源信息模态建模应用面临的重要挑战。
通用多模态大模型的出现让大家看到多模态大模型强大的理解能力和对任意场景的泛化能力。云从科技通过大量商品数据的积累和海量互联网商品数据的整合,搭建起10亿级别库商品数的大规模商品数据集。
基于大规模商品数据集,利用对比学习和自监督学习范式,云从科技提出支持商品文本模态(类别标签、属性标签、搜索描述)和视觉模态(高清商品图、购物商品图)的商品多模态大模型,实现多种模态的对齐和商品的多模态表征,既拥有零售复杂场景下对相似商品的细粒度区分能力,也拥有推荐场景下以图搜文或者以文搜图的检索能力。
针对具体的业务应用,云从商品大模型在不使用对应场景真实数据的情况下也能有较好的商品识别能力,只需使用少量标注或无标注数据,就能高效实现下游商品视觉检索、细粒度识别、多模态检索,对产品预研和任务迁移十分友好,有助于项目快速迭代。
效率优势明显 从容大模型广泛落地
数据显示,我国无人零售市场规模年均复合增长率为31.23%。商品作为零售市场主体,以商品为中心的感知任务,一直是人工智能算法落地的研究热点。基于互联网上海量的商品图文信息和实际生产环境大量的商品数据,云从科技研发以商品为中心的多模态预训练大模型,专注于商品相关的各类下游任务,实践和贯彻“人机协同”理念。
通过对零售行业全流程的深入调研,云从科技利用商品基础大模型对零售行业全流程进行智能升级,提供满足不同职责和场景的AI店员。
例如,云从科技近年来在智能零售领域提出的智能货柜综合解决方案,一方面,在商品管理上全方位帮助企业实现了运营效率的提升和服务质量的整体优化;另一方面,利用动态视觉商品识别算法技术,对消费者购买过程视频进行分析,整体达到99.48%的综合识别准确率,同时可以将购物时间缩短50倍,通过秒级识别实时返回购买结果,实现“即拿即走,自动结算”的智能购物流程,极大提升消费者的购物体验。