多模态能力国内最强,商汤日日新V6让AI融入“百姓之日用”
4月10日,商汤科技举办2025技术交流日活动,重磅推出全新升级的“日日新SenseNova V6”(下称“日日新V6”)大模型体系,通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。
据「TMT星球」了解,「日日新 V6」模型能力显著提升,在长思维链、推理、数理、全局记忆方面拥有显著优势,多模态推理能力国内第一,对标OpenAI o1,数据分析能力大幅领先GPT-4o;同时,高效能与低成本完美结合:多模态训练整体效率对齐语言训练实现业内最低、推理成本均实现业界最低;全新的轻量级全模态交互模型SenseNova V6 Omni带来了国内最强的多模态交互能力;涵盖国内首个支持10分钟中长视频深度解析的大模型,对标Gemini 2.5 Turbo达到同类型最强。
商汤科技董事长兼首席执行官徐立表示:“AI之道,在于百姓之日用。商汤日日新V6将跨越多模态边界,释放推理与智能的无限可能。”
日日新V6率先实现多模态下深度思考
作为拥有超6000亿参数的MoE原生多模态通用大模型,「日日新 V6」实现了多项技术突破,凭借单一模型就可以完成文本、多模态等各类任务:
长思维链:超过 200B 高质量多模态长思维链数据,最长 64K 思维链;
数理能力:数据分析能力大幅领先 GPT-4o;
推理能力:多模态深度推理国内第一,对标 OpenAI o1;
全局记忆:率先在国内突破长视频理解,支持10分钟的视频理解及深度推理。
在权威的推理能力及多模态能力评测中,「日日新 V6」在多个维度获得SOTA:
基于超过200B高质量多模态长思维链数据,商汤通过多智能体协作进行长思维链合成和验证,「日日新 V6」形成了突出的多模态推理能力,可以支持合成最长 64K 的多模态长思维链,支持模型长时间思考能力。
针对真实环境存在的复杂问题,「日日新 V6」强大的混合图文理解推理能力,能够帮助用户解决各类问题。
在复杂繁琐的文档处理场景中,「日日新 V6」同样能够以多模态强推理能力解决用户难题,快来商汤办公小浣熊体验。
以保险理赔场景为例,「日日新 V6」可根据商业医疗保险理赔材料,判断提供材料是符合理赔要求,检查是否存在乱开药、乱检查、材料缺失或者材料对不齐等问题。
得益于多模态强化学习的突破,商汤构建了面向多种图文任务的混合增强学习框架,基于不同难度分级和多奖励模型的强化学习训练。
国内首个!视频理解打破10分钟限制
凭借“全局记忆”能力,「日日新 V6」打破了传统模型仅支持短视频的限制,可支持10分钟级视频全帧率解析。
基于强大的理解能力,「日日新 V6」还可以对视频的精彩内容进行智能剪辑输出,帮助用户保留珍贵瞬间。
商汤自研技术可将视觉信息(画面)、听觉信息(语音、音效)、语言信息(字幕、口语)、时间轴逻辑进行对齐,形成多模态统一时序表征。在此基础上通过细粒度级联信息压缩和内容敏感的动态过滤,实现长视频的高比例压缩,10分钟视频可以压缩到 16K tokens,仍然保留关键语义。
「SenseNova V6 Omni」发布即实现多行业落地
伴随日日新SenseNova V6的发布,商汤日日新实时交互融合大模型升级至「SenseNova V6 Omni」,在角色扮演、翻译点读、文旅导游、讲解绘本、数学讲解等场景下进行了深度优化。
以翻译点读场景为例,「SenseNova V6 Omni」让用户通过手指就能实现精准位置的空间交互,并精准理解局部信息与全局信息的关系,带来更符合人类自然直观的指读交互体验。
「SenseNova V6 Omni」拥有更像人的感知和表达能力、情感理解能力,并已在具身智能等领域实现多行业、多场景落地,成为国内首个商业化的全模态实时交互模型。
满血版“商量”全量上线
整合日日新SenseNova V6全部能力,商汤商量也迎来全面升级,并推出全新商量APP。用户通过一个入口,即可体验文字、图像、视频等多种模态流式交互体验。
商量APP已启动内测,目前「日日新 V6」的能力可在商量Web端体验。