国产最强大模型发布,讯飞星火V4.0整体超越GPT-4 Turbo
文丨周超然
出品丨牛刀财经(niudaocaijing)
国内大模型正在面临尖峰时刻。
矛盾冲突来看,OpenAI的断连,将直接搅动大模型格局的座次变化;行业大环境来看,从通用大模型到垂直落地的加速,这也带来生态位的竞争加剧。
沿着这两个方向我们看观察国内大模型的发展,讯飞星火大模型表现突出。
尤其是,讯飞星火V4.0的发布,以整体超越GPT-4 Turbo的成绩,表明了国内大模型格局正在发生变化。
1、国产最强大模型发布
讯飞星火V4.0来了!
6月27日,科大讯飞在北京发布讯飞星火大模型V4.0及相关落地应用。讯飞星火V4.0七大核心能力全面提升,整体超越GPT-4 Turbo,在8个国际主流测试集中排名第一,国内大模型全面领先。
现场基于全国首个国产万卡算力集群“飞星一号”,讯飞星火大模型V4.0正式发布。讯飞星火V4.0 七大核心能力全面升级,全面对标GPT-4 Turbo,并实现在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面的整体超越。
讯飞星火V4.0在图文识别能力上进一步升级,在科研、金融、医疗、司法、办公等场景的应用效果已领先GPT-4o。
值得关注的是,关于市场较为关注的长文本处理能力,星火也全新升级,并针对长文档知识问答的幻觉问题,业界首发溯源功能。
有意思的是,今年中高考成为了检测大模型的试金石。今年中高考真题实测中,讯飞星火语数外各科“成绩”均排名第一,被评为“更会做题的大模型”。
外部权威测试集也体现出讯飞星火V4.0的领先性。
在国内外12项大模型主流测试集中,讯飞星火在8个测试集中排名第一,超越GPT-4 Turbo等国际大模型,国内大模型全面领先。
现场,科大讯飞董事长刘庆峰展示了讯飞星火V4.0在复杂指令、复杂逻辑推理、空间推理、高中数学等方面的效果,星火“智商”再度进化。
以空间推理为例,现场演示提问中,“Bob在客厅里。他拿着一个杯子走到厨房。他把球放进杯子里,然后拿着杯子走到卧室。他把杯子倒过来,然后走到花园。他把杯子放在花园里,然后走到车库。问题:球在什么地方?”讯飞星火可以基于空间和常识推断出球在卧室的地面上,这些能力的进步对于以后的具身智能、家庭机器人都具有意义。
2、垂直落地加速
正如上文所说,国产大模型现在正在朝着两个方向加速发展,一个是通用大模型的整体性能,一个是大模型的落地能力。
在应用场景上,讯飞星火V4.0也接连给市场带来了惊喜。
发布会上,讯飞星火进行了多款产品的发布和升级。
讯飞星火APP/Desk全新升级,发布“个人空间”,打造更懂你的AI助手;面向专业领域的个性化应用,科大讯飞升级讯飞晓医APP,上线个人数字健康空间,打造每个人的健康助手;业界首发星火智能批阅机,“AI助教”助力老师减负增效、因材施教;讯飞AI学习机升级1对1答疑辅导功能,打造每个孩子的AI学习助手。
讯飞星火APP率先发布“个人空间”,用户可以上传自己的工作、学习、生活、健康等各类资料,形成每个人的专属知识库,再结合人设,让大模型生成更个性化内容。此外,讯飞星火首批上线14 个智能体,面向特定场景打造专属助手。
讯飞晓医APP各项能力持续升级,覆盖1600种常见疾病、2800种常见药品、6000种常见检查检验,满足用户在看病前、用药时、检查后的核心场景健康需求。当前,讯飞晓医APP累计下载量1200万,用户好评率98.8%,主动推荐率42%。
星火智能批阅机集智能批改、精准学情、个性学习于一体,它支持自由排版,不限纸张大小的作业,在支持多学科多题型智能批改的同时,还能即时生成多维学情报告,还为老师作业讲评和面批辅导提供了素材。
在现场,演示了星火智能批阅机批改作业的全流程,15份学生作业半分钟就能批改完成,批改模拟了真人笔迹,和老师平时批改作业几乎一样。
此外,星火大模型还打通了全系讯飞C端软硬件产品生态,数百万智能硬件用户一键拥有“星火全家桶”。
比如讯飞智能办公本、智能录音笔的文件可以一键同步到星火个人空间中,通过数据互通、操作联动,把一篇办公本里会议记录同步到星火中,就可以让星火进行公文写作,还可以做PPT,以及生成待办事项等,带来更高效的办公体验。
3、商业化加速
众所周知,科大讯飞从AI语音处理起家,经过多年的发展,在智能语音处理上处于国际顶尖级别。
近期科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目,获得国家科学技术进步奖一等奖。发布会现场国奖得主再出“王炸”,星火语音大模型迎来新突破。
当然,科大讯飞不仅有着长期的技术积累,还在商业化应用上早已成熟。
首先是人机交互领域。
在大模型加持下,星火汽车智能座舱全新升级,不但具备了多语种多方言的“自由交互”,还具备多情感多模态的超拟人交互,让人车交互更有温度。当前,讯飞语音交互产品国内市占率稳居第一,同时广泛出口到世界各地。星火大模型为一汽、奇瑞、广汽、江淮、长城等车企的众多车型,赋予了高度智能的交互体验。
为了让大模型更好落地,科大讯飞还打造了云边端一体化和软硬件一体化的解决方案,赋能家电、运营商、机器人等更多行业场景。面向具身智能和人形机器人企业需求,本次科大讯飞正式发布机器人超脑平台2.0,业内首个支持多模态交互。目前,400+机器人企业已经采用讯飞机器人超脑平台。
其次是讯飞星火大模型发布后,给企业生产带来的高效受到市场认可。
自去年5月6日发布以来,讯飞星火大模型正成为国家能源集团、中国石油、中国移动、中国人保、太平洋保险、交通银行、奇瑞汽车、中国一汽、大众汽车、江汽集团、海尔集团、美的集团等多领域头部企业的首选。
讯飞星火已经在代码、合规审查、客服、评标、智能交互等多个典型场景产生应用成效,以交通银行为例,基于星火大模型能力的产品iFlyCode覆盖6000+研发人员,代码采纳率达38%,工作效率显著提升。
此次发布会,星火企业智能体平台正式发布,围绕搭建智能体的三大关键能力,当前企业智能体平台已覆盖400+AI原子能力,集成90+外部信源,打通100+内部IT系统,可供企业结合业务场景快速构建可落地的智能体应用。平台还围绕生产域、科创域、办公域、管理域上线32个企业智能体,供企业即插即用。
比如在代码智能体iFlyCode中,它集成了代码生成助手、架构设计助手、代码问答助手、测试助手、数据库优化助手、代码审核助手等六大场景智能体,将采纳率由30%提升至52%,大幅度提升企业智能体的实用性。
讯飞星火大模型在给产业带来效率提升的同时,也为大模型生态带来助力。
自今年1月30日讯飞星火V3.5发布以来,短短5个月,星火开发者生态加速增长,开发者数从598万增长到702万,新增超104万;海外开发者数超40万;大模型开发者达57万。越来越多开发者正加入星火生态,释放更多刚需场景的应用价值。
刘庆峰表示,只有自主可控的繁荣生态,才有中国通用人工智能的大未来。
面向未来的人工智能新生态,他强调要关注源头技术生态、智能体生态、应用生态和行业生态,实现自主可控和软硬一体,才能实现大模型的深度落地;既要科学理性地认识中美在大模型上的综合差距,也要有信心快速追赶,给出从源头技术、到产业生态、再到应用落地的一整套的打法,以长期主义来打造真正自主可控的AI产业生态。