科大讯飞持续勇探大模型国产化“无人区”,“飞星二号”正式启动
2024年下半年是大模型发展由虚向实的重要阶段,在大模型赋能实体经济的过程中,对算力产生了爆发式需求。中国科学院院士陈润生在2024中国算力专家研讨会上表示:“大模型是新质生产力的代表,大模型和超级计算的融合发展十分重要”。日前,国产大模型正致力于给世界提供“第二选择”。10月24日,在2024科大讯飞全球1024开发者节开幕式上,科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动,标志着国产化大模型智算集群的再次跃迁,更大规模训练推理同步启动并加速讯飞星火大模型的迭代历程。
去年10月24日,首个国产万卡算力集群“飞星一号”平台上线,星火大模型持续引领全国产算力平台发展,刘庆峰表示,最近一年以来攻克了很多大模型集群训练的“疑难杂症”,解决了500多次基础软硬件问题,模型训练适配优化平台耗时从90天缩减到15天,新增30多项框架和平台特性,优化了150多个基础、通信和融合算子。
据了解,“飞星二号”将带来新模型新算法的持续适配和智算集群规模的再次跃迁,持续探索无人区、引领国产大模型底座的发展、给世界提供第二种选择。正如科大讯飞董事长刘庆峰在会上所言:“只有在真正自主可控的平台上,才有真正的中国人工智能大未来。”
讯飞星火正在全国产算力平台基础上持续引领国产大模型的迭代。在10月24日科大讯飞全球开发者节上,讯飞星火4.0 Turbo正式发布,七大核心能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4o,这些结论均根据真实数据背靠背的测试得出。
目前在大模型领域,由艾伦人工智能研究所、OpenAI等国内外权威单位发布的涵盖理解和推理、综合考试、数学和科学、代码等不同任务类型的14项主流测试集,是用来比对大模型核心能力水平的重要工具。讯飞星火4.0-Turbo在14项中9项测试集中实现超对美国三大主流模型(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5pro)的超越,效率相对提升50%。
值得一提的是,在硬碰硬”的数学能力和代码能力中,根据实用数学任务构建测试集CAppliedMath-1.0,讯飞星火4.0 Turbo在计算、财务、金融、度量等多个维度的任务中均超过GPT-4o水平,已完成超长思维链、树搜索和自我反思评价等算法验证,预计今年底可实现类OpenAI o1的高难度数学能力显著提升。根据代码生成HumanEval测试集上的效果对比,讯飞星火4.0 Turbo在Python、Java、JavaScript等任务上和GPT-4o差距微弱,在C++能力上超过GPT-4o。在真实应用场景中,基于认知智能全国重点实验室构建的iFLYCode-Eval-2.0代码实用场景测试集,讯飞星火4.0 Turbo在代码生成、代码检错、单元测试等任务上都超过了GPT-4o。
此次讯飞星火4.0 Turbo的发布,表明讯飞星火在不断夯实七大核心能力优势,更在决定大模型“聪明程度”的数学和代码能力上持续进步,具备了更强的可用性与行业适配性。
人工智能应用日益进入到场景化的深水区,面向未来,科大讯飞董事长刘庆峰还给出了人工智能产业发展的关键是五个关键词:顶天立地、自主可控、通专结合、端云联动、软硬一体。。相信基于全国产算力的大模型自主技术创新,以“飞星二号”启动为标志,科大讯飞将持续探索“无人区”,给予世界第二选择的同时,将技术飞跃与算力跃迁落实到千行百业,共建AI自主可控、共享共建的繁荣生态。