百融云:用MaaS为B端寻找AI最优解
如果没有开源,就没有Linux、PHP、MySQL,也就没有中国的数据库和互联网;如果没有Transformer的开源,也就不会有OPEN AI和ChatGPT。但正因为有了开源,才会出现AI同质化,也就将导致MaaS(模型即服务)不稀缺,进而导致@百融云-W(6608.HK)们即将面临价格战?但,这是事实吗?
以上观点刻舟求剑、完全错误,因为传统IT开源的是全部源代码,但AI大模型不会开源训练过程和训练数据。而语料的缺失,正是中国AI公司想争夺MaaS业务和B端市场但又缺乏竞争壁垒的关键。
曾经的“LAMP”栈:Linux是开源的操作系统内核,开放源代码与开发者社区,后世的安卓系统便脱壳于此;Apache HTTP Server是一个Web服务器软件,处理HTTP请求并提供Web页面;PHP是开源的服务器端脚本语言;MySQL是开源关系数据库管理系统(RDBMS),用于网站和在线应用的数据存储,共同构成了互联网世界的基座。但早在AI时代到来之前,云计算时期的开源就已经发生了变化。
核心原因,就在于——“商业化”,也就是科技公司开始利用开源做生意。
彼时的云服务商通过大量采用和贡献开源技术,如OpenStack、Docker,将开源软件与云服务紧密结合,通过提供基于开源软件的云服务来创造商业价值,如AWS、Azure等。而到了现在的AI时代:OpenAI已不再Open。
AI大模型的开源战场,交给了Meta、Llama这些AI大模型,但Llama2并不符合开放源代码促进会(OSI)设定的定义,比如禁止使用Llama2去训练其它AI模型以及如果该模型用于每月用户超过7亿的应用程序和服务,则需要获得Meta的特殊许可证。
作为中国MaaS的头部玩家,百融云曾经也一度担忧开源AI带来的竞争压力,但事实上,开源AI除了训练许可之外,商业化领域最大的痛点还在后面。
首先是开源的方式,Llama的开源方式是指在开放源代码的同时,对使用、修改和分发该模型的行为施加一定的限制。这与完全开放的开源许可证不同,后者通常允许用户在几乎不设限的情况下使用和修改软件。虽然Mistral、谷歌的开源AI模型Gemma,同时开源了模型的权重和架构,但是对于AI模型训练的数据和训练过程并不开源。
这两项,恰恰就是MaaS模式已经出现,但玩家少之又少的原因。因为没有Fine-tune和垂直领域私有化数据训练的AI模型,是没有任何商业化可能性的。
百融云MaaS业务的主要战场是金融业,作为中国六大基石产业之一,中国金融机构是不可能允许将数据用于训练开源AI模型的,尤其是来自海外的开源AI。
金融机构对于MaaS服务的使用,第一层是单次使用直接得到信息输出(Equivalent模式);第二层是基于现有搜索引擎,AI通过对实时信息的智能检索和分析,经过加工后再生成信息反馈(2-Stage Search Summarizer模式)。所以中国的金融机构需要不停的在业务流程中调取实时信息,并且依赖百融云MaaS服务的扩展能力,假定AI模型会检索传统搜索引擎中的相关内容,并基于每条搜索内容生成结果响应,如贷款申请评分、财富管理产品推荐等等,并将模型认为最好的答案输出给用户,50 tokens的信息输入条件下,每次基于传统搜索引擎生成10个响应,每个响应中有平均1000 tokens,并最终生成400 tokens的搜索结果。
举一个MaaS在财富管理的实际应用,一位客户提出了“有5万元可供投资”的需求,百融云的MaaS服务就会调用所有的AI模型库,其训练数据来自金融机构的产品中心、客户中心、账户核心、风控、商户、运营管理等不同的业务部门,最终形成的MaaS业务调用结果就会是:“您的投资风格是稳健型,您是我行尊贵的铂金客户,我行目前有平均年化收益3%的理财产品,起投金额正是5万……”。
中国企业用户从来要的就不是AI大模型,而是能帮助用户创收的AI解决方案,可以是AI产品,也可以是AI服务。但很明显,上述百融云MaaS业务的案例,是所有开源AI模型无法实现的。
因为无法获得垂直领域训练数据的开源AI,与不能变现的小程序没区别。
百融云MaaS业务在2023年实现收入8.91亿、同比增幅17%、且有99%的核心客户留存率。如果开源AI模型能取代百融云的地位,或许客户早就更换AI服务商了,因为在Scaling law法则下,就算开源具备私有化部署的成本优势,也弥补不了无法商业化的劣势。
百融云们,似乎之前也高估了开源AI的威胁。换言之,开源AI上不了中国商业化的高端局。
目前百融云的MaaS收入仅仅相对于金融机构信贷总额的万分之几,中国消费信贷这么大的市场,即使成为千分之一的体量,百融云要面对的也将是几百亿规模的普惠金融AI市场。现在便开始展望天花板,未免早了些。