智能音箱借ChatGPT重获“新生”?
配图来自Canva可画
曾经靠语音助手红极一时的智能音箱,近年来的市场表现却欠佳。据洛图科技发布的最新《中国智能音箱零售市场月度追踪》报告显示,2022年中国智能音箱总销量为2631万台,同比下降28%;市场销售额为75.3亿元,同比下降25%。而IDC发布的2023年中国智能家居市场的十大洞察也透露,智能音箱的市场需求正在逐渐消退,整个市场呈现下滑趋势。
但随着ChatGPT这种生成式AI技术的快速发展,搭载ChatGPT的智能音箱将有望获得新的增长空间。据中泰证券分析,目前全球存量智能音箱超7亿台,如考虑产品本身3-5年左右的替换周期,本轮ChatGPT带来的替换需求或在1.4亿-2亿台每年,有望再次成为市场热点。在此基础上,智能音箱的交互水平也将有望再上新台阶。
ChatGPT或成新变量
一直以来,市场上的智能音箱产品多多少少都存在着交互体验差、应用场景单一、产品缺乏创新,以及互联互通差等问题,而当下以ChatGPT为代表的生成式AI技术,则在上下文理解、多轮对话、内容生成等方面,展现出了极高的交互水准,ChatGPT或将为智能音箱带来新的变量。
一来,依托于ChatGPT在内容生成和理解能力上的优势,智能音箱的应用场景将进一步被扩展。ChatGPT具有在对话系统、文本生成、语音识别和文本分类等多种场景中的应用优势。具体来说,在对话系统中,ChatGPT可以生成自然流畅的对话内容,支持多轮对话;在文本生成中,ChatGPT可以生成高质量的文本内容,支持多种文本生成任务;在语音识别中,ChatGPT支持多语种语音识别,提供全面的语音交互体验;在文本分类中,ChatGPT可以应用于多种文本分类任务,自动学习特征,提高分类效果和效率。ChatGPT的多领域应用优势,使得它成为自然语言处理领域的重要工具之一。
也就是说,搭载了ChatGPT的智能音箱可以进一步理解用户的意图,让回答内容的质量能够更趋向于真人的表现。未来,智能音箱的功能可能并不止于家庭,或许会走进办公场所成为人们工作的助手等。
二来,ChatGPT也正在带动智能音箱产业成为资本的焦点。随着ChatGPT在全球的走红,作为人工智能交互载体的智能音箱再次成为市场热点,包括奋达科技、漫步者、惠威科技、国光电器等在内的智能音箱概念股,近期都出现了大涨行情,资金涌入迹象十分明显。可以说,在智能音箱产业进入瓶颈期的当下,ChatGPT的出现又将智能音箱重新拉回了大众视野,并为其带来了全新的可能。
当然,ChatGPT能为智能音箱产业带来多少新变量,还需等到搭载着ChatGPT的智能音箱真正走进万千家庭才能知晓。
小度更聪明
目前为止,智能音箱与生成式AI技术的结合已经在巨头玩家中初现雏形。据悉,今年2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型“小度灵机”,并将其应用到小度全系产品中。借助小度灵机大模型,小度智能音箱中的语音助手可以变成“超级助理”。
其一,借助小度灵机大模型,小度智能音箱拥有了提取和整合复杂信息的能力。在官方发布的测试视频中,测试员告诉超级助理,他要在周末做各种各样的事情,而在叙述这些事的时候,测试员会故意提出“修改时间”的要求,比如原定于周日要做的A事件被B事件替换。即使面对测试员的一系列复杂要求,这位超级助理也可以从中提炼出真正有效的信息,并据此给测试员生成一份正确的时间安排表。
而此前的小度智能音箱并没有理解和提取整合这样复杂信息的能力,可见小度灵机模型的作用体现得比较明显。
其二,在智能家居场景中的设备控制环节,小度灵机大模型能更准确地识别出用户的真实需求。在智能家居场景中,小度灵机大模型可以化身为“智能管家”,例如在官方的测试中,测试员告诉智能管家他每天早上七点半一定要起床,周末可以晚一些,大概九点,干脆就九点半,冬天室内温度不能低于23度,夏天温度可以定在26度。此时,超级助理就可以根据这些描述,确定要在什么时候开启家中的空调、调整到什么样的温度比较合适。
相比传统智能助手只会理解“打开空调”这样简单、单一的指令,灵机模型则可以认识到用户到家时,家里温度与用户所期望的不一样,所以需要打开空调,并且根据现在的季节调节到合适的温度。显然,大模型的加入,可以让智能音箱实现认知能力上的提升。
天猫精灵更有温度
另一智能音箱领域的巨头玩家天猫精灵,也亮出了其在生成式AI技术领域的成果积累。4月11日,天猫精灵宣布将正式接入阿里巴巴通义千问。根据官网显示的信息,通义千问是一个专门响应人类指令的大模型,目前已经开启了企业邀请测试,并放出了测试官网。
据阿里巴巴集团董事会主席兼首席执行官、阿里云智能集团首席执行官张勇透露,未来,天猫精灵除了能回答用户的提问外,还会成为更人性化的智能助手,天猫精灵的策略是针对智能音箱训练出一个个性更为鲜明的大模型。
一方面,接入通义千问的天猫精灵能够产生一些特定的人格化特征,满足用户的个性化需求。不同于知识面更为广泛的通识性大模型,天猫精灵在通义千问这种更加垂直的个性化大模型的加持下,能够变得更拟人、更聪明,其知识、情感、个性、记忆力等都会得到大幅跃升。比如“鸟鸟分鸟”这一模型,其语气、语调与脱口秀演员鸟鸟就如出一辙,这样也增加了天猫精灵的可玩性,使其成为有温度的智能化助手。
另一方面,新一代的天猫精灵将具备更为灵活的对话能力。接入通义千问的天猫精灵支持自由对话,用户可以随时打断或者切换话题,天猫精灵能根据用户需求和场景随时生成内容。例如,用户在跑步过程中,可以要求天猫精灵根据180步频合成适合跑步的歌单,同时还可以与天猫精灵展开关于文化、人生等领域的深入交流。
得益于通义千问强大的技术支持,天猫精灵的用户体验将更具智能化和个性化。而在正式接入通义千问之后,天猫精灵在未来一段时间或许会出现比较大幅度的使用体验提升,这或许也可以帮助阿里巴巴进一步巩固其在智能音箱市场的领先地位。
现实壁垒
事实上,不只是小度和天猫精灵在ChatGPT领域有所布局,华为、小米等也在生成式AI技术以及智能音箱领域均有布局。不过,要想让搭载着生成式AI技术的智能音箱真正在每一个用户家中实现普及,其背后还存着一些天然壁垒。
一是,算力成本高昂。从算力层面来看,面对参数规模的大幅增长,“暴力堆叠”(利用大量高性能GPU)已经成为企业提升大模型训练效果的主要手段,这背后高昂的成本可能将会成为ChatGPT版智能音箱落地普及的门槛。
不过,随着开源大模型的出现,一些企业不需要自己从0到1去训练大模型,被训练好的大模型可以直接调用,再在这一基础上进行优化,这相比于从头开始训练的大模型,其成本将少得多。并且,未来随着算法进化,大模型训练过程中对算力的依赖度也会大大降低。
二是,搭载ChatGPT的智能音箱的使用场景受限。ChatGPT爆火的很大一部分原因是它可以颠覆式提升生产效率,而这种输出方式主要是以文字、图片、视频为主,但智能音箱则更注重语音交互。而且在人们的日常生活和工作中,需要音频反馈的内容可能只占一小部分,因此ChatGPT版智能音箱的普及落地需要寻找更多的适配于语音交互的场景,而使用场景受限则意味着使用ChatGPT版智能音箱可能很快也会褪去热度。
三是,搭载ChatGPT的智能音箱可能面临数据安全挑战。若想要搭载生成式AI技术的智能音箱能够更好地理解用户需求,并给出个性化的解决方案,那么生成式AI势必会涉及对用户个人信息的收集,而用户对于个人隐私的收集问题一直都比较敏感。另外,相关的法律法规并不健全,这都将是ChatGPT版智能音箱在普及过程中面临的挑战。
此外,ChatGPT对智能音箱整个产业的影响必然是一个长期的过程,而生成式AI技术仍处于发展早期,其对于智能音箱这一产业所产生的切实影响可能还未明确展现出来,但可以预见的是,ChatGPT引爆的热潮正在加速这一进程。