AI赋能基础通话创新应用 打造5G新刚需

作者:科大讯飞运营商事业部新通话产品线总经理 刘平平 责任编辑:王鹤迦 2023.10.23 15:51 来源:通信世界全媒体

通信世界网消息(CWW)5G商用四年来,我国信息通信技术实现“弯道超车”,为整个产业链的蓬勃发展注入活力。同时,各大电信运营商在5G领域的投入也不可谓“不巨大”。根据工信部发布的《“十四五”信息通信行业发展规划》,到2025年每万人拥有5G基站数将达26个,是现有数量的3倍。

与此形成鲜明对比的是,普通用户仍然发出灵魂之问:“5G能做啥?”由于缺乏对5G额外价值的感知,用户的使用习惯相较于4G时代并未发生显著改变,总体需求并不旺盛,这导致了5G网络的使用率相对较低。出现上述现象的关键原因之一是5G上层应用的繁荣度不高,这就需要通过创造5G刚性需求应用来寻求突破。

AI赋能无障碍通信

科大讯飞成立初期便进入了通信领域,并与三大电信运营商建立了战略合作伙伴关系。多年以来,科大讯飞与运营商在智慧家庭、美丽乡村、智慧云网、智能通信等领域展开了深度合作。

2021年5月,在甘肃省白银市举行的马拉松赛事中出现了极端天气,导致多名选手不幸遇难。其中,一位重度听障选手也遭受了不幸,他无法听到声音,也无法正常说话交流,甚至在遇险时无法通过电话求助。这一事件引发了我们的深入思考,我们积极与中国残疾人联合会取得联系,启动了对残障人士日常交流习惯和需求的调研工作,以便为他们设计出辅助沟通的产品。

在众多需求中,最紧迫且复杂的需求就是手语视频通话。重度听障人士主要依赖手语进行交流,然而他们的家人、朋友以及服务机构成员等社交对象,多数是听力正常的人。那么,在视频通话中,怎样才能帮助他们之间顺畅地沟通?我们的解决方案是引入AI(人工智能)。具体而言,我们将听障人士使用的手语识别为文本,然后将文本转化为语音,播放给健听人;而当健听人说话时,语音则被转化为文本,呈现给听障人士。

在这个过程中,我们还意识到,以往习以为常的点对点通话模式不仅可以是“一对一”,还可以是“多对多”。除了主叫方和被叫方,AI还可以作为第三方或第四方参与,处理声音、视频和文本等多种信息。这是一个意外的发现,通过为残障人士设计产品,我们发现了被人忽略或认为理所当然的结构和要素,从而让设计出的产品既适用于残障人士,又适用于其他人。

基于丰富的产品和技术储备,2022年1月,科大讯飞携手中国残联及三大电信运营商发起了“无障碍智能通信合作伙伴计划”,并发布了实时字幕、方言翻译、多语种翻译等多项通信应用。在2022年3月北京冬残奥会期间,科大讯飞携手中国移动、华为首发智能通信产品,不仅激活了5G新通话这一战略性产品,也助力了通信业的创新实践。

5G新通话让通话更精彩

将人工智能融入5G通信网络,对用户而言,意味着只需一部标准手机,便能够享受人工智能创新应用带来的便捷服务;而对通信行业而言,这样的融合创新亦能将“传统管道”变成“智能管道”,为通信业务发展带来新机遇,也契合了我国“新基建”的必然趋势。

基于此,科大讯飞创新性地构建了“产品+体系+生态”应用矩阵,开拓了5G新通话业务边界。

首先,科大讯飞引入各类人工智能技术,持续推动横向产品应用,实现“有得用”。毕竟,要真正让用户对5G应用喜闻乐见,应用数量是基本条件。从“小无障碍”到“大无障碍”,我们丰富了从字幕转写到多语种、多方言翻译的无障碍应用;从单纯功能延伸至为个人和企业搭建桥梁,提供信息服务及行业应用;从功能拓展至情感体验,我们实现了“语音表情雨”等社交应用;从情感体验升华为娱乐项目,我们开发了语音发红包、语音游戏等趣味应用。

其次,基于科大讯飞在翻译机、学习机、办公笔记本等软硬件产品领域积累的经验,我们在产品深度上不断探索,务求打磨出让用户既可用又爱用的产品。以智能翻译业务为例,在视频通话中进行跨语种交流时,由于节奏紧凑,即便一个单词的翻译存在微小的偏差,也可能引发误解,影响沟通效果。考虑到智能翻译本身可以视为生成式人工智能,难以做到完全准确,我们引入了语义理解技术。当聆听者对某个词语提出疑问时,人工智能将层层穿透、捕捉这个词汇,然后对其进行高亮标记,提示说话者换个说法。通过这一创新,智能翻译在通话中的实用性得到了显著的提升。

然后,科大讯飞积极探索新通话的应用组合。鉴于国内外通信运营商纷纷推出丰富的增值业务,构建产品组合有助于不断驱动通话增值业务的升级和迭代,进一步降低用户的使用门槛。例如,基于“来电提醒/通信助理”这一典型的产品组合,用户在漏接来电后,可以在查看留言短信时回拨,从而一键快速接入新通话,享受实时转写、趣味通话等创新应用。

最后,上述5G新通话应用单品和应用组合主要体现了软件层面的创新,科大讯飞也在探索将这些软件、服务延伸至硬件领域。在2023年初,科大讯飞与中移互联网合作,成功实现了讯飞双屏翻译机与普通手机之间的新通话呼叫服务。此外,科大讯飞也在探索将商务速记应用于讯飞会议耳机,这不仅能进一步丰富新通话的生态,也有助于通信业务的多样化发展。

讯飞星火认知大模型,深度赋能新通话

2022年底掀起的通用人工智能浪潮,为以新通话为代表的5G应用带来了新的动能。在此背景下,科大讯飞于2023年5月发布了“讯飞星火认知大模型”,该模型具备七大核心能力,包括内容生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力。借助科大讯飞“1+N认知智能大模型”布局体系,即1个通用认知智能大模型平台和N个行业专用模型,星火认知大模型已成功应用于教育、办公、汽车、数字员工等多个领域。

在5G新通话领域,科大讯飞将主要通过两个方面实现星火认知大模型的深度赋能。

一是人人对话。通过认知大模型的赋能,5G新通话可以根据电话内容自动生成对话纪要,提取待办事项,从而协助用户自动完成相关工作,使每一次商务通话都变得更加高效。认知大模型还将支持通话中的智能助理服务,例如,用户在闲聊中随时可以获取结伴出游目的地的建议,或在商业对话中获得法律法规方面的建议。过去,在通话场景下,用户常常需要面临很多微小的选择或决策,例如去哪吃饭、出门要不要带伞等。有了通话中的智能助理,这些微小但高频的决策将变得更加顺畅高效。

二是人机对话。依托对话文本处理能力,认知大模型可以实现智能代接秘书服务,分析通话内容并提炼来电者的意图,从而极大提升被叫用户获取来电信息的效率。此外,认知大模型还能够基于对话内容智能推荐并引导用户的下一步行动。举例来说,在用户接到旅游推销电话时,认知大模型可以智能判断营销内容的合理性,并提供更多的营销选择,使通话挂断不再意味着服务结束,而是智能化服务的开始。

大模型引人瞩目的特点之一在于“智慧涌现”,它不知疲倦,随时准备为你提供答案。而新通话的核心内容在于“对话”,也就是“chat”,这与大模型的自然应用场景相契合。因此,讯飞星火认知大模型通过深度赋能新通话应用,将逐步在各类高频场景下提供媲美人类专家的服务,为真正的5G刚需应用提供强有力的支持。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容