如何让AI发音更像真人?平安语音技术让声音更有温度


  近期,不少人遭遇了“本人语音”的电信。当收到朋友的借钱微信后,人们的第一反应通常是朋友被盗号了,但“朋友”立马补充了一条“真人语音”做确认。许多人往往一听到朋友的声音,便放心将钱转了出去,等到收款后被拉黑,被骗人才恍然大悟朋友的微信真的被盗了。对于类似高技术含量的骗局,人们往往防不胜防。

  基于20年的客户服务积累,如今平安AI语音平台已实现客服工作的AI覆盖率达83%,解决率接近90%。通过平安智能语音中台的运用,成功赋能超8万位远程坐席。平安AI客服所使用的并不是刻板的电子音,而是非常有人情味的talker。使用过Siri等智能助手的用户对于“机器音”并不会陌生,机器的声音往往是冰冷而生硬的,没有抑扬顿挫的语调,也不会适时地断句。让机器的声音口语化是语音合成遇到的第一个问题。

  机器声音的口语化意味着情绪与技术的深度融合,而“情绪识别”早已成为学术界和商业界公认的难点问题。近年来,平安科技的研发团队在该领域的研究中取得了突破性进展,并基于平安特定业务场景,实现了文本情绪识别,通过识别用户或坐席的情绪状态,已可分辨出为正面、负面和中性三大类别。研发团队也将继续把“情绪”作为研发的重点和难点,相信在不久之后,喜怒哀乐终将从机器人的口中传递出来。

  通过结合金融行业的属性与平安日常的业务场景,研发团队的科学家为语音机器人配备了4种基于语气来区分语音的合成音库,充分满足营销所需。例如,客服人员交流,需要温和的语气;而电商促销,则需要高兴、积极的语气。尽管目前科学家们对于情感语音仍在探索中,但研发团队已经为不同的情绪风格分别录入了数百句话并导入了语音库中,在收集了一定数量的素材之后,基于素材建造训练模型,再通过模型构架、网络构架的优化,不断地进行机器训练,直到最后机器人拥有与真人相似的语气及情绪,能和人们进行生动、无障碍的自然交流。

  许多人在学普通话之前,首先学会的“母语”其实是所在地区的方言,如今人群中方言的使用比率依然很高。以上海话为例,平安科技的研发团队针对上海方的言研发做了大量工作,调研显示2019年上海的外地人口比例在4成左右,即便是聚集四面八方“沪漂”的上海,使用上海方言的本地人占比仍能达到6成左右。

  对于一个普通人来说,掌握多种方言并不容易,但对于人工智能而言,它可以通过海量的语音训练掌握更多种类的方言。平安科技的科学家认为中国的人工智能,应当是“一个地道的中国人”。除了普通话,地大物博的各地区方言,它也能听得懂才行。

  为了可以让AI更好地识别方言,平安科技的科学家们将中国划分为8个方言区。以上海话为例,他们设计了一套详细的上海话规则,给到标注人员去标注。在这其中,还有一个难点就是语音库的建立。

  平安科技科研队伍人员来自全国各地,然而来自上海本地的同事仅有两位,无法组件丰富的语言库样本。

  为了建立丰富的上海话语言库,平安科技的研发团队与多个上海高校展开合作。找到学校的大学老师,并招募学校里的上海本地同学帮忙录音与标注。目前,平安科技正在研发上海话语音合成模型,提供专业服务的同时也不忘人情味的加入,打破语言边界,让沟通变得方便高效。

  截至到目前,平安科技技术研究院语音技术团队结合具体的业务场景,总共梳理了两三万句业务话术,并整理出一些常用的口语标记。接到平安AI客服电话时,听到的是机器实时合成的机器音,并没有冰冷与生硬,而是一种较人性化、较柔和的拟人声音,这是通过大量的机器学习、深度学习来实现的。

  技术不断的精进,让机器的学习也不断深入。而无限接近人类的拟人化、人性化,将成为AI未来发展需要攻克的长期命题。未来,平安科技还将继续完善AI学习的数据库,让语音技术在不断实践与训练中获得更人性化的提升,为更多的场景中的智能化运用实现更多助力。未来,平安科技的专业团队将致力于语音防伪技术落地,保障广大群众财产安全,更好地承担社会责任。