语音师翟吉博让手机更聪明
你的方言,我懂(体验·新职业)
孙 振 李家林
翟吉博(右)和同事在工作中交流。
资料图片
刚一见面,科大讯飞的智能语音产品官翟吉博对着手机快速说出:“你好,很高兴接受你的采访,语音输入法的效率、准确率有多高,你现在就能看到。”这段话被迅速识别并转换成文字出现在手机屏幕上。
“这就是我们团队这几年的工作成果。”采访时,翟吉博一直开着语音输入。他笑言,他说的每一句话都将被转为文字,为记者省去整理录音的时间。
输入法能“听懂”19种方言
“大家习惯叫我们语音师,实际我们是很多掌握不同技术的人员,共同在打造一款语音技术产品。”翟吉博毕业于上海交大电子信息与电气工程学院,2009年以“码农”的身份离开外企加盟位于安徽的科大讯飞公司。2010年,翟吉博创建讯飞输入法,见证了讯飞输入法从0发展到4亿用户的全过程。
为什么要做语音输入法?翟吉博回忆,2010年6月8日,苹果公司发布了经典产品iPhone4。当晚,翟吉博和几位年轻同事就该款手机的使用进行讨论。由于其屏幕仅为3.5英寸,大家认为用全键盘输入法打字并不方便。
既然用手指输入文字的体验不好,可不可以用语音输入?一番思维碰撞后,翟吉博决定把科大讯飞的语音识别、手写输入技术结合到拼音输入法上来,仅仅用三天的时间就做出一个演示版本。
翟吉博没想到,他的心血来潮之作得到公司上下一致认可,使用者都认为这个产品前景广泛,应该让更多人使用。就这样,翟吉博组织团队封闭数月打磨产品。4个月之后,讯飞输入法正式上线。这是语音识别技术首次运用在手机上,科大讯飞成了第一个吃螃蟹的人,翟吉博从此担任产品总监。
“从那时起,我不再是单纯的‘程序猿’,而成了‘产品狗’。换句话说,我的工作不是单纯地写代码,而是发现用户的需求后,再评审是否有前景,实现的成本有多大?如果有应用价值,就用技术架构去实现,再慢慢完善产品体验,不断地去优化产品。”
最初版本的语音输入法想要大规模普及,面临诸多难题。首先,当时的语音识别准确率过低,第一个版本语音识别准确率还不到70%;其次是网络,当时的讯飞输入法需要通过网络调用云端数据,但当时的移动互联网并不稳定,用户对使用流量也比较敏感;然后是方言,不同地区的人语言有很大差别,方言区用户的口音无法被识别;最后是个性化语言,不同的用户有不同的语言习惯、说话方式、口音差异等。
通过推出离线识别、方言识别、学习个人习惯等功能,攻克一个又一个难点,不断满足用户的个性需求。目前讯飞输入法支持包括粤语、四川话、闽南语、客家语、贵州话等在内的19种方言。
“在一个又一个需求被满足的过程中,不仅用户规模逐渐扩大,技术也在不断改进。目前语音识别准确率已提高到97%以上,1分钟可识别约400个字。”翟吉博很是自豪。
让跨语言交流更畅通
这些改进,听起来很简单,实际上难度不小。以构建各个方言版本为例,推出每一款方言版本时,都需要找到诸多语言学家组织采集数据。“每一种方言识别功能刚推出时识别准确率都较低,得想办法不断去改进。在这一过程中,难就难在技术人员不懂语言,而语言学家又不懂技术,只能是技术人员不断借助语言专家的经验。”翟吉博现场演示,选择四川话后,“巴适”“瓜娃子”等都能被迅速识别。
在攻克各个方言版本之后,翟吉博正尝试满足日益增长的跨语言交流需求,目前讯飞输入法已经拓展了中译英、中译韩、中译日、英译日等随身译功能,让不同语言的人可以通过文字沟通。
记者当场体验了随身译功能,在选择“中英文”之后,对准手机话筒说中文,屏幕上出现自动翻译的英文。翟吉博说:“随着翻译准确率的不断提升,在不远的将来,一定可实现不同语言的人直接交流。”
“未来,语音技术有着越来越广泛的运用空间,如与汽车结合,进行车载控制等。语音技术不是短平快的产品,而是基础性的产品。当人工智能、智能设备广泛运用时,语音技术的春天会真正到来。”翟吉博相信,语音技术的发展前景不可限量。
《 人民日报 》( 2017年04月11日 09 版)