我们基于 GAN 研发了数据增强算法,使得我们的训练数据可以覆盖各种噪音场景,从而训练得到的声学模型针对各种环境下的音频都有较好的适应性。
2)声学模型
我们采用 LSTM 声学模型,可以让神经元“记住”已经处理过的数据,采用该模型建立的声学模型准确度上优势明显,并且我们自主研发了计算加速引擎,相比其他使用传统 RNN 或者 CNN 模型的技术更具有市场竞争力。 在开放式口语题目的评分中,我们将 end2end 和 TDNN-HMM-hybrid 相结合, 前者可以提升语音识别准确率,尤其是带有口音的中国学生的英语口语,后者可以针对每一个音素 (phoneme), 包括音素的上下文环境精准建模;两者形成优势互补,显著地提升了评测效果。
3)评分模型
声通聘请了多位资深英语专家凭借多年行业经验,按评价标准模型在大量真实用户的语音上给出了各个维度的评价分值,然后使用多种不同的回归方法(ensemble)建模从而得到更加精准的评分模型,评分标准也得到了绝大部分客户的认可。
4)针对年龄段自适应
声通专有的声学模型集(STSpectrum)能自动检测用户所处的年龄段,并且根据年龄段匹配最佳的声学模型从而达到最佳评分效果。。
商品规格 | 交付清单 | 数量/时长 | 含税价格 |
---|---|---|---|
默认 | SDK交付 1次 | 1000次 | ¥10 |