logosc网站怎么做的,wordpress加上live2d,dede中英文企业网站,企业网站城市分站系统nvidia-NeMo包含TTS的模型#xff0c;开源数据
uroma转写工具介绍 uroman转写工具 N-to-M mapping 转写的规范#xff0c;包含一些中文-拼音#xff0c;拉丁文-读法的规则转换。字符串匹配规则下的查字典#xff1b; 将字母对应到发音单元 转写规范 转写过程尽量做到可…nvidia-NeMo包含TTS的模型开源数据
uroma转写工具介绍 uroman转写工具 N-to-M mapping 转写的规范包含一些中文-拼音拉丁文-读法的规则转换。字符串匹配规则下的查字典 将字母对应到发音单元 转写规范 转写过程尽量做到可逆映射忽略变音符号比如 o u ‘ ou ou‘ 和 o u ou ou转写结果是一样的不会对缺乏原音的文本进行元音化数字除了0-9一一进行阿拉伯数字的对应还会对不同语言书写格式转写到阿拉伯计数上一些基于拉丁文字的语言中的单词的拼写和发音差异很大如果非拉丁文字中单词的相应拼写基于发音则字符串相似性匹配会变得复杂。因此给出替代结果
数据介绍
数据来源New Testament1000多种语言不同的speaker男性为主读《新约》的26个章节55K hours数据的录音格式是标准的还有另外49k hours 是各种录音文本转写格式以及同一种语言不同的口音但是都有audio-text paired 数据语种识别不同的口音认为是一种语言语音合成同一种语言只选择一种格式语音识别不同的口音认为是不同的语言标记为srp-script:latin, srp-script:cyrillic.背景音乐38%的语言有背景音乐合成任务会remove这些有背景音乐的音频
数据处理 采样率原始文件22/24/44khz统一重采样到16k 文本规范NFKC normalization unicode的KC 编码包括标点符号括号作者们听一些音频发现没有读括号于是删除等的处理 对齐问题 a. CTC Alignment音频是一整个章节几十分钟无法用transformer模型直接做对齐将音频按照15s 长度计算后验概率然后把后验概率拼成一个大矩阵 O ( L ∗ T ) O(L*T) O(L∗T)其中L是文本长度T是音频长度作者优化的算法viterbi 算法计算最有路线时只存储forward values for the current and the previous time-step and regularly transfer the computed backtracking matrices to CPU memory. 因此矩阵优化成 O ( L ) O(L) O(L) b. *符号加入音频开头读者一般会介绍章节内容这些没有对应的文本以及数字没有按照标准书写体写手动转写比较困难因此在章节文本的开头加入*符号数字用*符号替代最终处理的时候开头的*符号对应删除句中数字*符号替换回去选这个字符是因为他和HMM中的sil/OOV token都不重复 文本转写本文使用uroman转写工具将不同语言的文本转成Latin 编码也有Unitran的编码转写将UTF-8 encoded text 转成WorldBetIPA或者 X-SAMPA本文使用uroman是因为它比Unitran更简单实验取得结果差不多。将uroman转写的所有字母小写最后只保留a-z以及上撇符号。 对齐二次处理因为音频中录音人会随机插入一些文本中没有的发挥所以需要确认训练单语言ASR将CER10%的扔掉
最终筛选数据 TTS systems
每个语言挑选一个speaker recording训练一个单独的VITS modeltxt representation如果语言的词典比较小letter-based比较大使用uroma-based