当前位置: 首页 > news >正文

网站模版怎么样asp+sql server典型网站建设案例 光盘

网站模版怎么样,asp+sql server典型网站建设案例 光盘,微信开放平台appid,网页美工设计基础一、语音合成概述 语音信号的产生分为两个阶段#xff0c;信息编码和生理控制。首先在大脑中出现某种想要表达的想法#xff0c;然后由大脑将其编码为具体的语言文字序列#xff0c;及语音中可能存在的强调、重读等韵律信息。经过语言的组织#xff0c;大脑通过控制发音器…一、语音合成概述 语音信号的产生分为两个阶段信息编码和生理控制。首先在大脑中出现某种想要表达的想法然后由大脑将其编码为具体的语言文字序列及语音中可能存在的强调、重读等韵律信息。经过语言的组织大脑通过控制发音器官肌肉的运动产生出相应的语音信号。其中第一阶段主要涉及人脑语言处理方面第二阶段涉及语音信号产生的生理机制。 从滤波的角度人体涉及发音的器官可以分为两部分激励系统和声道系统。激励系统中储存于肺部的空气源经过胸腔的压缩排出经过气管进入声带根据发音单元决定是否产生振动形成准周期的脉冲空气激励流或噪声空气激励流。这些空气流作为激励进入声道系统被频率整形形成不同的声音。声道系统包括咽喉、口腔舌、唇、颌和口组成可能还包括鼻道。不同周期的脉冲空气流或者噪声空气流以及不同声道器官的位置决定了产生的声音。因此语音合成中通常将语音的建模分解为激励建模和声道建模。 1. 语音合成的历史和研究方法 语音合成系统分为两部分分别称为文本前端和后端。文本前端主要负责在语言层、语法层、语义层对输入文本进行文本分析后端主要是从信号处理、模式识别、机器学习等角度在语音层面上进行韵律特征建模声学特征建模然后进行声学预测或者在音库中进行单元挑选最终经过合成器或者波形拼接等方法合成语音。 根据语音合成研究的历史语音合成研究方法可以分为机械式语音合成器、电子式语音合成器、共振峰参数合成器、基于波形拼接的语音合成Concatenative Speech Synthesis、统计参数语音合成Statistical Parametric Speech SynthesisSPSS、以及神经网络语音合成。 早期的语音合成方法由于模型简单系统复杂等原因难以在实际场景应用。随着计算机技术的发展基于波形拼接的语音合成被提出。基于波形拼接的语音合成 Concatenative Speech Synthesis的基本原理是首先构建一个音库在合成阶段通过对合成文本的分析按照一定的准则从音库中挑选出与待合成语音相似的声学单元对这些声学单元进行少量调整拼接得到合成的语音。早期的波形拼接系统受限于音库大小、挑选算法、拼接调整的限制合成语音质量较低。1990年基于同步叠加的时域波形修改算法被提出解决了声学单元拼接处的局部不连续问题。更进一步基于大语料库的波形拼接语音合成方法被提出采用更精细的挑选策略将语音音库极大地拓展大幅提升了合成语音的自然度。由于直接使用发音人的原始语音基于波形拼接的语音合成方法合成语音的音质接近自然语音被广泛应用。但其缺点也较为明显包括音库制作时间长、需要保存整个音库、拓展性差、合成语音自然度受音库和挑选算法影响鲁棒性不高等。 随着统计建模理论的完善以及对语音信号理解的深入基于统计参数的语音合成方法Statistical Parametric Speech SynthesisSPSS被提出。其基本原理是使用统计模型对语音的参数化表征进行建模。在合成阶段给定待合成文本使用统计模型预测出对应的声学参数经过声码器vocoder合成语音波形。统计参数语音合成方法是目前的主流语音合成方法之一。统计参数音合成方法的优点很多包括只需要较少的人工干预能够快速地自动构建系统同时具有较强的灵活性能够适应不同发音人不同发音风格多语种的语音合成具有较强的鲁棒性等。由于语音参数化表示以及统计建模的平均效应统计参数语音合成方法生成的语音自然度相比自然语音通常会有一定的差距。基于隐马尔科夫HMM的统计参数语音合成方法是发展最为完善的一种。基于HMM的统计参数语音合成系统能够同时对语音的基频、频谱和时长进行建模生成出连续流畅且可懂度高的语音被广泛应用但其合成音质较差。 和统计参数语音合成系统类似深度学习语音合成系统也可大致分为两个部分文本前端和声学后端。文本前端的主要作用是文本预处理如为文本添加韵律信息并将文本词面转化为语言学特征序列Linguistic Feature Sequence声学后端又可以分为声学特征生成网络和声码器其中声学特征生成网络根据文本前端输出的信息产生声学特征如将语言学特征序列映射到梅尔频谱Mel 或线性谱声码器利用频谱等声学特征生成语音样本点并重建时域波形如将梅尔频谱恢复为对应的语音。近年来也出现了完全端到端的语音合成系统将声学特征生成网络和声码器和合并起来声学后端成为一个整体直接将语言学特征序列甚至文本词面端到端转换为语音波形。 2. 语音合成各部分 2.1. 文本前端 文本前端的作用是从文本中提取发音和语言学信息其任务至少包括以下四点。 (a). 文本正则化 在语音合成中用于合成的文本存在特殊符号、阿拉伯数字等需要把符号转换为文本。如“1.5 元” 需要转换成“一点五元”方便后续的语言学分析。 (b). 韵律预测 该模块的主要作用是添加句子中韵律停顿或起伏。如“在抗击新型冠状病毒的战役中党和人民群众经受了一次次的考验”如果停顿信息不准确就会出现“在/抗击/新型冠状病毒/的/战役中党/和/人民群众/经受了/一次/次/的/考验”。“一次次”的地方存在一个错误停顿这将会导致合成语音不自然如果严重些甚至会影响语义信息的传达。 (c). 字形转音素 文字转化为发音信息。比如“中国”是汉字表示需要先将其转化为拼音“zhong1 guo2”以帮助后续的声学模型更加准确地获知每个汉字的发音情况。 (d). 多音字和变调 许多语言中都有多音字的现象比如“模型”和“模样”这里“模”字的发音就存在差异。另外汉字中又存在变调现象如“一个”和“看一看”中的“一”发音音调不同。所以在输入一个句子的时候文本前端就需要准确判断出文字中的特殊发音情况否则可能会导致后续的声学模型合成错误的声学特征进而生成不正确的语音。 2.2. 声学特征生成网络 Acoustic model 声学特征生成网络根据文本前端的发音信息产生声学特征如梅尔频谱或线性谱。近年来基于深度学习的生成网络甚至可以去除文本前端直接由英文等文本生成对应的频谱。但是一般来说因为中文字形和读音关联寥寥因此中文语音合成系统大多无法抛弃文本前端换言之直接将中文文本输入到声学特征生成网络中是不可行的。基于深度学习的声学特征生成网络发展迅速比较有代表性的模型有Tacotron系列FastSpeech系列等。近年来也涌现出类似于VITS的语音合成模型将声学特征生成网络和声码器融合在一起直接将文本映射为语音波形。 2.3. 声码器 Vocoder 通过声学特征产生语音波形的系统被称作声码器声码器是决定语音质量的一个重要因素。一般而言声码器可以分为以下4类纯信号处理如Griffin-Lim、STRAIGHT和WORLD自回归深度网络模型如WaveNet和WaveRNN非自回归模型如Parallel WaveNet、ClariNet和WaveGlow基于生成对抗网络Generative Adversarial NetworkGAN的模型如MelGAN、Parallel WaveGAN和HiFiGAN。 3. 语音合成评价指标 对合成语音的质量评价主要可以分为主观和客观评价。主观评价是通过人类对语音进行打分比如平均意见得分Mean Opinion ScoreMOS、众包平均意见得分CrowdMOSCMOS和ABX测试。客观评价是通过计算机自动给出语音音质的评估在语音合成领域研究的比较少论文中常常通过展示频谱细节计算梅尔倒谱失真Mel Cepstral DistortionMCD等方法作为客观评价。客观评价还可以分为有参考和无参考质量评估这两者的主要判别依据在于该方法是否需要标准信号。有参考评估方法除了待评测信号还需要一个音质优异的可以认为没有损伤的参考信号。常见的有参考质量评估主要有ITU-T P.861 (MNB)、ITU-T P.862 (PESQ)、ITU-T P.863 (POLQA)、STOI和BSSEval。无参考评估方法则不需要参考信号直接根据待评估信号给出质量评分无参考评估方法还可以分为基于信号、基于参数以及基于深度学习的质量评估方法。常见的基于信号的无参考质量评估包括ITU-T P.563和ANIQUE基于参数的方法有ITU-T G.107(E-Model)。近年来深度学习也逐步应用到无参考质量评估中如AutoMOS、QualityNet、NISQA和MOSNet。 主观评价中的MOS评测是一种较为宽泛的说法由于给出评测分数的主体是人类因此可以灵活测试语音的不同方面。比如在语音合成领域主要有自然度MOSMOS of Naturalness和相似度MOSMOS of Similarity。但是人类给出的评分结果受到的干扰因素较多谷歌对合成语音的主观评估方法进行了比较在评估较长语音中的单个句子时音频样本的呈现形式会显著影响参与人员给出的结果。比如仅提供单个句子而不提供上下文与相同句子给出语境相比被测人员给出的评分差异显著。国际电信联盟International Telecommunication UnionITU将MOS评测规范化为ITU-T P.800其中绝对等级评分Absolute Category RatingACR应用最为广泛ACR的详细评估标准有5.0-1.0从优到劣。 在使用ACR方法对语音质量进行评价时参与评测的人员简称被试对语音整体质量进行打分分值范围为1~5分分数越大表示语音质量越好。MOS大于4时可以认为该音质受到大部分被试的认可音质较好若MOS低于3则该语音有比较大的缺陷大部分被试并不满意该音质。 二、语音信号基础 1. 语音基本概念 声波通过空气传播被麦克风接收通过 采样、量化、编码转换为离散的数字信号即波形文件。音量、音高和音色是声音的基本属性。 1.1 能量 音频的能量通常指的是时域上每帧的能量幅度的平方。在简单的语音活动检测Voice Activity DetectionVAD中直接利用能量特征能量大的音频片段是语音能量小的音频片段是非语音包括噪音、静音段等。这种VAD的局限性比较大正确率也不高对噪音非常敏感。 1.2 短时能量 短时能量体现的是信号在不同时刻的强弱程度。设第 n 帧语音信号的短时能量用 表示则其计算公式为 上式中  为帧长 为该帧中的样本点。 1.3 声强和声强级 sound intensity或acoustic intensity 单位时间内通过垂直于声波传播方向的单位面积的平均声能称作声强声强用 I 表示单位为“瓦/平米”。实验研究表明人对声音的强弱感觉并不是与声强成正比而是与其对数成正比所以一般声强用声强级来表示 其中I为声强 称为基本声强声强级的常用单位是分贝(dB)。 1.4 响度 loudness 响度是一种主观心理量是人类主观感觉到的声音强弱程度又称音量。响度与声强和频率有关。一般来说声音频率一定时声强越强响度也越大。相同的声强频率不同时响度也可能不同。响度若用对数值表示即为响度级响度级的单位定义为方符号为phon。根据国际协议规定0dB声强级的1000Hz纯音的响度级定义为0 phonn dB声强级的1000Hz纯音的响度级就是n phon。其它频率的声强级与响度级的对应关系要从如图等响度曲线查出。 1.5 过零率 过零率体现的是信号过零点的次数体现的是频率特性。 其中 表示帧数 表示每一帧中的样本点个数 为符号函数即 1.6 共振峰 声门处的准周期激励进入声道时会引起共振特性产生一组共振频率这一组共振频率称为共振峰频率或简称共振峰。共振峰包含在语音的频谱包络中频谱包络的局部极大值就是共振峰。频率最低的共振峰称为第一共振峰记作$f_1$频率更高的共振峰称为第二共振峰$f_2$、第三共振峰$f_3$……以此类推。实践中一个元音用三个共振峰表示复杂的辅音或鼻音要用五个共振峰。 2. 语言学 语言学研究人类的语言计算语言学则是一门跨学科的研究领域试图找出自然语言的规律建立运算模型语音合成其实就是计算语言学的子领域之一。在语音合成中一般需要将文本转换为对应的音素然后再将音素输入到后端模型中因此需要为每个语种甚至方言构建恰当合理的音素体系。相关概念如下。 音素phoneme也称音位是能够区别意义的最小语音单位同一音素由不同人/环境阅读可以形成不同的发音。字素grapheme音素对应的文本。发音phone 某个音素的具体发音。实际上phoneme和phone都是指的是音素音素可具化为实际的音该过程称为音素的语音体现。一个音素可能包含着几个不同音值的音因而可以体现为一个音、两个音或更多的同位音。但是在一些论述中phoneme偏向于表示发音的符号phone更偏向于符号对应的实际发音因此phoneme可对应无数个phone。 音节syllable音节由音素组成。在汉语中除儿化音外一个汉字就是一个音节。如wo3我是一个音节zhong1中也是一个音节。 3. 音频格式 *.wav: 波形无损压缩格式是语音合成中音频语料的常用格式主要的三个参数采样率量化位数和通道数。一般来说合成语音的采样率采用16kHz、22050Hz、24kHz对于歌唱合成等高质量合成场景采样率可达到48kHz量化位数采用16bit通道数采用1.*.flac: Free Lossless Audio Codec无损音频压缩编码。*.mp3: Moving Picture Experts Group Audio Player III有损压缩。*.wma: Window Media Audio有损压缩。*.avi: Audio Video Interleavedavi文件将音频和视频包含在一个文件容器中允许音视频同步播放。 4. 数字信号处理 4.1. 模数转换 Analog to Digital ConverterADC 模拟信号到数字信号的转换Analog to Digital ConverterADC称为模数转换。 奈奎斯特Nyquist采样定理要从抽样信号中无失真地恢复原信号抽样频率应大于2倍信号最高频率。抽样频率小于2倍频谱最高频率时信号的频谱有混叠。抽样频率大于2倍频谱最高频率时信号的频谱无混叠。如果对语音模拟信号进行采样率为16000Hz的采样得到的离散信号中包含的最大频率为8000Hz。 4.2. 频谱泄露 spectral leakage 音频处理中经常需要利用傅里叶变换将时域信号转换到频域而一次快速傅里叶变换FFT只能处理有限长的时域信号但语音信号通常是长的所以需要将原始语音截断成一帧一帧长度的数据块。这个过程叫 信号截断也叫\lstinline{分帧}。分完帧后再对每帧做FFT得到对应的频域信号。FFT是离散傅里叶变换DFT的快速计算方式而做DFT有一个先验条件分帧得到的数据块必须是整数周期的信号也即是每次截断得到的信号要求是周期主值序列。 但做分帧时很难满足 周期截断因此就会导致 {频谱泄露}。要解决非周期截断导致的频谱泄露是比较困难的可以通过 {加窗}尽可能减少频谱泄露带来的影响。窗类型可以分为汉宁窗、汉明窗、平顶窗等。虽然加窗能够减少频谱泄露但加窗衰减了每帧信号的能量特别是边界处的能量这时加一个合成窗且overlap-add便可以补回能量。 4.3. 频率分辨率 频率分辨率是指将两个相邻谱峰分开的能力在实际应用中是指分辨两个不同频率信号的最小间隔。 三、语音特征提取 原始信号是不定长的时序信号不适合作为机器学习的输入。因此一般需要将原始波形转换为特定的特征向量表示该过程称为语音特征提取。 1. 预处理 包括预加重、分帧和加窗。 1.1 预加重 pre-emphasis 语音经过说话人的口唇辐射发出受到唇端辐射抑制高频能量明显降低。一般来说当语音信号的频率提高两倍时其功率谱的幅度下降约6dB即语音信号的高频部分受到的抑制影响较大。在进行语音信号的分析和处理时可采用预加重pre-emphasis的方法补偿语音信号高频部分的振幅在傅里叶变换操作中避免数值问题本质是施加高通滤波器。假设输入信号第 $n$ 个采样点为 $x[n]$ 则预加重公式如下 五、声学模型 Acoustic model 现代工业级神经网络语音合成系统主要包括三个部分文本前端、声学模型和声码器文本输入到文本前端中将文本转换为音素、韵律边界等文本特征。文本特征输入到声学模型转换为对应的声学特征。声学特征输入到声码器重建为原始波形。 1. Tacotron1 1.1 声学特征建模网络 Tacotron-2的声学模型部分采用典型的序列到序列seq2seq结构。编码器是3个卷积层和一个双向LSTM层组成的模块卷积层给予了模型类似于N-gram感知上下文的能力并且对不发音字符更加鲁棒。经词嵌入的注音序列首先进入卷积层提取上下文信息然后送入双向LSTM生成编码器隐状态。编码器隐状态生成后就会被送入注意力机制以生成编码向量。我们利用了一种被称为位置敏感注意力Location Sensitive AttentionLSA该注意力机制的对齐函数为 其中 为待训练参数 是偏置值 为上一时间步 的解码器隐状态 为当前时间步 的编码器隐状态 为上一个解码步的注意力权重 经卷积获得的位置特征如下式 其中  是经过softmax的注意力权重的累加和。位置敏感注意力机制不但综合了内容方面的信息而且关注了位置特征。解码过程从输入上一解码步或者真实音频的频谱进入解码器预处理网络开始到线性映射输出该时间步上的频谱帧结束模型的解码过程如下图所示。 频谱生成网络的解码器将预处理网络的输出和注意力机制的编码向量做拼接然后整体送入LSTM中LSTM的输出用来计算新的编码向量最后新计算出来的编码向量与LSTM输出做拼接送入映射层以计算输出。输出有两种形式一种是频谱帧另一种是停止符的概率后者是一个简单二分类问题决定解码过程是否结束。为了能够有效加速计算减小内存占用引入缩减因子rReduction Factor即每一个时间步允许解码器预测r个频谱帧进行输出。解码完成后送入后处理网络处理以生成最终的梅尔频谱如下式所示。 其中 是解码器输出 表示最终输出的梅尔频谱 是后处理网络的输出解码器的输出经过后处理网络之后获得  。 在Tacotron-2原始论文中直接将梅尔频谱送入声码器WaveNet生成最终的时域波形。但是WaveNet计算复杂度过高几乎无法实际使用因此可以使用其它声码器比如Griffin-Lim、HiFiGAN等。 1.2 CBHG 模块 1.3 损失函数 Tacotron2的损失函数主要包括以下4个方面 1. 进入后处理网络前后的平方损失。 其中 表示从音频中提取的真实频谱 分别为进入后处理网络前、后的解码器输出 为每批的样本数。 2. 从CBHG模块中输出线性谱的平方损失。 其中 是从真实语音中计算获得的线性谱 是从CBHG模块输出的线性谱。 3. 停止符交叉熵 其中 为停止符真实概率分布 是解码器线性映射输出的预测分布。 4. L2正则化 其中 为参数总数 为模型中的参数这里排除偏置值、RNN以及线性映射中的参数。最终的损失函数为上述4个部分的损失之和如下式 2. FastSpeech FastSpeech是基于Transformer显式时长建模的声学模型由微软和浙大提出。 1. 模型结构 FastSpeech 2和上代FastSpeech的编解码器均是采用FFTfeed-forward Transformer前馈Transformer块。编解码器的输入首先进行位置编码之后进入FFT块。FFT块主要包括多头注意力模块和位置前馈网络位置前馈网络可以由若干层Conv1d、LayerNorm和Dropout组成。 论文中提到语音合成是典型的一对多问题同样的文本可以合成无数种语音。上一代FastSpeech主要通过目标侧使用教师模型的合成频谱而非真实频谱以简化数据偏差减少语音中的多样性从而降低训练难度向模型提供额外的时长信息两个途径解决一对多的问题。在语音中音素时长自不必说直接影响发音长度和整体韵律音调则是影响情感和韵律的另一个特征能量则影响频谱的幅度直接影响音频的音量。在FastSpeech 2中对这三个最重要的语音属性单独建模从而缓解一对多带来的模型学习目标不确定的问题。 在对时长、基频和能量单独建模时所使用的网络结构实际是相似的在论文中称这种语音属性建模网络为变量适配器Variance Adaptor。时长预测的输出也作为基频和能量预测的输入。最后基频预测和能量预测的输出以及依靠时长信息展开的编码器输入元素加起来作为下游网络的输入。变量适配器主要是由2层卷积和1层线性映射层组成每层卷积后加ReLU激活、LayerNorm和Dropout。 同样是通过长度调节器Length Regulator利用时长信息将编码器输出长度扩展到频谱长度。具体实现就是根据duration的具体值直接上采样。一个音素时长为2就将编码器输出复制2份给3就直接复制3份拼接之后作为最终的输出。 对于音高和能量的预测模块的主干网络相似但使用方法有所不同。以音高为例能量的使用方式相似。首先对预测出的实数域音高值进行分桶映射为一定范围内的自然数集然后做嵌入。 3. VITS VITSVariational Inference with adversarial learning for end-to-end Text-to-Speech是一种结合变分推理variational inference、标准化流normalizing flows和对抗训练的高表现力语音合成模型。和Tacotron和FastSpeech不同Tacotron / FastSpeech实际是将字符或音素映射为中间声学表征比如梅尔频谱然后通过声码器将梅尔频谱还原为波形而VITS则直接将字符或音素映射为波形不需要额外的声码器重建波形真正的端到端语音合成模型。VITS通过隐变量而非之前的频谱串联语音合成中的声学模型和声码器在隐变量上进行建模并利用随机时长预测器提高了合成语音的多样性输入同样的文本能够合成不同声调和韵律的语音。VITS合成音质较高并且可以借鉴之前的FastSpeech单独对音高等特征进行建模以进一步提升合成语音的质量是一种非常有潜力的语音合成模型。 3.1 模型整体结构 VITS包括三个部分 后验编码器Posterior Encoder。如上图a的左下部分所示在训练时输入线性谱输出隐变量 推断时隐变量 则由 产生。VITS的后验编码器采用WaveGlow和Glow-TTS中的非因果WaveNet残差模块。应用于多人模型时将说话人嵌入向量添加进残差模块{仅用于训练}。这里的隐变量 可以理解为Tacotron / FastSpeech中的梅尔频谱。解码器Decoder。如上图a左上部分所示解码器从提取的隐变量 中生成语音波形这个解码器实际就是声码器HiFi-GAN V1的生成器。应用于多人模型时在说话人嵌入向量之后添加一个线性层拼接到 的输出隐变量 。先验编码器。如上图a右侧部分所示先验编码器结构比较复杂作用类似于Tacotron / FastSpeech的声学模型只不过VITS是将音素映射为中间表示 而不是将音素映射为频谱。包括文本编码器和提升先验分布复杂度的标准化流 。应用于多人模型时向标准化流的残差模块中添加说话人嵌入向量。随机时长预测器Stochastic Duration Predictor。如上图a右侧中间橙色部分。从条件输入 估算音素时长的分布。应用于多人模型时在说话人嵌入向量之后添加一个线性层并将其拼接到文本编码器的输出 。判别器。实际就是HiFi-GAN的多周期判别器在上图中未画出{仅用于训练}。目前看来对于任意语音合成模型加入判别器辅助都可以显著提升表现。 3.2 变分推断 VITS可以看作是一个最大化变分下界也即ELBOEvidence Lower Bound的条件VAE。   六、声码器Vocoder 声码器Vocoder又称语音信号分析合成系统负责对声音进行分析和合成主要用于合成人类的语音。声码器主要由以下功能分析Analysis操纵Manipulation合成Synthesis 分析过程主要是从一段原始声音波形中提取声学特征比如线性谱、MFCC操纵过程是指对提取的原始声学特征进行压缩等降维处理使其表征能力进一步提升合成过程是指将此声学特征恢复至原始波形。人类发声机理可以用经典的源-滤波器模型建模也就是输入的激励部分通过线性时不变进行操作输出的声道谐振部分作为合成语音。输入部分被称为激励部分Source Excitation Part激励部分对应肺部气流与声带共同作用形成的激励输出结果被称为声道谐振部分Vocal Tract Resonance Part对应人类发音结构而声道谐振部分对应于声道的调音部分对声音进行调制。 声码器的发展可以分为两个阶段包括用于统计参数语音合成Statistical Parameteric Speech SynthesisSPSS基于信号处理的声码器和基于神经网络的声码器。常用基于信号处理的声码器包括Griffin-LimSTRAIGHT 和 WORLD。早期神经声码器包括WaveNet、WaveRNN等近年来神经声码器发展迅速涌现出包括MelGAN、HiFiGAN、LPCNet、NHV等优秀的工作。 1. Griffin-Lim声码器 Probabilistic formulation 重要的TTS范式。WaveNet 最早是作为文本到波形模型text-to-waveform推出的因此结合了声学模型acoustic model和声码器vocoding可根据附加信息进行局部和全局调节后来它被扩展为从输入频谱图spectrograms合成波形从而沦为传统声码器的角色。GAN 通常用于将频谱图映射为波形有效地充当声码器vocoders或从随机输入中 想象 波形因此包含了 TTS 管道的所有中间步骤以及决定输出何种文本的机制。Tacotron 利用 seq2seq 模型来学习音素/字符phonemes/characters到音频特征的映射从而隐含地将文本分析与声学模型acoustic model结合起来FastSpeech 在此基础上进行了迭代用 Transformers 代替了 RNN。 References 中文Speech Synthesis: Past, Present and Future (2019),ppt 英文Statistical approach to speech synthesis---past, present, and future2019 In Search of the Optimal Acoustic Features for Statistical Parametric Speech Synthesis  深度学习于语音合成研究综述-阿里云开发者社区 语音合成到了跳变点深度神经网络变革TTS最新研究汇总-腾讯云开发者社区-腾讯云 基于深度学习语音合成技术研究 - 知乎 整合向 1. 音频特征 — 张振虎的博客 张振虎 文档 GitHub - cnlinxi/book-text-to-speech: A book about Text-to-Speech (TTS) in Chinese.
http://www.yutouwan.com/news/187043/

相关文章:

  • 手机网站 qq代码鹤山网站建设易搜互联
  • 制作网站哪里做疾病预防控制中心
  • 做网站服装appwordpress的php版本
  • 鲜花拍卖网站建设市场分析长沙网站设计哪里好
  • 南浔城乡建设局网站.net和php那个做网站好
  • 深圳宝安区住房和建设局网站官网校园网站建设方案策划书
  • 模板网站演示站点怎么做如何建设网站 企业
  • 业务员自己做网站wordpress文章分页标题
  • 寻找做网站建筑行业做网站
  • 网站商品展示页怎么做怎么把网站放到空间
  • 免费的公司网站怎么做怎么打开网站
  • 哈尔滨市做网站优化网页设计 公司
  • 安卓手机怎么做网站网站程序更换
  • 网站素材图片网站建设哪些是需要外援的问题
  • 个人想建个网站怎么弄网站建设与管理代码样式
  • 网站建设中倒计时模板做海报 画册的素材网站
  • 3yx这个网站做刷单WordPress自动采集翻译插件
  • 个人网站 服务器八闽视频app下载
  • 劲松网站建设公司视频网站应该怎么做
  • 网站建设怎么提需求做百度手机网站优
  • 中国嘉兴门户网站武昌做网站多少钱
  • qingdao城乡住房建设厅网站怎么在地图上设置自己店的位置
  • 注销建设工程规划许可证在哪个网站海外网络服务商
  • 手机端网站开发书籍低代码平台的设计与实现
  • 超级采购小程序怎么注册杭州百度整站优化服务
  • 网站关键词表格下载网站开发与设计论文
  • 装修网站免费为你做的网站
  • 网络公司企业网站源码在线网页设计器
  • 如何将网站加入百度图 推广网络规划设计师备考
  • 关于域名用于非网站用途的承诺书某集团网站建设规划书