上海虚拟的场景

上海虚拟场景

像洛天依,初音未来的这些虚拟歌姬是怎么制作的,我也想制作

是使用日本雅马哈公司所开发的Vocaloid程序编辑出来的。软件采用Yamaha开发的“ Singing Articulation Splicing and Shaping”。先采集人类声音的标本,然后再制作歌声数据库,最后进行伴奏与歌声合成。

要想制作这种虚拟歌手,不仅要有资金,最重要的是它的技术,这不是有钱就能做到的,vocaloid的研发公司可是做了100多年的音乐产品了,其中的技术不是一时半会就能研发出来的。光是一个声库的研发成本就100万。

系统架构:

Vocaloid软件的系统架构(System architecture)分为三个部分:歌曲编辑器(Score Editor)、音源库(Singer Library)和合成引擎(Synthesis Engine)。

歌曲编辑器

歌曲编辑器(Score Editor)是一个可以输入音符、歌词和声音表达式的琴键界面。对于日语音源库来说,用户可以将平假名、片假名和日语罗马字以五十音歌词的方式输入。

对于英语音源库来说,编辑器会使用内置发音词典将歌词转换为国际音标注音符号。使用五十音和注音符号来进行编辑是为了让用户可以直接造词。

因为日语音源库和英语音源库共处于同一平台,所以虽然使用不同的输入法,但是日语编辑器依旧可以读取英语音源库,反之亦然。所有的Vocaloid歌曲编辑器皆可以读取所有的Vocaloid音源库。

正因为此,所有版本的歌曲编辑器除了菜单语言外本质上没有任何不同,因为整个程序的核心不在于编辑器而在于音源库。

歌曲编辑器提供不同的参数用于添加表达式和生成歌声,而用户的目标则是对这些参数进行优化。编辑器支持Rewire,并能与DAW同步。也支持用MIDI键盘进行实时回放(Real-time Playback)歌词所组合的乐曲。

音源库:

音源库(Singer Library)是Vocaloid系统架构的核心部分。每一个由Vocaloid授权的音源库或数据库都采样于真人实录片段。音源库的基础数据必须包含其目标语言可能包含的所有音素(phonemes)的所有组合。还包括双音素(相连的两个不同的音素)和长原音。

如果需要的话,数据库还需要有多音,暨三个及三个以上的音素相连的组合。举例说明,若声音对应的单词是“初”(chū),可以按顺序来串联合成“#-c,c-h,h-u,u-#”(#代表清音,不过现代汉语,或者说“普通话”是不需要清音的)的组合。

为了得到更自然的声音,需要不同音高范围的片段。日语有500种双音素组合,而英语则有2500种。

日语的双音素很少,主要是因为日语的音素少,并且有较多的以原音为结尾的开音节。在日语中,基本只有三种双音素含有辅音:“清音-辅音”、“元音-辅音”和“辅音-原音”,而在英语中很多的辅音后面会跟有闭音节。

例如双音素“辅音-辅音”和“辅音-清音”。因此,日语的组合难度较低,而英语则需要更多的双音节资料。也因为这个差异,日语音源库从理论上和技术上是无法去唱出英语词的。Vocaloid的所有版本也均不能支持这些操作。

合成引擎:

合成引擎(Synthesis Engine)是Vocaloid编辑器的综合处理中心。歌曲编辑器会向合成引擎传送一种被称为“Vocaloid MIDI”的乐谱信息,其包含Vocaloid专有的MIDI信息。

调整在频域内的不同片段音高和音色后,就会进行拼接并合成歌声。当Vocaloid从DAW作为VSTi来运行时,捆绑在内的VST插件会绕过歌曲编辑器并能直接将各种信息发送给合成引擎。

在歌曲中,一个音节的辅音音节首会在元音音节的音节首前发声,而音符的起始位置并非和音节的起始位置相同,而是和元音的音节首位置相同。

软件会实时调整合成乐谱的音符位置让其与元音的音节首位置重合,若不这么做歌曲会有延迟感。接下来合成引擎会自动调整音源库中样本的音调使其贴合乐谱,紧接着引擎会抚平两份声音样本连接处的不协调感。

经过上面步骤的处理,引擎会通过诸如快速傅里叶逆变换(IFFT)等技术输出合成声音。