(Optional) Provide a Voice Prompt - Upload or record an audio clip to provide the desired voice characteristics for synthesis. (可选)提供参考声音 - 上传或录制一段音频,为声音合成提供音色、语调和情感等个性化特征
(Optional) Enter prompt text - If you provided a voice prompt, enter the corresponding transcript here (auto-recognition available). (可选项)输入参考文本 - 如果提供了参考语音,请输入其对应的文本内容(支持自动识别)。
Enter target text - Type the text you want the model to speak. 输入目标文本 - 输入您希望模型朗读的文字内容。
Generate Speech - Click the "Generate" button to create your audio. 生成语音 - 点击"生成"按钮,即可为您创造出音频。
Prompt Speech Enhancement|参考语音降噪
Enable to remove background noise for a clean, studio-like voice, with an external ZipEnhancer component. 启用:通过 ZipEnhancer 组件消除背景噪音,获得更好的音质。
Disable to preserve the original audio's background atmosphere. 禁用:保留原始音频的背景环境声,如果想复刻相应声学环境。
Text Normalization|文本正则化
Enable to process general text with an external WeTextProcessing component. 启用:使用 WeTextProcessing 组件,可处理常见文本。
Disable to use VoxCPM's native text understanding ability. For example, it supports phonemes input ({HH AH0 L OW1}), try it! 禁用:将使用 VoxCPM 内置的文本理解能力。如,支持音素输入(如 {da4}{jia1}好)和公式符号合成,尝试一下!
CFG Value|CFG 值
Lower CFG if the voice prompt sounds strained or expressive. 调低:如果提示语音听起来不自然或过于夸张。
Higher CFG for better adherence to the prompt speech style or input text. 调高:为更好地贴合提示音频的风格或输入文本。
Inference Timesteps|推理时间步
Lower for faster synthesis speed. 调低:合成速度更快。
Higher for better synthesis quality. 调高:合成质量更佳。
We use ZipEnhancer model to denoise the prompt audio.
13
430
We use wetext library to normalize the input text.