VoxCPM Logo

How to Use |使用说明

  1. (Optional) Provide a Voice Prompt - Upload or record an audio clip to provide the desired voice characteristics for synthesis.
    (可选)提供参考声音 - 上传或录制一段音频,为声音合成提供音色、语调和情感等个性化特征
  2. (Optional) Enter prompt text - If you provided a voice prompt, enter the corresponding transcript here (auto-recognition available).
    (可选项)输入参考文本 - 如果提供了参考语音,请输入其对应的文本内容(支持自动识别)。
  3. Enter target text - Type the text you want the model to speak.
    输入目标文本 - 输入您希望模型朗读的文字内容。
  4. Generate Speech - Click the "Generate" button to create your audio.
    生成语音 - 点击"生成"按钮,即可为您创造出音频。

Prompt Speech Enhancement|参考语音降噪

  • Enable to remove background noise for a clean, studio-like voice, with an external ZipEnhancer component.
    启用:通过 ZipEnhancer 组件消除背景噪音,获得更好的音质。
  • Disable to preserve the original audio's background atmosphere.
    禁用:保留原始音频的背景环境声,如果想复刻相应声学环境。

Text Normalization|文本正则化

  • Enable to process general text with an external WeTextProcessing component.
    启用:使用 WeTextProcessing 组件,可处理常见文本。
  • Disable to use VoxCPM's native text understanding ability. For example, it supports phonemes input ({HH AH0 L OW1}), try it!
    禁用:将使用 VoxCPM 内置的文本理解能力。如,支持音素输入(如 {da4}{jia1}好)和公式符号合成,尝试一下!

CFG Value|CFG 值

  • Lower CFG if the voice prompt sounds strained or expressive.
    调低:如果提示语音听起来不自然或过于夸张。
  • Higher CFG for better adherence to the prompt speech style or input text.
    调高:为更好地贴合提示音频的风格或输入文本。

Inference Timesteps|推理时间步

  • Lower for faster synthesis speed.
    调低:合成速度更快。
  • Higher for better synthesis quality.
    调高:合成质量更佳。

We use ZipEnhancer model to denoise the prompt audio.

1 3
4 30

We use wetext library to normalize the input text.