本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑TextEncodeAceStepAudio1.5 节点用于准备文本和音频相关元数据,以供 AceStepAudio 1.5 模型使用。它接收描述性标签、歌词和音乐参数,然后利用 CLIP 模型将其转换为适用于音频生成的 conditioning 格式。
输入
| 参数 | 数据类型 | 是否必填 | 范围 | 描述 |
|---|---|---|---|---|
clip | CLIP | 是 | 不适用 | 用于对输入文本进行分词和编码的 CLIP 模型。 |
tags | STRING | 是 | 不适用 | 音频的描述性标签,例如流派、情绪或乐器。支持多行输入和动态提示。 |
lyrics | STRING | 是 | 不适用 | 音频轨道的歌词。支持多行输入和动态提示。 |
seed | INT | 否 | 0 到 18446744073709551615 | 用于可重复生成的随机种子值。具有 control_after_generate 控件。默认值:0。 |
bpm | INT | 否 | 10 到 300 | 生成音频的每分钟节拍数 (BPM)。默认值:120。 |
duration | FLOAT | 否 | 0.0 到 2000.0 | 音频的期望时长(秒)。默认值:120.0。 |
timesignature | COMBO | 否 | "2""3""4""6" | 音乐拍号。 |
language | COMBO | 否 | "ar""az""bg""bn""ca""cs""da""de""el""en""es""fa""fi""fr""he""hi""hr""ht""hu""id""is""it""ja""ko""la""lt""ms""ne""nl""no""pa""pl""pt""ro""ru""sa""sk""sr""sv""sw""ta""te""th""tl""tr""uk""ur""vi""yue""zh""unknown" | 输入文本的语言。默认值:“en”。 |
keyscale | COMBO | 否 | "C major""C minor""C# major""C# minor""Db major""Db minor""D major""D minor""D# major""D# minor""Eb major""Eb minor""E major""E minor""F major""F minor""F# major""F# minor""Gb major""Gb minor""G major""G minor""G# major""G# minor""Ab major""Ab minor""A major""A minor""A# major""A# minor""Bb major""Bb minor""B major""B minor" | 音乐调性和音阶(大调或小调)。 |
generate_audio_codes | BOOLEAN | 否 | 不适用 | 启用生成音频编码的 LLM。此过程可能较慢,但会提高生成音频的质量。如果您为模型提供音频参考,请关闭此选项。默认值:True。 |
cfg_scale | FLOAT | 否 | 0.0 到 100.0 | 无分类器引导比例。值越高,输出越严格遵循提示。默认值:2.0。 |
temperature | FLOAT | 否 | 0.0 到 2.0 | 采样温度。值越低,输出越具有确定性。默认值:0.85。 |
top_p | FLOAT | 否 | 0.0 到 2000.0 | 核采样概率 (top-p)。默认值:0.9。 |
top_k | INT | 否 | 0 到 100 | 要考虑的最高概率 token 数量 (top-k)。默认值:0。 |
min_p | FLOAT | 否 | 0.0 到 1.0 | token 采样的最小概率阈值 (min-p)。默认值:0.000。 |
输出
| 输出名称 | 数据类型 | 描述 |
|---|---|---|
CONDITIONING | CONDITIONING | conditioning 数据,包含为 AceStepAudio 1.5 模型编码的文本和音频参数。 |
Source fingerprint (SHA-256):
df70a55024812d8c77a3b618cbff6d3148a3f3f5fc4d17dd3c4282ce7f3cbc2c