本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑LTXVConcatAVLatent 节点将视频潜在表示和音频潜在表示合并为单个拼接后的潜在输出。它会合并两个输入的
samples 张量,如果存在 noise_mask 张量也会一并合并,为视频生成流程中的后续处理做好准备。
输入
| 参数 | 数据类型 | 是否必填 | 范围 | 描述 |
|---|---|---|---|---|
video_latent | LATENT | 是 | 视频数据的潜在表示。 | |
audio_latent | LATENT | 是 | 音频数据的潜在表示。 |
video_latent 和 audio_latent 输入的 samples 张量会被拼接。如果任一输入包含 noise_mask,则会使用该掩码;如果缺少掩码,则会为其创建一个全为 1 的掩码(形状与对应的 samples 相同)。生成的掩码随后也会被拼接。
输出
| 输出名称 | 数据类型 | 描述 |
|---|---|---|
latent | LATENT | 一个包含拼接后 samples 以及(如果适用)来自视频和音频输入的拼接后 noise_mask 的单一潜在字典。 |
Source fingerprint (SHA-256):
322d6870f110fb1ef8b472cb49649cc9fff7865f4c7a83fbfd536f1fdfd694f8