跳转到主要内容
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
LTXVConcatAVLatent 节点将视频潜在表示和音频潜在表示合并为单个拼接后的潜在输出。它会合并两个输入的 samples 张量,如果存在 noise_mask 张量也会一并合并,为视频生成流程中的后续处理做好准备。

输入

参数数据类型是否必填范围描述
video_latentLATENT视频数据的潜在表示。
audio_latentLATENT音频数据的潜在表示。
注意: 来自 video_latentaudio_latent 输入的 samples 张量会被拼接。如果任一输入包含 noise_mask,则会使用该掩码;如果缺少掩码,则会为其创建一个全为 1 的掩码(形状与对应的 samples 相同)。生成的掩码随后也会被拼接。

输出

输出名称数据类型描述
latentLATENT一个包含拼接后 samples 以及(如果适用)来自视频和音频输入的拼接后 noise_mask 的单一潜在字典。

Source fingerprint (SHA-256): 322d6870f110fb1ef8b472cb49649cc9fff7865f4c7a83fbfd536f1fdfd694f8