跳转到主要内容
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
WanSoundImageToVideo 节点可根据图像生成视频内容,并支持可选的音频条件控制。该节点接收正面和负面条件提示以及 VAE 模型来创建视频潜在表示,并可结合参考图像、音频编码、控制视频和运动参考来引导视频生成过程。

输入

参数数据类型是否必填范围描述
正面提示词CONDITIONING-正面条件提示,用于引导生成视频中应出现的内容
负面提示词CONDITIONING-负面条件提示,用于指定生成视频中应避免的内容
VAEVAE-用于编码和解码视频潜在表示的 VAE 模型
宽度INT16 至 MAX_RESOLUTION输出视频的宽度(像素),默认值:832,必须能被 16 整除
高度INT16 至 MAX_RESOLUTION输出视频的高度(像素),默认值:480,必须能被 16 整除
长度INT1 至 MAX_RESOLUTION生成视频的帧数,默认值:77,必须能被 4 整除
批次大小INT1 至 4096同时生成的视频数量,默认值:1
音频编码器输出AUDIOENCODEROUTPUT-可选的音频编码,可根据声音特征影响视频生成
参考图像IMAGE-可选的参考图像,为视频内容提供视觉引导
控制视频IMAGE-可选的控制视频,用于引导生成视频的运动和结构
参考动作IMAGE-可选的运动参考,为视频中的运动模式提供引导

输出

输出名称数据类型描述
负面提示词CONDITIONING经过修改以适应视频生成的正面条件处理结果
潜变量CONDITIONING经过修改以适应视频生成的负面条件处理结果
latentLATENT在潜在空间中生成的视频表示,可解码为最终视频帧

Source fingerprint (SHA-256): f80f82b8671294a14ecfecf91bc13febae0c91c5efa438467a4413d52dc82d3f