跳转到主要内容
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
TextEncodeHunyuanVideo_ImageToVideo 节点通过将文本提示与图像嵌入相结合,为视频生成创建条件数据。它使用 CLIP 模型处理文本输入和来自 CLIP 视觉输出的视觉信息,然后根据指定的图像交错设置生成融合这两种来源的令牌。

输入

参数数据类型是否必填范围描述
clipCLIP-用于分词和编码的 CLIP 模型
clip视觉输出CLIP_VISION_OUTPUT-来自 CLIP 视觉模型的视觉嵌入,提供图像上下文
提示STRING-用于指导视频生成的文本描述,支持多行输入和动态提示
图像交错INT1-512图像相对于文本提示的影响程度。数值越大,文本提示的影响越大。(默认值:2)

输出

输出名称数据类型描述
CONDITIONINGCONDITIONING结合文本和图像信息用于视频生成的条件数据

Source fingerprint (SHA-256): ee748bd1fb1733593eb4cb1187c5cc279171163cfbc389f039378d0e366fc231