跳转到主要内容
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
CLIP Vision Encode 节点是 ComfyUI 中的图像编码节点,用于通过 CLIP Vision 模型将输入图像转换为视觉特征向量。该节点是连接图像与文本理解的重要桥梁,广泛应用于各类 AI 图像生成与处理工作流中。 节点功能
  • 图像特征提取:将输入图像转换为高维特征向量
  • 多模态桥接:为图像与文本的联合处理提供基础
  • 条件生成:为基于图像的条件生成提供视觉条件

输入

参数名数据类型描述
clip视觉CLIP_VISIONCLIP 视觉模型,通常通过 CLIPVisionLoader 节点加载
图像IMAGE待编码的输入图像
裁剪Dropdown图像裁剪方式,选项:center(中心裁剪)、none(不裁剪)

输出

输出名数据类型描述
CLIP_VISION_OUTPUTCLIP_VISION_OUTPUT编码后的视觉特征
该输出对象包含:
  • last_hidden_state:最后隐藏状态
  • image_embeds:图像嵌入向量
  • penultimate_hidden_states:倒数第二隐藏状态
  • mm_projected:多模态投影结果(若存在)