本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
CLIP Vision Encode 节点是 ComfyUI 中的图像编码节点,用于通过 CLIP Vision 模型将输入图像转换为视觉特征向量。该节点是连接图像与文本理解的重要桥梁,广泛应用于各类 AI 图像生成与处理工作流中。
节点功能
- 图像特征提取:将输入图像转换为高维特征向量
- 多模态桥接:为图像与文本的联合处理提供基础
- 条件生成:为基于图像的条件生成提供视觉条件
输入
| 参数名 | 数据类型 | 描述 |
|---|---|---|
clip视觉 | CLIP_VISION | CLIP 视觉模型,通常通过 CLIPVisionLoader 节点加载 |
图像 | IMAGE | 待编码的输入图像 |
裁剪 | Dropdown | 图像裁剪方式,选项:center(中心裁剪)、none(不裁剪) |
输出
| 输出名 | 数据类型 | 描述 |
|---|---|---|
| CLIP_VISION_OUTPUT | CLIP_VISION_OUTPUT | 编码后的视觉特征 |
last_hidden_state:最后隐藏状态image_embeds:图像嵌入向量penultimate_hidden_states:倒数第二隐藏状态mm_projected:多模态投影结果(若存在)