ElevenLabsSpeechToText - ComfyUI Built-in Node Documentation

本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！在 GitHub 上编辑

ElevenLabs语音转文字节点可将音频文件转录为文本。它使用ElevenLabs的API将语音转换为书面文本，支持自动语言检测、识别不同说话者以及标记音乐、笑声等非语音声音。

输入

参数	数据类型	是否必填	取值范围	描述
`音频`	AUDIO	是	-	待转录的音频。
`模型`	COMBO	是	`"scribe_v2"`	用于转录的模型。选择此模型后会显示额外参数。
`tag_audio_events`	BOOLEAN	否	-	在转录文本中标注(笑声)、(音乐)等声音。选择`"scribe_v2"`模型时显示此参数。(默认值：False)
`diarize`	BOOLEAN	否	-	标注当前说话者。选择`"scribe_v2"`模型时显示此参数。(默认值：False)
`diarization_threshold`	FLOAT	否	0.1 - 0.4	说话者分离灵敏度。数值越低对说话者变化越敏感。选择`"scribe_v2"`模型且启用`diarize`时显示此参数。(默认值：0.22)
`temperature`	FLOAT	否	0.0 - 2.0	随机性控制。0.0使用模型默认值，数值越高随机性越大。选择`"scribe_v2"`模型时显示此参数。(默认值：0.0)
`timestamps_granularity`	COMBO	否	`"word"` `"character"` `"none"`	转录单词的时间精度。选择`"scribe_v2"`模型时显示此参数。(默认值：“word”)
`语言代码`	STRING	否	-	ISO-639-1或ISO-639-3语言代码（例如’en’、‘es’、‘fra’）。留空则自动检测。(默认值："")
`说话人数`	INT	否	0 - 32	预测的最大说话者数量。设为0表示自动检测。(默认值：0)
`种子`	INT	否	0 - 2147483647	用于结果复现的种子（不保证确定性）。(默认值：1)

注意： 当启用diarize选项时，num_speakers参数不能设置为大于0的值。您必须禁用diarize或将num_speakers设为0。

输出名称	数据类型	描述
`语言代码`	STRING	音频转录后的文本。
`单词 JSON`	STRING	检测到的音频语言代码。
`words_json`	STRING	包含详细单词级别信息的JSON格式字符串，如果启用则包含时间戳和说话者标签。

Source fingerprint (SHA-256): aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1