跳转到主要内容
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
ElevenLabs语音转文字节点可将音频文件转录为文本。它使用ElevenLabs的API将语音转换为书面文本,支持自动语言检测、识别不同说话者以及标记音乐、笑声等非语音声音。

输入

参数数据类型是否必填取值范围描述
音频AUDIO-待转录的音频。
模型COMBO"scribe_v2"用于转录的模型。选择此模型后会显示额外参数。
tag_audio_eventsBOOLEAN-在转录文本中标注(笑声)、(音乐)等声音。选择"scribe_v2"模型时显示此参数。(默认值:False)
diarizeBOOLEAN-标注当前说话者。选择"scribe_v2"模型时显示此参数。(默认值:False)
diarization_thresholdFLOAT0.1 - 0.4说话者分离灵敏度。数值越低对说话者变化越敏感。选择"scribe_v2"模型且启用diarize时显示此参数。(默认值:0.22)
temperatureFLOAT0.0 - 2.0随机性控制。0.0使用模型默认值,数值越高随机性越大。选择"scribe_v2"模型时显示此参数。(默认值:0.0)
timestamps_granularityCOMBO"word"
"character"
"none"
转录单词的时间精度。选择"scribe_v2"模型时显示此参数。(默认值:“word”)
语言代码STRING-ISO-639-1或ISO-639-3语言代码(例如’en’、‘es’、‘fra’)。留空则自动检测。(默认值:"")
说话人数INT0 - 32预测的最大说话者数量。设为0表示自动检测。(默认值:0)
种子INT0 - 2147483647用于结果复现的种子(不保证确定性)。(默认值:1)
注意: 当启用diarize选项时,num_speakers参数不能设置为大于0的值。您必须禁用diarize或将num_speakers设为0。

输出

输出名称数据类型描述
语言代码STRING音频转录后的文本。
单词 JSONSTRING检测到的音频语言代码。
words_jsonSTRING包含详细单词级别信息的JSON格式字符串,如果启用则包含时间戳和说话者标签。

Source fingerprint (SHA-256): aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1