2025-07-11 17:13 浙江
由声网和RTE开发者社区主要支持,基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的高性能模型,能够让 AI Agent 的交互体验更加自然
🎙️TEN VAD(语音活动检测)是一个轻量级、低延迟、低功耗、高准确率的模型,用于识别音频帧中是否有人声,判断一句话的开始和结束位置,并过滤掉无关音频。通过预处理,TEN VAD可以提高语音识别(STT)的准确性,并显著降低处理成本。
🗣️TEN Turn Detection(轮次检测)的核心功能是对话论次判断,支持中英文和全双工语音交互。它通过分析语言模式,判断说话者是在思考、犹豫,还是已经表达完毕,从而使AI能够更自然地进行回应,提升对话流畅度。
📊与WebRTC Pitch VAD和Silero VAD等模型相比,TEN VAD在延迟方面表现更优。TEN VAD能快速检测语音与非语音之间的切换,而Silero VAD存在数百毫秒的延迟。在多场景测试数据集上,TEN Turn Detection也展现出优异性能。
💡TEN VAD的应用案例表明,使用该模型后,音频传输数据量减少了62%,从而显著降低了语音服务成本。
🛠️文章提供了TEN VAD和TEN Turn Detection模型的链接,并提供了详细的实践教程,包括使用git clone克隆仓库、进入examples目录测试等步骤。此外,还提供了TEN轮次检测模型推理代码,方便开发者快速上手。
2025-07-11 17:13 浙江
由声网和RTE开发者社区主要支持,基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的高性能模型,能够让 AI Agent 的交互体验更加自然
01
TEN VAD:语音活动检测
02
TEN Turn Detection:轮次管理
03
性能对比
04
实践教程
2、进入 examples 目录git clone https://github.com/TEN-framework/ten-vad.git
cd ten-vad
apt install libc++-dev
3、测试cd ./examples
TEN 轮次检测模型推理代码python test.py s0724-s0730.wav out.txt
from modelscope import AutoTokenizer, AutoModelForCausalLM
import torch
# Load model and tokenizer
model_id = 'TEN-framework/TEN_Turn_Detection'
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
# Move model to GPU
model = model.cuda()
model.eval()
# Function for inference
def analyze_text(text, system_prompt=""):
inf_messages = [{"role":"system", "content":system_prompt}] + [{"role":"user", "content":text}]
input_ids = tokenizer.apply_chat_template(
inf_messages,
add_generation_prompt=True,
return_tensors="pt"
).cuda()
with torch.no_grad():
outputs = model.generate(
input_ids,
max_new_tokens=1,
do_sample=True,
top_p=0.1,
temperature=0.1,
pad_token_id=tokenizer.eos_token_id
)
response = outputs[0][input_ids.shape[-1]:]
return tokenizer.decode(response, skip_special_tokens=True)
# Example usage
text = "Hello I have a question about"
result = analyze_text(text)
print(f"Input: '{text}'")
print(f"Turn Detection Result: '{result}'")
点击阅读原文,即可跳转模型链接~
👇点击关注ModelScope公众号获取
更多技术信息~
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑