IT之家 2024年11月14日
讯飞星火多模态交互大模型上线,数字人、语音、视觉支持一键调用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

讯飞星火多模态交互大模型正式推出,实现音视频流实时多模交互,新增多种能力,支持一键调用。其数字人技术先进,能精准匹配动作与语音,实现跨模态语义一致,还支持多种交互方式,用户可与数字人进行多种形式交流。

🎉讯飞星火多模态交互大模型实现多模交互,新增多种能力

🤖首发超拟人数字人技术,动作精准匹配语音,情感表达连贯

🎙️支持超拟人极速交互,端到端建模,响应快速流畅

👀支持多模态视觉交互,全面感知信息,精准理解任务

IT之家 11 月 14 日消息,“讯飞开放平台”公众号今天傍晚宣布,讯飞星火多模态交互大模型正式上线,其实现从语音交互拓展到音视频流实时多模交互,新增“多模态、超拟人和个性化”能力,实现语音、视觉、数字人交互三合一,支持一键调用。

据介绍,讯飞星火多模态交互大模型首发超拟人数字人技术,数字人躯干和四肢动作能够精准匹配语音内容,快速生成表情和动作,令 AI“栩栩如生”。通过统一文本、语音和表情,能够实现跨模态的语义一致性,从而使大模型情感表达真实连贯。

其支持超拟人极速交互,采用统一神经网络直接实现语音到语音的端到端建模,响应更快速、流畅,可敏锐感知情绪变化,也可根据指令自由变换声音的节奏、大小和人设

其支持多模态视觉交互,能够“听懂世界”“认清万物”,更全面感知具体背景场景、物流状态等信息,对任务的理解更加精准,并通过语音、手势、行为、情绪等进行综合判断,作出合适的回复。

据IT之家此前报道,用户可与数字人进行语音、视频通话,数字人可实现与用户的自然语音对话,人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互,可让数字人识别摄像头中的内容,比如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

讯飞星火 多模态交互 超拟人数字人 智能体验
相关文章