IT之家 7小时前
香港特区立法会投用科大讯飞“智识听”系统:实时准确率 96%,特殊口音也能应对
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科大讯飞与香港特区立法会合作推出的“智识听”智慧誊录系统,旨在提升会议直播的字幕功能。该系统运用科大讯飞中英粤混读引擎,结合声纹识别和字幕压制技术,实现了会议直播中文字与视频画面的同轨显示,方便公众获取政策资讯。系统深度学习了大量语料和香港特色关键词,能够实时适配议员的口音、地名和混语发言,准确率高达96%,并可达99%。该系统历时近3年研发,已迭代至3.0版本支持实时字幕,未来还将支持英语及多语种字幕,并有望应用于香港立法会的智慧办公系统。

💡“智识听”系统通过中英粤混读引擎、声纹识别及字幕压制技术,实现会议直播中的实时字幕与视频画面同轨显示,方便公众获取政策资讯。

🚀 该系统经过2.5亿字语料、400小时音频和20万条香港特色关键词的深度学习,能高效处理议员的特殊口音、新地名及中英粤混杂发言,实时准确率达96%。

⏱️ “智识听”的研发历时近3年,从最初的录音转文字功能发展到支持实时字幕,极大地提高了议事录的发布效率,将发布时间从7个工作日缩短至第二天。

🌐 未来,“智识听”将继续升级,准备建设英语字幕和多语种字幕系统,并计划基于星火大模型推进香港立法会的智慧办公系统建设。

IT之家 8 月 4 日消息,据科大讯飞官方公众号,香港特区立法会与科大讯飞联合打造了智慧誊录系统“智识听”,可深度识别立法会场景的实时字幕功能,运用科大讯飞中英粤混读引擎,结合声纹识别和字幕与帧画面对齐压制技术,实现会议直播中文字和视频画面的同轨显示,公众可通过实时字幕无障碍获取政策资讯。

“智识听”深度学习 2.5 亿字语料、400 小时音频、20 万条香港特色关键词,口音、新地名、混语发言实时适配,即使面对议员特殊口音或复杂地名也能高效处理。目前,实时字幕的准确率达 96%,通过幕后同事的即时修正,准确率通过人机结合可达 99%。

IT之家从官方获悉,“智识听”正式调研、研发、上线历时近 3 年,1.0 版具备录音转文字功能,2.0 引入对实时转文字的支持,3.0 版则开始支持实时字幕。为解决粤语俚语及法律专业术语较多、部分议员存在口音、中英粤混杂等问题,立法会秘书处整理了 2.5 亿汉字的中英文对照和 20 万个高频粤语词汇,将其作为语料库提供给机器学习。经过数据和算法的优化和不断地训练,立法会会议实时字幕的准确率达 96%。

原先,需要 7 个工作日才能发布的议事录,会议召开后第二天即可发布。目前智识听四期正在准备中,该期将建设英语字幕和多语种字幕系统。同时,基于星火大模型的进步,香港立法会的智慧办公系统也提上日程。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

科大讯飞 香港立法会 智慧誊录 实时字幕 AI技术
相关文章