机器学习初学者 2024年10月04日
卷!真年头,高中生都发了AI顶会!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

人大附中吴悠同学以一篇名为《Vision-Braille:An End-to-End Tool for Chinese Braille Image-to-Text Translation》的论文入选NeurIPS 2024,该论文提出了一种中文盲文图像到文本的端到端翻译工具,旨在解决中文盲文翻译领域数据稀缺、盲文数据特殊性和同音字混淆等问题。该项目基于谷歌的mT5模型,采用Curriculum Learning(课程学习)方法微调出了一个盲文翻译模型,并构建了一组中文-盲文数据集,包括Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone和Chinese-Braille-10per-Tone。最终实验结果显示,该模型的BLEU得分分别达到了62.4和62.3,显著提高了盲文翻译的准确度。

🧠 该论文提出了一种中文盲文图像到文本的端到端翻译工具,旨在解决中文盲文翻译领域数据稀缺、盲文数据特殊性和同音字混淆等问题。

📚 项目基于谷歌的mT5模型,采用Curriculum Learning(课程学习)方法微调出了一个盲文翻译模型,并构建了一组中文-盲文数据集,包括Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone和Chinese-Braille-10per-Tone。

📊 实验结果显示,该模型的BLEU得分分别达到了62.4和62.3,显著提高了盲文翻译的准确度。

🎉 该项目由人大附中吴悠同学完成,目前已进入康奈尔大学就读计算机和生物医药工程专业。

🏆 NeurIPS是AI领域顶级会议,此次高中生论文入选,展现了年轻一代在AI领域的潜力和实力。

2024-10-04 12:02 浙江

AI 人才,从娃娃抓起。

最新:NeurIPS 顶会,来源:量子位

AI人才,从娃娃抓起!

培养 AI 人才,要从娃娃抓起,这句话似乎越来越不像开玩笑了。

今年,NeurIPS率先把AI顶会卷到了高中里。现在结果终于出炉,北京大学计算机学院的张铭教授分享了一则入围消息:

人大附中吴悠,有一篇一作论文入选该赛道,还被选为了Spotlight Project。

NeurIPS 开设高中生赛道引爆AI社区

NeurIPS 在 AI 领域里的重要性是毋庸置疑的。

它与 ICML、ICLR 并称为机器学习领域难度最大,水平最高的会议。若论学术影响力则与 CVPR、ICLR 一起长期处于 Google Scholar 全球所有学科中期刊、顶会的前十名。

今年的 4 月 12 日,NeurIPS 开设高中生论文 Track 的消息引爆了人工智能社区。

NeurIPS 2024 邀请高中生提交有关机器学习社会影响主题的研究论文。同时参赛要求强调每份提交的作品必须完全由高中生作者独立完成。



中稿论文详情:端到端中文盲文图像到文本翻译工具

中稿的论文题为《Vision-Braille:An End-to-End Tool for Chinese Braille Image-to-Text Translation》,提出了一种中文盲文图像到文本的端到端翻译工具。


据张铭教授介绍,吴悠在2022年高一加入她的课题组时,就提出了这个项目的想法。

具体来说,该项目基于谷歌的mT5模型,采用Curriculum Learning(课程学习)方法微调出了一个盲文翻译模型。

其中的难点主要包括几个方面:

为此,论文作者们首先构建了一组中文-盲文数据集,包括Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone和Chinese-Braille-10per-Tone。

作者从莱比锡数据集中收集了100万个不同的中文句子,使用中文盲文在线平台提供的工具,将收集到的中文句子转换为“全音”盲文。

而后,为了模拟真实世界中盲文使用者省略声调的情况,作者识别出这些盲文中代表声调的部分,并随机去除了其中90%的声调,创建Chinese-Braille-10per-Tone以反映现实世界中中文盲文的使用情况。

数据按照8:1:1的比例被划分为训练集、验证集和测试集。

训练方法方面,作者使用RetinaNet来执行盲文OCR任务,将盲文图像转换为数字盲文字符。

接着,采用课程学习策略——即从简单到复杂地安排训练任务,分三个阶段微调了多语言Transformer模型mT5:

第一阶段:使用Chinese-Braille-Full-Tone数据集作为训练的简单部分,让模型学习基本的翻译规则。这个数据集中的盲文包含完整的声调信息。

第二阶段:使用Chinese-Braille-No-Tone数据集,让模型在没有声调信息的情况下,学会根据上下文猜测正确的中文字符。

第三阶段:使用Chinese-Braille-10per-Tone数据集,让模型更好地适应实际应用场景。

实验结果显示,在验证集和测试集上,该模型的BLEU得分分别达到了62.4和62.3,显著提高了盲文翻译的准确度。

论文作者已经放出了项目Demo,效果是酱婶的,感兴趣的小伙伴们可以戳文末链接自行测试:



(正确答案:不过,对于自己外向的性格,埃托奥说,“这就是真实的我,我不会为此改变。)

该项目是在吴悠高三时完成。张铭教授透露,他目前已进入康奈尔大学就读计算机和生物医药工程专业。

论文致谢中提到,吴悠主要是在张铭教授博士生、论文第二作者袁野的指导下完成了这项研究。

张铭,北京大学计算机学院教授,博士生导师,研究领域包括文本挖掘、知识图谱、图神经网络和计算机教育研究等。她合作发表的科研学术论文曾获ICML 2014最佳论文、ICDM 2022最佳论文提名等荣誉。Google Scholar显示,她的论文引用量接近2万,h指数为48。

论文地址:
https://arxiv.org/abs/2407.06048
Demo地址:
https://vision-braille.com/

往期精彩回顾





欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

NeurIPS AI 高中生 盲文翻译 mT5模型 Curriculum Learning
相关文章