IT之家 11小时前
给 AI“补补课”:微软砸资源抢救欧洲小语种
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软在巴黎宣布两项重大举措,旨在保护欧洲语言和文化遗产,并提升其在人工智能时代的竞争力。这些计划是“欧洲数字承诺”的延伸,重点在于使欧洲语言和文化资产更容易在互联网和大型语言模型(LLMs)中得到体现。鉴于当前互联网内容和AI训练数据以英语为主导,欧洲的语言和文化面临被边缘化的风险。微软将集中资源在斯特拉斯堡的创新中心,利用Azure平台开发和整理多语言数据集,特别扩充10种使用人数较少的欧洲语言的训练数据,并向公众征集可用于AI开发的数字资料。同时,微软还将扩展“Culture AI”项目,与法国文化部合作,为巴黎圣母院打造高精度数字孪生,延续其在文化遗产数字化保护方面的努力。这些举措基于微软40余年的本地化经验,旨在通过开放数据、工具和专业知识,赋能欧洲企业和公民,守护欧洲珍贵遗产。

🌍 **保护欧洲语言文化,应对AI数据失衡:** 微软认识到当前互联网内容和AI训练数据中英语主导的现状,可能导致欧洲丰富的语言和文化遗产被边缘化。为此,微软将集中专业力量,在斯特拉斯堡的创新中心利用Microsoft Azure平台,开发和整理多语言数据集,以确保欧洲语言和文化资产在大语言模型中得到更好的体现和保护。

🗣️ **扩充小语种数据,提升AI包容性:** 微软将重点扩充10种使用人数较少的欧洲语言的训练数据,包括爱沙尼亚语、阿尔萨斯语、斯洛伐克语、希腊语和马耳他语等。此举旨在改善开源模型如Llama 3.1在非英语语言上的性能差距,让AI更能理解和回应欧洲多元化的语言需求,提升AI的包容性和服务能力。

🏛️ **文化遗产数字化,守护历史记忆:** 微软将扩展“Culture AI”项目,与法国文化部及专业遗产数字化机构Iconem合作,为巴黎圣母院创建高精度数字孪生。此举延续了其在希腊古奥林匹亚、法国圣米歇尔山等文化地标数字化保护的成功经验,旨在通过先进技术永久保存和传承欧洲珍贵的文化遗产。

💡 **开放合作与支持,赋能欧洲数字未来:** 微软面向公众征集可用于人工智能开发的数字文本、转录稿及其他资料,并为获选项目提供Azure积分、工程和技术支持。这些行动以“支持性”角色展开,旨在输出开放数据、工具和专业知识,而非专有资产,以此赋能欧洲企业和公民,共同应对数字时代的挑战,巩固欧洲在AI领域的竞争地位。

IT之家 7 月 22 日消息,微软在巴黎公布了两项重大举措,旨在保护欧洲语言和文化遗产,并进一步巩固欧洲在人工智能时代的竞争地位。这两项计划是对微软此前“欧洲数字承诺”的延续和升级,该承诺围绕扩展人工智能与云基础设施、强化数据隐私、提升网络韧性,以及支持欧洲整体数字竞争力四大方向展开。新举措的核心目标,是让欧洲语言和文化资产在互联网上更易获取,并在大语言模型(LLMs)中得到更好的体现。

欧洲拥有 200 多种语言,承载着跨越千年的文化积淀,长期以来为创意表达、商业活动、科技创新和跨境贸易提供支撑。然而,随着网络内容越来越以英语为主导,且大多呈现美式视角,欧洲的商业与文化在这种训练数据失衡的背景下面临被边缘化的风险。微软副董事长兼总裁布拉德・史密斯(Brad Smith)指出:“如果人工智能无法理解欧洲的语言、历史与价值观,它就无法真正服务于欧洲的人民、企业和未来。”

据IT之家了解,失衡的数据现状在模型评测中有直观体现。以开源模型 Llama 3.1 为例,其在希腊语上的得分比英语低 15 分以上,在拉脱维亚语上更是低 25 分以上,呈现出典型的“英语顶尖、希腊语中等、拉脱维亚语垫底”的分层现象,这一模式在主流大语言模型基准测试中都有出现。

为扭转这一局面,微软将在法国斯特拉斯堡的创新中心集中专业力量,依托 Microsoft Azure 平台开发和整理多语言数据集。来自微软开放创新中心(MOIC)与 AI for Good Lab 的团队,将与全欧洲的文化机构、学术伙伴及技术企业协作,重点扩充 10 种使用人数较少的欧洲语言的训练数据,包括爱沙尼亚语、阿尔萨斯语、斯洛伐克语、希腊语和马耳他语等。

与此同时,微软面向公众发布提案征集令,寻找可用于人工智能开发的数字文本、转录稿及其他资料。所有获选项目将获得 Azure 积分,以及工程与技术支援。申请通道将于 2025 年 9 月 1 日在 AI for Good Lab 官网正式上线。

在文化数字化方面,微软宣布今秋将扩展“Culture AI”项目,携手法国文化部与专业遗产数字化机构 Iconem,为拥有 862 年历史的巴黎圣母院打造高精度数字孪生。此前的 Culture AI 已成功完成希腊古奥林匹亚、法国圣米歇尔山、罗马圣彼得大教堂以及诺曼底盟军登陆海滩的数字化保存。

微软表示,这些新举措建立在该公司 40 余年的本地化经验之上:目前 Windows 已支持 90 多种语言,涵盖欧盟所有官方语言以及巴斯克语、加泰罗尼亚语、加利西亚语、卢森堡语和瓦伦西亚语等地区语言;Microsoft 365 的 Office 界面也提供 30 多种欧洲语言版本。通过把欧洲语言和文化资产深度融入 AI 与云平台,微软既希望守护欧洲大陆的珍贵遗产,也致力于为欧洲企业与公民在数字时代赋能。

微软方面强调,上述行动均以“支持性”角色展开:输出开放数据、工具与专业知识,而非任何专有资产。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

微软 人工智能 欧洲语言 文化遗产 AI for Good
相关文章