index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
2024年,人工智能领域取得显著进展,但也面临挑战。AI在特定任务上超越人类,但在复杂任务上仍有局限。工业界主导AI研究,大型模型训练成本高昂,美国、中国和欧洲是主要贡献者。AI模型可靠性评估缺乏统一标准,生成式AI投资激增,AI提升了工作效率,推动科学和医疗发展。全球对AI潜在影响的意识增强,紧张情绪上升。此外,AI研究持续由工业界主导,公开源码模型增加,训练成本攀升,中国在AI专利方面领先。AI模型依赖大量数据,但高质量数据可能即将耗尽,基础模型在广泛数据集上训练并应用于多种场景。AI在特定任务上超越人类,但仍存在局限性,可靠性评估涉及隐私、数据治理等多个方面,AI对经济产生多方面影响,并在医疗和教育领域取得进展。
🤔 **AI在特定任务上超越人类,但在复杂任务上仍有局限性:**例如,AI在图像分类和语言理解方面表现出色,但在竞赛数学、多语言理解和视觉常识推理等任务上仍存在局限。这表明AI技术仍处于发展阶段,需要进一步提升其处理复杂任务的能力。
💰 **大型AI模型训练成本高昂,且AI模型可靠性评估缺乏统一标准:**例如,GPT-4的训练成本约为7800万美元,Gemini的训练成本约为1.91亿美元。同时,目前缺乏对AI模型可靠性的统一评估标准,这给AI的应用带来了挑战。
🌍 **美国、中国和欧洲是AI模型的主要贡献者,中国在AI专利方面领先:**这些国家和地区在AI领域投入了大量资源,推动了AI技术的发展。中国在AI专利方面取得了领先地位,展现了其在AI创新方面的实力。
📈 **AI提升了工作效率,推动了科学和医疗的发展,但同时也引发了对AI潜在影响的担忧:**AI应用于各个领域,提高了生产效率,加速了科学研究和医疗进步。但同时也引发了人们对AI潜在负面影响的担忧,例如工作岗位的减少、隐私安全等问题。
💡 **AI研究持续由工业界主导,基础模型在广泛数据集上训练并应用于多种场景:**工业界在AI研究中发挥着主导作用,尤其在机器学习模型的产出上。基础模型在广泛的数据集上进行训练,具有多功能性,并被应用于各种下游任务,例如自然语言处理、图像识别等。
在2024年,人工智能(AI)领域取得了显著的进展,但也面临着挑战。AI 在特定任务上超越了人类,如图像分类和语言理解,但在更复杂的任务上仍有局限。工业界在 AI 研究中发挥了主导作用,尤其在机器学习模型的产出上。训练大型AI模型的成本不断上升,例如 GPT-4 花了约 7800 万美金的,Gemini 花了约 1.91 亿美金。
美国、中国和欧洲是AI模型的主要贡献者,其中中国在 AI 专利方面领先。AI 模型的可靠性评估缺乏统一标准,生成式 AI 投资激增,AI 提高了工作者的效率和质量,加速了科学和医疗的发展,美国 AI 相关条款发布数量急剧增加,全球对 AI 潜在影响的意识增强,紧张情绪上升。AI 研究继续由工业界主导,公开源码的模型数量增加,训练成本上升,美国、中国和欧洲在 AI 大模型发展上占主导地位。中国在 AI 专利方面占据领先地位,GitHub上的 AI 研究资源和相关论文发表数量持续增长。从 2010 年到 2022 年,AI 相关的论文发表数量逐年增加,美国在发布优秀的机器学习模型数量上保持世界首位。AI模型的发展依赖于大量数据,但有担忧表示,计算机科学家可能很快就会用尽高质量数据。尽管合成数据可以缓解这一问题,但使用合成数据训练的模型可能会出现性能下降。基础模型在广泛的数据集上训练,具有多功能性,并适用于许多下游应用。这些模型在实际场景中的部署越来越多,不同国家和组织在基础模型的发布数量上有所不同。训练大型AI模型的成本不断上升,达到数千万美元甚至数亿美元。这表明了 AI 领域在资源投入方面的增长。AI 在特定任务上超越了人类,多模态AI模型的出现,如 Google 的 Gemini 和 OpenAI 的 GPT-4,展示了处理图像和文本信息的能力。新的 benchmarks 评估集的出现,如 SWE-bench 和 HEIM,以及人类评估的引入,如聊天机器人竞技场排行榜,反映了 AI 技术性能的提升。2023 年见证了多个重要 AI 模型的发布,包括 Anthropic 的 Claude、OpenAI 的 GPT-4、Stability AI 的 Stable Diffusion v2 等,这些模型在多项benchmarks 中超越了人类水平。AI 在图像分类、英语理解和自然语言推理等任务中超越了人类,但在竞赛数学、多语言理解和视觉常识推理等任务上仍有局限。新的评估集如 MMMU、GPQA 和 ARC 的出现,旨在评估 AI 的多学科推理能力和抽象归纳能力。尽管 AI 模型在这些评估中取得了一定的成绩,但与人类专家相比仍有差距。基于大型语言模型的AI代理在特定场景中自动处理任务的能力得到了提升,如 AgentBench 评估的基于 LLM 的 25 个 agents。RLHF 和 RLAIF 是两种基于强化学习的方法,用于训练 AI 模型以更好地符合人类的偏好和反馈。RLAIF 在生成无害对话任务中表现优于RLHF。随着时间的推移,LLM 的效果有所变化。一些研究表明,随着新数据和用户反馈的加入,某些任务的效果可能出现下降。包括 prompting、OPRO 和 fine-tuning 在内的多种技术被用来提升 LLM 的效果。这些技术通过不同的方法优化模型性能,如通过自然语言描述任务或减少内存需求。训练大型 AI 模型消耗大量资源并释放二氧化碳,对环境造成影响。尽管如此,AI 系统也可以用于预测城市空气质量和优化能源使用,从而对环境产生积极影响。AI 的可靠性评估涉及隐私、数据治理、透明性和可解释性、安全性和公平性等多个方面。目前,对 LLM 的全面标准评估存在缺陷,政治伪造内容的产生和检测成为一个问题,ChatGPT 在政治上的偏见也引起了关注。
4.1 AI 可靠性定义
AI 的可靠性从数据治理、可解释性、公平性、隐私、安全性和透明性等多个维度进行定义和评估。
AI 对经济的影响是多方面的,包括提高生产效率、改变工作市场和投资趋势。生成式AI的投资增长迅速,AI 相关工作职位数量减少,但 AI 降低了企业支出并提升了收益。中国在工业机器人领域占据主导地位,AI 提高了工作者的产能和效率。《财富》500 强公司越来越多地讨论人工智能,特别是生成式 AI。
5.1 AI 重大新闻
2023年,AI 领域发生了多项重大新闻,包括 BioNTech 收购 AI 公司InstaDeep、微软对 OpenAI 的投资、GitHub Copilot 的发布、Einstein GPT 和微软 Office 的融合、Bloomberg 使用 LLM 进行金融数据分析等。
5.2 工作信息
AI 相关工作在工作市场占比有所变化,美国 AI 工作技能的需求有所下降,但香港对 AI 人才的需求相对较高。全球新兴成立的 AI 公司数量持续增加。
5.3 开发者对 AI 工具使用情况
开发者对 AI 工具的使用情况显示,GitHub Copilot 和 ChatGPT 的使用量最高,云服务平台的使用也相当普遍。
AI 在医疗和教育领域的应用取得了显著进展。AI 加快了科技进步,如 AlphaDev 和 GNoME 的应用。在医疗领域,AI系统如 EVEscape 和 AlphaMissence 的发布提高了疾病预测和基因分类的效率。FDA 批准的 AI 相关医疗设备数量增加,国际上人工智能相关的学位课程也在迅速增加。
一起“点赞”三连↓