PaperAgent 2024年07月02日
腾讯AI Lab技术报告:一种以10亿人物角色驱动的新颖数据构造方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

提出人物角色驱动的数据合成方法,利用LLM创建多样化合成数据,解决以往方法可扩展性限制问题。

🎭人物角色驱动的数据合成方法,利用大型语言模型中的多种视角,创建多样化的合成数据,可与多种数据合成提示配合工作。

📚‘人物角色库’是从网络数据自动策划的包含10亿个不同人格的集合,作为世界知识的分布式载体,促进大规模多样化合成数据的创建。

🔄角色库采用Text-to-Persona和Persona-to-Persona两种可扩展方法,前者通过特定文本推断特定人格,后者从已有人格衍生出具有人际关系的其他人格。

💻通过‘人物角色库’可合成多种类型数据,如高质量数学和逻辑推理问题、指令、知识丰富的文本、游戏NPC等。

2024-07-01 18:55 湖北

大规模创建合成数据并非易事,尤其是确保数据的多样性。以往的研究尝试通过实例驱动或关键点驱动的方法来增加数据的多样性,但这些方法在可扩展性上存在限制。

为了解决这些问题,提出了一种新颖的人物角色(Personas)驱动的数据合成方法,利用大型语言模型(LLM)中的多种视角来创建多样化的合成数据。

人物角色可以与广泛的数据合成提示(例如,创建一个数学问题或用户提示)一起工作,以指导大型语言模型(LLM)合成具有相应视角的数据。人物角色中心中的10亿个人物角色可以促进在十亿规模上为各种数据合成场景创建合成数据。


“人物角色库”(Persona Hub):一个从网络数据自动策划的包含10亿个不同人格的集合。这些人格作为世界知识的分布式载体,可以深入LLM中的几乎所有视角,从而促进大规模创建多样化的合成数据。角色库采用了两种可扩展的方法:Text-to-Persona和Persona-to-Persona。

文本到人物角色的方法:它可以使用任何文本作为输入,只需通过提示大型语言模型“谁可能[阅读|写作|喜欢|不喜欢|...这个文本?]”,就可以获得相应的角色

角色到角色方法:通过人际关系获取多样化的角色,这可以通过向大型语言模型提问“谁是与给定角色有密切关系的人?”来轻松实现。

通过“人物角色库”合成高质量数学和逻辑推理问题、指令(即用户提示)、知识丰富的文本、游戏NPC和工具(功能)的用例。

人格驱动的合成数据创建:零样本、少样本和增强型少样本提示方法

工具(函数)调用类型数据

使用人物角色库创建工具(函数)的示例

知识丰富的文本类型数据

使用人物角色库进行知识丰富纯文本合成的示例

逻辑推理类型数据

人物角色驱动方法论创建的逻辑推理问题

游戏NPC类型数据

在《魔兽世界》游戏中使用人物角色中的角色来创建非玩家角色(NPC)

在《天涯明月刀》游戏中使用人物角色中的角色来创建非玩家角色(NPC)

https://arxiv.org/pdf/2406.20094Scaling Synthetic Data Creation with 1,000,000,000 Personashttps://github.com/tencent-ailab/persona-hubhttps://huggingface.co/datasets/proj-persona/PersonaHub

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人物角色 数据合成 大型语言模型 可扩展性
相关文章