2025-01-20 09:30 湖北
ReaderLM-v2 是一个拥有1.5B参数的语言模型,能够将原始的HTML转换为格式美观的Markdown或JSON,具有更高的准确性和改进的长文本处理能力。
ReaderLM-v2支持多种语言(共29种),专门用于涉及HTML解析、转换和文本提取的任务。
ReaderLM-v2 与 ReaderLM 1.5b、Claude 3.5 Sonnet 以及 Gemini 2.0 Flash 在处理 HackerNews 首页 HTML 转 Markdown 任务对比中,转换结果完整、层次结构清晰。
ReaderLM-v2特点
更好的Markdown生成:得益于其新的训练范式和更高质量的训练数据,该模型在生成复杂元素(如代码块、嵌套列表、表格和LaTeX方程式)方面表现出色。
JSON输出:引入了使用预定义模式直接从HTML生成JSON的功能,无需中间的Markdown转换。
长文本处理:能够处理长达512K标记的组合输入和输出长度,在长篇内容处理上性能得到提升。
多语言支持:全面支持29种语言,应用范围更广。
稳定性增强:通过在训练过程中使用对比损失,大大缓解了生成长序列后的退化问题。
ReaderLM-v2训练过程
结合三阶段数据生成(起草-改进-评估)与自我对弈强化学习,实现持续提升。
https://github.com/OpenBMB/MiniCPM-o/tree/main
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。