PaperAgent 01月22日
JinaAI发布ReaderLM-v2,1.5B轻松拿捏HTML转JSON或MarkDown
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

ReaderLM-v2是一个拥有15亿参数的语言模型,专为HTML解析、转换和文本提取任务设计。它能将HTML高效转换为格式美观的Markdown或JSON,支持29种语言。相较于其他模型,ReaderLM-v2在处理复杂元素如代码块、嵌套列表、表格和LaTeX方程式时表现更出色,并能直接从HTML生成JSON,无需中间转换。其长文本处理能力高达512K标记,且通过对比损失缓解了长序列退化问题。ReaderLM-v2的训练过程结合三阶段数据生成与自我对弈强化学习,实现性能的持续提升。

🚀 **更优Markdown生成:** ReaderLM-v2凭借新的训练范式和高质量数据,能出色生成复杂元素,如代码块、嵌套列表、表格和LaTeX方程式。

✨ **JSON直接输出:** 该模型可以直接从HTML生成JSON,无需中间Markdown转换,简化了数据处理流程。

📚 **长文本处理能力:** ReaderLM-v2可处理高达512K标记的输入和输出,提升了长篇内容处理性能。

🌍 **多语言支持:** 全面支持29种语言,应用范围更广泛,满足不同语言需求。

💪 **稳定性增强:** 通过对比损失训练,有效缓解了生成长序列后的退化问题,保证输出质量。

2025-01-20 09:30 湖北

ReaderLM-v2 是一个拥有1.5B参数的语言模型,能够将原始的HTML转换为格式美观的Markdown或JSON,具有更高的准确性和改进的长文本处理能力。

ReaderLM-v2支持多种语言(共29种),专门用于涉及HTML解析、转换和文本提取的任务。

ReaderLM-v2 与 ReaderLM 1.5b、Claude 3.5 Sonnet 以及 Gemini 2.0 Flash 在处理 HackerNews 首页 HTML 转 Markdown 任务对比中,转换结果完整、层次结构清晰。

ReaderLM-v2特点

ReaderLM-v2训练过程

结合三阶段数据生成(起草-改进-评估)与自我对弈强化学习,实现持续提升。


https://github.com/OpenBMB/MiniCPM-o/tree/main

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ReaderLM-v2 HTML解析 Markdown转换 JSON输出 长文本处理
相关文章