V2EX 前天 01:44
[Local LLM] 我做了一个 Ollama JSONL 批量推理工具,除了 Ollama 还支持 Deepseek 等 OpenAI Style 兼容 API
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一款针对Ollama部署的Qwen3 30B A3B模型设计的JSONL批量推理工具,旨在简化模型微调过程中数据预处理和负面数据生成的需求。该工具支持JSONL文件批量推理,方便用户快速处理数据,并提供了简单的使用方法,只需将JSONL文件放入指定目录即可运行。此外,该工具还支持Deepseek API,方便用户使用Deepseek的夜间半价服务,并提供了灵活的输出格式和并发控制选项。

💡作者开发了一款名为Onllama.OllamaBatch的工具,用于Ollama上部署的Qwen3 30B A3B模型进行JSONL批量推理,解决了用户在模型微调时对数据预处理和负面数据生成的需求。

🛠️使用该工具非常简单,用户只需将JSONL文件重命名为input.jsonl,放置在与程序相同的目录下,并根据需要修改JSONL中的模型名称或使用--model参数指定模型名称。此外,还需注意配置并发以优化推理速度。

🌐该工具支持Deepseek API,用户可以通过--use-oai、--oai-url和--oai-sk参数来调用Deepseek的API,并提供了--oai-output参数来控制输出格式。同时,工具还提供了针对不同厂商并发和RPM限制的参数,方便用户进行配置。

你好啊,

我最近在做模型微调时,需要对一些数据进行预处理和生成一些 DPO 使用 Rejected 的负面数据(虽然我后来才发现智谱的 GLM4-Flash 有提供免费的批量推理),我很自然的想要使用 Ollama 上部署的 Qwen3 30B A3B ,但是意外的发现似乎还没有 Ollama 适用的 JSONL 批量推理工具。我总觉得它本应该存在,于是我就做了一个。

https://github.com/mili-tan/Onllama.OllamaBatch

当然使用起来也非常简单,如果你的 Ollama 在默认端口最简单的方法是只需要将你的 JSONL 重命名成 input.jsonl 丢到和程序同一个目录底下然后运行就可以了,当然记得把 JSONL 中的模型名称改成你需要的模型名称,或者用 --model qwen3:30b 参数来指定你的模型名称。还有记得参考 这里 配置一下并发( CPU 推理和混合推理是没有并发的,改了环境变量似乎也没用)。更多的用法可以参考 --help 中的帮助。

顺带一提因为 Deepseek 的夜间半价,所以我也做了 OpenAI Style API 的支持,--use-oai --oai-url=https://api.deepseek.com/v1/chat/completions --oai-sk=sk-balabalabala 使用起来就像这样。另外因为我个人的偏好默认的输出格式是直接将助手的回答添加到消息列表中,如果你希望获得与 OpenAI 相似的包含result的结果你也可以使用 --oai-output 来指定。另外针对一些厂商的并发和 RPM 限制我也添加了一些对应的参数你也可以参考下 --help 来看看有没有合适的。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Ollama 批量推理 Qwen3 30B 模型微调 Deepseek API
相关文章