即刻AI圈子 2024年08月22日
技术小白入门大模型微调,原来如此简单~ 我和wildcard的客服人员,都挺有耐心的。我们一共换了3个卡号,换了3个 OpenAI 账号,花了两天时间。终于,充了 10 美...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文讲述技术小白进行大模型微调的经历,包括更换账号、充值,使用智谱glm-4-flash微调及处理数据集等,强调其简单易行及AI的助力作用。

🎯我在等待过程中用智谱glm-4-flash微调,放不到2000条的B站评论数据集,效果就较明显,且花费少、时间短,让我认识到技术小白也可微调大模型。

💡之前以为微调门槛高,实际测试后发现只要有手有数据就行,难点在于数据集的获取和梳理,我从网上找了UP主林亦的数据集并进行处理。

📄林亦代码格式与OpenAI和智谱要求不同,我用Excel公式提取和组装数据,这些公式是让Claude帮忙写的,经多次修改才成功。

🤝我发现只要会和AI一起用Excel,很多数据集都可为我所用,不用自己爬取,如用别人抓取的数据集做SEO,流量玩家学会微调后能更快进步。

技术小白入门大模型微调,原来如此简单~

我和wildcard的客服人员,都挺有耐心的。我们一共换了3个卡号,换了3个 OpenAI 账号,花了两天时间。终于,充了 10 美元。

不过这些都不重要,重要的是,在等的过程中,我先用智谱glm-4-flash 微调了一下。

1、

才放了不到2000条的B站评论数据集,效果就已经比较明显了(图一)。

还是感谢GPT-4o mini 微调的免费,让我知道技术小白也是可以自己微调大模型的;

感谢智谱AI大模型开放平台,注册就送了10 多块钱的额度。才花了3块7毛钱的额度,训了不到 10 分钟,模型就微调好了(图二)。

2、

之前我一直以为微调的门槛老高了,直到今天测完才发现,真的是有手就行,有数据就行,比填写在线表格还简单。

唯一难的地方,可能在于数据集的获取和梳理。因为是测试,我就在网上找了别人的数据集。

印象中质量最高的,是UP主林亦的“AI哔友”,所以我找到了该项目的 GitHub(图三),直接把几个数据集给下下来了。

感兴趣的话,也可以从这里扒:https://github.com/linyiLYi/bilibot/blob/main/data/test.jsonl

3、

不过,林亦代码的格式,跟 OpenAI 和智谱要去的不一样。

于是我就用 Excel 的公式,把里面的数据给提取了出来(图四)。接着,再用 Excel 的公式,组装成符合要求的格式。

这些公式,我也是拿着代码让 Claude 帮忙写的,没有一次性成功,重新让它一步一步来才改好。

4、

为什么一定要提这一档子,是因为我发现:

只要会和AI 一起用 Excel,那么市面上很多的数据集,都可以为我所用,完全不用自己一条一条去爬。

举个例子,之前很多群友跟我说,他们做 SEO 时候,总觉得AI 生成内容机器味儿过浓。

那么这个时候,他们就可以用别人抓取reads.alibaba.com 网站上13个分类领域3000+个页面形成的数据集:https://github.com/Tim-Saijun/industry-article-dataset/blob/main/all_filter_2120.jsonl

———

流量玩家学会微调之后,“找-抄-超”又能更快一步了。

最近,我还发现了篇中国科学院大学AI 生成小说的论文,据说效果已经接近人类写手的水平。

里面也有用到微调等技术,完整实现了超长文本的“找-抄-超”。

等我有时间了,深度解析和实践一下这篇论文,敬请期待。



Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型微调 智谱glm-4-flash 数据集处理 AI助力
相关文章