前言
由于最近公司的AI项目使用openai key 余额不足了,老大找到火山引擎达成了合作,赠送了火山引擎的一些免费额度,因此发放了团队内部的福利,大家可以自由使用火山引擎的key.
操作步骤
一、准备支持 MCP 的工具
下载一个可以支持 MCP 的客户端,比如 Cursor 或者 Client(这两个都是敲代码用的,产品可能不需要)。
因此只需要下载一个通用支持 MCP 的客户端即可,这里推荐开源的 www.cherry-ai.com/download
设置-选择火山引擎-右上角启用开启,填入火山引擎的 API KEY(贴发在群里的那串)
选择 MCP 服务然后点右上角安装必要的的依赖环境
使用 playwright-mcp,就是一个可以操作浏览器的工具,封装成为 mcp,让你可以使用自然语言读取任意网页的数据了。
点击复制配置文件
粘贴进去点确认,然后启用。
二、 开始使用自然语言爬虫
选择一个支持 Function Call (支持调用工具)的模型,这里使用了doubao-1.5-pro-32k
我本次给他的任务是总结一下火山引擎的全部模型与介绍。
然后我登录后他就读取到了网站的信息,并列了出来。
三、 发挥想象力
还有各种各样的 MCP。比如读写本地文件,爬取完网页数据后再调用读写本地文件的 MCP 将数据生成一个 excel,或者是 metabase 出了个 MCP,可以跟 AI 讲一句话就把爬回来的数据上传 metabase 了。请自行探索 mcp.so/。
其他
后续逛 github 发现一个比 playwright MCP 更好用一点的项目,可以自动携带登录态,然后非独立浏览器进程。
希望这篇文章对运营或产品同学在日常需要爬数据的时候有帮助。