掘金 人工智能 06月30日
爬虫不再是程序员的专利:轻松利用MCP实现自然语言数据爬取
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了如何利用火山引擎提供的免费额度与MCP(多模态协同平台)工具,实现自然语言爬虫功能,为运营和产品团队提供数据获取的新途径。通过下载支持MCP的客户端,配置火山引擎API Key,并结合playwright-mcp等工具,用户可以使用自然语言指令读取网页数据,甚至进一步生成Excel文件或上传至Metabase。文章还推荐了更强大的爬虫项目,旨在提高数据抓取的效率和便利性,为日常工作提供有力支持。

💻首先,为了使用火山引擎提供的福利,需要准备一个支持MCP的客户端,例如Cursor或推荐的开源客户端www.cherry-ai.com/download,并正确配置火山引擎的API Key。

🖱️其次,通过配置MCP客户端,结合playwright-mcp工具,用户可以使用自然语言指令来读取网页数据。文章以总结火山引擎全部模型与介绍为例,展示了其功能。

💡此外,文章还提到了MCP的多种应用可能性,例如读写本地文件、将爬取的数据生成Excel文件,甚至上传至Metabase,极大地拓展了其应用场景。

🚀最后,文章推荐了一个更强大的项目,该项目可以自动携带登录态,并使用非独立浏览器进程,进一步提升了数据抓取的效率。

前言

由于最近公司的AI项目使用openai key 余额不足了,老大找到火山引擎达成了合作,赠送了火山引擎的一些免费额度,因此发放了团队内部的福利,大家可以自由使用火山引擎的key.

操作步骤

一、准备支持 MCP 的工具

下载一个可以支持 MCP 的客户端,比如 Cursor 或者 Client(这两个都是敲代码用的,产品可能不需要)。

因此只需要下载一个通用支持 MCP 的客户端即可,这里推荐开源的 www.cherry-ai.com/download

设置-选择火山引擎-右上角启用开启,填入火山引擎的 API KEY(贴发在群里的那串)

选择 MCP 服务然后点右上角安装必要的的依赖环境

使用 playwright-mcp,就是一个可以操作浏览器的工具,封装成为 mcp,让你可以使用自然语言读取任意网页的数据了。

mcp.so/server/play…

点击复制配置文件

粘贴进去点确认,然后启用。

二、 开始使用自然语言爬虫

选择一个支持 Function Call (支持调用工具)的模型,这里使用了doubao-1.5-pro-32k

我本次给他的任务是总结一下火山引擎的全部模型与介绍。

然后我登录后他就读取到了网站的信息,并列了出来。

三、 发挥想象力

还有各种各样的 MCP。比如读写本地文件,爬取完网页数据后再调用读写本地文件的 MCP 将数据生成一个 excel,或者是 metabase 出了个 MCP,可以跟 AI 讲一句话就把爬回来的数据上传 metabase 了。请自行探索 mcp.so/。

其他

后续逛 github 发现一个比 playwright MCP 更好用一点的项目,可以自动携带登录态,然后非独立浏览器进程。

github.com/hangwin/mcp…

希望这篇文章对运营或产品同学在日常需要爬数据的时候有帮助。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

火山引擎 MCP 自然语言爬虫 运营 产品
相关文章