爬虫不再是程序员的专利：轻松利用MCP实现自然语言数据爬取

掘金人工智能 06月30日

爬虫不再是程序员的专利：轻松利用MCP实现自然语言数据爬取

本文介绍了如何利用火山引擎提供的免费额度与MCP（多模态协同平台）工具，实现自然语言爬虫功能，为运营和产品团队提供数据获取的新途径。通过下载支持MCP的客户端，配置火山引擎API Key，并结合playwright-mcp等工具，用户可以使用自然语言指令读取网页数据，甚至进一步生成Excel文件或上传至Metabase。文章还推荐了更强大的爬虫项目，旨在提高数据抓取的效率和便利性，为日常工作提供有力支持。

💻首先，为了使用火山引擎提供的福利，需要准备一个支持MCP的客户端，例如Cursor或推荐的开源客户端www.cherry-ai.com/download，并正确配置火山引擎的API Key。

🖱️其次，通过配置MCP客户端，结合playwright-mcp工具，用户可以使用自然语言指令来读取网页数据。文章以总结火山引擎全部模型与介绍为例，展示了其功能。

💡此外，文章还提到了MCP的多种应用可能性，例如读写本地文件、将爬取的数据生成Excel文件，甚至上传至Metabase，极大地拓展了其应用场景。

🚀最后，文章推荐了一个更强大的项目，该项目可以自动携带登录态，并使用非独立浏览器进程，进一步提升了数据抓取的效率。

前言

由于最近公司的AI项目使用openai key 余额不足了，老大找到火山引擎达成了合作，赠送了火山引擎的一些免费额度，因此发放了团队内部的福利，大家可以自由使用火山引擎的key.

操作步骤

一、准备支持 MCP 的工具

下载一个可以支持 MCP 的客户端，比如 Cursor 或者 Client（这两个都是敲代码用的，产品可能不需要）。

因此只需要下载一个通用支持 MCP 的客户端即可，这里推荐开源的 www.cherry-ai.com/download

设置-选择火山引擎-右上角启用开启，填入火山引擎的 API KEY（贴发在群里的那串）

选择 MCP 服务然后点右上角安装必要的的依赖环境

使用 playwright-mcp，就是一个可以操作浏览器的工具，封装成为 mcp，让你可以使用自然语言读取任意网页的数据了。

mcp.so/server/play…

点击复制配置文件

粘贴进去点确认，然后启用。

二、开始使用自然语言爬虫

选择一个支持 Function Call （支持调用工具）的模型，这里使用了doubao-1.5-pro-32k

我本次给他的任务是总结一下火山引擎的全部模型与介绍。

然后我登录后他就读取到了网站的信息，并列了出来。

三、发挥想象力

还有各种各样的 MCP。比如读写本地文件，爬取完网页数据后再调用读写本地文件的 MCP 将数据生成一个 excel，或者是 metabase 出了个 MCP，可以跟 AI 讲一句话就把爬回来的数据上传 metabase 了。请自行探索 mcp.so/。

其他

后续逛 github 发现一个比 playwright MCP 更好用一点的项目，可以自动携带登录态，然后非独立浏览器进程。

github.com/hangwin/mcp…

希望这篇文章对运营或产品同学在日常需要爬数据的时候有帮助。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

火山引擎 MCP 自然语言爬虫运营产品

相关文章

富春股份：已完成小游戏运营团队搭建，计划年内推出多款小程序游戏

隆盛科技：公司部分产品在无人驾驶涉及的相关领域已开展供货业务

背背佳“造富神话”背后的“三剑客”

火山引擎“奇袭”阿里云

ICQ官宣将于6月26日正式关闭，结束近28年的运营

优爱腾芒齐聚推综赛道，招商困境“弯道超车”？

8400亿市值煤炭央企官宣新掌门

中际旭创：1.6T产品目前正处于市场导入阶段，预计今年下半年到明年将逐步上量

华侨银行集团：计划投入15亿港币加速投资大中华

美国联合航空公司因波音延误削减 2024 年招聘计划