掘金 人工智能 08月01日 19:35
GitHub 开源爆款工具|MediaCrawler:程序员零门槛采集抖音/小红书/B站等社交评论,30K star 背后的场景实战揭秘!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MediaCrawler是一款功能强大的开源社交媒体数据爬虫工具,能够高效爬取小红书、抖音、快手、B站、微博、知乎等多个平台的内容,包括视频、图片、评论和点赞等。该项目采用Playwright模拟真实浏览器操作,无需复杂的JS逆向即可稳定采集数据,有效解决了平台防爬机制带来的高成本问题。它支持关键词或指定ID爬取、二级评论抓取、登录态缓存、IP代理池以及评论词云生成等核心功能,并提供CSV、JSON或关系型数据库等多种数据输出格式。MediaCrawler通过零逆向、易上手、效果直观的特点,为内容运营、数据分析、学术研究等场景提供了强大的数据支持。

📊 **多平台覆盖与零逆向技术**:MediaCrawler全面支持小红书、抖音、快手、B站、微博、知乎等7个以上主流社交媒体平台,并采用Playwright模拟真实浏览器操作,无需进行复杂的JavaScript逆向工程,即可稳定采集数据,有效避免了因平台频繁更新防爬机制而产生的JS逆向成本和维护难题。

🔑 **便捷的登录与数据采集模式**:工具支持二维码和Cookie两种登录方式,并能缓存登录状态,免去频繁重复登录的麻烦。采集模式上,支持通过关键词搜索或指定视频/帖ID进行采集,并能深入抓取一级及二级评论,确保了数据的完整性和沟通链路的清晰。

⚙️ **强大的功能扩展与数据处理**:MediaCrawler集成了IP代理池和滑块验证码自动处理机制,提高了爬取效率和稳定性。此外,还支持生成评论词云图,提供直观的数据可视化,并可将数据输出为CSV、JSON或直接存储到SQLite或MySQL等关系型数据库,方便后续的数据分析和处理。

🚀 **开源免费与付费Pro版**:该项目提供免费开源版本,满足大部分用户的数据采集需求。同时,也提供付费的Pro版本,增加了多账号支持、断点续爬等更高级的功能,以适应更大规模和更复杂的采集任务,为企业级应用和二次开发提供了更多可能性。

嗨,我是小华同学,专注解锁高效工作与前沿AI工具!每日精选开源技术、实战技巧,助你省时50%、领先他人一步。👉免费订阅,与10万+技术人共享升级秘籍!

一个多平台通吃的社交媒体数据爬虫工具,轻松爬取小红书、抖音、快手、B站、微博、知乎等内容,支持视频、图片、评论、点赞等,真正低门槛、战力强大。

项目简介

MediaCrawler 是由 NanmiCoder 打造的中英文双平台全民爬虫项目,目前在 GitHub 拥有 约 27.7k ⭐,来自大量开发者、运营者的认可。 它支持 关键词/指定ID爬取、二级评论、登录态缓存、IP 代理池、评论词云生成 等核心功能,通过 Playwright 实现“模拟真实浏览器”,无需复杂逆向即可稳定采集。

痛点场景

MediaCrawler 针对上述痛点提供一套完整方案——通吃各大平台、零逆向、支持登录态、支持插件词云,真正上手简单、效果直观。

核心功能

技术架构

架构图

技术优势对比表

模块MediaCrawler 开源版MediaCrawler Pro(付费版)
登录方式QR + Cookie,登录态缓存多账号支持,断点续爬
签名获取浏览器 JS 注入,无需逆向完全剥离 JS 依赖,纯后端可用
爬虫稳定性通用,多平台命令行使用支持 Linux 守护、IP 池、验证码绕过
数据处理支持 CSV/JSON/SQLite 或 MySQL 等附加词云图功能,未来接入 AI 分析模块
维护性Python + Playwright 简洁易读适合企业级扩展与二次开发

界面效果与使用示例

以下是官方演示的一些截图,帮助你快速理解输出结构和使用流程:

(原项目仓库图略)

使用场景举例

与同类项目对比优势

项目名称多平台支持登录方式评论深度签名逆向储存方式可视化是否开源
MediaCrawler✅ 支持7+平台✅ QR、Cookie 缓存✅ 一级+二级评论✅ 浏览器 JS 注入,无逆向✅ CSV/JSON/DB✅ 词云生成✅ 免费开源
knaiskes/mediaCrawler✅ 多社交平台❌ Token 手动填❌ 评论展示可视化❌ 需自己配置 token✅ 数据保存本地❌ 无词云✅ 开源
kirbystudy/MediaCrawler✅ 视频图片无水印下载❌ 自填 Cookie❌ 无评论支持✅ 简单 JS✅ 本地
专有爬虫工具(商业)✅ 通用✅ 企业登录集成✅ 评论深度采集✅ 完备签名逆向✅ 企业级数据仓库接入✅ BI 报表❌ 付费闭源

部署使用示范步骤

    克隆项目并进入目录
git clone https://github.com/NanmiCoder/MediaCrawler.gitcd MediaCrawler

2. 创建虚拟环境并安装依赖

python -m venv venvsource venv/bin/activate  # Windows 用 venv\Scripts\activatepip install -r requirements.txtplaywright install

3. 登录平台

python main.py --platform xhs --lt qrcode --type search

4. 输入关键词,自动爬取内容并保存到 data/ 或数据库;5. 可选:生成评论词云,搭配上面给出的示例脚本。

总结

MediaCrawler 以其成熟稳定、功能全面、易用性强的特性,成为社交媒体采集工具中的佼佼者。不论你是运营灵感收集、自媒体从业者,还是数据分析师,都能在这个项目中找到极强价值。

项目地址

github.com/NanmiCoder/…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MediaCrawler 社交媒体爬虫 数据采集 Python 开源工具
相关文章