33KStars！开源爬虫工具MediaCrawler:全平台数据采集神器

极好 · 1000 UID:7

11个月前更新

商城已上线，快去看看吧！

📣 一、简介

MediaCrawler 是一款开源且功能强大的多平台内容爬虫神器，由 NanmiCoder（Relakkes）开源，主打“全平台数据一键采集”。从小红书、抖音、快手，到 B站、微博、百度贴吧、知乎，主流平台全覆盖 (GitHub)。
其核心是基于 Playwright 浏览器自动化，保留登录态，通过 JS 表达式获取签名参数，无需复杂逆向，就能稳定拿到数据 (GitHub)。

✨ 二、亮点

多平台覆盖：支持关键词搜索、帖子详情、创作者主页、评论（含二级评论）、评论词云、点赞与转发信息等 (GitHub)。
统一格式输出：导出 JSON、CSV、Excel，数据整齐一致，方便下游分析。
稳定机制：自动登录态缓存、IP 代理池支持（Pro 版提供更强 IP/多账号机制） (GitHub)。
易扩展开发：模块化结构，自定义平台模块开发简单，上手快。
社区活跃：GitHub 上数万 Star，issue 讨论频繁，问题响应迅速 (CSDN博客, CSDN博客)。

平台	关键词搜索	指定帖子ID爬取	二级评论	指定创作者主页	登录态缓存	IP代理池	生成评论词云图
小红书	✅	✅	✅	✅	✅	✅	✅
抖音	✅	✅	✅	✅	✅	✅	✅
快手	✅	✅	✅	✅	✅	✅	✅
B 站	✅	✅	✅	✅	✅	✅	✅
微博	✅	✅	✅	✅	✅	✅	✅
贴吧	✅	✅	✅	✅	✅	✅	✅
知乎	✅	✅	✅	✅	✅	✅	✅

🧰 三、技术栈

Python 作为主力语言
Playwright 实现浏览器自动化，保留登录上下文，避免 JS 签名逆向 (GitHub)
Node.js 驱动部分平台签名及环境支持（版本 ≥16）
uv 管理 Python 环境（推荐）
SQLite/MySQL/CSV/Excel 用于本地数据存储或导出

💻 四、部署 & 运行方式

1. 环境准备

Tips：使用ai编辑器帮你运行效率更加

安装 uv 管理环境，并根据文档验证：

curl -LsSf https://astral.sh/uv/install.sh | sh
uv --version

2. 代码 & 依赖安装

安装 Node.js（≥16）

git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
uv sync

3. 浏览器环境安装

uv run playwright install

4. （可选）虚拟环境

若不使用 uv：

python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
playwright install

▶️ 五、使用方式

📌 基本命令

uv run main.py --platform xhs --lt qrcode --type search

或：

python main.py --platform xhs --lt qrcode --type search

参数说明：

--platform：目标平台（如 xhs、小红书；dy、抖音等）
--lt：登录方式（qrcode 二维码登录，phone 手机，cookie）
--type：爬取类型（search 关键词、detail 帖子详情、creator 创作者主页）

运行时程序会弹出二维码，扫码登录后自动爬取。
若需开启评论爬取，可编辑 config/base_config.py，将 ENABLE_GET_COMMENTS = True 并配置 IP 代理池。

图片[1]-33KStars！开源爬虫工具MediaCrawler:全平台数据采集神器

数据采集截图

⚙️ 高级功能突破

支持多平台联合爬取，只需配置 platforms = ['xiaohongshu','douyin'] 和关键词即可
数据输出支持 CSV、JSON、Excel，可依据环境轻松切换
代码结构模块化，支持用户轻松添加其他平台支持

✅ 六、注意事项

本项目仅限 学习研究、内容分析，严禁商业用途或大规模爬取，避免法律风险 (GitHub, GitHub)

平台频繁升级反爬机制，需要搭建代理池、控制请求频率、防止 IP 被封

尊重平台版权与隐私，合理使用采集内容

💻七、大实战场景

1. 舆情监控

实时抓取品牌相关评论，分析用户情感倾向（如负面关键词预警）

2. 竞品分析

对比抖音/快手同类视频的互动数据，优化内容策略

3. 热点追踪

通过微博/知乎评论挖掘社会热点，生成传播路径图谱

4. 学术研究

分析小红书美妆类笔记评论，构建用户偏好模型

5. 商业情报

爬取B站科技类视频弹幕，统计技术关键词热度趋势

6. 内容风控

自动检测贴吧/论坛中的违规言论，构建审核规则库

🧩 八、总结

MediaCrawler 是一款“小白友好、功能全能”的爬虫工具，适合运营、竞品分析、内容研究等多种场景使用。无需深入逆向，只需扫码登录，即可一键获取全平台公开数据。
如果你想快速搭建内容采集体系，或了解跨平台爬虫实战，MediaCrawler 是值得收藏的开源工具！

⭐九、项目地址

⭐ 开源不易，有用记得给个 Star 支持下：

此处内容已隐藏，请付费后查看

看完不过瘾，那就自己发一篇吧！

文章版权归作者所有，未经允许请勿转载。

THE END

电脑端科学技术
# python # 开源 # 爬虫 # 浏览器 # playwright # 全平台 # 小红书 # 抖音 # MediaCrawler # 数据采集 # 逆向

喜欢就支持一下吧

请登录后发表评论

登录注册

暂无评论内容

1开源的性压抑指数计算器，旨在帮助用户科学地了解自己的性心理特征，促进性健康和亲密关系的发展。

2全球版“企查查”来了！30个免费官方企业查询网站合集

3手把手教你在NAS上搭建KMS服务器，免费永久激活Windows及Office！建议收藏手把手教你在NAS上搭建KMS服务器，免费永久激活Windows及Office！建议收藏

4【Python数据分析案例（2024）】49—基于LSTM结构自编码器的多变量时间序列

陈家客栈2027年夏季避暑康养旅居民宿房间租赁

【此极好物】多功能破壁机家用全自动加热豆浆机免过滤榨汁料理机辅食机

YAMAHA雅马哈C3X仿象牙白键黑檀木黑键客厅三角钢琴

YAMAHA雅马哈W3AWn哑光原木色W系列顶配旗舰款欧洲古典风格高端实木钢琴

PDF图片转矢量AI、CAD、CDR软件logo自动抠图

此极AI时间宝机器人小初高学习管理神器

贵州深山老林农家野生纯天然放养老桶蜂蜜

YAMAHA雅马哈U3H经典直腿设计端庄高端家用考级实木钢琴

重庆贵州深山老鹰茶清凉解暑重庆火锅标配饮料老百姓的凉茶

KAWAI卡瓦依RX-2CLE意大利音板特制高级红木日本原装进口的高端级三角钢琴

破壁机家用低音破壁机1.75L大容量多功能豆浆料理榨汁机新款

YAMAHA雅马哈C3X仿象牙白键黑檀木黑键独创的精准平衡击弦机结构反应灵敏高端三角钢琴

33KStars！开源爬虫工具MediaCrawler:全平台数据采集神器数字媒体