一、岗位职责( Responsibilities )
需求调研与方案设计
分析目标网站/APP 的业务场景、数据结构和接口特征
制定高效、可扩展的爬虫架构和反爬策略
示例:针对需短信验证码的电商/物流 APP ,先模拟注册/登录(含验证码自动获取和校验),再抓取商品、订单等核心数据
爬虫开发与维护
使用 Python 、Scrapy 、Selenium 、Requests 等技术栈,开发并行/分布式爬虫
实现验证码处理模块(对接 SMS 接口或虚拟号码平台),保障登录环节全自动化
针对 AJAX 、WebSocket 、APP 原生接口等多种场景,灵活切换抓取方案
反爬虫对策与性能优化
部署 IP 池、User-Agent 轮换、代理池等反爬策略
监控爬取流程,优化并发量、重试机制和资源消耗
数据清洗、存储与质量管控
对原始数据进行去重、字段抽取与格式化
存储至 MySQL 、MongoDB 、Elasticsearch 等数据库/数据仓库
制定并执行数据校验规则,定期审核完整性与准确性
文档编写与团队协作
撰写技术文档、项目说明、使用指南
定期汇报开发进度、问题与优化方案,与产品、运维、测试等团队紧密配合
项目交付与持续迭代
按里程碑提交可运行爬虫模块,确保数据按期到位
根据业务需求和质量反馈,持续迭代升级
二、任职要求( Requirements )
经验:1 年以上 Web Scraping 项目经验
技能:
精通 Python ,熟练使用 Scrapy 、Selenium 、Requests
掌握 HTML/CSS/JavaScript ,了解常见加密与反爬技术
能使用 pandas 、NumPy 进行基础数据清洗
工具:
熟悉 Git/GitHub 或 GitLab
熟练 Linux Shell 操作者优先
素质:
责任心强,细心,能按时交付
良好沟通和文档编写能力
具备团队协作精神
三、参考薪酬( Compensation )
按小时:¥ 50–¥ 120 /小时(可面议)
按项目:根据需求复杂度另行报价
四、联系方式( Contact )
电话:133 4571 0901