[酷工作] 急需会爬虫的老哥们，兼职。。。。。

V2EX 07月10日 19:06

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文详细介绍了爬虫工程师的岗位职责、任职要求、薪酬待遇以及联系方式。岗位职责涵盖需求调研、方案设计、爬虫开发、数据清洗、存储与质量管控、文档编写与团队协作、项目交付与持续迭代等多个方面。任职要求包括经验、技能、工具和素质，强调对Python、Scrapy、Selenium等技术的熟练掌握，以及良好的沟通和团队协作能力。薪酬方面，提供了按小时和按项目的两种结算方式。文章为招聘爬虫工程师提供了全面的参考。

💡 岗位职责包括：需求调研与方案设计，分析目标网站/APP的业务场景、数据结构和接口特征，制定爬虫架构和反爬策略，例如针对需短信验证码的电商/物流APP，模拟注册/登录，再抓取核心数据。

💻 爬虫开发与维护：使用Python、Scrapy、Selenium、Requests等技术栈，开发并行/分布式爬虫，实现验证码处理模块，保障登录环节全自动化，并针对AJAX、WebSocket、APP原生接口等多种场景，灵活切换抓取方案。

🛡️ 反爬虫对策与性能优化：部署IP池、User-Agent轮换、代理池等反爬策略，监控爬取流程，优化并发量、重试机制和资源消耗。

💾 数据清洗、存储与质量管控：对原始数据进行去重、字段抽取与格式化，存储至MySQL、MongoDB、Elasticsearch等数据库/数据仓库，制定并执行数据校验规则，定期审核完整性与准确性。

📝 文档编写与团队协作：撰写技术文档、项目说明、使用指南，定期汇报开发进度、问题与优化方案，与产品、运维、测试等团队紧密配合，确保项目交付与持续迭代。

一、岗位职责（ Responsibilities ）
需求调研与方案设计

分析目标网站/APP 的业务场景、数据结构和接口特征

制定高效、可扩展的爬虫架构和反爬策略

示例：针对需短信验证码的电商/物流 APP ，先模拟注册/登录（含验证码自动获取和校验），再抓取商品、订单等核心数据

爬虫开发与维护

使用 Python 、Scrapy 、Selenium 、Requests 等技术栈，开发并行/分布式爬虫

实现验证码处理模块（对接 SMS 接口或虚拟号码平台），保障登录环节全自动化

针对 AJAX 、WebSocket 、APP 原生接口等多种场景，灵活切换抓取方案

反爬虫对策与性能优化

部署 IP 池、User-Agent 轮换、代理池等反爬策略

监控爬取流程，优化并发量、重试机制和资源消耗

数据清洗、存储与质量管控

对原始数据进行去重、字段抽取与格式化

存储至 MySQL 、MongoDB 、Elasticsearch 等数据库/数据仓库

制定并执行数据校验规则，定期审核完整性与准确性

文档编写与团队协作

撰写技术文档、项目说明、使用指南

定期汇报开发进度、问题与优化方案，与产品、运维、测试等团队紧密配合

项目交付与持续迭代

按里程碑提交可运行爬虫模块，确保数据按期到位

根据业务需求和质量反馈，持续迭代升级

二、任职要求（ Requirements ）
经验：1 年以上 Web Scraping 项目经验

技能：

精通 Python ，熟练使用 Scrapy 、Selenium 、Requests

掌握 HTML/CSS/JavaScript ，了解常见加密与反爬技术

能使用 pandas 、NumPy 进行基础数据清洗

工具：

熟悉 Git/GitHub 或 GitLab

熟练 Linux Shell 操作者优先

素质：

责任心强，细心，能按时交付

良好沟通和文档编写能力

具备团队协作精神

三、参考薪酬（ Compensation ）
按小时：￥ 50–￥ 120 ／小时（可面议）

按项目：根据需求复杂度另行报价

四、联系方式（ Contact ）
电话：133 4571 0901

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签