V2EX 07月10日 19:34
[酷工作] 急需会爬虫的老哥们,兼职。。。。。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文详细介绍了招聘爬虫工程师的岗位职责、任职要求、薪酬待遇及联系方式。岗位职责涵盖需求调研、方案设计、爬虫开发与维护、反爬虫对策、数据清洗存储以及文档编写与团队协作。任职要求包括经验、技能、工具和素质。薪酬方面提供了按小时和按项目两种结算方式。联系方式方便应聘者咨询。

💡 岗位职责:爬虫工程师需负责分析目标网站/APP的业务场景和数据结构,设计高效的爬虫架构。这包括制定反爬策略,例如处理短信验证码、应对AJAX等多种抓取场景,以及部署IP池、User-Agent轮换等。

🔨 爬虫开发与维护:工程师需要使用Python、Scrapy、Selenium、Requests等技术栈开发并行/分布式爬虫。同时,需要实现验证码处理模块,保障登录环节自动化,并监控爬取流程,优化并发量、重试机制和资源消耗。

🧹 数据清洗与存储:工程师需要对原始数据进行去重、字段抽取与格式化,并存储至MySQL、MongoDB、Elasticsearch等数据库/数据仓库。此外,还需要制定并执行数据校验规则,定期审核数据的完整性和准确性。

💻 文档编写与团队协作:工程师需撰写技术文档、项目说明和使用指南,并定期汇报开发进度、问题与优化方案。与产品、运维、测试等团队紧密配合,确保项目交付和持续迭代。

💰 薪酬与联系方式:提供了按小时(50–120元/小时)和按项目两种薪酬结算方式,具体可面议。联系方式包括电话,方便应聘者咨询。

一、岗位职责( Responsibilities )
需求调研与方案设计

分析目标网站/APP 的业务场景、数据结构和接口特征

制定高效、可扩展的爬虫架构和反爬策略

示例:针对需短信验证码的电商/物流 APP ,先模拟注册/登录(含验证码自动获取和校验),再抓取商品、订单等核心数据

爬虫开发与维护

使用 Python 、Scrapy 、Selenium 、Requests 等技术栈,开发并行/分布式爬虫

实现验证码处理模块(对接 SMS 接口或虚拟号码平台),保障登录环节全自动化

针对 AJAX 、WebSocket 、APP 原生接口等多种场景,灵活切换抓取方案

反爬虫对策与性能优化

部署 IP 池、User-Agent 轮换、代理池等反爬策略

监控爬取流程,优化并发量、重试机制和资源消耗

数据清洗、存储与质量管控

对原始数据进行去重、字段抽取与格式化

存储至 MySQL 、MongoDB 、Elasticsearch 等数据库/数据仓库

制定并执行数据校验规则,定期审核完整性与准确性

文档编写与团队协作

撰写技术文档、项目说明、使用指南

定期汇报开发进度、问题与优化方案,与产品、运维、测试等团队紧密配合

项目交付与持续迭代

按里程碑提交可运行爬虫模块,确保数据按期到位

根据业务需求和质量反馈,持续迭代升级

二、任职要求( Requirements )
经验:1 年以上 Web Scraping 项目经验

技能:

精通 Python ,熟练使用 Scrapy 、Selenium 、Requests

掌握 HTML/CSS/JavaScript ,了解常见加密与反爬技术

能使用 pandas 、NumPy 进行基础数据清洗

工具:

熟悉 Git/GitHub 或 GitLab

熟练 Linux Shell 操作者优先

素质:

责任心强,细心,能按时交付

良好沟通和文档编写能力

具备团队协作精神

三、参考薪酬( Compensation )
按小时:¥ 50–¥ 120 /小时(可面议)

按项目:根据需求复杂度另行报价

四、联系方式( Contact )
电话:133 4571 0901

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

爬虫工程师 招聘 Python Scrapy 数据抓取
相关文章