岗位职责:
1、负责分布式网络爬虫系统及数据库的设计与开发;
2、设计爬虫策略和防屏蔽规则,解决封账号、封IP、验证码等难点;
3、维护和优化已有的爬虫服务;
4、负责爬虫核心算法的策略优化研究,充分利用资源,提升网页抓取的效率和质量。
任职要求:
1、本科以上学历,计算机相关专业;
2、熟练使用Python,有良好的编码习惯,熟悉Linux操作系统,熟练使用常用命令,至少熟悉一种常用数据库:Mysql / MongDB / Redis,熟练使用 requests、urllib模块;
3、熟悉各种反爬机制和解决措施 (模拟请求头、设置 IP 代理、cookies, 字体反爬、js混淆加密等)优先;
4、精通网页抓取原理及技术、深度抓取、动态网页技术抓取、浏览器模拟抓取技术,从结构化的和非结构化的数据中获取信息;
5、熟悉Scrapy、Pyspider等主流爬虫框架使用;
6、能独立开发爬虫项目,具有自主解决问题能力。
欢迎优秀应届生投递简历
职位福利:五险一金、带薪年假、周末双休、弹性工作、节日福利