博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫工程师要求
阅读量:6291 次
发布时间:2019-06-22

本文共 420 字,大约阅读时间需要 1 分钟。

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

工作职责:

- 参与分布式爬虫和数据采集系统的架构设计和开发;

- 负责网络数据抓取规划、清洗以及汇总的开发工作;

- 定期爬取指定网站的数据,为业务部门提供数据支持;

职位要求:

- 一年以上python开发经验,精通python网络编程,熟悉HTTP传输协议;

- 了解搜索和爬虫开源软件(lucene,solr,mathout,firtex,lemur,indri,nutch,haddopmlarbin,QT webkit)的一种或多种,以及相关原理;

- 精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;

- 具备信息检索、web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抓取、网页分类中任一种程序开发经验;

- 熟悉NoSql(MongoDB,Redis,Hbase等),了解大数据,有一定的Hadoop使用经验。

转载地址:http://qwkta.baihongyu.com/

你可能感兴趣的文章
[原]Unity3D深入浅出 - Shader基础开发
查看>>
netty之ByteBuf详解
查看>>
数据泵导出oracle 10g数据库
查看>>
LYSE-模块
查看>>
Date Picker和UITool Bar控件简单介绍
查看>>
sql server 实现多表连接查询
查看>>
HTTP 1.1与HTTP 1.0的比较
查看>>
如何在命令行脚本中启动带参数的Windows服务
查看>>
abstract vs interface
查看>>
nodejs笔记1 ----关于express不是本地命令
查看>>
python debug
查看>>
docker-machine 远程安装docker
查看>>
最全的常用正则表达式大全——包括校验数字、字符、一些特殊的需求等等
查看>>
3.2 进程间通信之fifo
查看>>
WEB 开发前传——js笔记
查看>>
C++多线程编程入门(转)
查看>>
C# to IL 6 Reference and Value Types(引用类型和值类型)
查看>>
Python 爬虫十六式 - 第七式:正则的艺术
查看>>
Android Studio的使用(五)--导入第三方Jar包
查看>>
PCL学习笔记(一)
查看>>