博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍...
阅读量:6669 次
发布时间:2019-06-25

本文共 752 字,大约阅读时间需要 2 分钟。

golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

go语言爬虫框架:

gocolly/colly,goquery,colly,chromedp,webloop,go_spider,Pholcus 
Pholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang中国
henrylee2cn/pholcus_lib: 公共维护的Pholcus爬虫规则库

 

 

python,封装好的框架scrapy,其他常用,urllib2,解析用的包的beautifulsoup,配合selenium。以上是随便爬爬。
大型的分布式爬取,难点一个在反反爬,动态ip池,接打码,爬虫行为模式控制,是个体力活;
另一个在爬取和落盘的效率,所以到了一定规模分布式一般用go/java/scala多

用python的scrapy,所有平台都能跑,scrapy是主流方案,各种周边都很成熟,爬视频python有现成的包

python的pyspider框架比较完善,抓取大量网站,解析大量页面时做分布式和后台管理都比较方便

java爬虫配合jsoup也是不错的选择

nodejs主要框架有cheerio、crawler、spiderman:

用nodejs爬指定的少量网站,用request加cheerio就足够了

cheerio | Fast, flexible, and lean implementation of core jQuery designed specifically for the server.
crawler - npm
ltebean/spiderman: a crawler with visualized config board

 

转载地址:http://wflxo.baihongyu.com/

你可能感兴趣的文章
Hazelcast发布开源流处理引擎Jet
查看>>
最新版Scrum指南已发布
查看>>
2016年前端盘点合集
查看>>
React 16 Jest ES6级模拟 - 深入:了解模拟构造函数
查看>>
TextView中DrawableXXX图片无法设置大小的解决方案
查看>>
我的网站搭建: (第四天) 导航栏与页脚
查看>>
往"某度文库"上传资源之前,请先做好这些...
查看>>
mysql常用命令和脚本
查看>>
中国外交官有AI当参谋了!不过最后拍板的还是人类
查看>>
Spring Cloud Security系列教程一:入门
查看>>
添加gitignore文件
查看>>
菜鸟入门【ASP.NET Core】9:RoutingMiddleware介绍以及MVC引入
查看>>
Windows 使用 ln -s 创建软链接
查看>>
通信协议
查看>>
-bash: zip: command not found提示解决办法
查看>>
机器人市场机遇和挑战并存
查看>>
来看一场 AI 重建的 3D 全息世界杯比赛!
查看>>
为什么使用TypeReference
查看>>
Promise Race, 并不公平的 Race
查看>>
动态权限<三>华为小米特殊机制
查看>>