golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍...-白红宇

golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍...

阅读量：6669 次

发布时间：2019-06-25

本文共 752 字，大约阅读时间需要 2 分钟。

golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍

go语言爬虫框架：

gocolly/colly，goquery，colly，chromedp，webloop，go_spider，Pholcus

Pholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang中国

henrylee2cn/pholcus_lib: 公共维护的Pholcus爬虫规则库

python，封装好的框架scrapy，其他常用，urllib2，解析用的包的beautifulsoup，配合selenium。以上是随便爬爬。

大型的分布式爬取，难点一个在反反爬，动态ip池，接打码，爬虫行为模式控制，是个体力活;

另一个在爬取和落盘的效率，所以到了一定规模分布式一般用go/java/scala多

用python的scrapy，所有平台都能跑，scrapy是主流方案，各种周边都很成熟，爬视频python有现成的包

python的pyspider框架比较完善，抓取大量网站，解析大量页面时做分布式和后台管理都比较方便

java爬虫配合jsoup也是不错的选择

nodejs主要框架有cheerio、crawler、spiderman：

用nodejs爬指定的少量网站，用request加cheerio就足够了

cheerio | Fast, flexible, and lean implementation of core jQuery designed specifically for the server.

crawler - npm

ltebean/spiderman: a crawler with visualized config board

转载地址：http://wflxo.baihongyu.com/

你可能感兴趣的文章

Hazelcast发布开源流处理引擎Jet

React 16 Jest ES6级模拟 - 深入：了解模拟构造函数

查看>>

TextView中DrawableXXX图片无法设置大小的解决方案

查看>>

我的网站搭建: (第四天) 导航栏与页脚

查看>>

往"某度文库"上传资源之前,请先做好这些...

查看>>

mysql常用命令和脚本

查看>>

中国外交官有AI当参谋了！不过最后拍板的还是人类

查看>>

Spring Cloud Security系列教程一：入门

查看>>

添加gitignore文件

查看>>

菜鸟入门【ASP.NET Core】9：RoutingMiddleware介绍以及MVC引入

查看>>

Windows 使用 ln -s 创建软链接

查看>>

通信协议

查看>>

-bash: zip: command not found提示解决办法

查看>>

机器人市场机遇和挑战并存

查看>>

来看一场 AI 重建的 3D 全息世界杯比赛！

查看>>

为什么使用TypeReference

查看>>

Promise Race, 并不公平的 Race

查看>>

动态权限<三>华为小米特殊机制

查看>>