python爬取琳琅社区整站视频操作教程

该项目用于爬取琳琅社区整站视频(仅供学习)

主要使用:python3.7 + scrapy2.19 + Mysql 8.0 + win10

首先确定需要爬取的内容,定义item:

然后编写爬虫文件:构造初始url的解析函数,得到琳琅网站的视频分类请求,并在本地生成存储的主目录

定义具体模块页面的解析函数,支持分页爬取:

返回item给管道文件:

实现一个去重管道:

再实现将数据存入mysql的存储管道,此处也可选择其他种类数据库进行存储:

其实呢,到这已经能够进行爬取了。但是我们利用scrapy对该网站频繁发起这么多次请求,对方服务器判定我们为爬虫时,会强行关闭与我们之间的连接。

虽然scrapy会将这些没有爬取成功的请求重新放回调度器,等待之后连接成功再发送请求,但是这样会浪费我们一些时间。

为了提高效率,当本地请求失败后,我们可以在下载中间件中使用动态代理重新发起请求:

最后启动爬虫,等待爬虫结束,查看数据库,满满的收获~

可以看出该网站共有5997条视频,感觉没有想象的那么多啊

推荐DIY文章
python爬取琳琅社区整站视频操作教程
找不到vcruntime140.dll等 140dll的解决方法操作步骤
应用程序无法正常启动0xc000007b的原因及解决方法
腾讯首页上搜索“磁力sedog”两字 直播主播穿着暴露 求“刷礼物”
华为p30pro价加速退场 网友:终于盼到了!
华为路由Q2S实测:Wi-Fi信号布满每个角落 实现家庭超级组网