Website login model
star2收集了一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过selenium登录,有的是通过抓包直接模拟登录,有的是利用scrapy,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。
About
模拟登陆基本采用的是直接登录或者使用selenium+webdriver的方式,有的网站直接登录难度很大,比如qq空间,bilibili等如果采用selenium就相对轻松一些。
虽然在登录的时候采用的是selenium,为了效率,我们可以在登录过后得到的cookie维护起来,然后调用requests或者scrapy等进行数据采集,这样数据采集的速度可以得到保证。
Completed
Facebook
无需身份验证即可抓取Twitter前端API
微博网页版
知乎
QQZone
CSDN
淘宝
Baidu
果壳
JingDong 模拟登录和自动申请京东试用
163mail
拉钩
Bilibili
豆瓣
Baidu2
猎聘网
微信网页版登录并获取好友列表
Github
爬取图虫相应的图片
网易云音乐
糗事百科
catalogue
Facebook模拟登录
无需身份验证即可抓取Twitter前端API
微博网页版模拟登录
知乎模拟登录
QQZone模拟登录
CSDN模拟登录,已失效
淘宝爬虫
Baidu模拟登录一
果壳爬虫程序
JingDong 模拟登录和自动申请京东试用
163mail已失效待重构
拉钩模拟登录
Bilibili模拟登录
豆瓣待更新
Baidu2模拟登录
猎聘网模拟登录
微信网页版登录并获取好友列表
Github模拟登录两种解决方案都可行
爬取图虫想要的图片
网易云音乐downloader
糗事百科爬虫
Test
Bilibili自动登录测试正常,成功率98%
淘宝web
taobao.py为模拟登录
剩下的文件为爬虫
Github
新增链家Spider
1. 爬取淘宝各子标签,按销量排名商品信息,按分类保存至MongoDB
2. 通过pandas进行数据分析
3 .将商品在各省分布、销量排行、地图分布等通过matplotlib绘图显示
guoke.spider使用需谨慎,下载的比较快!10秒能下载一堆,截图我就不展示了,已经删除,东西太多了stuck_out_tongue_closed_eyes
微博
sina.py为模拟登录
spider文件夹中为爬虫
1. 输入要爬取的博主ID,获取ajax请求
2. 解析json数据,爬取博主所有微博,保存至MySQL
网易云音乐
新增网易云音乐下载,之前的一个小demo应该还可以用,Crypto包应该挺难搞的,安装之后还是导入不了,推荐去百度一下,百度上的这个解决方法有很多,我就不多赘述了嘿嘿!
知乎
知乎登录没有问题,不过要手动输入验证码
知乎登录遇到“execjs._exceptions.ProgramError: TypeError: ‘exports’ 未定义”
原因以及解决办法:
1. 由于是你本地的JScript引擎只有一个默认的JScript,所以会造成json未定义的错误。
2. execjs会自动使用当前电脑上的运行时环境
3. 解决办法:安装一个nodejs的V8引擎就可以了
糗事百科
tips of pull request
欢迎大家一起来 pull request heartpulse
Problems
关于验证码:本项目所用的方法都没有处理验证码,识别复杂验证码的难度就目前来说,还是比较大的。以我的心得来说,做爬虫最好的方式就是尽量规避验证码。
代码失效:由于网站策略或者样式改变,导致代码失效,请给我提issue,如果你已经解决,可以提PR,谢谢!
正在对部分代码进行优化。。。
如果该repo对大家有帮助,给个star鼓励鼓励吧
Have something to sayexclamationexclamation(Important)
今天有人给我说了一些东西,他说:”你今天开源这些东西会让别人容易的反爬虫“。对,我知道,当然我很清楚这些,但是人生总是需要一些挑战不是吗?兄弟?我认为当我攻破他们防守的时刻,才是最刺激的,不是吗?如果没人反抗,我做这些才是真的毫无意义,只有真正的攻与守,才能促使我们进步,时代在变兄弟,科技也在变,安于现状,才是错误的根本原因!
希望你们不要安于现状,生活处处是惊喜!
tadaLife is fantastic🥳! bromuscle~
github地址:https://github.com/CriseLYJ/awesome-python-login-model