Python IEEE外网数据库爬虫 v3.0

Read Me:

最好不要大批量爬取,请慎用该爬虫,如果出现封锁ip等问题,本人概不负责
v3.0可执行文件下载地址
本文为原创代码,搬运请注明出处,谢谢。
Python IEEE外网数据库爬虫代码,自动下载保存pdf文件。需要连接校网或校园vpn使用,并且你学校购买了IEEE数据库。若要选择代理请自行改代码(不推荐代理)
唯一需要下载的库:requests
本代码测试环境:windows 1o python3.9 若测试结果不同请自行修改
search_name 填写 你所需要查找的关键字
begin_year 填写 你所需要查找论文的开始年限
end_year 填写 你所需要查找论文的结束年限(若今年为2021年,推荐结束为2022年)
store_file_location 填写 你所需要保存文件的地方,绝对路径中的“\”请改成“\\”或者“/”,相对路径请改成”.\文件夹名”,不懂python语法的推荐使用绝对路径
time_between 填写 为了防止爬取过快加的参数(但是因为校网不会很快,所以建议为0)若为文字则表示time.sleep(0~1任意数字)
number_of_article_needed 填写 你需要爬取论文的数量
begin_page 填写 开始爬取的页
skip 填写 true/false 是否需要跳过因文件名过长而需要重新输入文件名,这样可以后台挂机。注意:该处true/false首字母不用大写。true表示跳过。

更新完毕

更新日志:

v1.0 2021.8.19:
代码初步实现
v1.1 2021.8.19:
增加了注释
v2.0 2021.8.20:
1. 实现了不存在文件夹并创建问题
2. 网络问题重新爬取代码优化,程序兼容性加强
3. 增加了开始爬取那一页的功能
4. 增加了time_between若不是数字就随机time.sleep(0~1)
5. 完善了保存为pdf文件的文件名格式,更加美观
6. 增加了没找到搜索结果或超出文章上限的退出程序
v3.0 2021.8.22:
1. 新增了可跳过input,挂机爬取参数
2. 打包为了exe方便所有人操作


发表评论

电子邮件地址不会被公开。 必填项已用*标注