# 安装 Python 及依赖包

# python 下载安装

  • windows 用户请到 Python 官网 https://www.python.org/downloads 下载相应的版本,本教程在 version 3.10.0 测试可行,建议安装 3.7 以上版本。

  • Linux 系统自带 python,一般不需单独安装,除非版本太低,则需升级。

# 依赖包安装

# BeautifulSoup

以下命令可以在 Windows 中的 CMD/Powershell 或 Linux 终端中运行。

pip install BeautifulSoup4

# requests

pip install requests

# xlrd

pip install xlrd

# 通过 AI 搜索关键词获取文献列表

假设我们需要查找 代谢组学微生物组 联合研究的文章,进入 AI based 文献检索网站 https://www.citexs.com/Paperpicky,输入关键词 “metabolomics;metabolome” 和 “microbiome”,并点击批量下载,保存为 Excel 格式(如下图所示)。

AI文献检索

下载后会得到 “文献.csv”,打开文件检查各列是否与下图匹配。从左至右依次为 Title、Journal、IF、DOI、PMID、Pub_Date、Url,若不匹配,请先修改,如果第二例为作者信息,那么可将该列删除。

文献.csv内容

# 爬取文献保存至本地

本教程脚本基于 大阔同学 脚本修改而来,添加了参数,避免用户修改源代码;增加了随机 user-agent,避免下载次数过多被屏蔽。原理是基于文献 DOI,利用爬虫通过 SCI-HUB 下载文献。因此,必需要在 文献.csv 中提供 DOI。有些文章不在 SCI-HUB 中,或者网络环境较差,则会下载失败,失败信息写入 error.log 中。

DownloadPaper.py文献.csv 放在同一目录下,并在该目录下 shift+右键 打开 Powershell 窗口(俗称 cmd),输入下面的命令,回车即可下载。如果电脑安装了 WSL Ubuntu,也可以进入 Linux 终端。

python DownloadPaper.py -f 文献.csv -o Papers -c 20

参数解析

  • f:指定包含文献信息的文件
  • o:将文献下载至该参数指定的路径中
  • c:影响因子阈值,低于该阈值的文献将不会下载

下载结果

# 参考

# 代码获取

关注公众号 “生信之巅”,聊天窗口回复 “29bf” 获取下载链接。

生信之巅微信公众号生信之巅小程序码

敬告:使用文中脚本请引用本文网址,请尊重本人的劳动成果,谢谢!Notice: When you use the scripts in this article, please cite the link of this webpage. Thank you!

Edited on Views times

Give me a cup of [coffee]~( ̄▽ ̄)~*

Hualin Liu WeChat Pay

WeChat Pay

Hualin Liu Alipay

Alipay