2021SC@SDUSC基于人工智能的多肽药物分析问题(一)-综述

2021SC@SDUSC

基于人工智能的多肽药物分析问题

整个项目大致分为四大部分,分别是肽与HLA分子结合预测研究,药物分子与蛋白质靶标的亲和力预测,蛋白质的三级结构预测,多肽的三级结构预测。

1 项目分工

在基于人工智能的药物分析问题下,笔者分析的方向为多肽的三级结构预测。

2 项目背景

近年来,人们对肽疗法的兴趣显著增长,部分原因是肽与传统小分子化学药物相比具有许多优势。肽疗法比小分子药物具有更高的选择性、特异性和有效性,可降解为氨基酸,而氨基酸不太可能表现出不良的药物-药物相互作用。此外,肽由于半衰期短,不太可能在组织中积累,不易产生耐药性,生产成本低,所以受到广大欢迎。

3 项目介绍

由于要利用肽疗法,那么了解所使用的多肽的结构就十分必要,了解肽的三级结构对于理解其功能及其与生物靶标的相互作用非常重要。本项目旨在在质谱,红外光谱,核磁共振等传统的分析多肽结构的方法上,结合人工智能,对多肽的三级结构进行预测。现有的预测蛋白质的结构已经有一些出名的方法包括PEP-FOLD,PEPstrMOD,PepLook和AlphaFold 2等,但是肽结构的预测有不同于蛋白质之处,所以对肽结构的预测同样面临着一些挑战。本项目在肽结构上提出一项新协议------APPTEST,一种自动预测肽三级结构的协议。APPTEST利用一维门控剩余卷积神经网络预测距离和二面角约束,然后将其输入传统NMR结构确定方法,以获得最终的模型结构集合。另外一个有关蛋白质结构预测的rosettaFold用的是三轨神经网络精确预测蛋白质结构和相互作用。

4 项目前期搭建

由于项目采用神经网络结构和模拟退火方法从一级序列预测肽的三级结构,那么在机器学习的框架选择方面用的是tensorflow,tensorflow比较善于构建多层次的神经网络。

4.1 环境搭建

考虑到tensorflow不同版本兼容性不强,所以采用anaconda搭建虚拟环境,在本地windows和腾讯云服务器CentOS分别搭建anaconda环境。

  1. 利用清华镜像,wget下载
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2019.03-Linux-x86_64.sh

  1. 执行该文件
bash Anaconda3-2019.03-Linux-x86_64.sh

接着根据提示统一license许可

提示:在选择是否将anaconda加入环境变量的时候选择是,避免后期再添加

看到以下则安装成功

Thank you for installing Anaconda3!

===========================================================================

Anaconda and JetBrains are working together to bring you Anaconda-powered
environments tightly integrated in the PyCharm IDE.

PyCharm for Anaconda is available at:
https://www.anaconda.com/pycharm
  1. 加入环境变量

    vim ~/.bashrc
    
    
    export PATH=$PATH:/root/anaconda3/bin
    

    但是要注意地址!!!此处的地址为安装anaconda的地址

    即:export PATH=$PATH:【你的安装目录】

    然后保存更改,运行

    source ~/.bashrc
    

此时再运行conda info --envs,即可看到初始环境base

image-20210930133012198

  1. 创建tensorflow虚拟环境

由于tensorflow对新版本的python支持的不是很好,所以选择3.6.x的版本即可

conda create -n tensorflow python=3.6

image-20210929155451606

  1. 激活环境
conda activate tensorflow
  1. 使用清华镜像安装tensorflow
pip install tensorflow==2.4.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

image-20210929155628755

  1. 进行测试
import tensorflow as tf
mnist = tf.karea.dataset.mnist

能正常运行即可

4.2 在线环境搭建

由于打算使用CentOS系统跑代码,现在主要是以Python为主。在本地开发、测试、提交git和在生产环境再去测试、开发,并且会在生产环境会有临时性的开发任务和调整,都是比较浪费时间的。不建议直接修改生产环境的代码,临时性的修改后一定要测试并稳定运行一段时间。 在windows上访问网页即可编辑代码。

  1. 基本包安装
yum update -y
yum install python-pip -y
yum install bzip2 -y
yum groupinstall "Development Tools" -y
  1. 安装完pip之后,最好把pip源改为国内源,修改如下:
mkdir ~/.pip
cat > ~/.pip/pip.conf << EOF
[global]
index-url = http://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=mirrors.aliyun.com
EOF
  1. 由于服务器的生产环境的packages较多,版本也不一致,所以需要安装virtualenv和virtualenvwrapper并配置。
pip install virtualenv virtualenvwrapper
nano .bashrc或者.bash_profile
#设置虚拟独立python环境目录
export WORKON_HOME=$HOME/xxxx
#设置创建项目的目录
export PROJECT_HOME=$HOME/xxxx
source /usr/local/bin/virtualenvwrapper.sh
#退出然后运行如下命令
source .bashrc或者.bash_profile

  1. 现在只需要通过pip安装IPython,Jupyter和Notebook即可。
pip install ipython jupyter notebook

所有需要的安装现在全部完毕,下面我们来配置使其生效。

  1. 配置
jupyter notebook --generate-config
#生成的config file在/home/user/.jupyter/jupyter_notebook_config.py

​ 然后我们为了比较安全的访问服务器资源,我们需要设置登录密码和设置https来实现安全登录。如果有条件可以通过安全认证中心来发放秘钥和认证。首先打开ipython,生成sha1的密码,如下:

from notebook.auth import passwd
passwd()
#Enter password
#output sha1:49acd1a985cc:beb1fb6859665bfa721e65e78fc511c41basdasa.

最后如下配置即可:

emacs /home/user/.jupyter/jupyter_notebook_config.py
c.NotebookApp.password = 'sha1:<your-sha1-hash-value>'
c.NotebookApp.port = 8888
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.certfile = '/home/user/jcert.pem'
c.NotebookApp.keyfile = '/home/user/jkey.key'
#保存退出即可

使用

由于jupyter使用的8888作为默认端口,所以我需要把端口给开放并重启防火墙。通过如下代码设置:

firewall-cmd --zone=public --add-port=8888/tcp --permanent
systemctl restart firewalld.service

到这里所有的安装和基本的设置都已经完成,直接在命令行输入:jupyter notebook.就可以使用了。

效果

image-20210930134609888

5 项目预期

先对项目所提到的ML算法包括模拟退火,神经网络,深度学习等进行基本的学习,再对项目进行深入的研究

猜你喜欢

转载自blog.csdn.net/weixin_45774350/article/details/120565283