人生第一篇生物信息学博客

这虽然不是人生的第一篇博客,但却是踏入生物信息学领域后的第一篇博客。
先说说我自己吧。93年生人,在基督教信徒眼中最神圣的节日出生。但无论是心性,才华亦或是雄心壮志,都无法与那位相提并论,甚至连衣角都不可触及。
从小由于亲人因为肿瘤去世,便立志投身于肿瘤领域,为攻克癌症尽一份力。从初中开始便参加生物竞赛,高中更是成为省队中的一员。由于我那年竞赛体制还没有改革,所以有幸逃过高考一劫,进入了复旦大学。
本科期间,数学、物理、计算机为弱项,加上当时身边的生科人基本都在做湿实验,因此也没有动踏入生信领域的念头。由于绩点太差,加上家境没有那么殷实,因此没有选择研究生出国,而是选择保研。
研究生第一学期,主要工作是上课,看些课题相关的论文,基本和本科保持一致。当然,我也继承了不重视数学的一贯传统,生物统计学能翘就翘。R语言稍微翻了一下,连课件上给出的代码都不太明白什么意思。统计学根本没血,生物统计学的书借来了扔在宿舍里发霉。
因为实验室是纯粹的湿实验室,没有一丁点生信的基础,加上我自己没什么学习欲望,所以根本没碰生物信息学相关的内容。对于生物专业找工作难并没有太大想法,因为我本来就打算读博的。我身边的生物博士年薪都是20W起步的,不算太低,当然也凑活。最重要的是,我当时怀着浓浓的兴趣,打算致力于学术,挣钱什么的先放一边去了。
自从开始做湿实验,才发现实验真的是大坑。工作强度大,数据糟糕,而且不可重复。最重要的是,一眼根本望不到头
如果课题顺利也就罢了,但从做实验开始,课题就没有顺利过,不停地出现各种问题。甚至连实验试剂都出现了严重问题。从研一下学期到研二下学期,这一年期间,实验课题几乎止步不前,最后不得不放弃。
老板从push到开骂到最后不管了,和女朋友时不时发生的摩擦,加上身边的人一个个课题进展顺利,有些甚至研一就发PNAS。这些工作和生活的压力,彻底地磨平了我的棱角,让我深刻体会到生物狗为什么被称为“狗”
从研一下学期开始,我就动了投入生信领域的念头。当时对生物信息学一无所知,主要看的是公众号,对自己的要求也仅仅是会使用一些生物信息学软件。当时我主要看实验万事屋公众号,里面提供了一大堆的小工具使用指南。
按公众号上的说法,用起来都挺简单的,但我实际操作起来遇到了很多问题,最大的问题就是不知道反馈的各种结果是什么意思。只能按照条形图的长短来判断基因的表达量。组会上把结果放出来,老板一问什么都不知道。
后来买了这个公众号出的课程,才算明白一点,但仍然不怎么会操作。尤其课程里花了大篇幅告诉你怎么去寻找热门课题。但问题是,我的课题是老板给的,很新,根本没人做!让我自己去找课题更是天方夜谭。我一个研究生,没受过系统训练,对各种实验只是刚刚上手,热门的课题比不过人家,冷门的课题不敢做。
所以我只好按照预定的计划,继续做我的湿实验课题。期间我不是没有向老板询问过是否能做生信,老板的意见是,我们实验室没有生信基础,也不打算往生信发展。所以我当时也只是打算硕士期间做湿实验,博士再转生信。
直到研究生二年级下学期,我在课题上磕磕碰碰,几个月时间都没有大进展,终于放弃了原来的课题。而且这一年的挫折,让我彻底对纯粹的湿实验失去了希望。加上如果按照设定好的实验方案,我就算做新课题也来不及,所以被逼着往生物信息学方向发展,打算用生信的手段水一篇文章毕业。
我觉得每个人一开始都是有理想的,只是残酷的生活粉碎了大家的理想。我本科的时候想着发篇CNS级别的文章,研究生刚入学的时候想着发篇5分的文章,说不定能冲一冲发篇PNAS,但研二的时候,却只想着水一篇英文即可,现在,甚至连中文核心都可以了。看着自己不断屈服于现实,不断抛弃理想,自己也很糟心。但这就是生活,就是现实,也没有什么好办法。
呃,扯了这么多废话,确实应该回归正题了。这个博客是生物信息学博客,我打算把自己在生信领域的成长历程挑重点写在博客里面。既有记录心路历程的想法,也有总结学习成果的想法,还有跟大家分享互动的想法。希望多年以后回来看这篇博客,还能自豪地认为自己不忘初衷。
我从18年2月开始正式踏入生物信息学领域。年前看了几篇文献,打算做个芯片数据分析,水水文章毕业。博士期间再完全地转入生物信息学领域。至于湿实验,能不做就尽量不做了,感觉已经被彻底伤透了心。
一开始什么都不会,打算从背景开始了解。加上我们实验室每个月都要工作汇报,不能完全只是学习,所以也要学习芯片分析需要的技能。
既然要做芯片分析,那首要了解的就是芯片是什么了。这里我推荐陈巍学基因。这是一个系列的优酷视频,是一个叫做陈巍的销售做的关于芯片和二代测序技术的粗略介绍视频。虽然介绍地很粗略,但对于完全不懂的新人来说也是非常有用的。
18年3月,过完年不久,我开始着手准备做芯片分析的课题。由于我将来是要读生信博士的,所以我选择了规规矩矩地学习技能的路子,而没有选择学习各种软件的用法,做个点点鼠标就满足的男人。
我粗浅地看了一下,觉得要做芯片分析,有几个必须掌握的技能。分别是R语言生物统计学。至于linux和服务器,由于windows下就能做芯片分析,所以暂时就不学习了。至于更基础的像是BLAST算法,HMM算法之类的,有空再学吧。
我先花了两个星期把生物统计学过了一遍,发现基本概念都懂得了,但让我实际自己去算却做不到。究其原因,是因为高等数学忘得差不多了,积分矩阵什么的根本就不记得怎么做了。
由于实验室完全没有生信基础,我只好找生科院的做生信的师兄师姐或是同级的同学请教。不得不说芯片分析真的是过时了,整个生科院没几个人是做芯片分析的。有个两年前做过芯片分析的师兄告诉我,要先看limma包的user guide。
我花了几天看完了R语言实战的前两章,准备集中精力看limma包。limma包的user guide是我见过最全面页数最多的user guide,足足有140页。清明节花了3天时间过了一遍,只是了解了个大概,背后的数学原理根本不懂。尤其是构建线性模型那一块,完全是在看天书。
看完limma包之后,我把网上找到的芯片分析的R语言流程跑了一遍,基本明白代码是什么意思。这里推荐生信技能树论坛,里面有大量的从入门到上手的教程。把代码copy下来,照着运行一遍就好了。当然,在运行的时候会出现各种各样的BUG,这就要靠你自己上网搜索解决了,因为很多教程都过时严重
顺带说一句,百度的搜索能力跟GOOGLE根本不是一个档次的,遇到问题一定要去谷歌搜索。有条件的用VPN,没条件的用谷歌镜像。这里给出网址。http://ac.scmor.com/ 里面有很多谷歌学术谷歌网页的镜像,选个能用的就可以了,有些镜像会提示你未通过机器人验证,只要换个镜像就好了。至于怎么搜索,最简单的方式就是把运行出错的报告放到搜索框里搜索就行了。
比如说运行报错。

> arrayQualityMetrics(expressionset = data.gcrma,
+                     outdir = "fig_norm",
+                     force = TRUE,
+                     do.logtransform = F)
Error in arrayQualityMetrics(expressionset = data.gcrma, outdir = "fig_norm",  : 
  could not find function "arrayQualityMetrics"

只要把Error后面的一长串拿去谷歌搜索就可以了。像这样

汗,没人遇到这错误。。。总之就是这样做就可以了。推荐使用Chrome浏览器和Shadowsocks翻墙,不要用360极速浏览器,我的360极速浏览器翻不了墙,换了Chrome就好了。
我自己在博客里面给出的代码都是可以从头到尾运行的,如果出现问题也希望大家来问。
网上一面倒地骂R语言与Bioconductor这本书,我一开始不太明白为什么,因为我照着流程运行一遍下来确实学到了一些东西。现在终于明白了,因为这本书里面的内容仅仅是把代码给出,加上一些非常粗浅的介绍,照着书学基本学不到什么。可以说,从这本书能够学到的内容,随便去网上一搜就能找到,而且能够学的更多,学的更明白!因此非常不推荐大家买这本书,加上网上有电子版,按照代码运行一遍,随便看看注释即可,不需要专门学习,也不推荐作为主要学习内容。推荐大家去生信技能树论坛重点学习,这里给出该论坛芯片分析的总结帖。http://www.bio-info-trainee.com/2919.html
芯片分析的流程比我想象中地简单,但背后的原理也比我想象中的要困难。加上芯片种类繁多,针对不同的芯片处理方法略有不同。因此,我开这个博客的目的之一,就想把自己学习的内容详细地总结一下。最好能做到让一个正常智商的人类从完全没有生物信息学基础,到能够独立分析芯片数据。
2018年4月20日,正式地迈出了这一步。

猜你喜欢

转载自blog.csdn.net/tommyhechina/article/details/80020753