SlideShare une entreprise Scribd logo
1  sur  144
分类号                   密级

  UDC        编号




         中国科学院研究生院


           博士学位论文



基于第二代测序技术的生后小鼠大脑组织发育的转录组研

  究及藓羽藻叶绿体基因组的测序分析和进化研究



                  徐玮




指导教师     于军研究员    博士   胡松年研究员   博士


       中国科学院北京基因组研究所
申请学位级别 理学博士      学科专业名称      生物信息学


论文提交日期 2011 年 4 月 论文答辩日期   2011 年 4 月


培养单位       中国科学院北京基因组研究所


学位授予单位       中国科学院研究生院




       答辩委员会主席




                 2
The Transcriptome Dynamics of Mouse Cerebrum Development via


New Generation Sequencing Technology And Evolution Research of


Bryopsis hypnoides Chloroplast via Shot-gun Sequencing




        A Dissertation Submitted to the Degree Committee of


         Institute of Genomics, Chinese Academy of Sciences
目 录




                       By Wei Xu


Supervised by Professor Jun Yu and Professor Songnian Hu




                       April 2011




                           4
独创性声明

  本人声明所呈交的博士学位论文是本人在导师的指导下独立进


行研究工作所取得的成果。除文中已经加以标注和致谢的内容外,本


论文不包含任何其他个人或集体已经发表或撰写过的作品/研究成


果。对本论文研究做出重要贡献的其他个人和集体均已在论文中以明


确方式标明并表示谢意。




      学位论文作者签名:       日期:




         论文版权使用授权书
目 录




 本人授权中国科学院北京基因组研究所可以保留并向国家有关


部门或机构送交本论文的复印件和电子文档,允许本论文被查阅和


借阅,可以将本论文的全部或部分内容编入有关数据库进行检索,


可以采用影印、缩印或扫描等复制手段保存、汇编本论文。


 (保密论文在解密后适用本授权书。)




     作者签名:   导师签名:   日期:




               6
目 录




                                                                       目 录

第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组变化

中文摘要 ............................................................................................................................. 1

ABSTRACT ......................................................................................................................... 3


引言....................................................................................................................................... 5

第一章 文献综述 ............................................................................................................... 6

1.1 哺乳动物大脑发育的研究背景 ........................................................................................................... 6


1.1.1 大脑的结构及功能 ............................................................................................................................ 6


1.1.2 大脑的发育过程 ................................................................................................................................ 8


1.1.3 大脑发育的分子调控 ........................................................................................................................ 9


1.1.3.1 激素对大脑发育的调控 ................................................................................................................. 9


1.1.3.2 肿瘤发生相关基因对大脑发育的调控 ......................................................................................... 9


1.1.3.3 大脑发育过程中的神经营养因子假说 ....................................................................................... 10


1.1.3.4 神经元诱向因子对大脑发育的调控 ........................................................................................... 11


1.1.3.5 大脑发育调控中的重要信号通路 ............................................................................................... 11


1.2 转录组学的研究方法 ......................................................................................................................... 12


1.2.1 EST表达序列标签 ............................................................................................................................ 13


1.2.1.1 EST技术的形成和发展 ................................................................................................................. 13


1.2.1.2 EST技术流程及分析思路 ............................................................................................................. 14


1.2.1.3 EST技术的应用 ............................................................................................................................. 14


1.2.1.4 EST技术的不足 ............................................................................................................................. 15


1.2.2 DNA微阵列(基因芯片) ..................................................................................................................... 16


                                                                            Ⅰ
目 录



1.2.2.1 基因芯片的工作原理 ................................................................................................................... 16


1.2.2.2 基因芯片的技术流程 ................................................................................................................... 16


1.2.2.3 基因芯片技术的应用 ................................................................................................................... 18


1.2.2.4 基因芯片的缺点 ........................................................................................................................... 18


1.2.3 SAGE基因表达系列分析 ................................................................................................................ 18


1.2.3.1 SAGE的理论基础 ......................................................................................................................... 18


1.2.3.2 SAGE的技术流程 ......................................................................................................................... 19




                                                                            2
目 录



1.2.3.3 SAGE的优点和应用 ...................................................................................................................... 20


1.2.4 大规模平行信号测序系统(MPSS) ................................................................................................... 21


1.2.5 上述各技术间的优缺点比较 ........................................................................................................... 22


1.2.6 RNA-seq技术及其应用 ..................................................................................................................... 22


1.2.6.1 新一代测序技术发展概况 ............................................................................................................ 23


1.2.6.2 SOLiD技术原理及技术流程 ......................................................................................................... 23


1.2.6.3 SOLiD测序技术的应用 ................................................................................................................. 29


第二章 材料与方法 .......................................................................................................... 30

2.1 实验材料 .............................................................................................................................................. 30


2.2 主要化学试剂 ...................................................................................................................................... 30


2.3 常用溶液和培养基 .............................................................................................................................. 30


2.4 试剂盒 .................................................................................................................................................. 31


2.5 实验方法 .............................................................................................................................................. 31


2.5.1 小鼠的处理和取样 ........................................................................................................................... 31


2.5.2 转录组文库的构建 ........................................................................................................................... 31


2.5.2.1 总RNA提取 ................................................................................................................................... 31


2.5.2.2 核糖体RNA的去除(rmRNA-Seq) ................................................................................................. 32


2.5.2.3 用SOLiD Whole Transcriptome Analysis Kit 构建文库 ............................................................. 33


2.5.2.4 文库检验 ........................................................................................................................................ 35


2.5.2.5 SOLiD油包水PCR及上机测序 ...................................................................................................... 35


2.5.3 RT-PCR ............................................................................................................................................ 35


2.6 数据分析方法 ...................................................................................................................................... 37



                                                                                  Ⅱ
目 录



2.6.1 SOLiD序列在基因组上的注释 ........................................................................................................ 37


2.6.2 可变剪切分析 ................................................................................................................................... 38


2.6.3 基因表达谱分析 ............................................................................................................................... 39


2.6.4 差异表达基因的判断和功能分类 ................................................................................................... 39


2.6.5 内含子的表达分析 ........................................................................................................................... 39


2.6.6 基因间区的表达分析 ....................................................................................................................... 39


2.6.7 转录因子在三文库中表达情况的分析 ........................................................................................... 40


第三章 结果 ...................................................................................................................... 41




                                                                               2
目 录



3.1 转录组文库的构建 .............................................................................................................................. 41


3.2 RNA-seq数据的性质 ............................................................................................................................ 42


3.2.1 测序数据的筛选 ............................................................................................................................... 42


3.2.2 测序数据的注释 ............................................................................................................................... 43


3.3 基因表达谱的分析 .............................................................................................................................. 44


3.3.1 三个文库中表达基因数量及种类的变化 ....................................................................................... 44


3.3.2 三个文库的基因表达谱分析 ........................................................................................................... 46


3.3.3 表达基因的功能分类 ....................................................................................................................... 48


3.4 基因内含子区域的表达分析 .............................................................................................................. 52


3.5 基因间区的表达分析 .......................................................................................................................... 54


3.6 基因可变剪切的分析 .......................................................................................................................... 54


3.7 差异表达基因的分析 .......................................................................................................................... 55


3.7.1 差异表达基因的数量及种类 ........................................................................................................... 55


3.7.2 差异表达基因的功能分类 ............................................................................................................... 56


3.7.3 差异表达基因的通路分析 ............................................................................................................... 57


3.7.3.1 差异表达基因在MAPK信号通路上的定位 ................................................................................ 58


3.7.3.2 差异表达基因在细胞骨架肌动蛋白的调节通路上的定位 ........................................................ 59


3.7.3.3 差异表达基因在轴突导向通路上的定位 .................................................................................... 60


3.8 转录因子的表达分析 .......................................................................................................................... 62


3.8.1 三个文库中转录因子的判断和丰度分布 ....................................................................................... 62


3.8.2 低表达转录因子的分析 ................................................................................................................... 63


3.8.3 高表达转录因子的分析 ................................................................................................................... 63



                                                                            Ⅲ
目 录



3.8.3.1 高表达转录因子的判断和分布 .................................................................................................... 63


3.8.3.2 高表达转录因子的功能分类 ........................................................................................................ 64


3.8.3.3 差异性高表达转录因子的分析 .................................................................................................... 64


第四章 讨论及后续工作计划 .......................................................................................... 67

4.1 小鼠大脑转录组的特点 ....................................................................................................................... 67


4.2 小鼠大脑生后发育的特点 ................................................................................................................... 67


4.3 本文创新点 ........................................................................................................................................... 67


4.4 后续工作计划 ....................................................................................................................................... 68




                                                                                 2
目 录



第二部分 藓羽藻的叶绿体基因组测序分析及其进化研究

中文摘要 ............................................................................................................................ 69

ABSTRACT ........................................................................................................................ 70


引言 .................................................................................................................................... 72

第一章 文献综述 .............................................................................................................. 73

1.1 绿藻门概述 .......................................................................................................................................... 73


1.2 藻类叶绿体基因组概况 ...................................................................................................................... 74


1.2.1 叶绿体基因组的结构特征 ............................................................................................................... 74


1.2.2 叶绿体基因组的起源 ....................................................................................................................... 75


1.2.3 叶绿体基因组的基因组成 ............................................................................................................... 76


1.2.4 叶绿体基因组在藻类系统发育研究中的应用 ............................................................................... 76


第二章 材料与方法 .......................................................................................................... 78

2.1 实验材料 .............................................................................................................................................. 78


2.2 叶绿体DNA的提取和纯化 ................................................................................................................. 78


2.2.1 叶绿体的分离纯化 ........................................................................................................................... 78


2.2.2 叶绿体DNA的提取(高盐低PH法) ................................................................................................... 78


2.2.3 叶绿体DNA的纯化(CsCl密度梯度离心法) .................................................................................... 79


2.3 叶绿体基因组文库的构建 ................................................................................................................. 79


2.4 叶绿体基因组的测序及组装 ............................................................................................................. 80


2.5 序列分析 ............................................................................................................................................. 80


2.6 系统发育树的构建 ............................................................................................................................. 80


第三章 结果 ..................................................................................................................... 82



                                                                                 IV
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究



3.1 叶绿体及其DNA的提取 .................................................................................................................... 82


3.2 叶绿体基因组文库的构建及测序拼接 ............................................................................................. 82


3.3 藓羽藻cpDNA的基因组特征 ............................................................................................................ 83


3.4 系统发育关系 ..................................................................................................................................... 87


第四章 结论 ..................................................................................................................... 90

参考文献 ........................................................................................................................... 91

发表文章目录 ................................................................................................................. 100

致谢 ................................................................................................................................. 101




                                                                               1
摘 要




第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录


                            组研究


                             摘 要

   大脑又称端脑,由左右两半球组成,是控制运动、产生感觉及实现高级
脑功能的高级神经中枢。但迄今为止,大脑发育的分子机制和调控机理尚未被


完全阐明。本研究采用新一代测序技术 (SOLiD) 对小鼠大脑发育的三个代表性


时期 ( 幼年期, 1 周龄;青春期, 4 周龄;成年期, 10 周龄 ) 进行转录组学研

究,以全面了解在这三个关键时期大脑组织中基因的表达变化情况。


   我们对小鼠三个时期大脑的转录组文库利用第二代测序仪 SOLiD 进行了


RNA 水 平 上 的 Shot-gun 测 序 (RNA-seq) , 并 将 所 得 序 列 比 对 到 小 鼠 基 因 组


上,然后利用 NCBI 的 Genbank 数据库对序列进行了注释。在三个样本中,我


们分别得到了 11,929,828 、16,614,876 和 15,111,661 条序列专一比对到小鼠基因


组上,其中 33 ~ 47% 的序列位于外显子区域, 28 ~ 34% 的序列位于内含子区


域,其它序列则分布在基因间区。我们分别鉴定出 15,344 、16,048 和 15,775 个

基因在幼年期、青春期和成年期小鼠大脑中表达。

   我们采用 RPKM 值衡量基因表达丰度,对三个不同时期大脑基因表达谱

进行了聚类分析,结果发现幼年期和青春期的小鼠大脑基因表达谱聚为一类。



                               1
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




基因差异表达分析表明, 5,768 个基因在青春期小鼠大脑与幼年期小鼠大脑中


存在显著差异表达,其中有 4,106 个基因表现为在青春期小鼠中表达丰度的上


调;成年小鼠和青春期小鼠大脑之间差异表达基因个数为 6,787 个,其中有


5,623 个基因表现为在成年期小鼠中表达丰度的下调。这表明在生后小鼠的大

脑发育过程中,大脑组织中的基因总体上呈现出先扬后抑的趋势,青春期小
鼠的大脑基因表达相对于其他两个时期最为活跃。这些差异表达的基因功能涉
及能量代谢、信号转导和细胞凋亡等多方面,值得一提的是,这些差异表达的
基因还包括了大量癌症和神经性疾病的相关基因,说明这些基因参与了生后
小鼠大脑发育的调控过程。

  我们共发现了 1,493 个转录因子在三个时期小鼠卵巢中表达,这其中既有


已报道在大脑发育过程中起重要作用的转录因子,如: E2f 家族、 Pax6 、




                      2
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




Six3 、Rax 、ISL-1 等,也有大量的在大脑发育过程中功能未知的转录因子。另


外,我们在三个时期小鼠大脑组织中分别发现了 254 、304 、382 个低表达的转


录因子( RPKM< 1 ),其中一些转录因子如 Neurog2 、Pax6 、Six3 等在小鼠大

脑发育过程中发挥重要作用。这些低表达的转录因子较难被芯片方法检测到,
它们的发现可以使我们更深入地了解小鼠大脑的发育模式。

   我们研究了内含子区域与外显子的表达相关性,发现在幼年期、青春期


和成年期的小鼠大脑组织中,分别有 2,079 、 2,520 和 4,061 个基因的内含子区

域异常活跃的表达。

   我们在三个时期的大脑发育过程中,共发现有 10,590 个基因具有可变剪


切 形 式 。 另 外 , 在 基 因 间 区 中 一 共 鉴 定 出 了 23,266 个 具 有 转 录 活 性 的 位


点, 70.8% 的位点 (16,477 个 ) 注释在基因的 UTR 区域, 20.7% 的位点( 4,806


个)有转录本( EST )支持,另外有大约 0.9% 的位点( 216 个)注释为已知的


ncRNA ,而剩下 7.6% 的转录活性位点( 1,767 个)以前没有被定义过。


关键词: 大脑发育,基因表达谱,SOLiD,转录组




                              2
Abstract




                                       Abstract

     Brain, which is also called cerebrum, consists of two hemispheres. It’s the senior
nervous center controlling movements, producing feelings and realizing higher-level
brain functions. The molecular mechanism and regulation mechanism of brain
development has not yet been fully expounded. In this study, to help assess the
expression changes of genes involved in postnatal brain development, we carried out
a comparative study on mouse brain transcriptomes at three crucially developmental
stages (infant stage, 1weeks old; juvenile stage, 4 weeks old; adult stage, 10 weeks
old) using the next-generation sequencing technology (SOLiD).
   Using SOLiD, we sequenced the transcriptomes at three developmental stages
(RNA-seq), then aligned the obtained reads to the mouse genome and annotated genes
using the GenBank database on NCBI. We acquired 11,929,828, 16,614,876 and
15,111,661 uniquely-mapped reads from infant, juvenile, and adult cerebrum samples,
respectively. Of these uniquely-mapped reads, 33%-47% were mapped to exons,
28%-34% were mapped to introns, and the others were mapped to intergenic regions.
We identified 15,344, 16,048 and 15,775 expressed genes in the mouse cerebrum of
infancy, juvenile and adult, respectively.
     We used RPKM value to normalize the gene expression abundance among the
three developmental stages. The gene expression profiles were clustered into two
groups, one contains infant and juvenile cerebrums, and the other contains adult
cerebrum only.
     Through comparative analysis of gene expression profiles, we found 5,768
expressed genes changed significantly between infant and juvenile cerebrums, while
the number of that between juvenile and adult cerebrums was 6,787 . Compared to
infant cerebrum, 4,106 differentially expressed genes were up-regulated in juvenile
cerebrum, while compared to juvenile cerebrum, 5,623 differentially expressed genes
were down-regulated in juvenile cerebrum. This phenomenon suggests that the
abundance of cerebrum expressed genes during the three stages were up-regulated and


                                             3
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究



then down-regulated. The gene expression was enhanced markedly during puberty
comparied to other stages. These differently expressed genes reflected a vast
repertoire of genes involved in energy metabolism, signal transduction, cell apoptosis,
and so on. Remarkably, these differentially expressed genes also includes a large
number of genes related to cancers and neurologic diseases, suggested these genes
may play a role in the postnatal development of mouse cerebrum.
     In our research, we found 1,493 transcription factors(Tfs) which involved in the
development of mouse cerebrum, some of which are essential for cerebrum
development such as E2f family, Pax6, Six3, Rax, ISL-1. The function of most Tfs
during cerebrum development are still unclear. In addition, we found 254, 304, 382
Tfs with low expression abundance (RPKM<1) in the three samples, respectively,
including some important genes for the postnatal development of mouse cerebrum


(Neurog2 、 Pax6 、 Six3). These lowly expressed Tfs undetected by DNA microarray

before may help us understand the cerebrum transcriptome deeply.

     We studied the correlation between introns and exons and identified 2,079,
2,520 and 4,061 genes have intronic regions showing significant exprssion in three
stages, respectively.

     Our recearches indetated that 10,590 genes have alternative transcripts in the
three samples totally. Moreover, we found 23,266 transciptional loci in the intergenic
region in all, 70.8% of which were annotated to the UTR extenstion region(16,477) ,
20.7% of which were confirmed by EST, 0.9% of which were annotated as the known
ncRNA, and other 7.6% (1,767) were identified as new transciptional loci.




Keywords: Cerebrum development, Gene expression profile, SOLiD,




                                           4
引 言




                        引 言

   大脑又称端脑,是脊椎动物 脑的高级神经系统 的主要部分,具有控制和
协调运动、感觉和高级心理运行等功能。大脑发育是一个极其复杂的过程,受多
方面因素的调控。出生时的大脑具备了成年大脑的基本形态,但大脑皮层结构还
不明显,神经元还未发育成熟。在大脑的生后发育过程中,大脑皮层结构的完
善、神经元的成熟、突触的形成和连接等都是由多个基因调控的复杂的分子生物
学过程。随着研究的深入,近年来发现了许多对大脑生后发育极其重要的基因,
这些基因可以帮助我们更全面的了解大脑生后发育过程中重要基因的表达模式。
传统的基因敲除模型的研究方法每次只能对有限的几个基因进行研究,不利于
研究大脑生后发育的整个分子调控机制。

   近年来,随着生物技术的不断进步,转录组学成为系统研究特定组织或细
胞基因表达调控的重要手段。传统应用于转录组的研究方法主要有表达序列标签


(EST)、DNA芯片(DNA Microarray)、基因表达系列分析(SAGE)和大规模平行信号


测序系统(MPSS)。然而这些传统方法或多或少存在一些缺点,如EST方法实验周


期较长信息量少,实验花费较多; DNA芯片背景信号多; SAGE 在短序列标签


的测序方法上较为费时、费力,注释不准确[1-9]。随着新一代的大规模测序技术


的发展 (主要是以 Solexa和SOLiD测序仪为代表 ),目前RNA shot-gun测序 (RNA-


seq)的方法被成功地应用于转录组的研究。其特点是测序通量大、花费少,深度

取样可以更加真实的反映生物体内转录组的情况。本研究中,我们成功地把


RNA-seq 技术应用到对小鼠大脑生后发育的转录组研究上[10-15]。




                          5
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




  我们采用新一代测序技术SOLiD对幼年期、青春期和成年期小鼠大脑的转录


组进行了研究,并对3个不同发育时期的小鼠大脑基因表达谱进行了比较分析,

发现了一些对大脑发育起重要调控作用的基因及调控因子,此外我们还研究了
非编码区在大脑生后发育不同时期的表达变化情况。这些结果让我们对大脑生后
发育过程中基因的表达和调控有了新的认识,为进一步从分子水平上对大脑发
育进行研究提供了理论基础。




                     4
文献综述




                 第一章 文献综述


1.1 哺乳动物大脑发育的研究背景


1.1.1 大脑的结构和功能


  大脑又称端脑,是指占据颅腔的大部分的大而圆的脑组织,主要包括左右
大脑半球,是脊椎动物在长期进化过程中发展起来的思维和意识的器官。
  大脑半球主要包括灰质和白质两部分。覆盖在大脑半球表面的一层灰质称
为大脑皮层,是神经元胞体集中的地方。这些神经元在皮层中的分布具有严格的


层次,大脑半球内侧面的古皮层分化较简单,一般只有三层 ,而在大脑半球外侧

面的新皮层则分化程度较高,共有六层。皮层的深面为白质,白质内还有灰质


核,这些核靠近脑底,称为基底核(或称基底神经节)。基底核中主要为纹状体。

纹状体由尾状核和豆状核组成。尾状核前端粗、尾端细,弯曲并环绕丘脑;豆状
核位于尾状核与丘脑的外侧,又分为苍白球与壳核。尾状核与壳核在种系发生


(即动物进化 )上出现较迟,称为新纹状体,而苍白球在种系发生上出现较早,

称为旧纹状体。纹状体的主要功能是使肌肉的运动协调,维持躯体一定的姿势。
  左、右大脑半球由胼胝体相连。半球内的腔隙称为侧脑室,它们借室间孔与
第三脑室相通。每个半球有三个面,即膨隆的背外侧面,垂直的内侧面和凹凸不
平的底面。背外侧面与内侧面以上缘为界,背外侧面与底面以下缘为界。半球表
面凹凸不平,布满深浅不同的沟和裂,沟裂之间的隆起称为脑回。背外侧面的主
要沟裂有:中央沟从上缘近中点斜向前下方;大脑外侧裂起自半球底面,转至
外侧面由前下方斜向后上方;在半球的内侧面有顶枕裂从后上方斜向前下方;
距状裂由后部向前连顶枕裂,向后达枕极附近。这些沟裂将大脑半球分为五个
叶:即中央沟以前、外侧裂以上的额叶,外侧裂以下的颞叶、顶枕裂后方的枕
叶,外侧裂上方、中央沟与顶枕裂之间的顶叶,以及深藏在外侧裂里的脑岛。另


                     7
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究



外,以中央沟为界,在中央沟与中央前沟之间为中央前回;中央沟与中央后沟


之间为中央后回。大脑半球的构造见图 1-1。




        图 1-1 大脑半球构造图




  大脑是控制运动、产生感觉及实现高级脑功能的高级神经中枢,大脑的
左、右两个半球又分别称为左、右脑。左脑与右脑形状相同,功能却大不一样。左
脑司语言,也就是用语言来处理讯息,把进入脑内看到、听到、触到、嗅到及品尝


到(左脑五感)的讯息转换成语言来传达,相当费时。左脑主要控制著知识、判断、

思考等,和显意识有密切的关系;右脑是将收到的讯息以图像处理,瞬间即可


处理完毕,因此能够把大量的资讯一并处理 (心算、速读等即为右脑处理资讯的


表现方式) ,右脑控制着自律神经与宇宙波动共振等,和潜意识有关。一般情况

下右脑的五感都受到左脑理性的控制与压抑,因此很难发挥即有的潜在本能。大


脑的功能分区见图 1-2。




       图 1-2 大脑皮层的功能分区




                        6
文献综述




1.1.2 大脑的发育过程


   大脑发育是一个极其复杂的过程,对小鼠不同发育时期的脑组织进行HE染

色及尼式染色的研究结果表明,小鼠的大脑发育大致经历了以下几个过程


[16]:


 (1) 神经管形成阶段:胚胎7-9.5天。胚胎7.5天时,小鼠已经明显分化出了内、


中、外三胚层,外胚层增厚形成神经板,进而深陷形成神经沟,神经沟由4-5层


小而圆、排列紧密的细胞组成,为假复层柱状上皮,核分裂相普遍存在。胚胎9.5

天神经沟已开始闭合形成神经管,但前后神经孔仍可见。前端已开始形成五个脑
泡,但尚未完全形成。


 (2) 脑泡形成-神经上皮阶段:胚胎9.5 -11.5天,端脑脑泡形成,此时脑泡壁较

薄,只有几层细胞,还属于神经上皮阶段,细胞小而圆,排列紧密,嗜碱性强。


胚胎11.5天时,小鼠已具备了完整的五个脑泡,即端脑、间脑、中脑、后脑和末


脑,端脑脑泡壁进一步增厚,细胞层数达 15-16 层,此时细胞仍处于未分化状

态,同时开始出现脉络丛。


 (3) 神经元分化阶段:胚胎 11.5-17.5天,脑泡壁不断增厚,神经前体细胞继续


分化增殖,新产生的神经元开始发生迁移,并逐渐形成各种脑部结构。胚胎13.5

天,端脑位置向前,上部及两侧扩大,形成两个大脑半球,同时脑泡壁继续增
厚,细胞已达数十层,可清楚的分为室管膜层,外套层和边缘层。同时,两大脑
半球底壁增厚明显,形成纹状体原基,此时海马原基也已形成,可清楚的分为

                     9
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




三层。胚胎15.5天,端脑脑泡壁进一步增厚,神经细胞由外套层向边缘层迁移,


形成原始大脑皮层 (新皮质),并且可分为三层,即颗粒上层、颗粒层及颗粒下

层。在这一时期侧脑室脉络丛逐渐发达,可以看到一些血管及神经纤维,一些联
合纤维如胼胝体等也开始发育,一些神经细胞中开始出现颗粒状的尼氏体。胚胎


17.5天,脑泡壁进一步增厚,大脑皮质开始分层,此时可大致分为四层:分子

层、椎体细胞层、颗粒细胞层和多形层,上矢状沟出现,纹状体进一步增大填充
侧脑室。海马发育渐趋完善并且已发育出齿状回。此时大部分神经细胞内都含有
尼氏体,呈条状或颗粒状。

 (4) 神经元成熟阶段:胚胎后期至生后小鼠成年期。神经元逐渐发育成熟,末


端突起形成突触,并联合形成突触连接。生后 1天的小鼠已具备了成年小鼠脑部

的基本形态,各脑部结构位置基本确定,只是大脑皮层的六层结构的分化还不
明显,小脑也未发育完善。海马的锥体细胞层,齿状回颗粒细胞层已形成,但整


体细胞较集中。生后7天、 天至成年,大脑皮层以及海马各细胞层细胞数量逐渐
            14

增多但相对分散。

1.1.3 大脑发育的分子调控


1.1.3.1 激素对大脑发育的调控


  甲状腺激素在哺乳动物的生长发育过程中发挥重要作用。生后大脑的发育主
要是以器官的成熟为特征,轴突和树突的生长、突触和髓鞘的形成、神经元的迁
移、特异种群细胞的分化等都发生在脑发育的晚期,这一过程受到甲状腺激素的
调节。脑发育的后期,如果缺乏甲状腺激素,大脑皮层的树突生长和突触形成均
减少;由于大脑皮层的细胞相距较近;呈堆积状态;因而使脑体积减小。出生后



                       8
文献综述




10天时切除甲状腺的大鼠其视皮层的锥体细胞顶树突上的棘突数量明显减少。这


可能就是甲低时智能障碍、学习和行为缺陷的主要原因[17]。研究表明,甲低对

大鼠脑发育的影响与人类的呆小病非常相似。而且发现,如果在一个关键的“窗
口期”及时补充甲状腺激素,甲低所致的脑组织病变大多可以恢复正常;如果
错过这个“窗口期” 则治疗收效甚微,脑组织将发生不可逆的损伤。这个“窗


口期”,人类为出生后3个月之前,大鼠为出生后2周之前[18]。


  甲状腺激素主要是在细胞核内发挥作用,它与 TR结合,后者与另外一种核


受体——维甲酸X受体(RXR)形成异源二聚体,这个异源二聚体作用于靶基因启

动子的甲状腺激素反应元件,通过与共抑制因子、共激活因子等复合物的相互作
用,在转录水平调节靶基因的表达。甲状腺激素调节脑发育的靶分子主要包括树
突结构和突触形成相关基因、髓鞘形成的相关基因与蛋白质、细胞分化与迁移相
关基因以及转录因子基因等。

  雌激素可以调节突触可塑性以及学习和记忆等脑的高级功能,脑内雌激素
的来源包括透过血脑屏障的循环雌激素以及脑局部合成的雌激素,即脑源性雌


激素。脑源性雌激素具备神经递质/神经调质的部分功能性特征,有可能作为神


经递质/神经调质在脑发育过程中发挥作用[19]。


1.1.3.2 肿瘤发生相关基因对大脑发育的调控


  许多肿瘤发生相关基因与大脑结构和功能的分化密切相关。研究显示,抑癌


基因对神经干细胞的增殖分化有调控作用[20]。Erbb基因是一种原癌基因,在脑




                     11
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究



的神经元、少突胶质细胞和星形胶质细胞表达,通过编码甲状腺激素受体,参与


甲状腺激素对脑发育的调控过程 [21-26];PTEN基因是人类发现的第一个具有脂


质、蛋白质双重磷酸化酶功能的肿瘤抑制基因。近年来研究表明PTEN不仅在调控

肿瘤发生发展中发挥作用,也通过其介导的信号网络广泛参与神经元的极性建


立、增殖、迁徙、分化、凋亡及突触分化等[27-30],从而在调控脑发育和分化过程


中起到重要作用;ndrg2基因为正常脑组织和多种肿瘤组织的差异表达基因,参


与抑制肿瘤的发生和转移。ndrg2参与了应激反应和Alzheimer病等脑部疾病的发


生发展,并与神经细胞的增殖分化有着一定联系 [31]; APC 全称为大肠腺瘤样


息肉基因,是一种肿瘤抑制基因,在结肠癌等肿瘤中常存在截短突变, APC作


为Wnt信号通路的负调控因子参与脑的发育 [32, 33];nov基因全称为肾母细胞瘤


过度表达基因,是一种原癌基因,与神经系统的结构和功能分化有关; SIM2基

因与肿瘤的发生发展密切相关,能够在转录水平上调节灭活致癌物质的关键代


谢酶,研究表明, SIM2 基因对大脑发育和神经元分化有重要作用 [34, 35] ;


Fetuin 是半胱氨酸蛋白酶抑制剂超家族 cystatin的一个分支,功能涉及到肿瘤的

发生、发展,并与胚胎时期的大脑发育密切相关。

1.1.3.3 大脑发育过程中的神经营养因子假说


  在大脑发育过程中会产生大量的神经元细胞,而大脑发育成熟后只保留了


                      10
文献综述



部分神经元细胞,其余大部分细胞发生了凋亡,目前认为,各种神经营养因子
在这一过程中起了决定作用,神经元对数量有限的营养因子的竞争决定了细胞


的存活或凋亡,这就是神经营养因子学说[36-38]。神经营养因子是脊椎动物神经

系统发育及功能维持的重要调节因子,在神经系统发育过程中参与对神经元的


生长、发育、分化、存活、凋亡和损伤后修复等的调节过程[39]。


   目前已明确的神经营养因子有神经生长因子 (NGF)、脑源性神经营养因子


(BDNF)、NT-3、NT-4/5、睫状神经营养因子(CNTF) 等,它们可以是靶器官来源


的,也可以是局部产生的 (如胶质细胞 ),可以通过自分泌或旁分泌的方式发挥


作用。这些神经营养因子分别通过与 trkA (NGF 受体 ) 、 trkB (BDNF 、 NT-4 受


体)、trkC (NT-3受体)高亲和力受体, 或低亲和力受体p75LNGFR(共用受体)结合,


从而激活一些信号途径,使bc1-2、 c1-XL、
                  b      Mc1-1等抑制细胞凋亡基因上调表达


或bax、 、 、
     bak bad bc1-Xs等促进凋亡基因下调表达,从而调节发育过程中细胞的


存活与凋亡[38, 40]。


   脑源性神经营养因子(BDNF)是神经营养因子蛋白质家族的一员。它在脑


中含量非常丰富,尤其在大脑皮质和海马部位。BDNF在神经元的生长、发育、分

化、存活、凋亡等过程中发挥重要作用。近年来,大量研究证实,脑源性神经营养
因子不仅具有长时程的营养调节功能,还能够急性调控神经元的突触传递活


                         13
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




动,并与突触可塑性、LTP及学习记忆机制等密切相关[41, 42]。


1.1.3.4 神经元诱向因子对大脑发育的调控


   在神经系统的发育过程中,神经突起的生长需要多种因子的作用。其中神经
元与其靶细胞之间精确联系的形成是依靠多种细胞外的诱向因子介导实现的


[43]。神经轴突前端的生长锥表面存在多种诱向因子的受体,它们可特异地识别


环境中各种诱向因子,并向细胞内传递吸引或是排斥的信号 [44],从而调节生

长锥前端前伸和回缩力量的平衡,最终实现对轴突的生长方向以及轴突与特定
靶细胞的功能联系的调节作用。
   已经发现的对神经轴突具有诱向作用的蛋白质基本属于四大家族:


ephrin、neuropilin、slit 和 netrin,这些已经发现的诱向因子又可分为两大类:一类

固着在细胞膜表面或胞外基质中,影响局部的神经纤维生长,例如


ephrin,MAG,NOGO 等;另一类则是分泌性分子,能扩散一定的距离并形成


浓度梯度从而发挥作用,如 netrin,slit 以及 semaphorin 家族的大多数成员以及

各种神经营养因子。


1.1.3.5 大脑发育调控中的重要信号通路


   大脑是一个结构极其复杂的器官,从细胞水平看,神经干细胞增殖、分化形
成了丰富的的神经元类型以及不同的亚型;从网络水平看,不同的神经元细胞
发出的各种纤维有序的纵横交错,形成类型繁多的突触联系。这个精确而复杂的
神经信息传递网络的形成,需要各种信号通路的参与,它们识别大脑发育过程
中的各种信号分子,调节发育时期相关基因的特异性表达,在神经元数量的控
制、神经细胞特性的决定、细胞分化的时空控制和格局化等方面发挥了重要的作

                          10
文献综述



用。


 (1) Notch 信号通路


  Notch信号通路由Notch、Delta配体和CSLDNA结合蛋白(在鼠中称为Rbpj)等


组成。Notch受体一旦被激活,就被 γ-分泌酶蛋白酶复合体所裂解,释放出一个


胞内区片断NICD,即Notch受体的活性部分,NICD转移进入细胞核,与保守




                       15
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




的DNA结合蛋白Rbpj转录调节蛋白结合形成一个复合物,这一复合物与靶基因


的相互作用可以抑制未分化的前体细胞向神经细胞的特异分化[45, 46]。


  Notch 信号通路介导的“旁侧抑制”机制被认为是决定神经干细胞分化命运


的一个关键环节。在神经系统早期发育的邻近细胞中,主要表达 Delta配体的细


胞向神经元或神经胶质细胞方向分化,而其周围主要表达Notch受体的细胞则被

抑制分化为神经细胞,但仍保持进行各种分化的活性状态,从而形成了不同的


细胞系[47-49]。


  研究表明, Notch信号不仅与神经元的分化有关,而且与神经轴突的延长及


复 杂 有 关 。 另 外 , Notch 通 路 与 神 经 管 发 育 的 关 系 也 已 经 得 到 了 研 究


[50-55]。Notch信号通路参与了神经系统发育中的信号转导通路调控,并与其他


转 录 因 子 形 成 复 杂 的 调 控 网 络 [56] 。 Notch 信 号 通 路 的 相 关 基 因 主 要 包 括


Notch1、Msi1、Numb、Psen1、Rbpj、Hes1、Sox1和Neurog2等。


    (2) MAPK信号通路


   有丝分裂原激活蛋白激酶 (MAPK)是一类丝 /苏氨酸蛋白激酶,是与细胞内


靶效应以及细胞增殖有关的关键酶。MAPK通路作为体内细胞两个重要通路--Ras




                               12
文献综述




通路(引起细胞增殖)和Jak-STAT通路(产生各种细胞效应的独立信号级联)的交汇


点,在胞外到细胞核内的细胞信号传导过程中起着至关重要的作用[57]。该通路

参与了细胞生长、发育、增殖、分化、死亡及细胞间的功能同步等多种生理过程,


并在细胞恶性转化等病理过程中发挥重要作用。 MAPK 级联途径主要包括


Ras/ERK( 细 胞 外 信 号 调 节 激 酶 ) 、 JNK/SAPK( 应 急 激 活 的 c-jun NH2 终 端 激


酶 ) 、 P38MAPK/HOG-l 和 ERK5( 大 丝 裂 素 蛋 白 活 化 激 酶 , BMK1) 四 条 途 径


[58-60]。


    (3) Wnt-catenin信号通路


    Wnt-catenin信号通路是调控细胞增殖分化的关键环节,它广泛参与了细胞

增殖、细胞命运特化、细胞极性及细胞迁移等的调控过程,在胚胎发育和肿瘤发


生过程中发挥重要作用。Wnt-catenin信号通路广泛参与了生后大鼠大脑皮层的发

育及功能活动,主要体现在对神经前体细胞增殖分化、神经系统的模式发生以及


神经元突起形成的调控作用 [61]。此外, Wnst基因在神经管和神经嵴细胞的增

殖、凋亡以及命运决定的调控过程中也扮演了重要角色。

1.2 转录组学的研究方法


    转录组是指由基因组DNA转录的mRNA总和,也称为表达谱。目前研究转录


组学的主要方法是利用DNA芯片技术检测有机体中的表达谱,进而研究细胞的



                                17
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究



表型和功能。传统被广泛应用于表达谱研究的技术包括以下几种:表达序列标签


(EST)测序、微阵列分析(DNA Microarray)、大规模平行信号测序系统(MPSS)和基


因表达连续分析(SAGE)。这些技术可以分为两类,一类通过杂交信号的相对强


度来估计表达强度,如 RNA印迹和微阵列;另一类则基于对样本中每个 RNA分


子的计数来完成,如EST、SAGE和MPSS。近几年,随着测序技术的发展,应用


新一代测序仪为主的RNA-Seq技术成为人们研究转录组的主要方法。


1.2.1 EST表达序列标签


  表达序列标签( Expressed sequence tags EST )是把 mRNA 反转录得到的


cDNA克隆到载体构建成cDNA文库后, 随机挑选cDNA克隆,对其5’或3’端进


行单向测序后获得的 cDNA 部分序列 ( 原理如图 1-3 所示 ) 。 EST 的平均长度为


240-480bp,它来源于特定环境下特定组织的总 mRNA,因此可以根据每个基因

在相应组织中出现的相对数量来说明该组织中的基因表达水平。




           图1-3 EST测序原理


1.2.1.1 EST技术的形成和发展


  早在 1983年, Costanzo 等人便提出了表达序列标签概念的雏形,并对肝脏



                          12
文献综述




的cDNA文库进行了随机测序,证实所测到的序列可以用于研究 DNA序列与基


因功能之间的关系; 1989年,人类基因组计划启动之后, EST 技术开始引起科

学家们




                   19
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




的重视,并且不断发展和成熟起来; 1991 年, Adams 等人从三种人脑组织的


cDNA文库中随机挑取609个克隆进行测序,得到一组人脑组织的EST[62];1992


年,科学家建立了EST数据库,用以收集所有的EST数据,后来作为GenBank中


的一个数据库; 1993年,Boguski和Schuler首次提出了构建以 EST为界标的人类


基因组转录图谱计划,科学家们提前进入对基因组的功能研究领域[63-66]。截止


到 2011 年 3 月份, NCBI 中 dbEST 已经收录了来自 1500 多个物种的 69,033,603 条


EST序列。


1.2.1.2 EST技术流程及分析思路


  典型的真核生物 mRNA 分子是由 5’UTR(untranslationed region) 、 ORF (open


reading frame)、3’UTR和3’末端的polyA(20~200bp)尾巴四部分组成的。EST技术


就是根据mRNA的结构特点发展起来的,其基本流程如图1-4所示:首先从目标


样本中提取总 RNA ,分离得到 mRNA ,用 Oligo(dT) 或随机引物作为逆转录引


物,在逆转录酶的作用下进行反转录 PCR 合成 cDNA ,选择合适的载体构建


cDNA文库,然后在 cDNA文库中随机挑取克隆进行 5’或3’端测序,最终得到长


度为240-480bp的EST 序列,然后对所得EST 数据运用生物信息学方法及软件进

                              14
文献综述



行注释和分析。




            图 1-4 EST 技术基本流程


1.2.1.3 EST技术的应用


   EST技术广泛应用于基因表达谱研究、基因图谱构建、选择性剪切识别、基因


识别、单核苷酸多态性 (SNP)研究、系统进化分析以及基因芯片技术等诸多方


面。EST的应用主要在以下几个领域:


   (1)基因表达谱构建


   基因表达谱是反映生物体在特定组织、器官或某一特定生理阶段细胞中所有
基因表达水平的图谱,可用来分析基因表达水平的差异情况。基因表达谱、差异


表达研究是 EST技术应用的主要方面。通过对特定组织或发育时期的非标准化


cDNA文库随机挑取克隆并进行大规模 EST测序,基本可明确该组织或该时期基

因表达及表达丰度等,从而能在整体基因组水平上研究其生物学特性及分子机
制。

 (2)构建基因物理图谱


   基因物理图谱是以已知的特异 DNA序列为标记、标记间距以物理距离碱基


对 表 示 的 染 色 体 图 谱 。 供 识 别 的 标 记 以 序 列 标 签 位 点 (Sequence–Tagged




                              21
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




Sites,STS)最为常用,因此物理图谱通常又称为STS图谱。STS是基因组中唯一


存在的、长度在200-300bp之间的特异性序列,来源于基因组中的单拷贝序列、基


因表达序列或者遗传标记序列。1994年Kurata用水稻愈伤组织的883条EST构建了


第一张植物基因表达图谱,这张图谱包含了 1383个DNA标记,包括883个cDNA


片段标记、265个染色体DNA标记、147个PAPD标记及88个其它DNA片段标记


[67]。


 (3)选择性剪切识别


   选择性剪切(alternative splicing,AS)是指从同一个mRNA前体中通过不同剪


切方式产生不同 mRNA剪切异构体的过程,这些异构体相应的蛋白产物会表现

出不同功能。选择性剪切在高等哺乳动物中普遍存在,其最直接的结果是改变基


因的转录产物,并可能由此改变所编码蛋白的功能。运用EST序列或mRNA序列

与基因组序列进行联配是发现选择性剪切的常用方法。


1.2.1.4 EST技术的不足


 EST的不足主要表现在以下几个方面:


 (1) EST序列很短,没有给出完整的表达序列。


 (2) 不易获得低丰度的表达基因。

                         14
文献综述




(3) 出错率较高,可达2%–5%;


(4) 有时会出现载体序列和核外mRNA的污染或基因组DNA的污染;


(5) 有时出现镶嵌克隆;


(6) 序列的高冗余度,使得需要处理的数据量很大。




                      23
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




1.2.2 DNA微阵列(基因芯片)


  基因芯片又被称为DNA芯片、DNA微阵列或生物芯片,是由美国斯坦福大


学Brown小组建立的方法。基因芯片技术是将大量寡核苷酸或DNA密集排列于硅

片等固相支持物作为探针,与标记的样品分子进行杂交,然后通过检测每个探
针分子的杂交信号强度进而获取样品分子的数量和序列信息。基因芯片技术已广
泛应用于测序、表达谱分析、不同基因型细胞的表型分析以及基因诊断、药物设计


等领域[68]。


1.2.2.1 基因芯片的工作原理


  基因芯片的测序原理与经典的核酸分子杂交方法一致,具体工作原理如图


1-5所示,在一块基片表面固定了序列已知的八核苷酸的探针。当溶液中带有荧

光标记的核酸序列与基因芯片上对应位置的核酸探针产生互补匹配时,通过确
定荧光强度最强的探针位置,获得一组序列完全互补的探针序列,从而得到靶
核酸的序列。




             图1-5 基因芯片的工作原理


1.2.2.2 基因芯片的技术流程


  基因芯片主要技术流程包括:芯片的设计与制备,样品的制备与标记,杂


交反应,以及杂交信号的检测与分析(图1-6)[69]。


  (1) 芯片的制备



                          16
文献综述



  目前芯片的载体以玻璃片或硅片为主,应用原位合成和微矩阵的方法将寡


核苷酸或cDNA作为探针按一定顺序排列在载体上。


  (2) 样品的准备


  从实验样本中获得的生物样品 (DNA 或 mRNA) 通常都不能直接与芯片反


应,需进行一定程度的PCR扩增。靶分子的标记主要有荧光标记、生物素标记和

放射性同位素标记等几种,目前最为常见的是荧光标记法。实验中先用荧光色素


Cy–3、Cy–5或生物素标记dNTPs,然后DNA聚合酶选择荧光标记的dNTP为底物


使引物延伸,这样新生成的DNA片段中就掺入了荧光分子。对于cDNA,一般是


在反转录过程中掺入荧光基因[70, 71]。


  (3) 分子杂交


  分子杂交是荧光标记的样品与芯片上的探针进行反应产生一系列信息的过
程。芯片杂交是固–液相杂交,待测样品经扩增、标记后,能够与芯片上的探针
阵列进行分子杂交,杂交条件因靶分子的类型不同而变化。杂交后芯片要洗涤除
去未杂交上的分子,靶分子与探针之间的杂交是芯片检测最关键一步。

  (4) 信号检测与分析


  携带荧光标记的分子结合在芯片特定的位置上,在激光的激发下,含荧光


标记的DNA片段发射荧光。样品与探针完全配对的杂交分子,产生荧光强度最

强的信号;不完全杂交的双链分子荧光信号较弱;不能杂交的则检测不到荧光
信号或只检测到芯片上原有的荧光信号。 荧光强度与样品中的靶分子含量有一


                     25
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究



定的线性关系。 杂交反应后的芯片上各个反应点的荧光强弱用荧光共聚焦显微
镜、激光扫描仪或落射显微镜等进行检测,由计算机记录下来,然后通过专业的


软件进行定量分析和处理[72]。




           图1-6 基因芯片技术流程




                     16
文献综述




1.2.2.3 基因芯片技术的应用


   基因芯片技术已广泛应用于基因表达分析、基因诊断、药物筛选、序列分析等
诸多领域,在农业、工业、食品和环境监测等方面也表现出极大的应用潜力。主要
应用如下:


   (1) 基因表达水平的检测;


   (2) 基因突变位点及多态性检测;


   (3) DNA序列测定;


   (4) 药物筛选;


   (5) 寻找新基因[73-77]。


1.2.2.4 基因芯片的缺点


   芯片技术在获取细胞内基因和蛋白质的表达谱信息上具有很大的优势,但
也存在许多技术问题,如:技术成本昂贵、方法复杂、分析范围较狭窄等。从技术
角度来说主要包括以下几个方面的不足:


   (1) 可重复性差,假阳性/阴性比较多。


   (2) 获取的信息比较纷杂,判断的标准不一。如何准确的获取有用的信息还

是难点。

   (3) 必须结合其他的试验技术加以证明才能获得可靠的分析结果。


1.2.3 SAGE基因表达系列分析



                        27
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




   基因表达系列分析 (Serial analysis of gene expression SAGE) 是 Velculescu 于


1995年首次提出的一种快速分析基因表达信息的技术。它可以在整体水平对细胞


或组织中的大量转录本同时进行定量分析。SAGE技术已成功应用于转录组研究


及不同样本间差异表达基因的鉴定。SAGE文库中包括大量能唯一代表基因转录


本序列的tag(~21bp),tag出现的频率反应了该tag所代表基因的表达丰度[7, 8]。


1.2.3.1 SAGE的理论基础


 SAGE的理论基础主要有以下三个:


   (1) 在一个转录体系内,每个转录本都可以用一个来自于转录本特定区域的


tag(~21bp)来表示。


   (2) 将这些短 tag 连接成标签多聚体进行克隆测序,就可以得到对数以千计


的mRNA转录本,从而对它们进行批量分析。


   (3) 各转录本的表达水平可以用tag出现的次数进行定量。


1.2.3.2 SAGE的技术流程


   SAGE的技术流程如图1-7所示,主要分为三个阶段:


   (1) SAGE 文库的构建:利用限制性内切酶 NlaIII( 锚定酶 )识别 CATG 位点的

                                 18
文献综述




特性在其3’端进行酶切,然后用链霉素包被的磁珠进行亲和纯化;将cDNA分为


A 和 B 两部分,分别连接接头 A 或接头 B ,每一种接头都含有 CATG 四碱基突出


端、限制性内切酶BsmFI的识别序列和一个PCR引物序列(引物A或B);利用标签


酶BsmFI识别其位点 3’端下游的 14-17bp处的特性进行酶切,产生连有接头的短


cDNA片段;混合并连接两个短 cDNA 片段,构成双标签后,用引物 A和 B进行


PCR扩增;用锚定酶NlaIII切割扩增产物,抽提SAGE双标签片段;并用T4 DNA

连接酶连接成多聚体,选择合适的片段长度,克隆进载体。得到的克隆插入序列


由一系列的 20-22bp长的SAGE双标签组成,每两个双标签中间由 4bp的NlaIII酶

切位点分隔开。


  (2) SAGE文库的测序:利用质粒载体上的通用引物,对插入片断进行单向


测序。SAGE要求质量高而且读长长的序列,以免单碱基测序错误而导致原有标

签有用信息的丢失进而产生一个并不存在的标签。

  (3) 标 签 序 列 的 提 取 : 在 双 标 签 多 聚 体 序 列 中 定 位 NlaIII 酶 切 位 点 ( 即


CATG),然后提取CATG位点之间的20-22bp长的双标签序列,去除重复出现的

双标签序列,包括在反向互补方向上重复的双标签序列;截取每个双标签序列


最靠近两头末端的 10个碱基,即为标签序列;去除与接头序列相对应的标签 (即


TCCCCGTACA和TCCCTATTAA),同时去除含有不确定碱基(即除A、 、 、 四
                                       C T G


                              29
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




种碱基以外的碱基 )的标签;最后计算每个标签的出现次数,以列表的形式给出


一个包含每个标签及其表达丰度的报告。标签序列的提取工作可以由SAGEnet提


供的SAGE提取软件包来完成,也可以使用 NCBI提供的UNIX操作系统和C程序

来完成。




                      18
文献综述




                        图1-7 SAGE技术流程


          (引自http://www.bgilt.com/UserFiles/Image/sage1.gif)


1.2.3.3 SAGE的优点和应用


   SAGE是一项快捷、有效的基因表达研究技术,其优点主要表现在:能够发

现低丰度转录本、检测向上或向下调控的基因、测量表达的复合效应、鉴定新基因


等等。在技术方面,SAGE具有假阳性率低、可重复性强、实验周期相对较短、大

量数据可用于多重比较等诸多优点,非常适合比较不同发育状态或疾病状态的


生物基因表达。SAGE 技术广泛应用于定量比较正常与疾病状态下组织细胞的特


异基因表达、研究基因表达调控机制、寻找新基因等方面。此外,由于SAGE能够

同时最大限度的收集一种基因组的基因表达信息,利用基因的表达信息与基因
组图谱融合绘制的染色体表达图谱, 使基因表达与物理结构联系起来, 更利


于基因表达模式的研究。需要注意的是,SAGE必须和其它技术相互融合、互为

补充,才能最大可能地进行基因组基因表达的全面研究。

1.2.4大规模平行信号测序系统(MPSS)


   大 规 模 平 行 测 序 技 术 (Massively Parallel Signature Sequencing, MPSS) 是


Brenner 等于 2000 年建立,由美国 Lynex 公司将其商品化的一种基因克隆新技


术,其核心技术分别由Mega Clone、MPSS和生物信息分析三部分组成,具有高

                                   31
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究



通量、高特异性和高敏感性。通过标签库的建立、微珠与标签的连接、酶切连接反


应和生物信息分析等步骤 , 获得基因表达序列(图1-8)。每一标签序列在样品中的


频率(拷贝数)就代表了与该标签序列对应的基因表达水平。所测定的基因表达水


平是以计算mRNA拷贝数为基础的,是一个数字表达系统。


  MPSS与基因芯片技术相比较,具有下列优点:


  (1) 可以避免在cDNA芯片技术中出现的高度同源序列的交叉杂交,保证基

因的高度特异性。

  (2) MPSS的高分辨率使其可以检测很低表达水平的基因;


  (3) MPSS技术检测基因不需要预先知道该基因的相关信息,可以应用于任

何生物体的基因表达检测。

  总之,MPSS具有能测定表达水平较低、差异较小的基因,不必预先知道基


因的序列以及自动化和高通量等特点,是值得推广的技术[4, 78]。




  图1-8 MPSS技术中微珠与标签的连接(左)、酶切连接反应(右)


      (引自Reinartz等,2002)




                           20
文献综述




1.2.5 上述各技术间的优缺点比较


    上述各种技术的优缺点比较如表1-1所示:


    (1) EST 测序在提供大量序列信息的同时也产生了大量的冗余序列,特别

是那些高表达的基因。虽然这些冗余序列可以通过均一化或消减的策略降低,但


是因为时间和费用方面的局限, EST 测序不是一个可行的寻找差异表达的方法


[62]。


   (2) 芯片可以同时检测几千个基因的表达信息,但是不能给出芯片上包含的

有关该基因的任何信息,因此需要一些已知的信息。芯片存在的缺陷也是相当明
显的:首先是成本高昂的问题,一般实验室难以承担其高昂的费用;其次在芯
片实验技术上还有多个环节尚待提高,如在探针合成方面如何进一步提高合成


效率及芯片的集成程度以及样品制备的简单化与标准化[1, 75]。


   (3) SAGE和 MPSS产生大量的序列数据,而且能够表现实际的不同转录本


的比例。但它们有共同的缺点,即所产生的短 tag(17-20bp)在进行数据处理的时


候遇到很多的问题。此外,MPSS的专利技术的费用也较昂贵。


             表1-1 转录组学研究方法的优缺点比较




1.2.6 RNA-seq技术及其应用


 与原核生物相比,真核生物的转录组非常复杂,其中有大量的重叠转录本、转

                       33
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




录的基因间区序列和大量的非编码 RNA。过去十几年的研究使我们对这种复杂


性有了更加深刻的认识和理解,也因此产生和发展了一系列相关技术,如EST、


芯片技术、SAGE、MPSS 等。近几年随着测序技术的发展,应用新一代测序仪为


主的RNA–seq技术成为研究转录组的新方法。RNA-seq 利用大规模测序技术直接


对 cDNA 序列进行测序,产生数以千万计的 reads数量,从而使得一段特殊的基


因组区域的转录水平可以直接通过比对到该基因组区域的 reads数来衡量。与以


往的研究方法相比, RNA-seq技术的最大特点就是它的数据高通量,产生海量

的转录数据,其中包括大量之前的方法所检测不到的、表达丰度非常低的转录本
信息,从而使我们能够尽可能的深度挖掘出转录组的信息,对整个转录组的情


况实现更加全面和真实的了解。 RNA-seq-技术的原理如图1-9所示。




               图1-9 RNA-seq技术原理


               (引自Graveley, 2008)


  利用新一代测序技术研究转录组的方法为转录组的研究提供了一个新的角


度。与其他研究转录组的方法相比,RNA-seq技术才处于刚刚发展的初期,但是


随着它可用性的提高和费用的下降,RNA-seq技术具有非常广阔的前景。




                        22
文献综述




1.2.6.1 新一代测序技术发展概况


   传统的DNA测序方法一直面临着测序流程复杂、测序时间长、成本高和通量


小 等 问 题 。 而 新 一 代 测 序 技 术 如 454 Life Sciences 公 司 开 发 的 454 测 序 系


统、 Illumina 公司开发的 Solexa 测序系统以及 Applied Biosystems 公司开发的 ABI


SOLiD测序系统等都用到了DNA分子高效扩增策略。这些高通量测序仪的共同特


点就是不需要大肠杆菌进行DNA模板扩增,且测序所得序列相对较短:其中测


序最长的454测序仪测序长度也仅为 200-300个碱基,其余三种序列都只有几十

个碱基。这些新测序平台已经被广泛应用于生物学研究的许多方面,测序原理及
序列长度的差异也决定了这四种测序仪在不同领域的应用。


1.2.6.2 SOLiD技术原理及技术流程


   SOLiD 的技术原理是: SOLiD 使用连接法测序获得基于“双碱基编码原


理” 的SOLiD颜色编码序列,随后的数据分析将原始颜色序列与转换成颜色编


码的reference序列进行比较,把SOLiD颜色序列定位到reference上,同时校正测


序错误,并可结合原始颜色序列的质量信息发现潜在SNP位点。




                                35
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




   (1) SOLiD基因组文库的构建


   使用SOLiD测序时,可根据实际需要,制备片段文库或末端配对文库。制备


片段文库就是在短DNA片(60-110 bp)两端加上SOLiD接头(P1、P2 adapter);而制


备末端配对文库时,先在长片段 DNA(600bp 到 10kb) 两端连接 EcoP15I 酶切位


点,加入生物素标记的 internal 接头使该连接产物自我环化,然后用 EcoP15I 酶


切,并在酶切产物两端加 SOLiD接头,最后用亲和素磁珠特异吸附得到包含两


个25 bp末端及internal接头的目标DNA片段(~85bp)。两种文库的最终产物是两端


分别带有 P1 、 P2 adapter 的 DNA 双链,插入片段及 SOLiD 接头总长为 120-180


bp[79]。具体流程见图1-10。




       图1-10 SOLiD文库构建示意图


   (2) 油包水PCR


   文库制备得到末端带P1、 adapter但内部插入序列不同的DNA双链模板。
               P2                        油


包水PCR的作用相当于传统的大肠杆菌系统,可以独立地扩增DNA模板。油包水


PCR通过形成数目庞大的独立PCR反应空间实现单条DNA模板的独立扩增。“油



                           24
文献综述




包水”是指在 PCR反应前,将包含 PCR所有反应成分的水溶液注入到高速旋转

的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构


成了独立的PCR反应空间。和普通PCR一样,油包水PCR也在水溶液中反应。该


水溶液含PCR所需试剂,DNA模板,可以与P1、P2 adapter结合的P1、P2 PCR引


物(P1引物含量远小于P2及P1磁珠)。与普通PCR不同的是,油包水PCR水溶液有


两种形态的P1引物:存在于水溶液的极少量“游离态P1引物”,被固定在P1磁


珠球形表面的“固定态P1引物”(SOLiD系统把表面固定有大量P1引物的磁珠称


为“ P1 磁珠” ) 。 PCR 反应过程中,磁珠表面的 P1 引物可以和 DNA 模板的 P1


adapter负链结合,引导DNA模板合成,其合成产物同时“固定”到 P1磁珠球形


表面;“游离态 P1引物”可以和“散落”在水溶液中的 DNA模板结合,从而提


高DNA模板利用率;P2引物和以上两种形态P1引物共同作用使DNA模板指数级


扩增。理想状态下,每个小水滴只含单条 DNA模板和一个P1磁珠,由于水相中


的P2引物和P1磁珠表面的P1引物所介导的 PCR反应,这条DNA模板的拷贝数指


数级增加。 PCR 反应结束后,该 P1 磁珠表面就固定有拷贝数目巨大的同来源


DNA模板扩增产物。详细流程见图1-11。



                       37
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




                    图1-11 油包水PCR


    (3) 含DNA模板的P1磁珠的固定


    油包水PCR后将含DNA模板扩增产物的P1磁珠富集起来并进行变性处理,


从而得到含单链 DNA模板的P1磁珠,再对其进行末端修饰。最后把这些末端修


饰的含单链 DNA模板的P1磁珠通过共价键固定到 SOLiD玻片表面。这些均匀分


布在SOLiD玻片表面的磁珠是 SOLiD测序反应的最小单元 (图1-12)。SOLiD测序


反应在这些磁珠上并行进行,测序完成后,每个磁珠得到一条 SOLiD颜色编码


序列。每次连接反应后,SOLiD测序仪照相系统会记录SOLiD玻片上所有磁珠的

光




                         24
文献综述




信号,测序完成后, SOLiD图像处理系统可以根据磁珠在玻片上的位置将照片

上光信号对应到每个磁珠,最终得到每个磁珠的颜色编码信息。




          图1-12 SOLiD玻片及P1磁珠


  (4) SOLiD双碱基编码原理及测序流程


  SOLiD“双碱基编码原理”阐明了荧光探针的颜色类型与探针编码区碱基对


的对应关系。SOLiD连接反应底物是8碱基单链荧光探针。连接反应时,探针按照


碱基互补规则与单链DNA模板配对。如图1-13中的“底物探针”所示,探针5’末


端可分别标记“CY5,Texas Red,CY3,6-FAMTM”4种颜色的荧光染料,并用


数字“3,2,1,0”表示;探针3’端第1、2位构成的碱基对是表征探针染料类型


的编码区,“双碱基编码矩阵”规定了该编码区 16种碱基对和4种探针颜色的对


应关系,3~5位的“n”表示随机碱基,而 6~8位的“z”指的是可以和任何碱基


配对的特殊碱基,因此,SOLiD连接反应底物中共有45 种荧光探针。




      图1-13 SOLiD 双碱基编码原理


  SOLiD测序通常包括五轮测序反应。每轮测序反应从“连接引物”锚定反应



                       39
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




开始,后跟7次连接反应。五种“连接引物”(n,n-1,n-2,n-3,n-4)长度相同,


都与P1引物区域互补,但对应于 P1引物区域的起始位置依次相差一个碱基;连


接引物5’端含磷酸基团,可以引导每轮反应中第一次连接反应。以一个磁珠上发


生的SOLiD测序反应为例 (图1-14):第一轮测序反应时,引物 n锚定完成后,由


于每个磁珠只含有均质单链 DNA模板,连接反应只掺入一种与模板 1-8位互补的


8 碱基荧光探针, SOLiD 测序仪根据光信号记录该探针第 1 、 2 位编码区颜色信


息,由于该探针与模板 1-8 位互补配对,所以该探针颜色信息对应于模板链第


1、 位碱基序列,随后的化学处理断裂探针第5、 位碱基间的化学键,并除去6-8
  2                    6


位碱基及5’末端荧光基团,暴露探针第5位碱基5’端磷酸,为下一次连接反应作


准备。第二次连接反应加入的探针与DNA模板链第6-14位互补配对,测序仪记录


对应于模板链第 6 、 7 位碱基的颜色信息,而第三次连接得到对应于模板链第


11、 位碱基序列的颜色信息......以此类推,第一轮测序反应获得了模板链7个碱
   12


基对的颜色信息(1、 ,6、 ,11、 ,15、 ,21、 ,26、 ,31、 。
          2   7    12   16   22   27   32) 第一轮测


序反应后, SOLiD 测序仪将包括“连接引物”和连接产物在内的新合成链除

去,只留下模板链,为第二轮测序反应准备。



                       26
文献综述




      图1-14 SOLiD 原始颜色序列的产生


  由于第二轮测序反应连接引物n-1起始位置比第一轮连接引物n前移一个碱


基,所以第二轮测序反应得到以模板链第 0,1位起始的7个碱基对的颜色信息。


五轮测序反应后,SOLiD图像处理系统自动将把对应于模板链第0、1位,第1、2


位......第34、 位的颜色信息顺次串联,得到由35个“0,1,2,3”组成的SOLiD
           35

原始颜色序列。




                      41
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




                表1-2 单张SOLiD玻片测序通量




  有三种规格的SOLiD玻片:1-well,整张玻片没有分隔,可放一个样品; 4-well,玻片

被平均分成 4 个独立小室,能同时测序 4 个独立样品; 8-well ,玻片被平均分成 8 个独立小

室,能同时测序8个独立样品;而fragment文库有16种barcoding P2引物,所以一张玻片中最

多可以放8╳16个不同的fragment文库样品。


   如表1-2 所示,片段文库和末端配对文库的测序长度不同。片段文库中每轮


引物锚定反应后有7个连接反应,所以整个 SOLiD测序过程包含35个连接反应,


最终得到由35个“0,1,2,4”组成的SOLiD原始颜色序列;而末端配对文库进


行正反向测序,一个测序方向每轮引物锚定后有 5个连接反应,则共有25个连接


反应,得到由25个由“0,1,2,4”组成的SOLiD原始颜色序列;但由于是双向


测序,一个磁珠得到两条序列,即2×25个由“0,1,2,4”组成SOLiD原始颜色

序列。

   (5) 数据分析原理


   SOLiD测序完成后,获得了由颜色编码组成的SOLiD原始序列。理论上,按


照“双碱基编码矩阵”,只要知道所测 DNA序列中任何一个位置的碱基类型,


就可以将SOLiD原始颜色序列“解码”成碱基序列。但由于双碱基编码规则中双


碱基与颜色信息的兼并特性(一种颜色对应 4种碱基对),前面碱基的颜色编码

                            28
文献综述



直接影响紧跟其后碱基的解码,当测序错误时,错误的颜色编码将影响其后的


所有碱基的正确解码,引起“连锁解码错误”(图1-15.1)。




         图1-15 SOLiD数据分析原理


  为避免“连锁解码错误”的发生, SOLiD 数据分析软件不直接将 SOLiD 原


始颜色序列解码成碱基序列,而是依靠所测物种的 reference 碱基序列完成后续


分析。SOLiD序列分析软件首先根据“双碱基编码矩阵”把reference碱基序列转


换成颜色编码序列,然后比较 SOLiD 原始颜色序列和颜色编码的 reference 序


列,获得SOLiD原始颜色序列在reference序列上位置及两者的匹配度信息。颜色


编码的 reference 和 SOLiD 原始序列的不完全匹配主要有两种情况:“单颜色不


匹配” 和“两连续颜色不匹配”(图1-15)。由于SOLiD测序以对DNA模板中的每


个碱基所包含的颜色信息独立地检测了两次,并且 SNP位点将改变连续的两个


颜色编码(图1-15.2),所以SOLiD分析软件认为“单颜色不匹配”为测序错误并


对该测序错误进行自动校正;而“两连续颜色不匹配”可能是 SNP ,SOLiD 分


析软件将根据定位到该 reference 区域所有 SOLiD 原始颜色序列一致性及对应质




                      43
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




量值综合评判。通过与颜色编码reference序列比较并校正测序错误后,SOLiD原

始颜色序列被转成个数相同的碱基序列。

1.2.6.3 SOLiD测序技术的应用


   研究者可以基因组 DNA 为初始样本构建 SOLiD 文库 (fragment 文库及 mate-


paired文库),以恰当的全基因组序列为reference进行全基因组重测序,还可以对


特 定 基 因 组 区 域 进 行 富 集 测 序 , 进 而 可 以 快 速 鉴 定 SNP 和 基 因 组 结 构 变


化。RNA-seq 高通量测序仪使测序成本大大降低,也促进了针对细胞全部转录产


物的深度测序研究。此外,由于SOLiD所得序列的测序方向明确,提供了序列来

自转录本的正义链还是反义链这一有用信息,使我们能够对测序结果及后面的
数据分析进行正确全面的了解。




                              28
材料与方法




                        第二章 材料与方法


2.1 实验材料


    小鼠大脑分别取自一周、四周、十周的成年雄性BALB/c小鼠,购于北京维通


利华实验动物技术有限公司,符合SPF/VAF级别标准。


2.2 主要化学试剂


    Trizol、10bp DNA Ladder、SYBR Gold Gel Stain、SuperScript II反转录酶试剂


购 于 Invitrogen , pUC18 DNA/Mspl 购 于 TIANGEN , DNAaseI(10U/μL) 购 于


NEB , Nuclease-free Water 购于 Ambion , pGEM-T 载体、 T4 连接酶、 One Shot


Top10 Competent Cell 购 于 Promega , 其 他 常 见 试 剂 如 乙 醇 (Ethanol) 、 异 丙 醇


(Isopropanol)、苯酚(Phenol)、氯仿(Chloroform)等均为国产分析纯试剂。


2.3 常用溶液和培养基


溶液1:50mM Tris-HCl,10mM EDTA,0.2mg/mL RNAase A


溶液2:0.2M NaOH,1%SDS (现用现配)


溶液3:3M KAc,pH5.2


糖原(Glycogen):5mg/mL, -20℃保存

                                  45
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




IPTG(200mg/mL):水溶液,-20℃保存


TE缓冲液:10mM Tris-HCl,1mM EDTA,pH 8.0


X-gal:二甲基甲酰胺溶解配制成储存液,-20℃避光保存


10×TBE : 108g Tris , 56g 硼酸, 40mL 0.5M EDTA(pH 8.0) ,加水至 1L ,使用时


稀释至1 × TBE工作液


6% Nondenaturing PAGE(6mL) : 4.2mL Deionized water , 1.2mL 30%


Acrylamide,0.6mL 10×TBE,110mL 10% APS,10mL TEMED


液体(LB)培养基(1L):胰蛋白胨10g,酵母提取物5g,NaCl 10g,以1M NaOH调


pH至7.0


固体(LB)培养基(1L):液体LB培养基中加1.5%的琼脂糖


0.01M 磷酸盐缓冲液 (PBS) :称 7.9g NaCl, 0.2g KCl , 0.24g KH2PO4( 或者 1.44g


Na2HPO4) 和 1.8g K2HPO4 ,溶于 800 mL 蒸馏水中,用 HCl 调节溶液的 pH 值至


7.4,最后加蒸馏水定容至 1 L,保存于4℃冰箱中即可。需要注意的是,通常所


说的浓度0.01 M 指的是缓冲溶液中所有的磷酸根浓度,而非 Na离子或K离子的


浓度,Na 离子和K 离子只是用来调节渗透压的。

                                30
材料与方法




2.4 试剂盒


RiboMinus Eukaryote Kit for RNA-Seq购于Invitrogen, SOLiD Whole Transcriptome


Analysis Kit(SOLiD Small RNA Expression Kit)、flash PAGE Reaction Clean-Up Kit


购 于 Ambion , Oligotex mRNA Mini Kit 、 MinElute PCR Purification Kit 购 于


QIAGEN。


2.5 实验方法


2.5.1 小鼠的处理和取样


    采用颈椎脱臼法将小鼠处死,取其大脑组织,用 0.01M PBS 缓冲液清洗,


放入液氮中冻存,立即研磨或者-80℃保存备用。


2.5.2 转录组文库的构建


    转 录 组 文 库 的 构 建 分 为 total RNA 提 取 、 ribosomal RNA 去 除 /mRNA 分


离、RNA打断、反转录以及PCR扩增几个步骤。rmRNA-Seq转录组文库构建流程见


图2.1。


2.5.2.1 总RNA提取


    应用TRIZOL法提取总RNA,具体步骤如下:每0.1g研磨好的大脑组织加入

                                     47
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




1mL TRIZOL试剂,混匀后颠倒混匀数下,室温静置 5分钟;按总体积的1/5加入


氯仿( 约0.2mL) ,颠倒混匀 15秒钟,室温静置 2-5 分钟;4℃ 13000rpm 离心 15分


钟,转上层水相(约400μL)于另一1.5mL EP 管中(可以重复用TRIZOL抽提一遍,


也 可以用氯仿单独抽提一遍 ) ,加入等体积异丙醇,混匀 -20℃ 静置约 30 分


钟, 4℃ 13000rpm 离心 15 分钟,弃上清;加入预冷的 75 %乙醇 ( 用 DEPC 水


配)1mL ,4℃ 13000rpm 离心5分钟,弃上清,重复 75%乙醇洗一次;空气干燥


5-10分钟(不能完全干燥,否则 RNA将会很难溶解 );最后溶于 Nuclease-free水中


至20μL (10μL-20μL);用琼脂糖电泳检测总 RNA的完整性,完整的RNA其28S亮


度 是 18S 的 2 倍 ; 检 测 其 OD 值 , 纯 RNA 样 品 的 OD260/OD280 值 为


1.7-2.0,OD260/OD230值大于2.0。




                             30
材料与方法




            图2-1 转录组文库构建流程图


2.5.2.2 核糖体RNA的去除(rmRNA-Seq)


   细胞转录本中大部分的转录产物是核糖体 RNA( 约占 90% 以上 ) ,这对于转

录组研究来说是无用信息,因此首先采用探针结合的方法将其中的


18S、 、
    28S 5.8S 和5S rRNA 去除。应用Invitrogen公司生产的试剂盒——RiboMinus


Eukaryote Kit for RNA-Seq去除总RNA中的核糖体RNA。具体实验步骤如下:


   (1) 杂交步骤


   先设置水浴 70-75°C 和 37°C ;取总 RNA~8μg(<20μL) ,连同 10μL RiboMinus


探 针 (15pmol/μL) 和 300μL 杂 交 液 加 入 到 RNase-free 的 1.5mL 的 离 心 管 中 , 在


70-75°C水浴中孵育5分钟使RNA变性;之后将样品放入37°C水浴使样品在30分


钟内慢慢冷却到37°C,使RNA和探针充分的接触和杂交,千万不能将样品直接

放到冷水中降温。在样品冷却的过程中,开始准备磁珠。

   (2) 磁珠准备


   充分涡旋,使磁珠悬浮起来、混匀;吸取 750μL 磁珠悬浮液加入到 RNase-


free 的 1.5mL 的离心管中,将离心管放在磁力架上 1 分钟,磁珠紧贴在离心管内




                                 49
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




壁上,轻轻的吸走上清,弃掉;加入 750μL DEPC水,轻轻涡旋使磁珠悬浮,之


后放在磁力架上1分钟,吸走并弃掉上清,重复洗一遍磁珠;加入 750μL杂交液


使磁珠悬浮,并转移250μL磁珠到一个新的离心管中备用;将含有 500μL磁珠的


离心管放在磁力架上 1分钟,吸取并弃掉上清,加入 200μL杂交液使磁珠悬浮,


将离心管放在37°C水浴中孵育直到使用。


  (3) 去除rRNA


  30分钟后杂交样品冷却到 37°C,轻轻离心使样品都集中到离心管底部,转


移杂交样品 (~330μL) 到上述已经准备好的 200μL 磁珠中,轻轻涡旋使其充分混


匀,在37°C水浴中孵育15分钟,在孵育过程中,轻轻混匀几次;将离心管放在


磁力架上1分钟,吸取上清 ~530μL(注意千万不要丢弃上清,这里面才含有我们


想要的 RiboMinus RNA) ,同时将含有 250μL 磁珠的离心管放在磁力架上 1 分


钟,吸走并弃掉上清,加入从另一离心管中取出的 ~530μL上清,混匀后37°C孵


育15分钟,同样在孵育过程中轻轻混匀几次;将离心管放在磁力架上 2分钟,转


移上清(~530μL)至一新的离心管中。


  (4) 乙醇沉淀法浓缩RiboMinus RNA

                         32
材料与方法




    转移 RiboMinus RNA 样品至一个新的 RNase-free 的2mL 离心管中,加入 4μL


糖元(5mg/mL)、1/10体积的(53μL)5M醋酸铵和2.5倍体积(1325μL)的无水乙醇,


充分混匀, -20°C 或者-80°C急冻至少30分钟;4°C >=12000g离心15分钟,弃上


清,加入 500μL 冷的 70% 乙醇, 4°C >=12000g 离心 5 分钟,弃上清,重复洗一


遍;风干沉淀~5分钟,~5-8μL Nuclease-free水溶解


    (5) 检测RiboMinus RNA的质量


    取 1μL 样 品检测 OD 及 rRNA 去除 效果 (Agilent 2100 bioanalyzer) ,在没有


Agilent 2100 bioanalyzer的情况下可以应用电泳检测,但应注意电泳检测的上样


量大于200ng时,才可以分辨rRNA去除效果。


2.5.2.3 用SOLiD Whole Transcriptome Analysis Kit 构建文库


    具体实验步骤如下:


    (1) RNase III 酶切RNA


    将去除 rRNA 后的 (RiboMinus RNA) 样品 / 分离得到的 mRNA 样品 1μg(≤8μL)


加入1μL 酶切buffer和1μL RNase III,在PCR 仪上37°C 10 分钟。


    (2) flashPAGE 电泳分离片段



                                  51
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




  打断完毕,取下后立即加入 10μL flashPAGE loading buffer (含有的变性剂


可使蛋白直接变性终止反应),混匀后 95°C 2min,变性后立即放置冰上;依照


说明清洗并连接好flashPAGE 电泳仪,依次加入250μL 下液,预制胶,300μL 上




                         32
材料与方法




液,加入样品,接通电源, 75V电泳;当蓝色指示剂刚刚电泳出预制胶进入下


液时 (约 12 分钟),打开电泳仪,吸出下液到新的 2mL EP 管中,此时电泳液中


的 RNA 片段小于 50bp;清洗下槽,重新加入250μL 下液,继续电泳约45 分钟,


这时下液获取的是大于50bp的RNA片段。


  (3) flashPAGE Reaction Clean-up Kit 回收RNA片段


  回收后的下液依照 flashPAGE Reaction Clean-up Kit 步骤进行回收,注意如


果下液的体积大于230μL,提示预制胶有侧漏现象,此时获得的样品无法使用。


回收的产物通过冻干或空气干燥 (小于 40°C)浓缩到 3μL ,通常会获得 100-400ng

产物。

  (4) 接头杂交及连接


  冰上 0.2mL RCR 管中准备杂交混合液 (Mix) : 2μL 接头 Mix A , 3μL 杂交


液, 3μL RNA 片段化产物,共 8μL 体系。混匀,进行杂交反应: 65°C 10 分


钟,16°C 5 分钟;取出放置冰上立即进行以下步骤,依下面步骤加入连接反应


试剂:10μL连接缓冲液,2μL 连接酶Mix,混匀后16°C 连接16 小时。


  (5) 逆转录及RNaseH 消化




                               53
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




   逆转录反应体系如下: Nuclease-free Water 13μL ,10X RT Buffer 4 μL , 2.5


mM dNTP mix 2 μL,ArrayScript Reverse Transcriptase 1 μL。加入上述混好的Mix


到连接好接头的体系中, 42°C 30分钟合成cDNA;取合成好的一链产物10μL 进


行 RNaseH消化,剩余产物-80°C保存;在10μL 一链产物中加入1μL RNaseH 混


匀,37°C 30分钟。


   (6) PCR 扩增




   以上述50μL体系作为实验性PCR检测cDNA进行PCR的条件,条件允许的可


以进行大规模性扩增,每个样本保证进行 3个以上100μL的规模性PCR扩增以获


取足够量的DNA产物。50μL体系不能使用大于1μL的cDNA,否则会抑制PCR扩


增反应。 反应条件为:95°C 5min;95°C 30s,62°C 30S,72°C 30S,15-18个
    PCR


循环;72°C 7min。循环数视50μL体系反应结果而定,在能达到所需量产物的情

况下,循环数越少越好。

   (7) PCR 产物纯化


   PCR 产物应用QIAGEN公司的MinElute PCR Purification Kit进行纯化。


   (8) 6% PAGE 分离回收DNA 片段

                                34
材料与方法




   用 6% 的聚丙烯酰胺凝胶电泳分离上述纯化后的 PCR 产物,以 10bp DNA


ladder作为Marker,用SYBR Gold染料染~15分钟,切取约140–200bp大小的片段


(不要切取小于110bp的副产物);将PAGE胶切成胶粒,加入200μL PAGE Elution


Buffer到放有切好的胶粒的EP管中,常温振荡过夜,吸取buffer到新的EP管中。


再向胶粒中加入250μL的PAGE Elution Buffer,37℃放置两小时。


   (9) 异丙醇沉淀DNA


   合并上述两次的PAGE Elution Buffer,加入1/100体积的糖原和0.7倍体积的


异丙醇,混匀后室温静置 5min ,室温离心 13000g 20 分钟,弃上清,空气干


燥,10μLNuclease-free Water溶解,供后续实验使用。


2.5.2.4 文库检验


   取少量的上述产物连接到 T 载体,电转到大肠杆菌感受态细胞中,涂板培


养,挑取白斑摇菌,提取质粒后做 ET测序反应,3730测序,对测序结果进行分


析,验证接头的添加效率和基本的rRNA片段污染程度,供后续实验参考。


2.5.2.5 SOLiD油包水PCR及上机测序


   这部分实验由我所测序平台的专门实验人员完成,包括:油包水 PCR富集

                           55
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究



磁珠富集、磁珠沉积,制备上机玻片以及最后的上机测序。

2.5.3 RT-PCR


    应用RT-PCR 的方法来验证实验所鉴定的转录本的真实存在,具体方法和步

骤如下:

    (1) 总RNA 的提取和处理




                              34
材料与方法




  用如前介绍的 Trizol 方法提取小鼠 cerebrum 的总 RNA ,并用 DNAase I 处


理,防止基因组DNA 的污染。


  (2) 反转成cDNA


  分别用随机引物和 Oligo-dT 做反转,反转酶为 Invitrogen 公司的SuperScript


II。反转的体系和方法如下:


  A: 随机引物反转:




  在200μL的EP管中加入上述试剂, 65°C 5分钟,立即放在冰上1分钟,将配好


的如下Mix加入其中,混匀,室温下(25 ℃)放置2分钟,加入1μL RT 酶,混匀,


室温下10分钟,接着42℃ 50分钟,最后70℃ 15分钟, -20℃保存备用或者立即

进行后续实验。




  B: Oligo-dT 反转:




  在200μL的EP管中加入上述试剂, 65°C 5分钟,立即放在冰上1分钟,将配好


的如下Mix加入其中,混匀, 42 ℃ 2分钟,加入1μL RT酶,混匀,接着42℃ 50




                         57
第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究




分钟,最后70℃ 15分钟,-20℃保存备用或者立即进行后续实验。




  (3) PCR 条件


  95°C 5分钟, 95°C 15秒, 60°C 15秒, 72°C 40秒,40个循环,最后72°C延伸


5分钟,4°C保存。


2.6 数据分析方法


2.6.1 SOLiD序列在基因组上的注释


  SOLiD 序列的注释和分析流程如图2.2所示。首先,原始的数据过滤掉rRNA


序列后,将用于进一步的分析;将长度为 35bp的全长序列与小鼠全基因组数据


相比较,未比对到基因组上的35bp序列继续与可变剪接数据集相比对。对于没有


比对到基因组上的序列,我们认为是由于测序质量低导致的,而且从 SOLiD 测

序的特点来看,越测到最后质量就越低。因此为了最大限度地注释序列,把在这


一步骤上没有比对上的序列,将其最后 5个碱基去掉,用剩下的 30bp 的序列继


续同小鼠全基因组比对,同理,将 30bp 的没有比对上的序列继续截掉后 5 个碱


基,用剩下的25bp的序列与基因组序列比对。经过这三个步骤之后,所有被注释




                          36
材料与方法




的序列进行随后的基因表达、非蛋白编码 RNA的分析等,所有比对上可变剪切

的数据可以用来评价剪切效率和寻找新的可变剪切情况。

   在注释过程中使用的小鼠全基因组序列和 rRNA 序列均来自NCBI 数据库。


同时,应用corona_lite_v0.31R2 作为比对工具。




                          59
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮
论文初稿_徐玮

Contenu connexe

En vedette

αίτημα πανελλήνιας ένωσης ρομ
αίτημα πανελλήνιας ένωσης ρομαίτημα πανελλήνιας ένωσης ρομ
αίτημα πανελλήνιας ένωσης ρομATHANASIOS KAVVADAS
 
الأرضية السياسية لقوى تونس الحرّة
الأرضية السياسية لقوى تونس الحرّةالأرضية السياسية لقوى تونس الحرّة
الأرضية السياسية لقوى تونس الحرّةSonia Charbti
 
代理店様用プレゼンツール1
代理店様用プレゼンツール1代理店様用プレゼンツール1
代理店様用プレゼンツール1Hiroshi Soda
 
欧赛斯企业微博托管解决方案
欧赛斯企业微博托管解决方案欧赛斯企业微博托管解决方案
欧赛斯企业微博托管解决方案qoolupeter
 
Preparing For The Affordable Care Act In 2016
Preparing For The Affordable Care Act In 2016Preparing For The Affordable Care Act In 2016
Preparing For The Affordable Care Act In 2016G&A Partners
 
SPMA All About Google - Analytics
SPMA All About Google - AnalyticsSPMA All About Google - Analytics
SPMA All About Google - AnalyticsSaskMarketing
 
Reaching Audiences While They Reach You
Reaching Audiences While They Reach YouReaching Audiences While They Reach You
Reaching Audiences While They Reach Youfuzeconf
 
2017 학생부종합전형 서류평가의 실제 - 건국대
2017 학생부종합전형 서류평가의 실제 - 건국대2017 학생부종합전형 서류평가의 실제 - 건국대
2017 학생부종합전형 서류평가의 실제 - 건국대kyu7002
 
INFOGRAPHIC: How does coconut oil stack up against other oils?
INFOGRAPHIC: How does coconut oil stack up against other oils?INFOGRAPHIC: How does coconut oil stack up against other oils?
INFOGRAPHIC: How does coconut oil stack up against other oils?Food Insight
 
Learning Python with PyCharm EDU
Learning Python with PyCharm EDU Learning Python with PyCharm EDU
Learning Python with PyCharm EDU Sergey Aganezov
 
Infrastructure as Code (BBWorld/DevCon13)
Infrastructure as Code (BBWorld/DevCon13)Infrastructure as Code (BBWorld/DevCon13)
Infrastructure as Code (BBWorld/DevCon13)Mike McGarr
 
Top 10 Most Expensive Cars
Top 10 Most Expensive CarsTop 10 Most Expensive Cars
Top 10 Most Expensive CarsPeter Bouchard
 
Recent progress on distributing deep learning
Recent progress on distributing deep learningRecent progress on distributing deep learning
Recent progress on distributing deep learningViet-Trung TRAN
 

En vedette (15)

αίτημα πανελλήνιας ένωσης ρομ
αίτημα πανελλήνιας ένωσης ρομαίτημα πανελλήνιας ένωσης ρομ
αίτημα πανελλήνιας ένωσης ρομ
 
الأرضية السياسية لقوى تونس الحرّة
الأرضية السياسية لقوى تونس الحرّةالأرضية السياسية لقوى تونس الحرّة
الأرضية السياسية لقوى تونس الحرّة
 
代理店様用プレゼンツール1
代理店様用プレゼンツール1代理店様用プレゼンツール1
代理店様用プレゼンツール1
 
欧赛斯企业微博托管解决方案
欧赛斯企业微博托管解决方案欧赛斯企业微博托管解决方案
欧赛斯企业微博托管解决方案
 
Preparing For The Affordable Care Act In 2016
Preparing For The Affordable Care Act In 2016Preparing For The Affordable Care Act In 2016
Preparing For The Affordable Care Act In 2016
 
SPMA All About Google - Analytics
SPMA All About Google - AnalyticsSPMA All About Google - Analytics
SPMA All About Google - Analytics
 
Reaching Audiences While They Reach You
Reaching Audiences While They Reach YouReaching Audiences While They Reach You
Reaching Audiences While They Reach You
 
Cross Cultural Understanding
Cross Cultural UnderstandingCross Cultural Understanding
Cross Cultural Understanding
 
Perfect Aspect
Perfect AspectPerfect Aspect
Perfect Aspect
 
2017 학생부종합전형 서류평가의 실제 - 건국대
2017 학생부종합전형 서류평가의 실제 - 건국대2017 학생부종합전형 서류평가의 실제 - 건국대
2017 학생부종합전형 서류평가의 실제 - 건국대
 
INFOGRAPHIC: How does coconut oil stack up against other oils?
INFOGRAPHIC: How does coconut oil stack up against other oils?INFOGRAPHIC: How does coconut oil stack up against other oils?
INFOGRAPHIC: How does coconut oil stack up against other oils?
 
Learning Python with PyCharm EDU
Learning Python with PyCharm EDU Learning Python with PyCharm EDU
Learning Python with PyCharm EDU
 
Infrastructure as Code (BBWorld/DevCon13)
Infrastructure as Code (BBWorld/DevCon13)Infrastructure as Code (BBWorld/DevCon13)
Infrastructure as Code (BBWorld/DevCon13)
 
Top 10 Most Expensive Cars
Top 10 Most Expensive CarsTop 10 Most Expensive Cars
Top 10 Most Expensive Cars
 
Recent progress on distributing deep learning
Recent progress on distributing deep learningRecent progress on distributing deep learning
Recent progress on distributing deep learning
 

Similaire à 论文初稿_徐玮

Graduate Design - Nutrient
Graduate Design - NutrientGraduate Design - Nutrient
Graduate Design - NutrientHaoxiang Shen
 
Cite space中文手册
Cite space中文手册Cite space中文手册
Cite space中文手册cueb
 
Evni 4.5白皮书
Evni 4.5白皮书Evni 4.5白皮书
Evni 4.5白皮书jiangxidong
 
20160315内刊投稿(刘胜)区块链研究综述v1.1.0331
20160315内刊投稿(刘胜)区块链研究综述v1.1.033120160315内刊投稿(刘胜)区块链研究综述v1.1.0331
20160315内刊投稿(刘胜)区块链研究综述v1.1.0331liu sheng
 
协作MIMO中基于用户的分组算法研究
协作MIMO中基于用户的分组算法研究协作MIMO中基于用户的分组算法研究
协作MIMO中基于用户的分组算法研究Chen Li
 
Ext 中文手册
Ext 中文手册Ext 中文手册
Ext 中文手册donotbeevil
 
Think php3.0 完全开发手册
Think php3.0 完全开发手册Think php3.0 完全开发手册
Think php3.0 完全开发手册qianhuazhu
 
2006 年中国博客调查报告
2006 年中国博客调查报告2006 年中国博客调查报告
2006 年中国博客调查报告sugeladi
 
Biee 入门讲座
Biee 入门讲座Biee 入门讲座
Biee 入门讲座Hero Art
 
Solution apc 3.0
Solution apc 3.0Solution apc 3.0
Solution apc 3.0ahnlabchina
 
運用擴增實境技術建立數位學習環境(精簡版)
運用擴增實境技術建立數位學習環境(精簡版)運用擴增實境技術建立數位學習環境(精簡版)
運用擴增實境技術建立數位學習環境(精簡版)Tehuan Chung
 
Java explore
Java exploreJava explore
Java exploreRoger Xia
 
Lucene 原理与代码分析完整版
Lucene 原理与代码分析完整版Lucene 原理与代码分析完整版
Lucene 原理与代码分析完整版山城 碧海
 
J Boss+J Bpm+J Pdl用户开发手册 3.2.3
J Boss+J Bpm+J Pdl用户开发手册 3.2.3J Boss+J Bpm+J Pdl用户开发手册 3.2.3
J Boss+J Bpm+J Pdl用户开发手册 3.2.3yiditushe
 
G19_陳伊藍_探討澳門中學生追星消費行為與同儕關係的關係之研究.pdf
G19_陳伊藍_探討澳門中學生追星消費行為與同儕關係的關係之研究.pdfG19_陳伊藍_探討澳門中學生追星消費行為與同儕關係的關係之研究.pdf
G19_陳伊藍_探討澳門中學生追星消費行為與同儕關係的關係之研究.pdfJoshuaLau29
 
深入浅出My sql数据库开发、优化与管理维护
深入浅出My sql数据库开发、优化与管理维护深入浅出My sql数据库开发、优化与管理维护
深入浅出My sql数据库开发、优化与管理维护colderboy17
 
深入浅出My sql数据库开发、优化与管理维护 (1)
深入浅出My sql数据库开发、优化与管理维护 (1)深入浅出My sql数据库开发、优化与管理维护 (1)
深入浅出My sql数据库开发、优化与管理维护 (1)colderboy17
 
My Eclipse 6 Java Ee开发中文手册
My Eclipse 6 Java Ee开发中文手册My Eclipse 6 Java Ee开发中文手册
My Eclipse 6 Java Ee开发中文手册yiditushe
 

Similaire à 论文初稿_徐玮 (20)

Graduate Design - Nutrient
Graduate Design - NutrientGraduate Design - Nutrient
Graduate Design - Nutrient
 
Cite space中文手册
Cite space中文手册Cite space中文手册
Cite space中文手册
 
Evni 4.5白皮书
Evni 4.5白皮书Evni 4.5白皮书
Evni 4.5白皮书
 
20160315内刊投稿(刘胜)区块链研究综述v1.1.0331
20160315内刊投稿(刘胜)区块链研究综述v1.1.033120160315内刊投稿(刘胜)区块链研究综述v1.1.0331
20160315内刊投稿(刘胜)区块链研究综述v1.1.0331
 
协作MIMO中基于用户的分组算法研究
协作MIMO中基于用户的分组算法研究协作MIMO中基于用户的分组算法研究
协作MIMO中基于用户的分组算法研究
 
080620-16461915
080620-16461915080620-16461915
080620-16461915
 
Ext 中文手册
Ext 中文手册Ext 中文手册
Ext 中文手册
 
080620-16461915
080620-16461915080620-16461915
080620-16461915
 
Think php3.0 完全开发手册
Think php3.0 完全开发手册Think php3.0 完全开发手册
Think php3.0 完全开发手册
 
2006 年中国博客调查报告
2006 年中国博客调查报告2006 年中国博客调查报告
2006 年中国博客调查报告
 
Biee 入门讲座
Biee 入门讲座Biee 入门讲座
Biee 入门讲座
 
Solution apc 3.0
Solution apc 3.0Solution apc 3.0
Solution apc 3.0
 
運用擴增實境技術建立數位學習環境(精簡版)
運用擴增實境技術建立數位學習環境(精簡版)運用擴增實境技術建立數位學習環境(精簡版)
運用擴增實境技術建立數位學習環境(精簡版)
 
Java explore
Java exploreJava explore
Java explore
 
Lucene 原理与代码分析完整版
Lucene 原理与代码分析完整版Lucene 原理与代码分析完整版
Lucene 原理与代码分析完整版
 
J Boss+J Bpm+J Pdl用户开发手册 3.2.3
J Boss+J Bpm+J Pdl用户开发手册 3.2.3J Boss+J Bpm+J Pdl用户开发手册 3.2.3
J Boss+J Bpm+J Pdl用户开发手册 3.2.3
 
G19_陳伊藍_探討澳門中學生追星消費行為與同儕關係的關係之研究.pdf
G19_陳伊藍_探討澳門中學生追星消費行為與同儕關係的關係之研究.pdfG19_陳伊藍_探討澳門中學生追星消費行為與同儕關係的關係之研究.pdf
G19_陳伊藍_探討澳門中學生追星消費行為與同儕關係的關係之研究.pdf
 
深入浅出My sql数据库开发、优化与管理维护
深入浅出My sql数据库开发、优化与管理维护深入浅出My sql数据库开发、优化与管理维护
深入浅出My sql数据库开发、优化与管理维护
 
深入浅出My sql数据库开发、优化与管理维护 (1)
深入浅出My sql数据库开发、优化与管理维护 (1)深入浅出My sql数据库开发、优化与管理维护 (1)
深入浅出My sql数据库开发、优化与管理维护 (1)
 
My Eclipse 6 Java Ee开发中文手册
My Eclipse 6 Java Ee开发中文手册My Eclipse 6 Java Ee开发中文手册
My Eclipse 6 Java Ee开发中文手册
 

论文初稿_徐玮

  • 1. 分类号 密级 UDC 编号 中国科学院研究生院 博士学位论文 基于第二代测序技术的生后小鼠大脑组织发育的转录组研 究及藓羽藻叶绿体基因组的测序分析和进化研究 徐玮 指导教师 于军研究员 博士 胡松年研究员 博士 中国科学院北京基因组研究所
  • 2. 申请学位级别 理学博士 学科专业名称 生物信息学 论文提交日期 2011 年 4 月 论文答辩日期 2011 年 4 月 培养单位 中国科学院北京基因组研究所 学位授予单位 中国科学院研究生院 答辩委员会主席 2
  • 3. The Transcriptome Dynamics of Mouse Cerebrum Development via New Generation Sequencing Technology And Evolution Research of Bryopsis hypnoides Chloroplast via Shot-gun Sequencing A Dissertation Submitted to the Degree Committee of Institute of Genomics, Chinese Academy of Sciences
  • 4. 目 录 By Wei Xu Supervised by Professor Jun Yu and Professor Songnian Hu April 2011 4
  • 7. 目 录 目 录 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组变化 中文摘要 ............................................................................................................................. 1 ABSTRACT ......................................................................................................................... 3 引言....................................................................................................................................... 5 第一章 文献综述 ............................................................................................................... 6 1.1 哺乳动物大脑发育的研究背景 ........................................................................................................... 6 1.1.1 大脑的结构及功能 ............................................................................................................................ 6 1.1.2 大脑的发育过程 ................................................................................................................................ 8 1.1.3 大脑发育的分子调控 ........................................................................................................................ 9 1.1.3.1 激素对大脑发育的调控 ................................................................................................................. 9 1.1.3.2 肿瘤发生相关基因对大脑发育的调控 ......................................................................................... 9 1.1.3.3 大脑发育过程中的神经营养因子假说 ....................................................................................... 10 1.1.3.4 神经元诱向因子对大脑发育的调控 ........................................................................................... 11 1.1.3.5 大脑发育调控中的重要信号通路 ............................................................................................... 11 1.2 转录组学的研究方法 ......................................................................................................................... 12 1.2.1 EST表达序列标签 ............................................................................................................................ 13 1.2.1.1 EST技术的形成和发展 ................................................................................................................. 13 1.2.1.2 EST技术流程及分析思路 ............................................................................................................. 14 1.2.1.3 EST技术的应用 ............................................................................................................................. 14 1.2.1.4 EST技术的不足 ............................................................................................................................. 15 1.2.2 DNA微阵列(基因芯片) ..................................................................................................................... 16 Ⅰ
  • 8. 目 录 1.2.2.1 基因芯片的工作原理 ................................................................................................................... 16 1.2.2.2 基因芯片的技术流程 ................................................................................................................... 16 1.2.2.3 基因芯片技术的应用 ................................................................................................................... 18 1.2.2.4 基因芯片的缺点 ........................................................................................................................... 18 1.2.3 SAGE基因表达系列分析 ................................................................................................................ 18 1.2.3.1 SAGE的理论基础 ......................................................................................................................... 18 1.2.3.2 SAGE的技术流程 ......................................................................................................................... 19 2
  • 9. 目 录 1.2.3.3 SAGE的优点和应用 ...................................................................................................................... 20 1.2.4 大规模平行信号测序系统(MPSS) ................................................................................................... 21 1.2.5 上述各技术间的优缺点比较 ........................................................................................................... 22 1.2.6 RNA-seq技术及其应用 ..................................................................................................................... 22 1.2.6.1 新一代测序技术发展概况 ............................................................................................................ 23 1.2.6.2 SOLiD技术原理及技术流程 ......................................................................................................... 23 1.2.6.3 SOLiD测序技术的应用 ................................................................................................................. 29 第二章 材料与方法 .......................................................................................................... 30 2.1 实验材料 .............................................................................................................................................. 30 2.2 主要化学试剂 ...................................................................................................................................... 30 2.3 常用溶液和培养基 .............................................................................................................................. 30 2.4 试剂盒 .................................................................................................................................................. 31 2.5 实验方法 .............................................................................................................................................. 31 2.5.1 小鼠的处理和取样 ........................................................................................................................... 31 2.5.2 转录组文库的构建 ........................................................................................................................... 31 2.5.2.1 总RNA提取 ................................................................................................................................... 31 2.5.2.2 核糖体RNA的去除(rmRNA-Seq) ................................................................................................. 32 2.5.2.3 用SOLiD Whole Transcriptome Analysis Kit 构建文库 ............................................................. 33 2.5.2.4 文库检验 ........................................................................................................................................ 35 2.5.2.5 SOLiD油包水PCR及上机测序 ...................................................................................................... 35 2.5.3 RT-PCR ............................................................................................................................................ 35 2.6 数据分析方法 ...................................................................................................................................... 37 Ⅱ
  • 10. 目 录 2.6.1 SOLiD序列在基因组上的注释 ........................................................................................................ 37 2.6.2 可变剪切分析 ................................................................................................................................... 38 2.6.3 基因表达谱分析 ............................................................................................................................... 39 2.6.4 差异表达基因的判断和功能分类 ................................................................................................... 39 2.6.5 内含子的表达分析 ........................................................................................................................... 39 2.6.6 基因间区的表达分析 ....................................................................................................................... 39 2.6.7 转录因子在三文库中表达情况的分析 ........................................................................................... 40 第三章 结果 ...................................................................................................................... 41 2
  • 11. 目 录 3.1 转录组文库的构建 .............................................................................................................................. 41 3.2 RNA-seq数据的性质 ............................................................................................................................ 42 3.2.1 测序数据的筛选 ............................................................................................................................... 42 3.2.2 测序数据的注释 ............................................................................................................................... 43 3.3 基因表达谱的分析 .............................................................................................................................. 44 3.3.1 三个文库中表达基因数量及种类的变化 ....................................................................................... 44 3.3.2 三个文库的基因表达谱分析 ........................................................................................................... 46 3.3.3 表达基因的功能分类 ....................................................................................................................... 48 3.4 基因内含子区域的表达分析 .............................................................................................................. 52 3.5 基因间区的表达分析 .......................................................................................................................... 54 3.6 基因可变剪切的分析 .......................................................................................................................... 54 3.7 差异表达基因的分析 .......................................................................................................................... 55 3.7.1 差异表达基因的数量及种类 ........................................................................................................... 55 3.7.2 差异表达基因的功能分类 ............................................................................................................... 56 3.7.3 差异表达基因的通路分析 ............................................................................................................... 57 3.7.3.1 差异表达基因在MAPK信号通路上的定位 ................................................................................ 58 3.7.3.2 差异表达基因在细胞骨架肌动蛋白的调节通路上的定位 ........................................................ 59 3.7.3.3 差异表达基因在轴突导向通路上的定位 .................................................................................... 60 3.8 转录因子的表达分析 .......................................................................................................................... 62 3.8.1 三个文库中转录因子的判断和丰度分布 ....................................................................................... 62 3.8.2 低表达转录因子的分析 ................................................................................................................... 63 3.8.3 高表达转录因子的分析 ................................................................................................................... 63 Ⅲ
  • 12. 目 录 3.8.3.1 高表达转录因子的判断和分布 .................................................................................................... 63 3.8.3.2 高表达转录因子的功能分类 ........................................................................................................ 64 3.8.3.3 差异性高表达转录因子的分析 .................................................................................................... 64 第四章 讨论及后续工作计划 .......................................................................................... 67 4.1 小鼠大脑转录组的特点 ....................................................................................................................... 67 4.2 小鼠大脑生后发育的特点 ................................................................................................................... 67 4.3 本文创新点 ........................................................................................................................................... 67 4.4 后续工作计划 ....................................................................................................................................... 68 2
  • 13. 目 录 第二部分 藓羽藻的叶绿体基因组测序分析及其进化研究 中文摘要 ............................................................................................................................ 69 ABSTRACT ........................................................................................................................ 70 引言 .................................................................................................................................... 72 第一章 文献综述 .............................................................................................................. 73 1.1 绿藻门概述 .......................................................................................................................................... 73 1.2 藻类叶绿体基因组概况 ...................................................................................................................... 74 1.2.1 叶绿体基因组的结构特征 ............................................................................................................... 74 1.2.2 叶绿体基因组的起源 ....................................................................................................................... 75 1.2.3 叶绿体基因组的基因组成 ............................................................................................................... 76 1.2.4 叶绿体基因组在藻类系统发育研究中的应用 ............................................................................... 76 第二章 材料与方法 .......................................................................................................... 78 2.1 实验材料 .............................................................................................................................................. 78 2.2 叶绿体DNA的提取和纯化 ................................................................................................................. 78 2.2.1 叶绿体的分离纯化 ........................................................................................................................... 78 2.2.2 叶绿体DNA的提取(高盐低PH法) ................................................................................................... 78 2.2.3 叶绿体DNA的纯化(CsCl密度梯度离心法) .................................................................................... 79 2.3 叶绿体基因组文库的构建 ................................................................................................................. 79 2.4 叶绿体基因组的测序及组装 ............................................................................................................. 80 2.5 序列分析 ............................................................................................................................................. 80 2.6 系统发育树的构建 ............................................................................................................................. 80 第三章 结果 ..................................................................................................................... 82 IV
  • 14. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 3.1 叶绿体及其DNA的提取 .................................................................................................................... 82 3.2 叶绿体基因组文库的构建及测序拼接 ............................................................................................. 82 3.3 藓羽藻cpDNA的基因组特征 ............................................................................................................ 83 3.4 系统发育关系 ..................................................................................................................................... 87 第四章 结论 ..................................................................................................................... 90 参考文献 ........................................................................................................................... 91 发表文章目录 ................................................................................................................. 100 致谢 ................................................................................................................................. 101 1
  • 15. 摘 要 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录 组研究 摘 要 大脑又称端脑,由左右两半球组成,是控制运动、产生感觉及实现高级 脑功能的高级神经中枢。但迄今为止,大脑发育的分子机制和调控机理尚未被 完全阐明。本研究采用新一代测序技术 (SOLiD) 对小鼠大脑发育的三个代表性 时期 ( 幼年期, 1 周龄;青春期, 4 周龄;成年期, 10 周龄 ) 进行转录组学研 究,以全面了解在这三个关键时期大脑组织中基因的表达变化情况。 我们对小鼠三个时期大脑的转录组文库利用第二代测序仪 SOLiD 进行了 RNA 水 平 上 的 Shot-gun 测 序 (RNA-seq) , 并 将 所 得 序 列 比 对 到 小 鼠 基 因 组 上,然后利用 NCBI 的 Genbank 数据库对序列进行了注释。在三个样本中,我 们分别得到了 11,929,828 、16,614,876 和 15,111,661 条序列专一比对到小鼠基因 组上,其中 33 ~ 47% 的序列位于外显子区域, 28 ~ 34% 的序列位于内含子区 域,其它序列则分布在基因间区。我们分别鉴定出 15,344 、16,048 和 15,775 个 基因在幼年期、青春期和成年期小鼠大脑中表达。 我们采用 RPKM 值衡量基因表达丰度,对三个不同时期大脑基因表达谱 进行了聚类分析,结果发现幼年期和青春期的小鼠大脑基因表达谱聚为一类。 1
  • 16. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 基因差异表达分析表明, 5,768 个基因在青春期小鼠大脑与幼年期小鼠大脑中 存在显著差异表达,其中有 4,106 个基因表现为在青春期小鼠中表达丰度的上 调;成年小鼠和青春期小鼠大脑之间差异表达基因个数为 6,787 个,其中有 5,623 个基因表现为在成年期小鼠中表达丰度的下调。这表明在生后小鼠的大 脑发育过程中,大脑组织中的基因总体上呈现出先扬后抑的趋势,青春期小 鼠的大脑基因表达相对于其他两个时期最为活跃。这些差异表达的基因功能涉 及能量代谢、信号转导和细胞凋亡等多方面,值得一提的是,这些差异表达的 基因还包括了大量癌症和神经性疾病的相关基因,说明这些基因参与了生后 小鼠大脑发育的调控过程。 我们共发现了 1,493 个转录因子在三个时期小鼠卵巢中表达,这其中既有 已报道在大脑发育过程中起重要作用的转录因子,如: E2f 家族、 Pax6 、 2
  • 17. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 Six3 、Rax 、ISL-1 等,也有大量的在大脑发育过程中功能未知的转录因子。另 外,我们在三个时期小鼠大脑组织中分别发现了 254 、304 、382 个低表达的转 录因子( RPKM< 1 ),其中一些转录因子如 Neurog2 、Pax6 、Six3 等在小鼠大 脑发育过程中发挥重要作用。这些低表达的转录因子较难被芯片方法检测到, 它们的发现可以使我们更深入地了解小鼠大脑的发育模式。 我们研究了内含子区域与外显子的表达相关性,发现在幼年期、青春期 和成年期的小鼠大脑组织中,分别有 2,079 、 2,520 和 4,061 个基因的内含子区 域异常活跃的表达。 我们在三个时期的大脑发育过程中,共发现有 10,590 个基因具有可变剪 切 形 式 。 另 外 , 在 基 因 间 区 中 一 共 鉴 定 出 了 23,266 个 具 有 转 录 活 性 的 位 点, 70.8% 的位点 (16,477 个 ) 注释在基因的 UTR 区域, 20.7% 的位点( 4,806 个)有转录本( EST )支持,另外有大约 0.9% 的位点( 216 个)注释为已知的 ncRNA ,而剩下 7.6% 的转录活性位点( 1,767 个)以前没有被定义过。 关键词: 大脑发育,基因表达谱,SOLiD,转录组 2
  • 18.
  • 19. Abstract Abstract Brain, which is also called cerebrum, consists of two hemispheres. It’s the senior nervous center controlling movements, producing feelings and realizing higher-level brain functions. The molecular mechanism and regulation mechanism of brain development has not yet been fully expounded. In this study, to help assess the expression changes of genes involved in postnatal brain development, we carried out a comparative study on mouse brain transcriptomes at three crucially developmental stages (infant stage, 1weeks old; juvenile stage, 4 weeks old; adult stage, 10 weeks old) using the next-generation sequencing technology (SOLiD). Using SOLiD, we sequenced the transcriptomes at three developmental stages (RNA-seq), then aligned the obtained reads to the mouse genome and annotated genes using the GenBank database on NCBI. We acquired 11,929,828, 16,614,876 and 15,111,661 uniquely-mapped reads from infant, juvenile, and adult cerebrum samples, respectively. Of these uniquely-mapped reads, 33%-47% were mapped to exons, 28%-34% were mapped to introns, and the others were mapped to intergenic regions. We identified 15,344, 16,048 and 15,775 expressed genes in the mouse cerebrum of infancy, juvenile and adult, respectively. We used RPKM value to normalize the gene expression abundance among the three developmental stages. The gene expression profiles were clustered into two groups, one contains infant and juvenile cerebrums, and the other contains adult cerebrum only. Through comparative analysis of gene expression profiles, we found 5,768 expressed genes changed significantly between infant and juvenile cerebrums, while the number of that between juvenile and adult cerebrums was 6,787 . Compared to infant cerebrum, 4,106 differentially expressed genes were up-regulated in juvenile cerebrum, while compared to juvenile cerebrum, 5,623 differentially expressed genes were down-regulated in juvenile cerebrum. This phenomenon suggests that the abundance of cerebrum expressed genes during the three stages were up-regulated and 3
  • 20. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 then down-regulated. The gene expression was enhanced markedly during puberty comparied to other stages. These differently expressed genes reflected a vast repertoire of genes involved in energy metabolism, signal transduction, cell apoptosis, and so on. Remarkably, these differentially expressed genes also includes a large number of genes related to cancers and neurologic diseases, suggested these genes may play a role in the postnatal development of mouse cerebrum. In our research, we found 1,493 transcription factors(Tfs) which involved in the development of mouse cerebrum, some of which are essential for cerebrum development such as E2f family, Pax6, Six3, Rax, ISL-1. The function of most Tfs during cerebrum development are still unclear. In addition, we found 254, 304, 382 Tfs with low expression abundance (RPKM<1) in the three samples, respectively, including some important genes for the postnatal development of mouse cerebrum (Neurog2 、 Pax6 、 Six3). These lowly expressed Tfs undetected by DNA microarray before may help us understand the cerebrum transcriptome deeply. We studied the correlation between introns and exons and identified 2,079, 2,520 and 4,061 genes have intronic regions showing significant exprssion in three stages, respectively. Our recearches indetated that 10,590 genes have alternative transcripts in the three samples totally. Moreover, we found 23,266 transciptional loci in the intergenic region in all, 70.8% of which were annotated to the UTR extenstion region(16,477) , 20.7% of which were confirmed by EST, 0.9% of which were annotated as the known ncRNA, and other 7.6% (1,767) were identified as new transciptional loci. Keywords: Cerebrum development, Gene expression profile, SOLiD, 4
  • 21. 引 言 引 言 大脑又称端脑,是脊椎动物 脑的高级神经系统 的主要部分,具有控制和 协调运动、感觉和高级心理运行等功能。大脑发育是一个极其复杂的过程,受多 方面因素的调控。出生时的大脑具备了成年大脑的基本形态,但大脑皮层结构还 不明显,神经元还未发育成熟。在大脑的生后发育过程中,大脑皮层结构的完 善、神经元的成熟、突触的形成和连接等都是由多个基因调控的复杂的分子生物 学过程。随着研究的深入,近年来发现了许多对大脑生后发育极其重要的基因, 这些基因可以帮助我们更全面的了解大脑生后发育过程中重要基因的表达模式。 传统的基因敲除模型的研究方法每次只能对有限的几个基因进行研究,不利于 研究大脑生后发育的整个分子调控机制。 近年来,随着生物技术的不断进步,转录组学成为系统研究特定组织或细 胞基因表达调控的重要手段。传统应用于转录组的研究方法主要有表达序列标签 (EST)、DNA芯片(DNA Microarray)、基因表达系列分析(SAGE)和大规模平行信号 测序系统(MPSS)。然而这些传统方法或多或少存在一些缺点,如EST方法实验周 期较长信息量少,实验花费较多; DNA芯片背景信号多; SAGE 在短序列标签 的测序方法上较为费时、费力,注释不准确[1-9]。随着新一代的大规模测序技术 的发展 (主要是以 Solexa和SOLiD测序仪为代表 ),目前RNA shot-gun测序 (RNA- seq)的方法被成功地应用于转录组的研究。其特点是测序通量大、花费少,深度 取样可以更加真实的反映生物体内转录组的情况。本研究中,我们成功地把 RNA-seq 技术应用到对小鼠大脑生后发育的转录组研究上[10-15]。 5
  • 22. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 我们采用新一代测序技术SOLiD对幼年期、青春期和成年期小鼠大脑的转录 组进行了研究,并对3个不同发育时期的小鼠大脑基因表达谱进行了比较分析, 发现了一些对大脑发育起重要调控作用的基因及调控因子,此外我们还研究了 非编码区在大脑生后发育不同时期的表达变化情况。这些结果让我们对大脑生后 发育过程中基因的表达和调控有了新的认识,为进一步从分子水平上对大脑发 育进行研究提供了理论基础。 4
  • 23. 文献综述 第一章 文献综述 1.1 哺乳动物大脑发育的研究背景 1.1.1 大脑的结构和功能 大脑又称端脑,是指占据颅腔的大部分的大而圆的脑组织,主要包括左右 大脑半球,是脊椎动物在长期进化过程中发展起来的思维和意识的器官。 大脑半球主要包括灰质和白质两部分。覆盖在大脑半球表面的一层灰质称 为大脑皮层,是神经元胞体集中的地方。这些神经元在皮层中的分布具有严格的 层次,大脑半球内侧面的古皮层分化较简单,一般只有三层 ,而在大脑半球外侧 面的新皮层则分化程度较高,共有六层。皮层的深面为白质,白质内还有灰质 核,这些核靠近脑底,称为基底核(或称基底神经节)。基底核中主要为纹状体。 纹状体由尾状核和豆状核组成。尾状核前端粗、尾端细,弯曲并环绕丘脑;豆状 核位于尾状核与丘脑的外侧,又分为苍白球与壳核。尾状核与壳核在种系发生 (即动物进化 )上出现较迟,称为新纹状体,而苍白球在种系发生上出现较早, 称为旧纹状体。纹状体的主要功能是使肌肉的运动协调,维持躯体一定的姿势。 左、右大脑半球由胼胝体相连。半球内的腔隙称为侧脑室,它们借室间孔与 第三脑室相通。每个半球有三个面,即膨隆的背外侧面,垂直的内侧面和凹凸不 平的底面。背外侧面与内侧面以上缘为界,背外侧面与底面以下缘为界。半球表 面凹凸不平,布满深浅不同的沟和裂,沟裂之间的隆起称为脑回。背外侧面的主 要沟裂有:中央沟从上缘近中点斜向前下方;大脑外侧裂起自半球底面,转至 外侧面由前下方斜向后上方;在半球的内侧面有顶枕裂从后上方斜向前下方; 距状裂由后部向前连顶枕裂,向后达枕极附近。这些沟裂将大脑半球分为五个 叶:即中央沟以前、外侧裂以上的额叶,外侧裂以下的颞叶、顶枕裂后方的枕 叶,外侧裂上方、中央沟与顶枕裂之间的顶叶,以及深藏在外侧裂里的脑岛。另 7
  • 24. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 外,以中央沟为界,在中央沟与中央前沟之间为中央前回;中央沟与中央后沟 之间为中央后回。大脑半球的构造见图 1-1。 图 1-1 大脑半球构造图 大脑是控制运动、产生感觉及实现高级脑功能的高级神经中枢,大脑的 左、右两个半球又分别称为左、右脑。左脑与右脑形状相同,功能却大不一样。左 脑司语言,也就是用语言来处理讯息,把进入脑内看到、听到、触到、嗅到及品尝 到(左脑五感)的讯息转换成语言来传达,相当费时。左脑主要控制著知识、判断、 思考等,和显意识有密切的关系;右脑是将收到的讯息以图像处理,瞬间即可 处理完毕,因此能够把大量的资讯一并处理 (心算、速读等即为右脑处理资讯的 表现方式) ,右脑控制着自律神经与宇宙波动共振等,和潜意识有关。一般情况 下右脑的五感都受到左脑理性的控制与压抑,因此很难发挥即有的潜在本能。大 脑的功能分区见图 1-2。 图 1-2 大脑皮层的功能分区 6
  • 25. 文献综述 1.1.2 大脑的发育过程 大脑发育是一个极其复杂的过程,对小鼠不同发育时期的脑组织进行HE染 色及尼式染色的研究结果表明,小鼠的大脑发育大致经历了以下几个过程 [16]: (1) 神经管形成阶段:胚胎7-9.5天。胚胎7.5天时,小鼠已经明显分化出了内、 中、外三胚层,外胚层增厚形成神经板,进而深陷形成神经沟,神经沟由4-5层 小而圆、排列紧密的细胞组成,为假复层柱状上皮,核分裂相普遍存在。胚胎9.5 天神经沟已开始闭合形成神经管,但前后神经孔仍可见。前端已开始形成五个脑 泡,但尚未完全形成。 (2) 脑泡形成-神经上皮阶段:胚胎9.5 -11.5天,端脑脑泡形成,此时脑泡壁较 薄,只有几层细胞,还属于神经上皮阶段,细胞小而圆,排列紧密,嗜碱性强。 胚胎11.5天时,小鼠已具备了完整的五个脑泡,即端脑、间脑、中脑、后脑和末 脑,端脑脑泡壁进一步增厚,细胞层数达 15-16 层,此时细胞仍处于未分化状 态,同时开始出现脉络丛。 (3) 神经元分化阶段:胚胎 11.5-17.5天,脑泡壁不断增厚,神经前体细胞继续 分化增殖,新产生的神经元开始发生迁移,并逐渐形成各种脑部结构。胚胎13.5 天,端脑位置向前,上部及两侧扩大,形成两个大脑半球,同时脑泡壁继续增 厚,细胞已达数十层,可清楚的分为室管膜层,外套层和边缘层。同时,两大脑 半球底壁增厚明显,形成纹状体原基,此时海马原基也已形成,可清楚的分为 9
  • 26. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 三层。胚胎15.5天,端脑脑泡壁进一步增厚,神经细胞由外套层向边缘层迁移, 形成原始大脑皮层 (新皮质),并且可分为三层,即颗粒上层、颗粒层及颗粒下 层。在这一时期侧脑室脉络丛逐渐发达,可以看到一些血管及神经纤维,一些联 合纤维如胼胝体等也开始发育,一些神经细胞中开始出现颗粒状的尼氏体。胚胎 17.5天,脑泡壁进一步增厚,大脑皮质开始分层,此时可大致分为四层:分子 层、椎体细胞层、颗粒细胞层和多形层,上矢状沟出现,纹状体进一步增大填充 侧脑室。海马发育渐趋完善并且已发育出齿状回。此时大部分神经细胞内都含有 尼氏体,呈条状或颗粒状。 (4) 神经元成熟阶段:胚胎后期至生后小鼠成年期。神经元逐渐发育成熟,末 端突起形成突触,并联合形成突触连接。生后 1天的小鼠已具备了成年小鼠脑部 的基本形态,各脑部结构位置基本确定,只是大脑皮层的六层结构的分化还不 明显,小脑也未发育完善。海马的锥体细胞层,齿状回颗粒细胞层已形成,但整 体细胞较集中。生后7天、 天至成年,大脑皮层以及海马各细胞层细胞数量逐渐 14 增多但相对分散。 1.1.3 大脑发育的分子调控 1.1.3.1 激素对大脑发育的调控 甲状腺激素在哺乳动物的生长发育过程中发挥重要作用。生后大脑的发育主 要是以器官的成熟为特征,轴突和树突的生长、突触和髓鞘的形成、神经元的迁 移、特异种群细胞的分化等都发生在脑发育的晚期,这一过程受到甲状腺激素的 调节。脑发育的后期,如果缺乏甲状腺激素,大脑皮层的树突生长和突触形成均 减少;由于大脑皮层的细胞相距较近;呈堆积状态;因而使脑体积减小。出生后 8
  • 27. 文献综述 10天时切除甲状腺的大鼠其视皮层的锥体细胞顶树突上的棘突数量明显减少。这 可能就是甲低时智能障碍、学习和行为缺陷的主要原因[17]。研究表明,甲低对 大鼠脑发育的影响与人类的呆小病非常相似。而且发现,如果在一个关键的“窗 口期”及时补充甲状腺激素,甲低所致的脑组织病变大多可以恢复正常;如果 错过这个“窗口期” 则治疗收效甚微,脑组织将发生不可逆的损伤。这个“窗 口期”,人类为出生后3个月之前,大鼠为出生后2周之前[18]。 甲状腺激素主要是在细胞核内发挥作用,它与 TR结合,后者与另外一种核 受体——维甲酸X受体(RXR)形成异源二聚体,这个异源二聚体作用于靶基因启 动子的甲状腺激素反应元件,通过与共抑制因子、共激活因子等复合物的相互作 用,在转录水平调节靶基因的表达。甲状腺激素调节脑发育的靶分子主要包括树 突结构和突触形成相关基因、髓鞘形成的相关基因与蛋白质、细胞分化与迁移相 关基因以及转录因子基因等。  雌激素可以调节突触可塑性以及学习和记忆等脑的高级功能,脑内雌激素 的来源包括透过血脑屏障的循环雌激素以及脑局部合成的雌激素,即脑源性雌 激素。脑源性雌激素具备神经递质/神经调质的部分功能性特征,有可能作为神 经递质/神经调质在脑发育过程中发挥作用[19]。 1.1.3.2 肿瘤发生相关基因对大脑发育的调控 许多肿瘤发生相关基因与大脑结构和功能的分化密切相关。研究显示,抑癌 基因对神经干细胞的增殖分化有调控作用[20]。Erbb基因是一种原癌基因,在脑 11
  • 28. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 的神经元、少突胶质细胞和星形胶质细胞表达,通过编码甲状腺激素受体,参与 甲状腺激素对脑发育的调控过程 [21-26];PTEN基因是人类发现的第一个具有脂 质、蛋白质双重磷酸化酶功能的肿瘤抑制基因。近年来研究表明PTEN不仅在调控 肿瘤发生发展中发挥作用,也通过其介导的信号网络广泛参与神经元的极性建 立、增殖、迁徙、分化、凋亡及突触分化等[27-30],从而在调控脑发育和分化过程 中起到重要作用;ndrg2基因为正常脑组织和多种肿瘤组织的差异表达基因,参 与抑制肿瘤的发生和转移。ndrg2参与了应激反应和Alzheimer病等脑部疾病的发 生发展,并与神经细胞的增殖分化有着一定联系 [31]; APC 全称为大肠腺瘤样 息肉基因,是一种肿瘤抑制基因,在结肠癌等肿瘤中常存在截短突变, APC作 为Wnt信号通路的负调控因子参与脑的发育 [32, 33];nov基因全称为肾母细胞瘤 过度表达基因,是一种原癌基因,与神经系统的结构和功能分化有关; SIM2基 因与肿瘤的发生发展密切相关,能够在转录水平上调节灭活致癌物质的关键代 谢酶,研究表明, SIM2 基因对大脑发育和神经元分化有重要作用 [34, 35] ; Fetuin 是半胱氨酸蛋白酶抑制剂超家族 cystatin的一个分支,功能涉及到肿瘤的 发生、发展,并与胚胎时期的大脑发育密切相关。 1.1.3.3 大脑发育过程中的神经营养因子假说 在大脑发育过程中会产生大量的神经元细胞,而大脑发育成熟后只保留了 10
  • 29. 文献综述 部分神经元细胞,其余大部分细胞发生了凋亡,目前认为,各种神经营养因子 在这一过程中起了决定作用,神经元对数量有限的营养因子的竞争决定了细胞 的存活或凋亡,这就是神经营养因子学说[36-38]。神经营养因子是脊椎动物神经 系统发育及功能维持的重要调节因子,在神经系统发育过程中参与对神经元的 生长、发育、分化、存活、凋亡和损伤后修复等的调节过程[39]。 目前已明确的神经营养因子有神经生长因子 (NGF)、脑源性神经营养因子 (BDNF)、NT-3、NT-4/5、睫状神经营养因子(CNTF) 等,它们可以是靶器官来源 的,也可以是局部产生的 (如胶质细胞 ),可以通过自分泌或旁分泌的方式发挥 作用。这些神经营养因子分别通过与 trkA (NGF 受体 ) 、 trkB (BDNF 、 NT-4 受 体)、trkC (NT-3受体)高亲和力受体, 或低亲和力受体p75LNGFR(共用受体)结合, 从而激活一些信号途径,使bc1-2、 c1-XL、 b Mc1-1等抑制细胞凋亡基因上调表达 或bax、 、 、 bak bad bc1-Xs等促进凋亡基因下调表达,从而调节发育过程中细胞的 存活与凋亡[38, 40]。 脑源性神经营养因子(BDNF)是神经营养因子蛋白质家族的一员。它在脑 中含量非常丰富,尤其在大脑皮质和海马部位。BDNF在神经元的生长、发育、分 化、存活、凋亡等过程中发挥重要作用。近年来,大量研究证实,脑源性神经营养 因子不仅具有长时程的营养调节功能,还能够急性调控神经元的突触传递活 13
  • 30. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 动,并与突触可塑性、LTP及学习记忆机制等密切相关[41, 42]。 1.1.3.4 神经元诱向因子对大脑发育的调控 在神经系统的发育过程中,神经突起的生长需要多种因子的作用。其中神经 元与其靶细胞之间精确联系的形成是依靠多种细胞外的诱向因子介导实现的 [43]。神经轴突前端的生长锥表面存在多种诱向因子的受体,它们可特异地识别 环境中各种诱向因子,并向细胞内传递吸引或是排斥的信号 [44],从而调节生 长锥前端前伸和回缩力量的平衡,最终实现对轴突的生长方向以及轴突与特定 靶细胞的功能联系的调节作用。 已经发现的对神经轴突具有诱向作用的蛋白质基本属于四大家族: ephrin、neuropilin、slit 和 netrin,这些已经发现的诱向因子又可分为两大类:一类 固着在细胞膜表面或胞外基质中,影响局部的神经纤维生长,例如 ephrin,MAG,NOGO 等;另一类则是分泌性分子,能扩散一定的距离并形成 浓度梯度从而发挥作用,如 netrin,slit 以及 semaphorin 家族的大多数成员以及 各种神经营养因子。 1.1.3.5 大脑发育调控中的重要信号通路 大脑是一个结构极其复杂的器官,从细胞水平看,神经干细胞增殖、分化形 成了丰富的的神经元类型以及不同的亚型;从网络水平看,不同的神经元细胞 发出的各种纤维有序的纵横交错,形成类型繁多的突触联系。这个精确而复杂的 神经信息传递网络的形成,需要各种信号通路的参与,它们识别大脑发育过程 中的各种信号分子,调节发育时期相关基因的特异性表达,在神经元数量的控 制、神经细胞特性的决定、细胞分化的时空控制和格局化等方面发挥了重要的作 10
  • 31. 文献综述 用。 (1) Notch 信号通路 Notch信号通路由Notch、Delta配体和CSLDNA结合蛋白(在鼠中称为Rbpj)等 组成。Notch受体一旦被激活,就被 γ-分泌酶蛋白酶复合体所裂解,释放出一个 胞内区片断NICD,即Notch受体的活性部分,NICD转移进入细胞核,与保守 15
  • 32. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 的DNA结合蛋白Rbpj转录调节蛋白结合形成一个复合物,这一复合物与靶基因 的相互作用可以抑制未分化的前体细胞向神经细胞的特异分化[45, 46]。 Notch 信号通路介导的“旁侧抑制”机制被认为是决定神经干细胞分化命运 的一个关键环节。在神经系统早期发育的邻近细胞中,主要表达 Delta配体的细 胞向神经元或神经胶质细胞方向分化,而其周围主要表达Notch受体的细胞则被 抑制分化为神经细胞,但仍保持进行各种分化的活性状态,从而形成了不同的 细胞系[47-49]。 研究表明, Notch信号不仅与神经元的分化有关,而且与神经轴突的延长及 复 杂 有 关 。 另 外 , Notch 通 路 与 神 经 管 发 育 的 关 系 也 已 经 得 到 了 研 究 [50-55]。Notch信号通路参与了神经系统发育中的信号转导通路调控,并与其他 转 录 因 子 形 成 复 杂 的 调 控 网 络 [56] 。 Notch 信 号 通 路 的 相 关 基 因 主 要 包 括 Notch1、Msi1、Numb、Psen1、Rbpj、Hes1、Sox1和Neurog2等。 (2) MAPK信号通路 有丝分裂原激活蛋白激酶 (MAPK)是一类丝 /苏氨酸蛋白激酶,是与细胞内 靶效应以及细胞增殖有关的关键酶。MAPK通路作为体内细胞两个重要通路--Ras 12
  • 33. 文献综述 通路(引起细胞增殖)和Jak-STAT通路(产生各种细胞效应的独立信号级联)的交汇 点,在胞外到细胞核内的细胞信号传导过程中起着至关重要的作用[57]。该通路 参与了细胞生长、发育、增殖、分化、死亡及细胞间的功能同步等多种生理过程, 并在细胞恶性转化等病理过程中发挥重要作用。 MAPK 级联途径主要包括 Ras/ERK( 细 胞 外 信 号 调 节 激 酶 ) 、 JNK/SAPK( 应 急 激 活 的 c-jun NH2 终 端 激 酶 ) 、 P38MAPK/HOG-l 和 ERK5( 大 丝 裂 素 蛋 白 活 化 激 酶 , BMK1) 四 条 途 径 [58-60]。 (3) Wnt-catenin信号通路 Wnt-catenin信号通路是调控细胞增殖分化的关键环节,它广泛参与了细胞 增殖、细胞命运特化、细胞极性及细胞迁移等的调控过程,在胚胎发育和肿瘤发 生过程中发挥重要作用。Wnt-catenin信号通路广泛参与了生后大鼠大脑皮层的发 育及功能活动,主要体现在对神经前体细胞增殖分化、神经系统的模式发生以及 神经元突起形成的调控作用 [61]。此外, Wnst基因在神经管和神经嵴细胞的增 殖、凋亡以及命运决定的调控过程中也扮演了重要角色。 1.2 转录组学的研究方法 转录组是指由基因组DNA转录的mRNA总和,也称为表达谱。目前研究转录 组学的主要方法是利用DNA芯片技术检测有机体中的表达谱,进而研究细胞的 17
  • 34. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 表型和功能。传统被广泛应用于表达谱研究的技术包括以下几种:表达序列标签 (EST)测序、微阵列分析(DNA Microarray)、大规模平行信号测序系统(MPSS)和基 因表达连续分析(SAGE)。这些技术可以分为两类,一类通过杂交信号的相对强 度来估计表达强度,如 RNA印迹和微阵列;另一类则基于对样本中每个 RNA分 子的计数来完成,如EST、SAGE和MPSS。近几年,随着测序技术的发展,应用 新一代测序仪为主的RNA-Seq技术成为人们研究转录组的主要方法。 1.2.1 EST表达序列标签 表达序列标签( Expressed sequence tags EST )是把 mRNA 反转录得到的 cDNA克隆到载体构建成cDNA文库后, 随机挑选cDNA克隆,对其5’或3’端进 行单向测序后获得的 cDNA 部分序列 ( 原理如图 1-3 所示 ) 。 EST 的平均长度为 240-480bp,它来源于特定环境下特定组织的总 mRNA,因此可以根据每个基因 在相应组织中出现的相对数量来说明该组织中的基因表达水平。 图1-3 EST测序原理 1.2.1.1 EST技术的形成和发展 早在 1983年, Costanzo 等人便提出了表达序列标签概念的雏形,并对肝脏 12
  • 36. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 的重视,并且不断发展和成熟起来; 1991 年, Adams 等人从三种人脑组织的 cDNA文库中随机挑取609个克隆进行测序,得到一组人脑组织的EST[62];1992 年,科学家建立了EST数据库,用以收集所有的EST数据,后来作为GenBank中 的一个数据库; 1993年,Boguski和Schuler首次提出了构建以 EST为界标的人类 基因组转录图谱计划,科学家们提前进入对基因组的功能研究领域[63-66]。截止 到 2011 年 3 月份, NCBI 中 dbEST 已经收录了来自 1500 多个物种的 69,033,603 条 EST序列。 1.2.1.2 EST技术流程及分析思路 典型的真核生物 mRNA 分子是由 5’UTR(untranslationed region) 、 ORF (open reading frame)、3’UTR和3’末端的polyA(20~200bp)尾巴四部分组成的。EST技术 就是根据mRNA的结构特点发展起来的,其基本流程如图1-4所示:首先从目标 样本中提取总 RNA ,分离得到 mRNA ,用 Oligo(dT) 或随机引物作为逆转录引 物,在逆转录酶的作用下进行反转录 PCR 合成 cDNA ,选择合适的载体构建 cDNA文库,然后在 cDNA文库中随机挑取克隆进行 5’或3’端测序,最终得到长 度为240-480bp的EST 序列,然后对所得EST 数据运用生物信息学方法及软件进 14
  • 37. 文献综述 行注释和分析。 图 1-4 EST 技术基本流程 1.2.1.3 EST技术的应用 EST技术广泛应用于基因表达谱研究、基因图谱构建、选择性剪切识别、基因 识别、单核苷酸多态性 (SNP)研究、系统进化分析以及基因芯片技术等诸多方 面。EST的应用主要在以下几个领域: (1)基因表达谱构建 基因表达谱是反映生物体在特定组织、器官或某一特定生理阶段细胞中所有 基因表达水平的图谱,可用来分析基因表达水平的差异情况。基因表达谱、差异 表达研究是 EST技术应用的主要方面。通过对特定组织或发育时期的非标准化 cDNA文库随机挑取克隆并进行大规模 EST测序,基本可明确该组织或该时期基 因表达及表达丰度等,从而能在整体基因组水平上研究其生物学特性及分子机 制。 (2)构建基因物理图谱 基因物理图谱是以已知的特异 DNA序列为标记、标记间距以物理距离碱基 对 表 示 的 染 色 体 图 谱 。 供 识 别 的 标 记 以 序 列 标 签 位 点 (Sequence–Tagged 21
  • 38. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 Sites,STS)最为常用,因此物理图谱通常又称为STS图谱。STS是基因组中唯一 存在的、长度在200-300bp之间的特异性序列,来源于基因组中的单拷贝序列、基 因表达序列或者遗传标记序列。1994年Kurata用水稻愈伤组织的883条EST构建了 第一张植物基因表达图谱,这张图谱包含了 1383个DNA标记,包括883个cDNA 片段标记、265个染色体DNA标记、147个PAPD标记及88个其它DNA片段标记 [67]。 (3)选择性剪切识别 选择性剪切(alternative splicing,AS)是指从同一个mRNA前体中通过不同剪 切方式产生不同 mRNA剪切异构体的过程,这些异构体相应的蛋白产物会表现 出不同功能。选择性剪切在高等哺乳动物中普遍存在,其最直接的结果是改变基 因的转录产物,并可能由此改变所编码蛋白的功能。运用EST序列或mRNA序列 与基因组序列进行联配是发现选择性剪切的常用方法。 1.2.1.4 EST技术的不足 EST的不足主要表现在以下几个方面: (1) EST序列很短,没有给出完整的表达序列。 (2) 不易获得低丰度的表达基因。 14
  • 39. 文献综述 (3) 出错率较高,可达2%–5%; (4) 有时会出现载体序列和核外mRNA的污染或基因组DNA的污染; (5) 有时出现镶嵌克隆; (6) 序列的高冗余度,使得需要处理的数据量很大。 23
  • 40. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 1.2.2 DNA微阵列(基因芯片) 基因芯片又被称为DNA芯片、DNA微阵列或生物芯片,是由美国斯坦福大 学Brown小组建立的方法。基因芯片技术是将大量寡核苷酸或DNA密集排列于硅 片等固相支持物作为探针,与标记的样品分子进行杂交,然后通过检测每个探 针分子的杂交信号强度进而获取样品分子的数量和序列信息。基因芯片技术已广 泛应用于测序、表达谱分析、不同基因型细胞的表型分析以及基因诊断、药物设计 等领域[68]。 1.2.2.1 基因芯片的工作原理 基因芯片的测序原理与经典的核酸分子杂交方法一致,具体工作原理如图 1-5所示,在一块基片表面固定了序列已知的八核苷酸的探针。当溶液中带有荧 光标记的核酸序列与基因芯片上对应位置的核酸探针产生互补匹配时,通过确 定荧光强度最强的探针位置,获得一组序列完全互补的探针序列,从而得到靶 核酸的序列。 图1-5 基因芯片的工作原理 1.2.2.2 基因芯片的技术流程 基因芯片主要技术流程包括:芯片的设计与制备,样品的制备与标记,杂 交反应,以及杂交信号的检测与分析(图1-6)[69]。 (1) 芯片的制备 16
  • 41. 文献综述 目前芯片的载体以玻璃片或硅片为主,应用原位合成和微矩阵的方法将寡 核苷酸或cDNA作为探针按一定顺序排列在载体上。 (2) 样品的准备 从实验样本中获得的生物样品 (DNA 或 mRNA) 通常都不能直接与芯片反 应,需进行一定程度的PCR扩增。靶分子的标记主要有荧光标记、生物素标记和 放射性同位素标记等几种,目前最为常见的是荧光标记法。实验中先用荧光色素 Cy–3、Cy–5或生物素标记dNTPs,然后DNA聚合酶选择荧光标记的dNTP为底物 使引物延伸,这样新生成的DNA片段中就掺入了荧光分子。对于cDNA,一般是 在反转录过程中掺入荧光基因[70, 71]。 (3) 分子杂交 分子杂交是荧光标记的样品与芯片上的探针进行反应产生一系列信息的过 程。芯片杂交是固–液相杂交,待测样品经扩增、标记后,能够与芯片上的探针 阵列进行分子杂交,杂交条件因靶分子的类型不同而变化。杂交后芯片要洗涤除 去未杂交上的分子,靶分子与探针之间的杂交是芯片检测最关键一步。 (4) 信号检测与分析 携带荧光标记的分子结合在芯片特定的位置上,在激光的激发下,含荧光 标记的DNA片段发射荧光。样品与探针完全配对的杂交分子,产生荧光强度最 强的信号;不完全杂交的双链分子荧光信号较弱;不能杂交的则检测不到荧光 信号或只检测到芯片上原有的荧光信号。 荧光强度与样品中的靶分子含量有一 25
  • 43. 文献综述 1.2.2.3 基因芯片技术的应用 基因芯片技术已广泛应用于基因表达分析、基因诊断、药物筛选、序列分析等 诸多领域,在农业、工业、食品和环境监测等方面也表现出极大的应用潜力。主要 应用如下: (1) 基因表达水平的检测; (2) 基因突变位点及多态性检测; (3) DNA序列测定; (4) 药物筛选; (5) 寻找新基因[73-77]。 1.2.2.4 基因芯片的缺点 芯片技术在获取细胞内基因和蛋白质的表达谱信息上具有很大的优势,但 也存在许多技术问题,如:技术成本昂贵、方法复杂、分析范围较狭窄等。从技术 角度来说主要包括以下几个方面的不足: (1) 可重复性差,假阳性/阴性比较多。 (2) 获取的信息比较纷杂,判断的标准不一。如何准确的获取有用的信息还 是难点。 (3) 必须结合其他的试验技术加以证明才能获得可靠的分析结果。 1.2.3 SAGE基因表达系列分析 27
  • 44. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 基因表达系列分析 (Serial analysis of gene expression SAGE) 是 Velculescu 于 1995年首次提出的一种快速分析基因表达信息的技术。它可以在整体水平对细胞 或组织中的大量转录本同时进行定量分析。SAGE技术已成功应用于转录组研究 及不同样本间差异表达基因的鉴定。SAGE文库中包括大量能唯一代表基因转录 本序列的tag(~21bp),tag出现的频率反应了该tag所代表基因的表达丰度[7, 8]。 1.2.3.1 SAGE的理论基础 SAGE的理论基础主要有以下三个: (1) 在一个转录体系内,每个转录本都可以用一个来自于转录本特定区域的 tag(~21bp)来表示。 (2) 将这些短 tag 连接成标签多聚体进行克隆测序,就可以得到对数以千计 的mRNA转录本,从而对它们进行批量分析。 (3) 各转录本的表达水平可以用tag出现的次数进行定量。 1.2.3.2 SAGE的技术流程 SAGE的技术流程如图1-7所示,主要分为三个阶段: (1) SAGE 文库的构建:利用限制性内切酶 NlaIII( 锚定酶 )识别 CATG 位点的 18
  • 45. 文献综述 特性在其3’端进行酶切,然后用链霉素包被的磁珠进行亲和纯化;将cDNA分为 A 和 B 两部分,分别连接接头 A 或接头 B ,每一种接头都含有 CATG 四碱基突出 端、限制性内切酶BsmFI的识别序列和一个PCR引物序列(引物A或B);利用标签 酶BsmFI识别其位点 3’端下游的 14-17bp处的特性进行酶切,产生连有接头的短 cDNA片段;混合并连接两个短 cDNA 片段,构成双标签后,用引物 A和 B进行 PCR扩增;用锚定酶NlaIII切割扩增产物,抽提SAGE双标签片段;并用T4 DNA 连接酶连接成多聚体,选择合适的片段长度,克隆进载体。得到的克隆插入序列 由一系列的 20-22bp长的SAGE双标签组成,每两个双标签中间由 4bp的NlaIII酶 切位点分隔开。 (2) SAGE文库的测序:利用质粒载体上的通用引物,对插入片断进行单向 测序。SAGE要求质量高而且读长长的序列,以免单碱基测序错误而导致原有标 签有用信息的丢失进而产生一个并不存在的标签。 (3) 标 签 序 列 的 提 取 : 在 双 标 签 多 聚 体 序 列 中 定 位 NlaIII 酶 切 位 点 ( 即 CATG),然后提取CATG位点之间的20-22bp长的双标签序列,去除重复出现的 双标签序列,包括在反向互补方向上重复的双标签序列;截取每个双标签序列 最靠近两头末端的 10个碱基,即为标签序列;去除与接头序列相对应的标签 (即 TCCCCGTACA和TCCCTATTAA),同时去除含有不确定碱基(即除A、 、 、 四 C T G 29
  • 47. 文献综述 图1-7 SAGE技术流程 (引自http://www.bgilt.com/UserFiles/Image/sage1.gif) 1.2.3.3 SAGE的优点和应用 SAGE是一项快捷、有效的基因表达研究技术,其优点主要表现在:能够发 现低丰度转录本、检测向上或向下调控的基因、测量表达的复合效应、鉴定新基因 等等。在技术方面,SAGE具有假阳性率低、可重复性强、实验周期相对较短、大 量数据可用于多重比较等诸多优点,非常适合比较不同发育状态或疾病状态的 生物基因表达。SAGE 技术广泛应用于定量比较正常与疾病状态下组织细胞的特 异基因表达、研究基因表达调控机制、寻找新基因等方面。此外,由于SAGE能够 同时最大限度的收集一种基因组的基因表达信息,利用基因的表达信息与基因 组图谱融合绘制的染色体表达图谱, 使基因表达与物理结构联系起来, 更利 于基因表达模式的研究。需要注意的是,SAGE必须和其它技术相互融合、互为 补充,才能最大可能地进行基因组基因表达的全面研究。 1.2.4大规模平行信号测序系统(MPSS) 大 规 模 平 行 测 序 技 术 (Massively Parallel Signature Sequencing, MPSS) 是 Brenner 等于 2000 年建立,由美国 Lynex 公司将其商品化的一种基因克隆新技 术,其核心技术分别由Mega Clone、MPSS和生物信息分析三部分组成,具有高 31
  • 48. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 通量、高特异性和高敏感性。通过标签库的建立、微珠与标签的连接、酶切连接反 应和生物信息分析等步骤 , 获得基因表达序列(图1-8)。每一标签序列在样品中的 频率(拷贝数)就代表了与该标签序列对应的基因表达水平。所测定的基因表达水 平是以计算mRNA拷贝数为基础的,是一个数字表达系统。 MPSS与基因芯片技术相比较,具有下列优点: (1) 可以避免在cDNA芯片技术中出现的高度同源序列的交叉杂交,保证基 因的高度特异性。 (2) MPSS的高分辨率使其可以检测很低表达水平的基因; (3) MPSS技术检测基因不需要预先知道该基因的相关信息,可以应用于任 何生物体的基因表达检测。 总之,MPSS具有能测定表达水平较低、差异较小的基因,不必预先知道基 因的序列以及自动化和高通量等特点,是值得推广的技术[4, 78]。 图1-8 MPSS技术中微珠与标签的连接(左)、酶切连接反应(右) (引自Reinartz等,2002) 20
  • 49. 文献综述 1.2.5 上述各技术间的优缺点比较 上述各种技术的优缺点比较如表1-1所示: (1) EST 测序在提供大量序列信息的同时也产生了大量的冗余序列,特别 是那些高表达的基因。虽然这些冗余序列可以通过均一化或消减的策略降低,但 是因为时间和费用方面的局限, EST 测序不是一个可行的寻找差异表达的方法 [62]。 (2) 芯片可以同时检测几千个基因的表达信息,但是不能给出芯片上包含的 有关该基因的任何信息,因此需要一些已知的信息。芯片存在的缺陷也是相当明 显的:首先是成本高昂的问题,一般实验室难以承担其高昂的费用;其次在芯 片实验技术上还有多个环节尚待提高,如在探针合成方面如何进一步提高合成 效率及芯片的集成程度以及样品制备的简单化与标准化[1, 75]。 (3) SAGE和 MPSS产生大量的序列数据,而且能够表现实际的不同转录本 的比例。但它们有共同的缺点,即所产生的短 tag(17-20bp)在进行数据处理的时 候遇到很多的问题。此外,MPSS的专利技术的费用也较昂贵。 表1-1 转录组学研究方法的优缺点比较 1.2.6 RNA-seq技术及其应用 与原核生物相比,真核生物的转录组非常复杂,其中有大量的重叠转录本、转 33
  • 50. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 录的基因间区序列和大量的非编码 RNA。过去十几年的研究使我们对这种复杂 性有了更加深刻的认识和理解,也因此产生和发展了一系列相关技术,如EST、 芯片技术、SAGE、MPSS 等。近几年随着测序技术的发展,应用新一代测序仪为 主的RNA–seq技术成为研究转录组的新方法。RNA-seq 利用大规模测序技术直接 对 cDNA 序列进行测序,产生数以千万计的 reads数量,从而使得一段特殊的基 因组区域的转录水平可以直接通过比对到该基因组区域的 reads数来衡量。与以 往的研究方法相比, RNA-seq技术的最大特点就是它的数据高通量,产生海量 的转录数据,其中包括大量之前的方法所检测不到的、表达丰度非常低的转录本 信息,从而使我们能够尽可能的深度挖掘出转录组的信息,对整个转录组的情 况实现更加全面和真实的了解。 RNA-seq-技术的原理如图1-9所示。 图1-9 RNA-seq技术原理 (引自Graveley, 2008) 利用新一代测序技术研究转录组的方法为转录组的研究提供了一个新的角 度。与其他研究转录组的方法相比,RNA-seq技术才处于刚刚发展的初期,但是 随着它可用性的提高和费用的下降,RNA-seq技术具有非常广阔的前景。 22
  • 51. 文献综述 1.2.6.1 新一代测序技术发展概况 传统的DNA测序方法一直面临着测序流程复杂、测序时间长、成本高和通量 小 等 问 题 。 而 新 一 代 测 序 技 术 如 454 Life Sciences 公 司 开 发 的 454 测 序 系 统、 Illumina 公司开发的 Solexa 测序系统以及 Applied Biosystems 公司开发的 ABI SOLiD测序系统等都用到了DNA分子高效扩增策略。这些高通量测序仪的共同特 点就是不需要大肠杆菌进行DNA模板扩增,且测序所得序列相对较短:其中测 序最长的454测序仪测序长度也仅为 200-300个碱基,其余三种序列都只有几十 个碱基。这些新测序平台已经被广泛应用于生物学研究的许多方面,测序原理及 序列长度的差异也决定了这四种测序仪在不同领域的应用。 1.2.6.2 SOLiD技术原理及技术流程 SOLiD 的技术原理是: SOLiD 使用连接法测序获得基于“双碱基编码原 理” 的SOLiD颜色编码序列,随后的数据分析将原始颜色序列与转换成颜色编 码的reference序列进行比较,把SOLiD颜色序列定位到reference上,同时校正测 序错误,并可结合原始颜色序列的质量信息发现潜在SNP位点。 35
  • 52. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 (1) SOLiD基因组文库的构建 使用SOLiD测序时,可根据实际需要,制备片段文库或末端配对文库。制备 片段文库就是在短DNA片(60-110 bp)两端加上SOLiD接头(P1、P2 adapter);而制 备末端配对文库时,先在长片段 DNA(600bp 到 10kb) 两端连接 EcoP15I 酶切位 点,加入生物素标记的 internal 接头使该连接产物自我环化,然后用 EcoP15I 酶 切,并在酶切产物两端加 SOLiD接头,最后用亲和素磁珠特异吸附得到包含两 个25 bp末端及internal接头的目标DNA片段(~85bp)。两种文库的最终产物是两端 分别带有 P1 、 P2 adapter 的 DNA 双链,插入片段及 SOLiD 接头总长为 120-180 bp[79]。具体流程见图1-10。 图1-10 SOLiD文库构建示意图 (2) 油包水PCR 文库制备得到末端带P1、 adapter但内部插入序列不同的DNA双链模板。 P2 油 包水PCR的作用相当于传统的大肠杆菌系统,可以独立地扩增DNA模板。油包水 PCR通过形成数目庞大的独立PCR反应空间实现单条DNA模板的独立扩增。“油 24
  • 53. 文献综述 包水”是指在 PCR反应前,将包含 PCR所有反应成分的水溶液注入到高速旋转 的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构 成了独立的PCR反应空间。和普通PCR一样,油包水PCR也在水溶液中反应。该 水溶液含PCR所需试剂,DNA模板,可以与P1、P2 adapter结合的P1、P2 PCR引 物(P1引物含量远小于P2及P1磁珠)。与普通PCR不同的是,油包水PCR水溶液有 两种形态的P1引物:存在于水溶液的极少量“游离态P1引物”,被固定在P1磁 珠球形表面的“固定态P1引物”(SOLiD系统把表面固定有大量P1引物的磁珠称 为“ P1 磁珠” ) 。 PCR 反应过程中,磁珠表面的 P1 引物可以和 DNA 模板的 P1 adapter负链结合,引导DNA模板合成,其合成产物同时“固定”到 P1磁珠球形 表面;“游离态 P1引物”可以和“散落”在水溶液中的 DNA模板结合,从而提 高DNA模板利用率;P2引物和以上两种形态P1引物共同作用使DNA模板指数级 扩增。理想状态下,每个小水滴只含单条 DNA模板和一个P1磁珠,由于水相中 的P2引物和P1磁珠表面的P1引物所介导的 PCR反应,这条DNA模板的拷贝数指 数级增加。 PCR 反应结束后,该 P1 磁珠表面就固定有拷贝数目巨大的同来源 DNA模板扩增产物。详细流程见图1-11。 37
  • 54. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 图1-11 油包水PCR (3) 含DNA模板的P1磁珠的固定 油包水PCR后将含DNA模板扩增产物的P1磁珠富集起来并进行变性处理, 从而得到含单链 DNA模板的P1磁珠,再对其进行末端修饰。最后把这些末端修 饰的含单链 DNA模板的P1磁珠通过共价键固定到 SOLiD玻片表面。这些均匀分 布在SOLiD玻片表面的磁珠是 SOLiD测序反应的最小单元 (图1-12)。SOLiD测序 反应在这些磁珠上并行进行,测序完成后,每个磁珠得到一条 SOLiD颜色编码 序列。每次连接反应后,SOLiD测序仪照相系统会记录SOLiD玻片上所有磁珠的 光 24
  • 55. 文献综述 信号,测序完成后, SOLiD图像处理系统可以根据磁珠在玻片上的位置将照片 上光信号对应到每个磁珠,最终得到每个磁珠的颜色编码信息。 图1-12 SOLiD玻片及P1磁珠 (4) SOLiD双碱基编码原理及测序流程 SOLiD“双碱基编码原理”阐明了荧光探针的颜色类型与探针编码区碱基对 的对应关系。SOLiD连接反应底物是8碱基单链荧光探针。连接反应时,探针按照 碱基互补规则与单链DNA模板配对。如图1-13中的“底物探针”所示,探针5’末 端可分别标记“CY5,Texas Red,CY3,6-FAMTM”4种颜色的荧光染料,并用 数字“3,2,1,0”表示;探针3’端第1、2位构成的碱基对是表征探针染料类型 的编码区,“双碱基编码矩阵”规定了该编码区 16种碱基对和4种探针颜色的对 应关系,3~5位的“n”表示随机碱基,而 6~8位的“z”指的是可以和任何碱基 配对的特殊碱基,因此,SOLiD连接反应底物中共有45 种荧光探针。 图1-13 SOLiD 双碱基编码原理 SOLiD测序通常包括五轮测序反应。每轮测序反应从“连接引物”锚定反应 39
  • 56. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 开始,后跟7次连接反应。五种“连接引物”(n,n-1,n-2,n-3,n-4)长度相同, 都与P1引物区域互补,但对应于 P1引物区域的起始位置依次相差一个碱基;连 接引物5’端含磷酸基团,可以引导每轮反应中第一次连接反应。以一个磁珠上发 生的SOLiD测序反应为例 (图1-14):第一轮测序反应时,引物 n锚定完成后,由 于每个磁珠只含有均质单链 DNA模板,连接反应只掺入一种与模板 1-8位互补的 8 碱基荧光探针, SOLiD 测序仪根据光信号记录该探针第 1 、 2 位编码区颜色信 息,由于该探针与模板 1-8 位互补配对,所以该探针颜色信息对应于模板链第 1、 位碱基序列,随后的化学处理断裂探针第5、 位碱基间的化学键,并除去6-8 2 6 位碱基及5’末端荧光基团,暴露探针第5位碱基5’端磷酸,为下一次连接反应作 准备。第二次连接反应加入的探针与DNA模板链第6-14位互补配对,测序仪记录 对应于模板链第 6 、 7 位碱基的颜色信息,而第三次连接得到对应于模板链第 11、 位碱基序列的颜色信息......以此类推,第一轮测序反应获得了模板链7个碱 12 基对的颜色信息(1、 ,6、 ,11、 ,15、 ,21、 ,26、 ,31、 。 2 7 12 16 22 27 32) 第一轮测 序反应后, SOLiD 测序仪将包括“连接引物”和连接产物在内的新合成链除 去,只留下模板链,为第二轮测序反应准备。 26
  • 57. 文献综述 图1-14 SOLiD 原始颜色序列的产生 由于第二轮测序反应连接引物n-1起始位置比第一轮连接引物n前移一个碱 基,所以第二轮测序反应得到以模板链第 0,1位起始的7个碱基对的颜色信息。 五轮测序反应后,SOLiD图像处理系统自动将把对应于模板链第0、1位,第1、2 位......第34、 位的颜色信息顺次串联,得到由35个“0,1,2,3”组成的SOLiD 35 原始颜色序列。 41
  • 58. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 表1-2 单张SOLiD玻片测序通量 有三种规格的SOLiD玻片:1-well,整张玻片没有分隔,可放一个样品; 4-well,玻片 被平均分成 4 个独立小室,能同时测序 4 个独立样品; 8-well ,玻片被平均分成 8 个独立小 室,能同时测序8个独立样品;而fragment文库有16种barcoding P2引物,所以一张玻片中最 多可以放8╳16个不同的fragment文库样品。 如表1-2 所示,片段文库和末端配对文库的测序长度不同。片段文库中每轮 引物锚定反应后有7个连接反应,所以整个 SOLiD测序过程包含35个连接反应, 最终得到由35个“0,1,2,4”组成的SOLiD原始颜色序列;而末端配对文库进 行正反向测序,一个测序方向每轮引物锚定后有 5个连接反应,则共有25个连接 反应,得到由25个由“0,1,2,4”组成的SOLiD原始颜色序列;但由于是双向 测序,一个磁珠得到两条序列,即2×25个由“0,1,2,4”组成SOLiD原始颜色 序列。 (5) 数据分析原理 SOLiD测序完成后,获得了由颜色编码组成的SOLiD原始序列。理论上,按 照“双碱基编码矩阵”,只要知道所测 DNA序列中任何一个位置的碱基类型, 就可以将SOLiD原始颜色序列“解码”成碱基序列。但由于双碱基编码规则中双 碱基与颜色信息的兼并特性(一种颜色对应 4种碱基对),前面碱基的颜色编码 28
  • 59. 文献综述 直接影响紧跟其后碱基的解码,当测序错误时,错误的颜色编码将影响其后的 所有碱基的正确解码,引起“连锁解码错误”(图1-15.1)。 图1-15 SOLiD数据分析原理 为避免“连锁解码错误”的发生, SOLiD 数据分析软件不直接将 SOLiD 原 始颜色序列解码成碱基序列,而是依靠所测物种的 reference 碱基序列完成后续 分析。SOLiD序列分析软件首先根据“双碱基编码矩阵”把reference碱基序列转 换成颜色编码序列,然后比较 SOLiD 原始颜色序列和颜色编码的 reference 序 列,获得SOLiD原始颜色序列在reference序列上位置及两者的匹配度信息。颜色 编码的 reference 和 SOLiD 原始序列的不完全匹配主要有两种情况:“单颜色不 匹配” 和“两连续颜色不匹配”(图1-15)。由于SOLiD测序以对DNA模板中的每 个碱基所包含的颜色信息独立地检测了两次,并且 SNP位点将改变连续的两个 颜色编码(图1-15.2),所以SOLiD分析软件认为“单颜色不匹配”为测序错误并 对该测序错误进行自动校正;而“两连续颜色不匹配”可能是 SNP ,SOLiD 分 析软件将根据定位到该 reference 区域所有 SOLiD 原始颜色序列一致性及对应质 43
  • 60. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 量值综合评判。通过与颜色编码reference序列比较并校正测序错误后,SOLiD原 始颜色序列被转成个数相同的碱基序列。 1.2.6.3 SOLiD测序技术的应用 研究者可以基因组 DNA 为初始样本构建 SOLiD 文库 (fragment 文库及 mate- paired文库),以恰当的全基因组序列为reference进行全基因组重测序,还可以对 特 定 基 因 组 区 域 进 行 富 集 测 序 , 进 而 可 以 快 速 鉴 定 SNP 和 基 因 组 结 构 变 化。RNA-seq 高通量测序仪使测序成本大大降低,也促进了针对细胞全部转录产 物的深度测序研究。此外,由于SOLiD所得序列的测序方向明确,提供了序列来 自转录本的正义链还是反义链这一有用信息,使我们能够对测序结果及后面的 数据分析进行正确全面的了解。 28
  • 61. 材料与方法 第二章 材料与方法 2.1 实验材料 小鼠大脑分别取自一周、四周、十周的成年雄性BALB/c小鼠,购于北京维通 利华实验动物技术有限公司,符合SPF/VAF级别标准。 2.2 主要化学试剂 Trizol、10bp DNA Ladder、SYBR Gold Gel Stain、SuperScript II反转录酶试剂 购 于 Invitrogen , pUC18 DNA/Mspl 购 于 TIANGEN , DNAaseI(10U/μL) 购 于 NEB , Nuclease-free Water 购于 Ambion , pGEM-T 载体、 T4 连接酶、 One Shot Top10 Competent Cell 购 于 Promega , 其 他 常 见 试 剂 如 乙 醇 (Ethanol) 、 异 丙 醇 (Isopropanol)、苯酚(Phenol)、氯仿(Chloroform)等均为国产分析纯试剂。 2.3 常用溶液和培养基 溶液1:50mM Tris-HCl,10mM EDTA,0.2mg/mL RNAase A 溶液2:0.2M NaOH,1%SDS (现用现配) 溶液3:3M KAc,pH5.2 糖原(Glycogen):5mg/mL, -20℃保存 45
  • 62. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 IPTG(200mg/mL):水溶液,-20℃保存 TE缓冲液:10mM Tris-HCl,1mM EDTA,pH 8.0 X-gal:二甲基甲酰胺溶解配制成储存液,-20℃避光保存 10×TBE : 108g Tris , 56g 硼酸, 40mL 0.5M EDTA(pH 8.0) ,加水至 1L ,使用时 稀释至1 × TBE工作液 6% Nondenaturing PAGE(6mL) : 4.2mL Deionized water , 1.2mL 30% Acrylamide,0.6mL 10×TBE,110mL 10% APS,10mL TEMED 液体(LB)培养基(1L):胰蛋白胨10g,酵母提取物5g,NaCl 10g,以1M NaOH调 pH至7.0 固体(LB)培养基(1L):液体LB培养基中加1.5%的琼脂糖 0.01M 磷酸盐缓冲液 (PBS) :称 7.9g NaCl, 0.2g KCl , 0.24g KH2PO4( 或者 1.44g Na2HPO4) 和 1.8g K2HPO4 ,溶于 800 mL 蒸馏水中,用 HCl 调节溶液的 pH 值至 7.4,最后加蒸馏水定容至 1 L,保存于4℃冰箱中即可。需要注意的是,通常所 说的浓度0.01 M 指的是缓冲溶液中所有的磷酸根浓度,而非 Na离子或K离子的 浓度,Na 离子和K 离子只是用来调节渗透压的。 30
  • 63. 材料与方法 2.4 试剂盒 RiboMinus Eukaryote Kit for RNA-Seq购于Invitrogen, SOLiD Whole Transcriptome Analysis Kit(SOLiD Small RNA Expression Kit)、flash PAGE Reaction Clean-Up Kit 购 于 Ambion , Oligotex mRNA Mini Kit 、 MinElute PCR Purification Kit 购 于 QIAGEN。 2.5 实验方法 2.5.1 小鼠的处理和取样 采用颈椎脱臼法将小鼠处死,取其大脑组织,用 0.01M PBS 缓冲液清洗, 放入液氮中冻存,立即研磨或者-80℃保存备用。 2.5.2 转录组文库的构建 转 录 组 文 库 的 构 建 分 为 total RNA 提 取 、 ribosomal RNA 去 除 /mRNA 分 离、RNA打断、反转录以及PCR扩增几个步骤。rmRNA-Seq转录组文库构建流程见 图2.1。 2.5.2.1 总RNA提取 应用TRIZOL法提取总RNA,具体步骤如下:每0.1g研磨好的大脑组织加入 47
  • 64. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 1mL TRIZOL试剂,混匀后颠倒混匀数下,室温静置 5分钟;按总体积的1/5加入 氯仿( 约0.2mL) ,颠倒混匀 15秒钟,室温静置 2-5 分钟;4℃ 13000rpm 离心 15分 钟,转上层水相(约400μL)于另一1.5mL EP 管中(可以重复用TRIZOL抽提一遍, 也 可以用氯仿单独抽提一遍 ) ,加入等体积异丙醇,混匀 -20℃ 静置约 30 分 钟, 4℃ 13000rpm 离心 15 分钟,弃上清;加入预冷的 75 %乙醇 ( 用 DEPC 水 配)1mL ,4℃ 13000rpm 离心5分钟,弃上清,重复 75%乙醇洗一次;空气干燥 5-10分钟(不能完全干燥,否则 RNA将会很难溶解 );最后溶于 Nuclease-free水中 至20μL (10μL-20μL);用琼脂糖电泳检测总 RNA的完整性,完整的RNA其28S亮 度 是 18S 的 2 倍 ; 检 测 其 OD 值 , 纯 RNA 样 品 的 OD260/OD280 值 为 1.7-2.0,OD260/OD230值大于2.0。 30
  • 65. 材料与方法 图2-1 转录组文库构建流程图 2.5.2.2 核糖体RNA的去除(rmRNA-Seq) 细胞转录本中大部分的转录产物是核糖体 RNA( 约占 90% 以上 ) ,这对于转 录组研究来说是无用信息,因此首先采用探针结合的方法将其中的 18S、 、 28S 5.8S 和5S rRNA 去除。应用Invitrogen公司生产的试剂盒——RiboMinus Eukaryote Kit for RNA-Seq去除总RNA中的核糖体RNA。具体实验步骤如下: (1) 杂交步骤 先设置水浴 70-75°C 和 37°C ;取总 RNA~8μg(<20μL) ,连同 10μL RiboMinus 探 针 (15pmol/μL) 和 300μL 杂 交 液 加 入 到 RNase-free 的 1.5mL 的 离 心 管 中 , 在 70-75°C水浴中孵育5分钟使RNA变性;之后将样品放入37°C水浴使样品在30分 钟内慢慢冷却到37°C,使RNA和探针充分的接触和杂交,千万不能将样品直接 放到冷水中降温。在样品冷却的过程中,开始准备磁珠。 (2) 磁珠准备 充分涡旋,使磁珠悬浮起来、混匀;吸取 750μL 磁珠悬浮液加入到 RNase- free 的 1.5mL 的离心管中,将离心管放在磁力架上 1 分钟,磁珠紧贴在离心管内 49
  • 66. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 壁上,轻轻的吸走上清,弃掉;加入 750μL DEPC水,轻轻涡旋使磁珠悬浮,之 后放在磁力架上1分钟,吸走并弃掉上清,重复洗一遍磁珠;加入 750μL杂交液 使磁珠悬浮,并转移250μL磁珠到一个新的离心管中备用;将含有 500μL磁珠的 离心管放在磁力架上 1分钟,吸取并弃掉上清,加入 200μL杂交液使磁珠悬浮, 将离心管放在37°C水浴中孵育直到使用。 (3) 去除rRNA 30分钟后杂交样品冷却到 37°C,轻轻离心使样品都集中到离心管底部,转 移杂交样品 (~330μL) 到上述已经准备好的 200μL 磁珠中,轻轻涡旋使其充分混 匀,在37°C水浴中孵育15分钟,在孵育过程中,轻轻混匀几次;将离心管放在 磁力架上1分钟,吸取上清 ~530μL(注意千万不要丢弃上清,这里面才含有我们 想要的 RiboMinus RNA) ,同时将含有 250μL 磁珠的离心管放在磁力架上 1 分 钟,吸走并弃掉上清,加入从另一离心管中取出的 ~530μL上清,混匀后37°C孵 育15分钟,同样在孵育过程中轻轻混匀几次;将离心管放在磁力架上 2分钟,转 移上清(~530μL)至一新的离心管中。 (4) 乙醇沉淀法浓缩RiboMinus RNA 32
  • 67. 材料与方法 转移 RiboMinus RNA 样品至一个新的 RNase-free 的2mL 离心管中,加入 4μL 糖元(5mg/mL)、1/10体积的(53μL)5M醋酸铵和2.5倍体积(1325μL)的无水乙醇, 充分混匀, -20°C 或者-80°C急冻至少30分钟;4°C >=12000g离心15分钟,弃上 清,加入 500μL 冷的 70% 乙醇, 4°C >=12000g 离心 5 分钟,弃上清,重复洗一 遍;风干沉淀~5分钟,~5-8μL Nuclease-free水溶解 (5) 检测RiboMinus RNA的质量 取 1μL 样 品检测 OD 及 rRNA 去除 效果 (Agilent 2100 bioanalyzer) ,在没有 Agilent 2100 bioanalyzer的情况下可以应用电泳检测,但应注意电泳检测的上样 量大于200ng时,才可以分辨rRNA去除效果。 2.5.2.3 用SOLiD Whole Transcriptome Analysis Kit 构建文库 具体实验步骤如下: (1) RNase III 酶切RNA 将去除 rRNA 后的 (RiboMinus RNA) 样品 / 分离得到的 mRNA 样品 1μg(≤8μL) 加入1μL 酶切buffer和1μL RNase III,在PCR 仪上37°C 10 分钟。 (2) flashPAGE 电泳分离片段 51
  • 68. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 打断完毕,取下后立即加入 10μL flashPAGE loading buffer (含有的变性剂 可使蛋白直接变性终止反应),混匀后 95°C 2min,变性后立即放置冰上;依照 说明清洗并连接好flashPAGE 电泳仪,依次加入250μL 下液,预制胶,300μL 上 32
  • 69. 材料与方法 液,加入样品,接通电源, 75V电泳;当蓝色指示剂刚刚电泳出预制胶进入下 液时 (约 12 分钟),打开电泳仪,吸出下液到新的 2mL EP 管中,此时电泳液中 的 RNA 片段小于 50bp;清洗下槽,重新加入250μL 下液,继续电泳约45 分钟, 这时下液获取的是大于50bp的RNA片段。 (3) flashPAGE Reaction Clean-up Kit 回收RNA片段 回收后的下液依照 flashPAGE Reaction Clean-up Kit 步骤进行回收,注意如 果下液的体积大于230μL,提示预制胶有侧漏现象,此时获得的样品无法使用。 回收的产物通过冻干或空气干燥 (小于 40°C)浓缩到 3μL ,通常会获得 100-400ng 产物。 (4) 接头杂交及连接 冰上 0.2mL RCR 管中准备杂交混合液 (Mix) : 2μL 接头 Mix A , 3μL 杂交 液, 3μL RNA 片段化产物,共 8μL 体系。混匀,进行杂交反应: 65°C 10 分 钟,16°C 5 分钟;取出放置冰上立即进行以下步骤,依下面步骤加入连接反应 试剂:10μL连接缓冲液,2μL 连接酶Mix,混匀后16°C 连接16 小时。 (5) 逆转录及RNaseH 消化 53
  • 70. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 逆转录反应体系如下: Nuclease-free Water 13μL ,10X RT Buffer 4 μL , 2.5 mM dNTP mix 2 μL,ArrayScript Reverse Transcriptase 1 μL。加入上述混好的Mix 到连接好接头的体系中, 42°C 30分钟合成cDNA;取合成好的一链产物10μL 进 行 RNaseH消化,剩余产物-80°C保存;在10μL 一链产物中加入1μL RNaseH 混 匀,37°C 30分钟。 (6) PCR 扩增 以上述50μL体系作为实验性PCR检测cDNA进行PCR的条件,条件允许的可 以进行大规模性扩增,每个样本保证进行 3个以上100μL的规模性PCR扩增以获 取足够量的DNA产物。50μL体系不能使用大于1μL的cDNA,否则会抑制PCR扩 增反应。 反应条件为:95°C 5min;95°C 30s,62°C 30S,72°C 30S,15-18个 PCR 循环;72°C 7min。循环数视50μL体系反应结果而定,在能达到所需量产物的情 况下,循环数越少越好。 (7) PCR 产物纯化 PCR 产物应用QIAGEN公司的MinElute PCR Purification Kit进行纯化。 (8) 6% PAGE 分离回收DNA 片段 34
  • 71. 材料与方法 用 6% 的聚丙烯酰胺凝胶电泳分离上述纯化后的 PCR 产物,以 10bp DNA ladder作为Marker,用SYBR Gold染料染~15分钟,切取约140–200bp大小的片段 (不要切取小于110bp的副产物);将PAGE胶切成胶粒,加入200μL PAGE Elution Buffer到放有切好的胶粒的EP管中,常温振荡过夜,吸取buffer到新的EP管中。 再向胶粒中加入250μL的PAGE Elution Buffer,37℃放置两小时。 (9) 异丙醇沉淀DNA 合并上述两次的PAGE Elution Buffer,加入1/100体积的糖原和0.7倍体积的 异丙醇,混匀后室温静置 5min ,室温离心 13000g 20 分钟,弃上清,空气干 燥,10μLNuclease-free Water溶解,供后续实验使用。 2.5.2.4 文库检验 取少量的上述产物连接到 T 载体,电转到大肠杆菌感受态细胞中,涂板培 养,挑取白斑摇菌,提取质粒后做 ET测序反应,3730测序,对测序结果进行分 析,验证接头的添加效率和基本的rRNA片段污染程度,供后续实验参考。 2.5.2.5 SOLiD油包水PCR及上机测序 这部分实验由我所测序平台的专门实验人员完成,包括:油包水 PCR富集 55
  • 72. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 磁珠富集、磁珠沉积,制备上机玻片以及最后的上机测序。 2.5.3 RT-PCR 应用RT-PCR 的方法来验证实验所鉴定的转录本的真实存在,具体方法和步 骤如下: (1) 总RNA 的提取和处理 34
  • 73. 材料与方法 用如前介绍的 Trizol 方法提取小鼠 cerebrum 的总 RNA ,并用 DNAase I 处 理,防止基因组DNA 的污染。 (2) 反转成cDNA 分别用随机引物和 Oligo-dT 做反转,反转酶为 Invitrogen 公司的SuperScript II。反转的体系和方法如下: A: 随机引物反转: 在200μL的EP管中加入上述试剂, 65°C 5分钟,立即放在冰上1分钟,将配好 的如下Mix加入其中,混匀,室温下(25 ℃)放置2分钟,加入1μL RT 酶,混匀, 室温下10分钟,接着42℃ 50分钟,最后70℃ 15分钟, -20℃保存备用或者立即 进行后续实验。 B: Oligo-dT 反转: 在200μL的EP管中加入上述试剂, 65°C 5分钟,立即放在冰上1分钟,将配好 的如下Mix加入其中,混匀, 42 ℃ 2分钟,加入1μL RT酶,混匀,接着42℃ 50 57
  • 74. 第一部分 基于第二代测序技术的生后小鼠大脑组织发育的转录组研究 分钟,最后70℃ 15分钟,-20℃保存备用或者立即进行后续实验。 (3) PCR 条件 95°C 5分钟, 95°C 15秒, 60°C 15秒, 72°C 40秒,40个循环,最后72°C延伸 5分钟,4°C保存。 2.6 数据分析方法 2.6.1 SOLiD序列在基因组上的注释 SOLiD 序列的注释和分析流程如图2.2所示。首先,原始的数据过滤掉rRNA 序列后,将用于进一步的分析;将长度为 35bp的全长序列与小鼠全基因组数据 相比较,未比对到基因组上的35bp序列继续与可变剪接数据集相比对。对于没有 比对到基因组上的序列,我们认为是由于测序质量低导致的,而且从 SOLiD 测 序的特点来看,越测到最后质量就越低。因此为了最大限度地注释序列,把在这 一步骤上没有比对上的序列,将其最后 5个碱基去掉,用剩下的 30bp 的序列继 续同小鼠全基因组比对,同理,将 30bp 的没有比对上的序列继续截掉后 5 个碱 基,用剩下的25bp的序列与基因组序列比对。经过这三个步骤之后,所有被注释 36
  • 75. 材料与方法 的序列进行随后的基因表达、非蛋白编码 RNA的分析等,所有比对上可变剪切 的数据可以用来评价剪切效率和寻找新的可变剪切情况。 在注释过程中使用的小鼠全基因组序列和 rRNA 序列均来自NCBI 数据库。 同时,应用corona_lite_v0.31R2 作为比对工具。 59