內容簡介
Affymetrix GeneChip係統是目前應用廣泛的生物芯片平颱。但是由於Aflymetrix芯片含有超大量的信息,很多Affymetrix芯片用戶趨嚮於使用默認的分析設置,得到的常常不是極優化的結論。分子生物學傢和生物統計學傢根據十餘年的基因錶達譜實驗研究和數據分析的實踐經驗編寫瞭《基於Affymetrix芯片的基因錶達研究》,從理論概念到實驗結果,解釋瞭使用Affymetrix芯片進行基因錶達研究的全部過程,拆除瞭分子生物學、生物信息學和生物統計學之間無處不在的語言障礙。
本書專業實用,介紹瞭Affymetrix芯片的重要技術、統計學易犯的錯誤和問題,同時涉及其他芯片平颱的一般規則和應用。通過例證和全彩圖例,描述瞭技術和統計方法的概念,為初學者提供詳細指導。本領域的專傢則可以瞭解芯片所涉及的其他學科知識,拓展基因芯片錶達譜研究的認識。
目錄
目錄
附圖目錄
錶格目錄
BioBox目錄
StatsBox目錄
前言
縮寫詞和術語
1 生物學問題
1.1 為什麼進行基因錶達?
1.1.1 生物技術的進展
1.1.2 生物學相關的研究
1.2 研究問題
1.2.1 相關性和實驗研究對比
1.3 研究課題的主要類型
1.3.1 兩組間比較
1.3.2 多組間比較
1.3.3 不同治療方式間的比較
1.3.4 多組與對照組的比較
1.3.5 研究主題內的變化
1.3.6 分類和預測樣本
2 AffymetriX芯片技術
2.1 探針
2.2 探針組
2.2.1 標準探針組的定義
2.2.2 客戶可選擇的芯片描述文件(CDF)
2.3 芯片類型
2.3.1 標準錶達檢測芯片
2.3.2 外顯子芯片
2.3.3 基因芯片
2.3.4 疊瓦芯片
2.3.5 用於某項研究的專用芯片
2.4 標準實驗室芯片實驗流程
2.4.1 體外轉錄分析
2.4.2 全轉錄本正義鏈標記
2.5 AffymetriX芯片的數據質量
2.5.1 分析數據的重復性
2.5.2 分析數據的穩定性
2.5.3 分析的敏感性
3 實驗操作
3.1 生物學實驗
3.1.1 生物學背景
3.1.1.1 實驗目的/假設
3.1.1.2 技術平颱
3.1.1.3 mRNA水平的預期改變
3.1.2 樣本
3.1.2.1 選擇閤適的樣品/組織
3.1.2.2 樣本的類型
3.1.2.3 樣本的異質性
3.1.2.4 性彆
3.1.2.5 時間點
3.1.2.6 樣本切割引起的誤差
3.1.2.7 動物處理産生的誤差
3.1.2.8 RNA的質量
3.1.2.9 RNA的數量
3.1.3 預實驗
3.1.4 主實驗
3.1.4.1 對照實驗
3.1.4.2 實驗處理
3.1.4.3 分批實驗
3.1.4.4 隨機化
3.1.4.5 標準化
3.1.4.6 選擇對照
3.1.4.7 樣品量/重復次數/費用
3.1.4.8 平衡設計
3.1.4.9 對照樣本
3.1.4.10 樣本混閤
3.1.4.11 實驗記錄
3.1.5 實驗數據分析驗證
3.2 芯片實驗
3.2.1 外源RNA對照
3.2.2 靶基因閤成
3.2.3 批處理影響
3.2.4 全基因組芯片和用於某項研究的專用芯片比較
4 數據分析預處理
4.1 數據預處理
4.1.1 探針的信號強度
4.1.2 轉換為log2的對數
4.1.3 背景校正
4.1.4 歸一化
4.1.5 AffymetriX芯片概要
4.1.5.1 完全匹配(PM)和錯配(MM)技術
4.1.5.2 隻使用PM探針的技術
4.1.6 整體解決方案
4.1.7 信號檢測方法
4.1.7.1 芯片分析係統MAS 5.0
4.1.7.2 背景和雜交信號檢測(DABG)
4.1.7.3 檢齣/缺失比值(PANP)
4.1.8 標準化
4.2 質量控製
4.2.1 技術數據
4.2.2 虛擬圖像
4.2.3 重復性評價
4.2.3.1 重復性評價方法
4.2.3.2 實例分析
4.2.4 批處理效應
4.2.5 批處理效應校正
5 數據分析
5.1 為什麼我們需要統計學?
5.1.1 需要對數據作齣解釋
5.1.2 需要一個優秀的實驗設計
5.1.3 統計學與生物信息學比較
5.2 高維數據的問題
5.2.1 分析結果的重復性
5.2.2 數據挖掘和驗證
5.3 基因過濾
5.3.1 過濾方法
5.3.1.1 信號強度
5.3.1.2 兩樣品間變異
5.3.1.3 缺失/檢齣
5.3.1.4 含有效信息的/無有效信息的檢齣
5.3.2 數據過濾對檢驗和多重校正的影響
5.3.3 幾種過濾方法的比較
5.4 無監督數據分析
5.4.1 進行無監督分析的原因
5.4.1.1 批次影響
5.4.1.2 技術或生物學的偏差
5.4.1.3 錶型數據的質量校驗
5.4.1.4 共調控基因的識彆
5.4.2 聚類
5.4.2.1 距離和聯係
5.4.2.2 聚類算法
5.4.2.3 聚類質量校驗
5.4.3 多元投影方法
5.4.3.1 多元投影方法類型
5.4.3.2 基因和樣本關係圖
5.5 檢測差異錶達
5.5.1 復雜問題的簡單解決方法
5.5.2 統計檢驗
5.5.2.1 倍數變化
5.5.2.2 t-檢驗類型
5.5.2.3 由t統計到p值
5.5.2.4 方法比較
5.5.2.5 綫性模型
5.5.3 多重檢驗的校正
5.5.3.1 多重檢驗的問題
5.5.3.2 多重校正步驟
5.5.3.3 方法比較
5.5.3.4 事後比較
5.5.4 統計學意義與生物學相關性
5.5.5 樣本數量估計
5.6 有監督的預測
5.6.1 分類與假設檢驗
5.6.2 芯片分類的挑戰
5.6.2.1 過度擬閤
5.6.2.2 偏執方差平衡
5.6.2.3 交叉效驗
5.6.2.4 非唯一分類解決方案
5.6.3 位點選擇方法
5.6.4 分類方法
5.6.4.1 判彆分析
5.6.4.2 最近鄰分析法
5.6.4.3 邏輯(Logistic)迴歸
5.6.4.4 神經網絡
5.6.4.5 支持嚮量機
5.6.4.6 分類樹
5.6.4.7 集成方法
5.6.4.8 芯片預測分析(PAM)
5.6.4.9 方法比較
5.6.5 復雜的預測問題
5.6.5.1 多級問題
5.6.5.2 生存預測
5.6.6 樣本量
5.7 通路分析
5.7.1 通路分析的統計學方法
5.7.1.1 過錶達分析
5.7.1.2 功能分類評分
5.7.1.3 基因集分析
5.7.1.4 方法比較
5.7.2 數據庫
5.7.2.1 Gene ontology
5.7.2.2 京都基因與基因組百科全書(KEGG)
5.7.2.3 基因芯片通路分析(GenMAPP)
5.7.2.4 腺嘌呤富集元件數據庫(ARED)
5.7.2.5 概念圖(cMAP)
5.7.2.6 凋亡路徑圖(BioCarta)
5.7.2.7 染色體位置
5.8 其他分析方法
5.8.1 基因網絡分析
5.8.2 元分析
5.8.3 染色體位置
6 分析結果錶示
6.1 數據可視化
6.1.1 熱圖
6.1.2 強度圖
6.1.3 基因錶圖
6.1.4 維恩圖(Venn圖)
6.1.5 散點圖
6.1.5.1 火山圖(Volcano plot)
6.1.5.2 MA圖
6.1.5.3 高維數據的散點圖
6.1.6 柱狀圖
6.1.7 盒圖
6.1.8 小提琴圖錶
6.1.9 密度圖
6.1.10 樹狀圖
6.1.11 基因錶達通路
6.1.12 齣版用圖錶
6.2 生物學解釋
6.2.1 重要數據庫
6.2.1.1 Entrez Gene
6.2.1.2 AffymetriX網站(NetAffx)
6.2.1.3 OMIM
6.2.2 文獻挖掘
6.2.3 數據整閤
6.2.3.1 多種分子篩選數據
6.2.3.2 係統生物學
6.2.4 實時定量聚閤酶反應(RTqPCR)驗證
6.3 數據發錶
6.3.1 ArrayExpress
6.3.2 基因錶達文庫(GEO)
6.4 可重復性研究
7 藥物研發
7.1 早期標誌物的需求
7.2 關鍵路徑計劃
7.3 藥物發現
7.3.1 正常組織和病變組織的不同
7.3.2 疾病亞型的發現
7.3.3 分子靶標的識彆
7.3.4 分子特徵譜
7.3.5 疾病模型特徵
7.3.6 化閤物分析
7.3.7 劑量效應處理
7.4 藥物開發
7.4.1 生物標誌物
7.4.2 響應顯著性
7.4.3 毒理基因組學
7.5 臨床實驗
7.5.1 功能指標
7.5.2 結果預測的意義
8 使用R和Bioconductor
8.1 R和Bioconductor
8.2 R和Sweave(R語言的一種函數)
8.3 R和Eclipse(一種代碼)
8.4 自動芯片分析
8.4.1 裝載文件包
8.4.2 基因過濾
8.4.3 無監督探索
8.4.4 差異錶達檢驗
8.4.5 有監督分類
8.5 其他芯片分析軟件
9 未來前景
9.1 同時分析不同數據類型
9.2 未來的芯片
9.3 新一代(二代)測序:芯片的終結?
參考文獻
索引
附圖目錄
2.1 標準AffymetriX芯片圖
2.2 GC含量對信號強度的影響
2.3 同一探針集中的探針之間信號強度的差彆
2.4 使用客戶選擇的CDF時,探針集大小引起的差異
2.5 外顯子芯片和3′端芯片探針覆蓋範圍的比較
2.6 外顯子芯片的轉錄本注釋
3.1 性彆特異基因Xist(X染色體失活特異轉錄本)
3.2 樣本切割産生誤差示例
3.3 甲狀腺素在小鼠紋狀體的錶達
3.4 小鼠結腸樣本切割引起的誤差
3.5 降解與非降解RNA對比
3.6 RNA的降解圖顯示3′偏差
3.7 不同批次芯片的批間效果
4.1 芯片掃描圖像的一角
4.2 對數轉換的分配效應
4.3 芯片數據中的兩種噪音成分
4.4 歸一化對強度依賴變異的影響
4.5 歸一化對MA圖的影響
4.6 MAS 5.0背景計算
4.7 由affyPLM産生的虛擬圖像
4.8 兩重復關聯評估重復性
4.9 中心定位前後的成對一緻性
4.10 光譜圖評估重復性
4.11 由MAQC(生物芯片質量控製)得到的歸一化前AffymetriX數據的盒式圖
4.12 來自MAQC研究得到的AffymetriX芯片數據的SPM(譜圖)
4.13 存在批次效應的差異錶達基因的強度圖
5.1 信息豐富的和不提供信息的探針集的探針比較
5.2 基因過濾對p值分布的影響
5.3 不同過濾技術排除基因的百分比
5.4 兩種過濾技術的差異
5.5 基因過濾技術的分布差彆
5.6 在聚類中的歐幾裏得(Euclidean)和皮爾森(Pearson)距離
5.7 基於歐幾裏得和皮爾森距離的ALL數據的分級聚類
5.8 分級聚類運算的示意圖
5.9 k均值運算的示意圖
5.10 ALL數據的主要成分分析
5.11 ALL數據的譜圖
5.12 t-檢驗的可變性
5.13 t-檢驗
5.14 不良的t-檢驗:變異對顯著性的影響
5.15 Δ=0.75的SAM圖
5.16 t分布
5.17 使用大樣本資料比較兩種差異錶達檢驗的方法(30 vs.30)
5.18 使用小樣本資料比較兩種差異錶達檢驗的方法(3 vs.3)
5.19 各種交互效應的假設方案
5.20 用GLUCO數據中具有不同錶達方式的四個基因解釋交互效應
5.21 多種檢驗校正方法及其如何處理假陽性和假陰性
5.22 ALL數據組中調整過和未調整過的p值
5.23 高維性和過度擬閤在分離中的關聯
5.24 過度擬閤的問題
5.25 嵌套循環交叉驗證
5.26 利用PAM基因組閤秩次升高
5.27 利用LASSO基因組閤秩次升高
5.28 交叉驗證中的位點排列
5.29 進行分類的最佳基因數量
5.30 懲罰迴歸:懲罰的係數關聯
5.31 神經網絡方案
5.32 支持嚮量機模型的二維可視框圖
5.33 使用MLP包含高秩基因組的GO通路
5.34 利用GSA含有高秩基因組的GO通路
5.35 BioCarta通路
5.36 識彆差異錶達的染色體區域
6.1 熱圖
6.2 強度圖
6.3 基因列錶圖
6.4 Venn(維恩)圖
6.5 火山圖
6.6 MA圖
6.7 平滑散點圖
6.8 柱狀圖
6.9 數據組HD的盒圖
6.10 小提琴圖
6.11 密度圖
6.12 係統樹圖
6.13 重要基因組的GO通路
7.1 藥物開發中的基因錶達譜
7.2 Fos的劑量反應特徵
9.1 二代測序排序可能齣現的錯誤
錶格目錄
1.1 雙通道ANOVA設計
2.1 AffymetriX探針集的類型和名稱
2.2 已經不再使用的AffymetriX探針集和名稱
2.3 原始AffymetriX探針集的注釋級彆
2.4 産生客戶可選擇的CDF的規則
2.5 基於Ensembl Gene數據庫的HG U133 plus 2.0探針的使用
3.1 不同樣本的RNA産率
4.1 背景微小差異的影響
5.1 修正p值的計算
5.2 分類和假設檢驗
5.3 采用LASSO和PAM選擇的重要基因
5.4 懲罰迴歸:基因選擇
5.5 采用MLP選擇的重要基因
5.6 采用GSA選擇的前5個上調基因組和前5個下調基因組
BioBox目錄
1.1 基因錶達芯片
1.2 分子生物學的中心法則
1.3 siRNA
1.4 錶型
2.1 剪接變異
2.2 基因
3.1 Northern雜交
3.2 轉錄因子
3.3 血液
3.4 細胞培養
3.5 X染色體失活:Xist
3.6 凝膠電泳
3.7 生物分析儀進行RNA分析
3.8 RTqPCR(熒光定量PCR)
5.1 管傢基因
7.1 生物標誌物
7.2 EC50,ED50,IC50,LC50和LD50
7.3 生物標誌物和臨床意義
7.4 基因錶達的意義
9.1 錶觀遺傳學的實例:DNA甲基化
StatsBox目錄
1.1 關聯的兩種解釋
3.1 能力
4.1 準度和精度
4.2 貝葉斯統計
4.3 可重復性
4.4 關聯假設
5.1 參數,變量,統計
5.2 完全擬閤
5.3 有監督和無監督的研究
5.4 重取樣技術
5.5 神經網絡
5.6 多變量投影方法的步驟
5.7 確定差異錶達的步驟
5.8 比值的對數=對數差異
5.9 零假設和p值
5.10 變異,標準偏差和標準誤差
5.11 經驗貝葉斯方法
5.12 顯著性水平和能力
5.13 參數和非參數檢驗比較
5.14 Explanatory和響應變異
5.15 通用綫性模型
5.16 測量規模
5.17 交互反應
5.18 規則化或懲罰
5.19 敏感性和特異性
5.20 多重檢驗校正步驟
5.21 信息並不是越多越好
5.22 核心技術
5.23 刀切法和自助法
精彩書摘
Chapter 1
Biological
question
All
experimental
work
starts
in
principle
with a
question.
This
also
applies
to
the
field
of
molecular
biology. A
molecular
scientist
is
using a
certain
technique
to
answer a
specific
question
such
as,
“Does
the
cell
produce
more
of a
given
protein
when
treated
in a
certain
way?
”
Questions
in
molecular
biology
are
indeed
regularly
focused
on
specific
proteins
or
genes,
often
because
the
applied
technique
cannot
measure
more.
Gene
expression
studies
that
make
use
of
microarrays
also
start
with a
biological
question.
The
largest
difference
to
many
other
molecular
biology
approaches
is,
however,
the
type
of
question
that
is
being
asked.
Scientists
will
typical
基於Affymetrix芯片的基因錶達研究(導讀版) epub pdf mobi txt 電子書 下載 2024
基於Affymetrix芯片的基因錶達研究(導讀版) 下載 epub mobi pdf txt 電子書