內容簡介
《生物計算:生物序列的分析方法與應用》介紹生物計算中的幾種主要方法,如序列比對、係統發育分析、蛋白質序列的語義分析與結構預測、基因識彆與生物芯片的數據分析等,給齣它們的基本問題與有關的方法及應用。全書由三部分組成。一部分介紹這些問題的由來與主要內容,給齣它們的基本原理、計算與分析方法及應用意義,同時介紹一些國際上較為通用的軟件包。第二部分是生物學備忘錄,介紹有關生物學的基礎知識。第三部分是數學備忘錄,介紹與這些生物計算有關的數學理論與方法。
《生物計算:生物序列的分析方法與應用》可作為數學、生物、醫學、化學等專業的本科生或研究生教材,其中一部分內容可作為各專業的公共部分,而第二、三部分內容可供各專業適當選用。
內頁插圖
目錄
《數學與現代科學技術叢書》序
前言
第一部分 基本方法
第1章 生物序列突變與比對分析
1.1 生物序列突變與比對問題
1.1.1 生物序列的類型與結構
1.1.2 生物序列突變與比對問題的意義與應用
1.1.3 生物序列比對的原理與方法
1.2 二重序列比對的有關算法
1.2.1 關於動態規劃算法的一些說明
1.2.2 動態規劃算法
1.2.3 統計判決算法的基本思想
1.2.4 BLAST軟件的使用
1.3 多重序列的比對問題
1.3.1 MSA的意義與概況
1.3.2 MSA的定義與優化準則
1.4 MSA算法與計算
1.4.1 MSA算法的基本概念
1.4.2 MSA的算法步驟
1.4.3 ClustalW軟件的使用
1.4.4 關於MSA的幾點說明
1.4.5 幾個多重序列比對應用例子
1.5 SPA算法的原理與計算
1.5.1 SPA算法的基本原理
1.5.2 SPA算法的基本步驟
1.5.3 SPA算法源碼
1.5.4 SPA算法的有關問題討論
1.5.5 SPA算法的一個實例計算
習題與思考
第2章 係統發育分析
2.1 分子係統發育分析的基本概念
2.2 基於距離的方法
2.2.1 非加權分組平均法
2.2.2 鄰接法
2.3 基於特徵的方法
2.4 極大似然和Bayes方法
2.4.1 進化的概率論模型
2.4.2 構建進化樹的極大似然方法
2.4.3 構建進化樹的Bayes方法
2.5 構建進化樹軟件簡介
習題與思考
第3章 蛋白質一級結構的語義分析
3.1 蛋白質一級結構的信息與統計分析法
3.1.1 蛋白質一級結構的語義分析簡介
3.1.2 信息、統計分析法的要素與要點
3.1.3 局部詞的定義與判定
3.1.4 蛋白質一級結構的語義分析
3.2 蛋白質序列語義結構的組閤分析法
3.2.1 關於組閤圖論的有關記號
3.2.2 數據庫的復雜度
3.2.3 數據庫的關鍵詞與核心詞
3.2.4 關於組閤分析的若乾應用問題
習題與思考
第4章 蛋白質結構預測
4.1 蛋白質二級結構預測
4.1.1 蛋白質二級結構預測的評價體係
4.1.2 Chou-Fasman方法
4.1.3 GOR方法
4.1.4 FHD方法
4.2 蛋白質空間結構預測
4.2.1 同源序列搜索
4.2.2 摺疊識彆方法
4.2.3 從頭預測方法
4.3 蛋白質結構預測軟件簡介
4.3.1 PHD軟件使用簡介
4.3.2 使用nnpredict.軟件預測蛋白質二級結構
4.3.3 PSIPRED軟件使用簡介
習題與思考
第5章 基因識彆
5.1 緒論
5.1.1 原核基因識彆
5.1.2 真核基因識彆
5.1.3 常用模式基因組簡介
5.2 基因序列特徵分析
5.2.1 內含子與外顯子
5.2.2 CpG島
5.2.3 密碼子使用偏性
5.3 開放閱讀框識彆
5.3.1 開放閱讀框特性
5.3.2 開放閱讀框識彆原理
5.3.3 開放閱讀框識彆軟件使用
5.4 Markov模型基因識彆方法
5.4.1 隱Markov模型
5.4.2 GENSCAN隱Markov模型方法和原理
5.4.3 GENSCAN軟件使用
5.4.4 基因識彆方法評價
5.5 其他基因識彆方法簡介
5.5.1 神經網絡方法
5.5.2 z麯綫方法
習題與思考
第6章 基因錶達數據分析
6.1 基因錶達序列標簽數據分析簡介
6.1.1 基因錶達序列標簽的概念
6.1.2 基因錶達序列標簽數據的獲取
6.1.3 基因錶達序列標簽數據聚類分析
6.1.4 基因錶達序列標簽的應用
6.2 基因芯片數據的獲取
6.2.1 基本概念
6.2.2 基因芯片實驗過程
6.2.3 基因芯片數據獲取
6.2.4 基因芯片數據內容
6.3 基因芯片數據分析
6.3.1 基因錶達譜芯片數據標準化
6.3.2 基因錶達譜芯片數據散點圖分析
6.3.3 基因錶達差異顯著性分析
6.4 基因芯片數據聚類分析
6.4.1 基本概念
6.4.2 特徵描述
6.4.3 分層聚類方法
6.4.4 模糊聚類方法
6.5 其他基因芯片數據分析方法簡介
6.5.1 支持嚮量機方法
6.5.2 K均值聚類
6.5.3 自組織映射圖聚類
6.6 基因芯片數據分析軟件簡介
習題與思考
第二部分 生物學備忘錄
第7章 核酸與DNA
7.1 細胞與染色體
7.1.1 細胞
7.1.2 染色體概念
7.1.3 染色體特徵
7.2 核酸分子與DNA結構
7.2.1 核酸分子
7.2.2 DNA分子結構
7.3 RNA結構與分類
7.3.1 RNA結構
7.3.2 RNA分類
第8章 氨基酸與蛋白質
8.1 氨基酸
8.1.1 氨基酸組成
8.1.2 氨基酸符號錶示
8.1.3 氨基酸分類
8.2 肽鏈
……
第9章 基因與基因組
第10章 生物信息數據庫
第三部分 數學備忘錄
第11章 智能計算理論與算法
第12章 概率、信息與統計
第13章 隨機過程
參考文獻
索引
精彩書摘
(2)重復序列與基因交叉問題。由人類基因組與各種不同類型生物體基因組的測定發現,在同一生物體(尤其是在高等生物體)的基因組中,存在大量基因的重復與交叉問題。所謂重復序列,就是在同一基因組中一些DNA片段重復齣現,這些片段有長有短,較長的片段長達數百萬,有的片段雖短,但可能重復齣現數百萬次。這種重復不是簡單一緻定義下的相同,而是在一定相似率定義下的重復,因此必須通過序列的比對纔能發現並確定這些重復序列。
基因的交叉就是同一基因在基因組中往往由多條不同的DNA片段組成,在生物學中稱這些組成基因的不同片段為外顯子,中間間隔部分稱為內含子,在基因編碼成蛋白質時,內含子被切除,部分外顯子排列的次序會發生重疊或顛倒,生物學中稱這種現象為基因交叉,這種交叉結構的分析同樣需要序列的比對計算。
前言/序言
生物計算中的理論、方法與應用越來越被生物、醫學及其他醫務工作者所需要與關注,特彆是在人類基因組計劃實施以來,該學科的發展與研究更凸顯齣重要的作用。基因、基因組、蛋白質、蛋白質組等生物學信息的數據采集、儲存與分析及其生物學意義,是生物計算乃至生物、醫學與醫藥的重點研究內容之一。因此在國內外的許多醫科院校均被作為重要課程,與生物信息學和生物計算相關內容的課程不僅是研究生的必修課程或選修課程,也是多個專業本科生的專業必修課程或選修課程。我們先後用瞭近三年的時間,在開展教學和研究工作的同時編寫瞭本書,目的是為生物學和醫學相關專業的本科生與研究生提供一本既通俗易懂,同時又可深入瞭解相關內容的教材,為該學科的建設與發展服務。
自2004年以來,本人有幸多次參加南開大學數學科學學院瀋世鎰教授主持的“生物信息學”討論班。在討論與學習過程中,不僅掌握瞭一些解決生物序列分析與計算的具體算法,更重要的是學到瞭解決生物序列分析的一些新方法和新思想。如生物序列的多種比對算法、數據結構中的語義分析及其在蛋白質結構分析中的應用等。這些方法從不同角度對生物計算中的有關問題進行研究與探討,並在許多方麵得到瞭很好的應用。在學習過程中,與南開大學數學科學學院鬍剛、王奎博士等閤作,對生物計算中的算法以及相關軟件包的使用等問題有瞭更深入與確切的理解,使本書得以順利完成。我們希望能將該領域中的主要內容與方法介紹給讀者。
“生物計算”與“生物信息學”在本質上無大的區彆,國內外的許多院校均把它們看作同一領域的學科。在本書中,我們把“生物計算”看作較偏重於原理與方法,同時注重它們的實現與應用,在介紹國外先進與常用算法的同時,增加瞭相應軟件包的使用與分析等內容。
好的,以下是一本關於生物信息學和計算生物學中核心主題的圖書簡介,旨在涵蓋與您提供的書名主題相近但又不完全重疊的領域。 --- 圖書名稱:《計算生物學:從基因組到蛋白質結構解析》 簡介: 在分子生物學、遺傳學以及係統生物學飛速發展的今天,數據的爆炸性增長已成為科研前沿的顯著特徵。理解和解讀這些復雜、高維的數據,需要強大的計算工具和理論框架。《計算生物學:從基因組到蛋白質結構解析》旨在為研究生、科研人員及資深從業者提供一套係統而深入的指南,聚焦於現代生物信息學領域中那些至關重要的計算方法論,尤其關注基因組學數據的處理、蛋白質結構預測與功能分析,以及代謝網絡建模等核心議題。 本書摒棄瞭對基礎生物學概念的冗餘介紹,直接切入計算挑戰和解決方案。全書內容組織嚴謹,兼顧理論深度與實踐指導,力求構建一座連接生物學問題與計算科學工具的堅實橋梁。 第一部分:基因組測序與組裝的高級計算策略 現代高通量測序技術(如Illumina、PacBio和Oxford Nanopore)産生瞭海量的短讀長和長讀長序列數據。本部分詳細闡述瞭從原始數據質量控製到完整基因組組裝的復雜計算流程。 1. 序列質量評估與預處理: 探討瞭Phred質量值的統計學意義、錯誤模型的識彆以及高效的過濾算法(如基於K-mer的方法)。重點分析瞭如何處理不同測序平颱産生的係統性誤差,包括堿基錯誤率、插入缺失(Indel)和嵌閤序列的識彆與校正。 2. 從頭組裝(De Novo Assembly)的拓撲學基礎: 深入解析瞭基於De Bruijn圖和Overlapping Layout Consensus (OLC) 兩種主要組裝策略的數學原理。著重討論瞭圖論在處理重復序列、解決組裝歧義性中的核心作用。書中詳細比較瞭A-Bruijn、MEGAHIT等現代組裝器的內部機製,並提供瞭優化參數以應對復雜基因組(如多倍體和高度重復區域)的實操經驗。 3. 基因組精細化與結構變異檢測: 組裝完成後,如何通過比對和糾錯技術(Polishing)提高準確性是關鍵。本章涵蓋瞭基於參考序列的重比對技術,以及利用多種數據類型(如光學圖譜、Hi-C數據)輔助識彆大片段的結構變異(如拷貝數變異、倒位和易位)。我們將詳細介紹Paired-end和Mate-pair信息在解析復雜結構變異邊界方麵的計算優勢。 第二部分:蛋白質結構預測與功能推斷的計算前沿 蛋白質是生命活動的執行者,其三維結構決定瞭其功能。本部分聚焦於從序列到結構和功能的計算轉化過程,反映瞭該領域近年來最引人注目的突破。 1. 序列比對與同源性搜索的進階: 超越基礎的BLAST,本書詳細考察瞭隱馬爾可夫模型(HMMs)在構建蛋白質傢族數據庫(如Pfam)中的應用。討論瞭PSI-BLAST和JackHMMER等迭代比對算法的統計學穩健性,以及在低同源性序列中提取生物學信號的技巧。 2. 蛋白質結構預測的深度學習革命: 深度學習,尤其是AlphaFold2及其後續模型的齣現,徹底改變瞭結構生物學。本章深入剖析瞭這些模型的核心架構——如Attention機製和幾何深度學習的應用。我們將解析如何利用共進化信息(Co-evolutionary signals)來推斷殘基間的空間距離約束,並探討如何評估預測模型的置信度(如pLDDT分數)及其局限性。 3. 結構比較、動力學模擬與功能注釋: 預測齣的結構需要通過比較來理解其生物學意義。本節講解瞭結構比對算法(如TM-score和RMSD的局限性),以及分子動力學(MD)模擬在探索蛋白質柔性和構象變化中的作用。同時,本書也介紹瞭基於結構域(Domain)和拓撲圖的自動化功能注釋流程。 第三部分:係統生物學中的網絡建模與數據整閤 生物係統並非孤立組件的簡單集閤,而是相互作用的復雜網絡。本部分側重於如何利用計算方法對這些交互網絡進行建模、分析和推斷。 1. 代謝網絡(Metabolic Network)的拓撲分析: 介紹如何構建和錶示生化反應網絡,並深入講解約束性基礎代謝模型(FBA)的原理。重點討論瞭如何通過優化方法預測細胞的最大生長率,以及如何利用FBA進行基因敲除或環境擾動下的係統響應分析。 2. 蛋白質-蛋白質相互作用網絡(PPI Network)的挖掘: 講解瞭大規模PPI數據的整閤,包括從實驗數據(酵母雙雜交、Pull-down)和計算預測(文本挖掘)中提取可靠交互信息的方法。本章強調瞭網絡拓撲分析工具(如中心性指標、模塊檢測算法)在識彆關鍵調控蛋白和信號通路中的實際應用。 3. 多組學數據的整閤分析框架: 現代係統研究往往涉及基因組學、轉錄組學、蛋白質組學等多層次數據。本書提齣瞭一種通用的計算框架,用於校準、規範化和集成這些異構數據源。討論瞭基於稀疏主成分分析(Sparse PCA)和多視圖學習(Multi-view Learning)方法,以期揭示跨層級的生物學關聯。 結語 《計算生物學:從基因組到蛋白質結構解析》是一本麵嚮深度應用和方法論探索的參考書。它要求讀者具備一定的編程基礎(如Python或R)以及對離散數學和綫性代數的基本理解。通過對這些前沿計算工具的透徹解析,本書旨在培養讀者獨立解決復雜生物學問題的能力,推動計算方法在生命科學研究中的創新應用。