內容簡介
縱嚮數據半參數模型目前是統計學和計量經濟學研究的熱門研究課題之一,並在生物學、醫學、傳染病學、經濟學、金融學和遙感等領域有著廣泛的應用。《縱嚮數據半參數模型》共分8章,主要針對幾種縱嚮數據半參數迴歸模型,重點闡述這些模型的估計方法、統計推斷及漸近結果。《縱嚮數據半參數模型》除介紹這些模型的發展動態,還特彆詳細介紹瞭一些最新研究成果,使讀者對縱嚮數據統計模型的方法和統計思想有一個較為全麵的瞭解,並起到拋磚引玉的作用。
目錄
第1章 緒論
1.1 縱嚮數據
1.1.1 縱嚮數據介紹及例子
1.1.2 縱嚮數據的錶示
1.2 半參數模型
12.1 非參數模型
1.2.2 部分綫性模型
1.2.3 單指標模型
1.2.4 部分綫性單指標模型
1.2.5 變係數模型
第2章 縱嚮數據廣義綫性模型
2.1 廣義綫性模型
21.1 指數族
2.1.2 廣義綫性模型
2.1.3 極大似然估計
2.2 縱嚮數據廣義綫性模型及方法
2.2.1 引言及模型介紹
2.2.2 廣義估計方程方法
2.2.3 二次推斷函數方法
2.2.4 經驗似然推斷
2.3 變量選擇
2.4 光滑門限廣義估計方程變量選擇方法
2.4.1 引言
2.4.2 SGEE方法
2.4.3 漸近性質
2.4.4 SGEE變量選擇程序的實施
2.4.5 模擬研究和實例分析
2.4.6 小結
2.4.7 定理的證明
第3章 縱嚮數據部分綫性模型
3.1 引言
3.2 估計方法
3.2.1 profile-kernel估計
3.2.2 M估計
3.2.3 樣條逼近估計
3.2.4 QIF估計
3.3 廣義經驗似然推斷
3.3.1 引言及模型介紹
3.3.2 廣義經驗似然方法
3.3.3 模擬研究和實例分析
3.3.4 定理的證明
3.4 測量誤差模型修正的QIF方法
3.4.1 引言
3.4.2 估計方法
3.4.3 實際應用中的估計過程
3.4.4 條件和漸近性質
3.4.5 模擬研究
3.4.6 實例分析
3.5 變量選擇
3.5.1 引言
3.5.2 方法論和主要結果
3.5.3 迭代算法
3.5.4 模擬研究和實例分析
3.5.5 定理的證明
第4章 縱嚮數據單指標模型
4.1 引言及模型介紹
4.2 經驗似然推斷
4.2.1 模型介紹
4.2.2 方法與主要結果
4.2.3 模擬研究
4.2.4 定理的證明
4.3 糾偏的廣義經驗似然
第5章 單指標模型的同時置信帶
5.2 單指標模型的同時置信帶和假設檢驗
5.2.1 引言
5.2.2 估計程序及漸近性質
5.2.3 自適應Neyman檢驗
5.2.4 模擬研究和實際數據分析
5.2.5 定理的證明
5.3 縱嚮數據單指標混閤效應模型的同時置信帶
5.3.1 引言及模型介紹
5.3.2 估計方法
5.3.3 漸近性質
5.3.4 聯係函數的同時置信帶
5.3.5 數值模擬及其應用
5.3.6 定理的證明
5.4 小結
第6章 縱嚮數據部分綫性單指標模型
6.1 引言及模型介紹
6.2 糾偏的經驗似然方法
6.2.1 糾偏分組經驗似然方法
6.2.2 漸近性質
6.2.3 兩種特殊情況
6.2.4 模擬研究及實例分析
6.3 糾偏的GEE方法
6.3.1 糾偏的GEE估計方法.-
6.3.2 漸近性質
6.4 糾偏的QIF方法
6.4.1 到偏的QIF估計方法
6.4.2 漸近性質
6.5 變量選擇
6.5.1 變量選擇方法
6.5.2 漸近性質
6.6 聯係函數的假設檢驗
6.7 模擬研究及實際數據分析
6.7.1 模擬研究
6.7.2 CD4實際數據分析
6.8 小結
6.9 附錄:正則條件和定理的證明
6.9.1 正則條件
6.9.2 -些主要引理和證明
6.9.3 定理的證明
第7章 縱嚮數據變係數模型
7.1 引言
7.1.1 變係數模型
7.1.2 變係數測量誤差模型
7.2 估計方法
7.2.1 光滑核估計
7.2.2 光滑樣條估計
7.2.3 局部多項式估計
7.2.4 多項式樣條估計
7.2.5 變量選擇
7.2.6 經驗似然推斷
7.3 測量誤差模型修正的經驗似然方法
7.3.1 自然的經驗似然
7.3.2 殘差調整的經驗似然
7.3.3 Profile經驗似然
7.3.4 模擬研究和實例分析
7.3.5 定理的證明
第8章 麵闆數據固定效應模型
8.1 引言
8.2 非參數固定效應模型的同時置信帶
8.2.1 估計程序
8.2.2 漸近性質
8.2.3 非參數函教的同時置信帶
8.2.4 Bootstrap方法
8.2.5 定理的證明
8.3 部分綫性模型的同時置信帶
8.3.1 估計方法
8.3.2 漸近性質
8.3.3 同時置信帶的構造
8.3.4 Bootstrap方法構造同時置信帶
8.3.5 模擬研究
8.3.6 定理的證明
參考文獻
索引
精彩書摘
第1章 緒論
1.1 縱嚮數據
1.1.1 縱嚮數據介紹及例子
縱嚮數據(longitudinal data)是指對同一組受試個體或者受試單元在不同時間點上重復觀測若乾次,得到的由截麵和時間序列融閤在一起的數據(Diggle et al.,2002).
縱嚮數據在實際中的例子很多,廣泛應用於醫學、生物學、社會學、經濟學和金融學等諸多領域,反映瞭個體間的差異和個體內部的變化,縱嚮數據綜閤瞭截麵數據和時間序列數據的特點和優點,同時隨著計算機性能的飛速發展,使得縱嚮數據的統計分析研究越來越受到人們的重視.例如,如果要研究/『L童閱讀能力隨時間變化趨勢的問題,可以隨機抽取一些兒童,在不同年齡段對其閱讀能力進行測試,這樣得到的數據就是縱嚮數據.這些兒童的閱讀能力,隨著年齡的增長均有提高,但是每個兒童在進行觀測時的初始閱讀能力卻不一樣,有些兒童在年齡較小時的閱讀能力反而比有些年齡較大的兒童閱讀能力要強.也就是說,縱嚮數據模型既考慮瞭個體間的差異(初始的閱讀能力不同),也考慮瞭個體內部的變化(閱讀能力隨著年齡的增長而提高).這個例子也反映瞭縱嚮數據最大的特點:對不同個體觀測所得到的數據是獨立的,但是對同一個體觀測所得到酌數據往往具有相關性.如果對此研究采用截麵數據的方法進行分析,就忽略瞭兒童的初始閱讀能力,從而使得分析齣的結果違背瞭實際情況.所以,縱嚮數據是同一個體按時間順序觀測得到的,它將截麵數據和時間序列數據結閤在一起,能很好地分析齣個體隨時間變化的趨勢,反映瞭個體間的差異和個體內部的變化.對比僅利用截麵數據或者時間序列數據模型,縱嚮數據模型有不可替代的作用,有很高的應用價值.同時隨著計算機性能的飛速發展,縱嚮數據的統計分析研究也越來越受到人們的重視.
首先介紹如下四個縱嚮數據的例子,在本書中將會對這幾個例子進行分析.
例1.1.1 f多中心艾滋病群組研究) Kaslow等(1987)公布瞭一組來自於多中心艾滋病群組研究的數據.該研究是計劃在1984~1991年,對283位HIV(humanimmunodeficiency virus)呈陽性的同性戀患者每半年進行一次定期檢查,記錄他們看病的醫院地址和感染的情況.但是由於部分患者沒有定期來檢查或者因病情發作而不到半年就需要檢查一次,每位患者重復測量的次數不同.每位患者在這8年內至少檢查過1次,最多檢查過14次.對於這組數據,響應變量是HIV感染後患者血液內所含CD4細胞的比例,協變量是患者的年齡、吸煙狀況、HIV感染前CD4細胞的比例及其交互作用.大傢感興趣的問題是,如何識彆齣真正對HIV感染後血液內CD4細胞比例的變化有影響的協變量,以及進一步瞭解它們分彆産生瞭怎樣不同的影響,
例1.1.2 f多發性硬化癥臨床試驗) 多發性硬化癥臨床試驗的數據集最初被Petkau等(2004),Petkau和White (2003)分析過,並且在Song (2007)的專著中也被多次分析,該實際數據集涉及一個縱嚮的臨床試驗,用來評價復發緩解多發性硬化癥(MS)中的乾擾素,8-lb(IFNB)的中和抗體的影響,它是一種可破壞包圍神經的髓鞘的疾病.該數據集是來自英國哥倫比亞大學承擔的Betaseron臨床試驗的磁共振成像(MRI)研究的子課題,涉及50個復發緩解多發性硬化癥患者,每個患者每隔6周來大學進行一次治療.對於17個預定的治療訪問周期,該數據集對每個患者包含3個響應變量,分彆是:①主動掃描(active scan),是一個二元響應變量,如果上次進行基綫掃描後本次治療進行瞭掃描.記錄為l,否則為0:②病情惡化情況(exacerbation),也是一個二元響應變量,即指進行MRI掃描檢查是否齣現病情加重的情況,病情加重用l錶示,否則用0來錶示;③疾病負擔(burden ofdisease),一個正的連續型響應變量,錶示每次掃描後所有切片上MS病變的總麵積f單位:lTlⅡ12).本數據記錄瞭7個協變量或解釋變量:治療(IYt)、時間(T,單位:周)、時間的平方、年齡(Age)、性彆(Gender)、患病的持續年限(Dur,單位:年)和一個額外的基綫協變量擴大殘疾狀態等級(EDSS)評分.50個患者被隨機分成3個治療組,具體分配為17個患者服用安慰劑(placebo)進行治療、17個患者服用低劑量(low dosage)藥劑治療,還有16個患者服用高劑量(high dosage)藥劑治療.該數據集中不僅存在缺失數據,而且為非平衡縱嚮數據.MS臨床試驗的主要目的是研究藥物治療對減輕疾病癥狀的影響.
例1.1.3 f癲癇病發作數據) 這是一個臨床隨機對照試驗,通過將一種新研發的抗癲癇的藥物與能降低癲癇病發作頻率的安慰劑進行比較,來考察該新研發藥物的療效,見參考文獻Thall和Vail (1990).Wang等(2005b).研究者將新藥和安慰劑隨機的分給59位患者服用,其中28個患者服用安慰劑,31個患者服用新研發的抗癲癇藥物.在接下來的8周內,每兩周對患者進行一次定期檢查,記錄在這兩周內癲癇發作的次數(錶1.1.1中Yl,Y2,Y3,Y4).同時,在進入試驗之初,研究者會記錄每位患者的基本情況,包括年齡(Age)、進入試驗初期未服藥前癲癇的發作次數(錶1.1.1中Base)、試驗中服用的藥物f錶1.1.1中rlyt,其中0錶示服用安慰劑,l錶示服用新藥)等,對於這組數據,響應變量是患者每兩周的發病次數,協變量是基於患者的基本情況得到的各種指標,包括年齡的對數和基準癲癇病數(除以4後取對數).對於該數據的研究,大傢非常關心的一個科學問題是藥物是否有助於減1.1縱嚮數據.3.少癲癇發作率.對該問題的研究可參考文獻Thall和Vail (1990),Wang等(2005b),Bai等(2009),Pang和Xue (2012),Yang等(2014c).
例1.1.4(荷爾濛縱嚮數據) 縱嚮荷爾濛數據是收集瞭34個健康婦女在一個月經周期的尿樣,每隔一天試驗尿的孕激素,在34個參與者中,每個婦女按時提供llv28次觀測,共得到492個觀測值,平均每個婦女進行14.5次觀測.He等(2002)與薛留根和硃力行(2007)對該荷爾濛縱嚮數據利用部分綫性模型進行擬閤,他們考慮響應變量為孕激素值的對數,兩個協變量分彆為年齡(Age)和體重指數(BMI)。
從上麵4個例子中,可以看齣縱嚮數據是同一個體在不同時刻的多次重復觀察而得到的數據集,對於每個個體,都得到一個變量集.但是,它又不同於一般意義上的多元統計數據.在多元統計分析中,每一個個體也得到一個變量,但是這個變量是同一個體多個指標的一次觀察得到的嚮量,並無重復的含義.因此縱嚮數據一個顯著的特點是“個體間獨立、個體內相關”,有的文獻中也稱為“組間獨立、組內相關”,對於這些縱嚮數據分析最大的挑戰就是需要考慮同一觀測個體的不同次觀測之間的相關性。
對比截麵數據的研究,Song (2007)指齣縱嚮數據的研究具有以下3個方麵的挑戰:
(1)由於縱嚮數據的概率機製非常復雜,並很難錶示齣來,所以縱嚮數據分析是一個非常具有挑戰的問題.在大部分情況下,縱嚮數據的極大似然推斷要麼不存在,要麼太復雜而使得數值計算很難實施.為瞭解決這個睏難,Liang和Zeger (1986)提齣瞭分析縱嚮數據非常流行的廣義估計方程(generalized estimating equations,GEE)方法,GEE方法不要求指定數據的概率模型,是姒似然方法的一種推廣(詳見第2章的討論),且GEE方法僅僅要求指定數據的一階矩和二階矩,並把縱嚮數據中的組內相關參數作為討厭參數;
(2)縱嚮數據中常存在缺失數據,這也使得縱嚮數據分析變得非常睏難.主要原因是縱嚮數據中的缺失模式比截麵數據中的更加復雜.例如,在截麵數據中,每個個體隻有一個樣本點,如果這個數據點缺失,在數據分析時把這個個體刪掉就可以瞭.但對於縱嚮數據,在一個時間點上的數據缺失並不意味著整個個體就完全沒有信息,因為在其他時間點上仍然有測量數據被記錄.進一步,對於縱嚮數據中缺失情況時遇到的缺失機製的錶示和組內相關結構等問題,給統計分析也提齣瞭許多新的機遇和挑戰:
(3)當縱嚮數據時間序列的長度很大時,縱嚮數據的建模模式或迴歸分析等成為統計分析的一個主要任務,在目前文獻中,大部分縱嚮數據的文獻都是集中在重復測量的次數有限的情形,而當重復次數趨於無窮大時,在這種情況下,如果縱嚮數據的組內相關結構不再是討厭參數時,發展相應的統計推斷方法也成為縱嚮數據分析的一個具有挑戰的任務。
1.1.2 縱嚮數據的錶示
考慮來自n個個體的數據,其中第/(i=1, ,劄)個個體有m{次觀測,總的觀測次數為Ⅳ- y-rn;.設K,和(Xzj,tij)分彆錶示對第i個個體進行 i=]第歹次觀測0=l, ,m{)所得到的響應變量和協變量的觀測值,這裏Xij= (Xij.1, ,Xij,p)T∈n~p,t。,錶示觀測時間.在更一般的集閤中,t。,不一定錶示時間,但一定是模型中非參數部分依賴於時間的協變量.所有的觀測數據構成一個縱嚮數據集,錶示為
1.2半參數模型
半參數迴歸模型是20世紀80年代發展起來的一種重要統計模型,此模型介於參數迴歸模型和非參數迴歸模型之間.在不少實際問題中,要考察對象Y(響應變量)同影響y的因素X(解釋變量或協變量)之間的關係.傳統的綫性模型當假設模型成立時,其推斷有較高的精度,但當參數假定與實際背離時,其擬閤情況就很差.若用非參數模型去處理,則有可能會丟失有經驗或曆史資料得到的信息,因而采用兩者的混閤,即采用半參數迴歸模型.這種模型既有參數分量,又含有非參數分量.在理論上,處理這種模型的方法融閤瞭參數迴歸模型申常用的方法和較近發展起來的非參數方法,但並非這兩類方法的簡單疊加.總之,可以認為其復雜性和難度都超過瞭單一性質的迴歸模型.在應用上,這種模型可描述許多實際問題,比單純的參數模型和非參數模型有更大的適應性.例如,在生物學、醫學、傳染病學、經濟學、金融學和遙感等領域有著廣泛的應用.半參數迴歸模型發展至今,在解決實際問題中,實際工作者和學者們提齣瞭許多類型的半參數迴歸模型,下麵就涉及的幾種半參數模型進行簡要介紹。
1.2.1 非參數模型
假設y為響應變量,X為影響y的協變量,則非參數迴歸模型的形式為 y=9(X)+£, (1.2.1)
其中g(z)=E(Y IX=z)為未知的迴歸函數,£為模型誤差,且滿足E(EIX)=0.非參數迴歸模型的優點是迴歸函數9(.)的任意形式,而且模型的假設少,可以很好地擬閤實際數據.但非參數迴歸模型的缺點是當X∈IRp,且X的維數p較高時,對非參數模型進行估計和統計推斷會遇到所謂的“維數災禍”問題.在第8章討論瞭麵闆數據非參數固定效應模型的同時置信帶的構造問題.非參數迴歸模型經常考慮p=l或p=2的情形,即一元或者二元迴歸模型.對於協變量更高維的情形,即p≥3時,且協變量為X= (Xl, ,Xp)r,考慮如下的綫性模型Y -po+X1r8i+一-+Xppp+£.
這時迴歸函數變為g(x)=E(Y IX=z)=Po+xitoi+ +Xpt8p,即模型退化為經典的綫性迴歸模型.如果響應變量y為非高斯分布,如泊鬆(Poisson)分布、伽馬(Gamma)分布、=項(binomial)分布、指數(exponential)分布等,可以考慮廣義綫性模型,關於廣義綫性模型,第2章給瞭較為詳細的介紹,並給齣瞭縱嚮數據廣義綫性模型的一些估計方法的介紹。
在實際應用中,為瞭保留參數模型的優點及非參數迴歸模型數據適應性的優點,同時避免“維數災禍”問題,統計學者提齣並發展瞭很多半參數迴歸模型,如部分綫性模型、單指標模型、部分綫性單指標模型和變係數模型等,這些模型已經廣泛應用到瞭生物醫學和計量經濟學等領域中。
……
前言/序言
縱嚮數據半參數模型 epub pdf mobi txt 電子書 下載 2024
縱嚮數據半參數模型 下載 epub mobi pdf txt 電子書