內容簡介
要使普通小二乘法産生優綫性無偏估計,必須符閤經典迴歸假設。其中一個較難實現的假設是,因變量是連續的。如果因變量是離散的,似然技術(如logit或probit)通常更有效。
《logit與probit:次序模型和多類彆模型》緻力於分析因變量具多類彆時的估計情況,關注離散和次序形式的因變量,並把處理對象擴展到具有兩個以上結果的多類彆或非次序因變量。另外,作者提供瞭十分有用的計算機程序詳情。
總體而言,《logit與probit:次序模型和多類彆模型》為估計和解釋從更復雜的離散因變量模型中得到的結果提供瞭實用指南。
內頁插圖
目錄
序
第1章 概論
第2章 次序模型
第1節 簡介
第2節 方法論
第3節 應用:剝奪狀態
第4節 對次樣本的估計:特徵與係數
第3章 多類彆模型
第1節 簡介
第2節 隨機效用模型
第3節 logit模型的類彆:多類彆logit與條件logit
第4節 多類彆1ogit模型
第5節 應用:職業獲得
第6節 條件logit模型與不相關選項的獨立性
第4章 STATA程序列錶
第1節 簡介
第2節 次序probit和logit程序
第3節 多類彆logit程序
注釋
參考文獻
譯名對照錶
前言/序言
要使普通最小二乘法(OLS)産生最優綫性無偏估計(BLUE),必須符閤經典迴歸假設。這些假設中有些假設比其他假設更容易實現。此外,違反這些假設的實際後果因假設的不同而不同。其中一個假設難以實現,而且會對OLS的解釋造成嚴重後果,那就是假設因變量是連續的。相反,如果因變量是離散的,即由兩個或更多的結果類彆構成,那麼OLS就會産生嚴重的推論問題。在這種情況下,最大似然(maximum likelihood)技術(如logit或probit)通常更有效。
本書比較獨特,因為它完全緻力於分析因變量具多類彆時的估計情況。在概論之後,作者關注瞭具離散和次序形式的因變量。比如,假設某位政治科學傢有選舉調查的數據,並希望解釋政治興趣這一因變量,其中受訪者的得分:0-低,1一中等,2-高。這個變量是離散的,受訪者處於這三種類彆中的一種。此外,這個變量是從“低”到“高”排序的。在這種有序變量情況下,我們可以說某個得分為“高”的人比某個得分為“低”的人具有更多的政治興趣,但我們不能確切地說多多少。所以,OLS迴歸看起來較不可取,而次序Iogit或次序probit更可取,因為它們適閤這種較低的測量水平。布魯雅(Borooah)教授詳盡地闡釋瞭這兩種方法,試圖解釋社會剝奪(用三個類彆測量,“沒有被剝奪”“輕度被剝奪”“嚴重被剝奪”)在不同個體間的差異。一個經常齣現的問題是logit是否比probit更優,或者反之。這兩種方法根本上的理論差異涉及誤差項的分布是邏輯分布還是正態分布。實際上,正如本書指齣的,我們很難提供足夠的理由說明為什麼選擇其中一種方法而非另外一種。
本書還把處理對象擴展到具兩個以上結果的多類彆或非次序因變量。比如,宗教的選擇、住宅區的選擇、購物中心的選擇、工作的選擇等。多類彆logit的一個關鍵假設是無關選項獨立性(HA)。正如布魯雅教授所論述的,這個假設既是此技術的優點又是其缺點。他還對比數比(odds-ratios)和風險比(risk-ratios)做瞭重要但往往被忽視的區分。在二分類logit中,這兩種比率之間沒有差異,但是,在多類彆logit中,結果是以風險比的方式顯示的。
本書結尾給齣瞭非常有用的計算機程序詳情,用於說明書中的錶格結果是如何産生的。這種逐步對計算機程序進行注釋的方式讓讀者明白如何運行數據分析。講解中具體使用的軟件是STATA,但作者還指齣瞭SAS、SPSS和I.IM-DEP中其他可用的程序。總體而言,這本書為估計和解釋從更復雜的離散因變量模型中得到的結果提供瞭一個有用的指南。
《logit與probit:次序模型和多類彆模型》 是一本深入探討離散選擇模型理論與應用的著作。本書聚焦於兩種最常用的二元離散選擇模型——Logit模型和Probit模型,並在此基礎上,係統地拓展到更為復雜的多類彆離散選擇模型,包括多項Logit模型、有序Logit模型(Ordered Logit)和有序Probit模型(Ordered Probit)等。 本書旨在為讀者提供一個全麵而紮實的理論框架,幫助理解這些模型背後的統計學原理、假設條件以及模型識彆的挑戰。同時,它也強調模型的實際應用,通過詳實的案例分析,展示如何在經濟學、社會學、市場營銷、醫療健康、交通運輸等多個領域,利用這些模型來分析和預測個體的選擇行為。 核心內容與結構: 第一部分:離散選擇模型基礎 引言:離散選擇問題的齣現與建模需求 生活中的離散選擇現象:購買決策、齣行方式選擇、教育程度選擇、疾病診斷等。 傳統迴歸模型的局限性:因變量為連續變量的模型不適用於解釋分類或定性結果。 離散選擇模型的必要性:對無法被直接度量的“效用”或“傾嚮”進行建模。 區分二元、多類彆和有序選擇模型。 效用最大化理論與隨機效用模型(Random Utility Model, RUM) 個體如何做齣選擇:基於效用最大化的假設。 效用的構成:確定性成分(可觀測變量)與隨機成分(不可觀測變量)。 個體選擇的概率:選擇使得預期效用最大的那個選項。 引入隨機變量的分布假設:這是區分Logit和Probit模型的核心。 Logit模型與Probit模型的推導與解釋 Logit模型: 假設隨機擾動項遵循邏輯斯蒂(Logistic)分布。 推導齣選擇某一個選項的概率錶達式。 理解Log-Odds(Logit)的綫性形式,即自變量與Logit值之間的綫性關係。 解釋Odds Ratio(優勢比)的含義及其與自變量的關係。 探討Logit模型的優缺點。 Probit模型: 假設隨機擾動項遵循標準正態(Standard Normal)分布。 推導齣選擇某一個選項的概率錶達式。 理解纍積標準正態分布函數(CDF)的含義。 解釋邊際效應(Marginal Effects)的計算與解釋,特彆是在概率上的解釋。 探討Probit模型的優缺點。 Logit與Probit模型的比較: 理論上的相似性:都基於隨機效用理論,都産生S形概率麯綫。 數學上的差異:擾動項的分布不同。 實際應用中的區彆:在大部分情況下,兩種模型的結果非常相似,但在極端值處可能略有差異。選擇哪種模型往往取決於研究的領域慣例或對擾動項分布的先驗判斷。 模型估計與推斷 最大似然估計(Maximum Likelihood Estimation, MLE): 構建似然函數。 求解最優參數估計值的過程。 理解似然函數的解釋性。 參數估計的性質: 一緻性、漸近正態性、漸近有效性。 假設檢驗: 聯閤顯著性檢驗(F檢驗或Wald檢驗)、t檢驗、Likelihood Ratio (LR) 檢驗。 模型擬閤優度指標: Pseudo R-squared(如McFadden R-squared, Cox & Snell R-squared, Nagelkerke R-squared),混淆矩陣(Confusion Matrix)與分類準確率(Accuracy)。 模型診斷與選擇 異方差性(Heteroskedasticity): 擾動項方差非恒定的問題及其對估計的影響。 多重共綫性(Multicollinearity): 自變量之間高度相關的問題。 內生性(Endogeneity): 自變量與擾動項相關的處理方法(如工具變量法,但在綫性迴歸中更常用,在離散選擇模型中存在挑戰)。 模型嵌套與模型選擇準則: AIC(Akaike Information Criterion)、BIC(Bayesian Information Criterion)。 第二部分:進階離散選擇模型 多項Logit模型(Multinomial Logit Model, MNL) 基本概念: 當選擇集包含三個或以上互斥且無序的選項時使用。 IIA(Independence of Irrelevant Alternatives)假設: 解釋IIA假設的含義:選擇某個選項的優勢比不應受其他選項是否存在或移除的影響。 IIA假設的優點:簡化模型,便於估計。 IIA假設的缺點:在很多實際場景下不成立(如“紅牌效應”、“分割替代效應”)。 檢測IIA假設的方法。 模型估計與解釋: 選擇一個基準類彆(Reference Category)。 解釋模型係數:相對於基準類彆的Log-Odds變化。 計算邊際效應:自變量變化對選擇某個選項的概率的影響。 有序Logit模型(Ordered Logit Model) 基本概念: 當因變量為有序分類變量時使用(如低、中、高;非常滿意、滿意、不滿意)。 模型假設: 潛在連續變量(latent continuous variable)的設定,以及擾動項的邏輯斯蒂分布。 閾值參數(Threshold Parameters): 解釋模型中的截距項如何被分解成多個閾值,用來區分不同的類彆。 模型估計與解釋: 解釋模型係數:自變量變化對“越過”某個閾值的概率的影響。 纍積概率的計算與解釋。 預測實際類彆的概率。 有序Probit模型(Ordered Probit Model) 基本概念: 與有序Logit模型類似,但假設擾動項服從標準正態分布。 模型假設: 潛在連續變量和擾動項的正態分布。 閾值參數的解釋。 模型估計與解釋: 解釋模型係數。 纍積概率的計算與解釋。 有序Logit與有序Probit的比較: 類似於二元Logit與Probit模型的比較,在實際應用中結果差異通常不大。 第三部分:模型應用與案例研究 實際應用領域舉例: 經濟學: 勞動參與決策、住房選擇、金融産品選擇、消費品購買。 社會學: 教育選擇、職業選擇、政治傾嚮。 市場營銷: 品牌選擇、廣告響應、産品偏好。 醫療健康: 就醫行為、疾病風險評估、治療方案選擇。 交通運輸: 齣行方式選擇(汽車、公共交通、自行車)、擁堵狀況下的選擇。 案例研究(詳細分析): 案例一: 使用二元Logit/Probit模型分析傢庭的購房決策(例如,是否購買住房)。 數據收集與預處理。 變量選取(收入、年齡、傢庭人口、地理位置等)。 模型估計與結果解讀。 邊際效應計算與政策含義。 案例二: 使用多項Logit模型分析消費者的齣行方式選擇(汽車、公交、地鐵、自行車)。 數據收集與預處理。 選項的定義。 IIA假設的討論與檢驗。 模型估計與係數解釋。 計算和解釋不同齣行方式的概率變化。 案例三: 使用有序Logit/Probit模型分析客戶對某項服務的滿意度(非常不滿意、不滿意、一般、滿意、非常滿意)。 數據收集與預處理。 滿意度等級的定義。 模型估計與係數解釋(自變量如何影響跨越不同滿意度等級的概率)。 預測不同滿意度等級的概率。 第四部分:高級主題與擴展 樣本選擇偏誤(Sample Selection Bias)及其處理 當樣本並非隨機抽取,而是因為某個選擇過程而産生時。 Heckman兩步法等處理方法。 混閤離散選擇模型(Mixed Logit Model, MLN) 放鬆IIA假設。 允許係數隨機化,捕捉個體異質性。 在復雜選擇結構中的應用。 嵌套Logit模型(Nested Logit Model) 處理具有層級結構的選擇集。 例如,先選擇齣行模式(汽車、公共交通),再從公共交通中選擇地鐵或公交車。 模型在麵闆數據中的應用(Panel Data Models for Discrete Choice) 固定效應模型(Fixed Effects)和隨機效應模型(Random Effects)的Logit/Probit。 處理同一實體在不同時間點的重復觀測。 貝葉斯方法在離散選擇模型中的應用 使用MCMC(Markov Chain Monte Carlo)方法進行參數估計。 本書特點: 理論嚴謹性與實踐導嚮的結閤: 既深入闡述模型背後的數學和統計原理,又通過大量實例展示如何在實際研究中應用這些模型。 循序漸進的學習路徑: 從最基本的二元模型齣發,逐步過渡到更為復雜的有序和多類彆模型,以及更高級的主題。 豐富的案例分析: 涵蓋瞭經濟學、社會學、市場營銷等多個學科領域的實際研究問題,使讀者能夠直觀地理解模型的應用價值。 清晰的數學推導和統計解釋: 確保讀者能夠理解模型係數的含義以及推斷的邏輯。 對模型假設和局限性的深入討論: 幫助讀者批判性地使用模型,並瞭解在何種情況下需要選擇更復雜的模型。 提供計算方法和軟件應用指導(隱含): 雖然本書側重理論,但其內容能夠直接指導讀者在Stata, R, Python等統計軟件中實現模型估計和分析。 目標讀者: 本書適閤統計學、經濟學、社會學、計量經濟學、市場營銷、公共衛生、交通規劃等領域的本科生、研究生、研究人員和實踐者。它對於希望深入理解並掌握離散選擇模型,以分析和預測個體決策行為的讀者來說,是一本不可或缺的參考書。通過閱讀本書,讀者將能夠構建、估計、解釋和診斷各類離散選擇模型,從而在各自的研究和實踐領域取得更深入的洞見。