影響關系研究是所有研究中最為常見的。我們都知道當Y是定量數據時,線性回歸可以用來分析影響關系。如果現在想對某件事情發生的概率進行預估,比如一件衣服的是否有人想購買?這里的Y是“是否愿意購買”,屬于分類數據,所以不能使用回歸分析。
如果Y為定類數據,研究影響關系,正確做法是選擇Logistic回歸分析。
概念
Logistic回歸分析也用于研究影響關系,即X對于Y的影響情況。Y為定類數據,X可以是定量數據或定類數據。
Logistic回歸和線性回歸最大的區別在于,Y的數據類型。線性回歸分析的因變量Y屬于定量數據,而Logistic回歸分析的因變量Y屬于分類數據。
Logistic回歸分類
Logistic回歸在進一步細分,又可分為二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸。
SPSSAU整理
如果Y值僅兩個選項,分別是有和無之類的分類數據,選擇二元Logistic回歸分析。
Y值的選項有多個,并且選項之間沒有大小對比關系,則可以使用多元Logistic回歸分析。
Y值的選項有多個,并且選項之間可以對比大小關系,選項具有對比意義,應該使用多元有序Logistic回歸分析。
Logistic回歸的使用場景
Logistic回歸分析可用于估計某個事件發生的可能性,也可分析某個問題的影響因素有哪些。
醫學研究中,Logistic回歸常用于對某種疾病的危險因素分析。像是分析年齡、吸煙、飲酒、飲食情況等是否屬于2型糖尿病的危險因素。
問卷研究中,Logistic回歸常被用在分析非量表題上,像是將樣本基本背景信息作為X,購買意愿作為Y,分析性別、年齡、家庭條件是否會影響購買意愿。
其中,二元Logistic回歸分析的使用頻率最高,使用簡單方便容易理解和描述,下面以二元Logistic回歸為例,對操作步驟,及結果解讀進行說明。
案例應用
(1)背景
有一份關于大學生對某商品購買意愿的調查問卷。共收集到468份問卷數據,研究者要將“性別”、“年齡”、“專業”、“月生活費”四個變量作為潛在的影響因素,購買意愿為Y,做二元Logistic回歸分析。
這些自變量中,性別和文化程度是定類數據,需要設定對照參考項,這里將女生和醫學專業作為對比參照項。年齡和月收入為定量數據直接放入。
(2)分析步驟
①數據預處理
首先將定類數據做啞變量處理,SPSSAU要求Logistic回歸Y值只可為1和0,不能取其他數字。所以在正式分析前,還要處理下Y值。操作示意圖如下:
定類數據啞變量處理
Y值編碼
②二元Logistic回歸分析
將全部分析項(設成啞變量的要少放一項)放入分析框內,點擊開始二元Logit回歸。
使用路徑:SPSSAU → 進階方法 → 二元Logit
(3)結果分析
SPSSAU共輸出四個結果表格,分別是基本匯總表、似然比檢驗表、二元Logit回歸分析表、預測準確率表。
表1 基本信息匯總
表1為基礎匯總表,主要用來匯總數據信息,查看Y值的分布比例以及是否有缺失數據。如果缺失數據過多,或者Y值分布非常不均勻,可能會導致模型質量較差。
從上表可知,將性別, 年齡, 專業, 月生活費作為自變量,而將new_購買意愿作為因變量進行二元Logit回歸分析,從上表可以看出,總共有468個樣本參加分析,并且沒有缺失數據。
表2 二元Logit回歸模型似然比檢驗結果
表2為模型似然比檢驗結果,用于分析整體是否有效。主要關注P值,AIC和BIC值用于多次分析時的對比;兩個值越低越好;如果多次進行分析,可對比此兩個值的變化情況,說明模型構建的優化過程。
從上表可知:此處模型檢驗的原定假設為:是否放入自變量(性別_男, 理工類, 文科類, 藝體類, 年齡, 月生活費)兩種情況時模型質量均一樣;這里P值小于0.05,因而說明拒絕原定假設,即說明本次構建模型時,放入的自變量具有有效性,本次模型構建有意義。
表3 二元Logit回歸分析結果匯總
表3為二元Logistic回歸分析結果,用于分析模型整體情況,以及每個X對Y的影響情況(顯著性、影響程度等)。
其中主要關注P值,回歸系數,OR值和R Pudo R。
P值:判斷X對Y是否呈現出顯著性的影響,P<0.05說明X會對Y產生影響關系。
回歸系數:回歸系數值,當P小于0.05時有意義。
OR值:優勢比,值與1作比較,越接近1影響程度越小,反之影響程度越大。
Pudo R:用于說明模型整體情況。
從上表可知,模型偽R平方值(Pudo R平方)為0.089,意味所有變量能解釋購買意愿的8.9%變化原因。根據P值及OR值取值可知,理工類、藝體類、年齡對購買意愿有顯著性的正向影響,意味著相比醫學專業學生,理工、藝體專業學生的購買意愿更大;以及購買意愿隨著年齡增長而提高。
其他說明
1、注意因變量的賦值和啞變量參考項的選擇。Y對應的數字一定只能為0和1;如果不是,可以使用‘數據編碼’功能設置。啞變量選擇不同的選項作為參考項,其結果意義不相同。
2、如果X的個數非常多(比如超過10個),需要先進行甄別選擇出有意義的X,比如使用方差分析或者卡方分析,選出X與Y有顯著差異的X放入二元logit回歸模型中。
本文發布于:2023-02-28 20:14:00,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/167766506179657.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:logistic回歸(logistic回歸分析).doc
本文 PDF 下載地址:logistic回歸(logistic回歸分析).pdf
| 留言與評論(共有 0 條評論) |