2023年12月29日發(作者:vb實訓)

統計學教案
第一部分 課程綜述
一、課程性質
統計學是一門研究客觀現象總體數量特征的方法論科學,具有綜合性、應用性和數量性的特征。它系統地介紹了統計理論與方法的歷史發展過程及其經典理論、學派、代表人物;較全面地闡述了統計基本理論與基本方法;特別是對二十世紀后期出現的新的統計理論與方法作了重點介紹,以便讓學生更好地了解和掌握統計學的發展趨勢和發展規律。
二、教學目的
《統計學》是高等院校財經類專業的必修課、核心課之一。為了使學生掌握市場經濟條件下,數據資料的搜集加工、分析及預測方法,本課程將從實際應用入手,即在統計理論基礎上重點闡述統計工作各個階段、不同實際應用方面的操作方法,力求體現統計學的社會性與科學性相結合的特點。通過本課程的教學,使學生能夠在理論聯系實際的基礎上,比較系統地掌握統計學的基本思想、基本理論、基礎知識和基本方法;理解并記憶統計學的有關基本概念和范疇;掌握并能運用統計基本方法和技術進行統計設計、統計調查、統計整理和一定的統計分析,使學生掌握并應用該工具為自己所學專業服務,以提高學生科學研究和實際工作能力。
三、教學內容
1、考慮到財經類各專業未設置《統計學原理》與各專業統計課程,因而《統計學》的內容既包括統計方法,也包括必要的社會經濟指標核算知識,使一般的統計理論方法,落實到實際的指標體系的運用上。
2、考慮到財經類各專業都需要加強數量分析能力的培養,因此,不但介紹一般的統計方法,而且還介紹了常用的數理統計方法在社會經濟領域中的應用。
3、考慮到《統計學》是一門方法論方面的應用科學,因而在《統計學》中,一方面對于描述統計內容保持一定比例,另一方面也應加強統計分析、統計推斷和統計核算方面的內容。
四、教學時數
章節
緒論
統計資料的搜集與整理
統計描述
抽樣分布與參數估計
假設檢驗
方差分析
相關與回歸分析
時間數列分析
統計指數
國民經濟統計概述
合計
五、教學方法
板書、幻燈片、多媒體、統計調查實踐、上機實驗等配合使用。
六、面向專業
財經類各專業及其他相關專業。
第二部分 課程教學內容
第一章 緒論
(一)教學目的
通過本章的學習,要求對統計學的內容、研究對象、性質、應用范圍及基本方法,尤其是統計學的基本概念有正確的理解和認識。
(二)基本要求
要求首先對統計學這門課程有一個整體上的認識,了解這門課程的產生和發展過程,并進一步掌握其主要內容和基本方法。
(三)教學要點
1、統計一詞的涵義、相互關系;
2、統計學的研究對象、及其學科性質;
3、統計的應用與基本方法;
4、統計學的基本概念,主要包括:總體、單位、樣本、指標、變量。
(四)教學時數
1
課時數(54)
4
7
7
7
3
3
5
10
7
1
54
課時數(72)
6
9
9
8
5
4
7
10
8
6
72
4——6課時
(五)教學內容
本章共分三節:
第一節 統計與統計學
一、統計的含義
“統計”一詞在各種實踐活動和科學研究領域中經常出現。然而,不同的人,或在不同的場合,對其理解是有差異的。比較公認的看法是,統計有三種含義,即統計活動、統計數據和統計學。
1.統計活動
統計活動又稱統計工作,是指收集、整理和分析統計數據,并探索數據的內在數量規律性的活動過程。
2.統計資料
統計資料或稱統計數據,即統計活動過程所獲得的各種數字資料和其他資料的總稱。表現為各種反映社會經濟現象數量特征的原始記錄、統計臺帳、統計表、統計圖、統計分析報告、政府統計公報、統計年鑒等各種數字和文字資料。
3.統計學
統計學是指闡述統計工作基本理論和基本方法的科學,是對統計工作實踐的理論概括和經驗總結。它以現象總體的數量方面為研究對象,闡明統計設計、統計調查、統計整理和統計分析的理論與方法,是一門方法論科學。
統計工作、統計資料和統計學之間有著密切聯系。統計工作同統計資料之間是過程同成果之間的關系,統計資料是統計工作的直接成果。就統計工作和統計學的關系來說,統計工作屬于實踐的范疇,統計學屬于理論的范疇,統計學是統計工作實踐的理論概括和科學總結,它來源于統計實踐,又高于統計實踐,反過來又指導統計實踐,統計工作的現代化同統計科學研究的支持是分不開的。
統計工作、統計資料和統計學相互依存、相互聯系,共同構成了一個完整的整體,這就是我們所說的統計。
二 、統計學的研究對象、特點
社會經濟統計學的研究對象,是社會經濟現象的總體的數量方面,即社會經濟現象總體的數量特征和數量關系。
社會經濟統計是對社會經濟現象的一種調查分析活動,它具有以下特點。
(一)數量性
統計的研究對象是客觀現象數量方面,包括數量的多少,數量之間的關系。質量互變的數量界限。
(二)總體性
統計研究對象是客觀總體現象的數量方面。如人口統計是要反映和研究一個國家或一個地區全部人口的綜合數量特征,而不是要了解和研究某個人的特征,但是它是從每個人調查開始的。人口統計是這樣,其他統計活動也是這樣。
(三)變異性
統計研究同類現象總體的數量特征,它的前提則是總體各單位的特征表現存在著差異,而且這種差異并不是由某種固定的原因事先給定的
三、統計學研究的基本環節
(一)統計設計:根據所要研究問題的性質,在有關學科理論的指導下,制定統計指標、指標體系和統計分類,給出統一的定義、標準,同時提出收集、整理和分析數據的方案和工作進度等;
(二)收集數據:收集統計數據的基本方法包括科學實驗和統計調查。
如何科學地進行調查是統計學研究的重要內容
(三)整理與分析:統計整理分析的方法可分為描述統計和推斷統計兩大類。
描述統計是指對采集的數據進行登記、審核、整理、歸類,在此基礎上進一步計算出各種能反映總體數量特征的綜合指標,并用圖表的形式表示經過歸納分析而得到的各種有用的統計信息。
推斷統計是在對樣本數據進行描述的基礎上,利用一定的方法根據樣本數據去估計或檢驗總體的數量特征。
(四)統計資料的積累、開發與應用:統計資料的積累、開發與應用必須將實質性學科的理論與統計方法相結合。
第二節 統計學的種類極其性質
統計方法已廣泛應用于自然科學和社會科學的眾多領域,統計學也發展成為由若干分支組成的學科體系。由于出于不同的視角或不同的研究重點,人們常對統計學科體系作出不同的分類。一般而言,有兩種基本的分類:從方法的功能來看,統計學可以分成描述統計學和推斷統計學;從方法研究的重點來看,統計學可分為理論統計學和應用統計學。
一、描述統計學和推斷統計學
描述統計學(Descriptive Statistics)研究如何取得反映客觀現象的數據,并通過圖表形式對所搜集的數據進行加工處理和顯示,進而通過綜合、概括與分析得出反映客觀現象的規律性數量特征。描述統計學的內容包括統計數據的搜集方法、數據的加工處理方法、數據的顯示方法、數據分布特征的概括與分析方法等。
推斷統計學(Inferential Statistics)研究如何根據樣本數據去推斷總體數量特征的方法,它是在對樣本數據進行描述的基礎上,對統計總體的未知數量特征作出以概率形式表述的推斷。
描述統計學與推斷統計學的劃分,還反映了統計方法發展的前后兩個階段和使用統計方法探索客觀事物數量規律性的不同過程。統計研究過程的起點是統計數據,終點是探索出客觀現象內在的數量規律性。在這一過程中,如果搜集到的是總體數據(如普查數據),那么運用描述統
2
計就可以達到認識總體數量規律性的目的;如果獲得的只是研究總體的一部分數據(樣本數據),那么要找到總體的數量規律性,就要運用概率論的理論并根據樣本信息,對總體進行科學的推斷。顯然,描述統計和推斷統計是統計方法的兩個組成部分。描述統計是整個統計學的基礎,推斷統計則是現代統計學的主要內容。而且,推斷統計在現代統計學中的地位和作用越來越重要,已成為統計學的核心內容,這是因為在對現實問題的研究中,所獲得的數據主要是樣本數據。但這并不等于說描述統計不重要。如果沒有描述統計搜集可靠的統計數據并提供有效的樣本信息,再科學的統計推斷方法也難以得出切合實際的結論。從描述統計學發展到推斷統計學,既反映了統計學發展的巨大成就,也是統計學發展成熟的重要標志。
二、理論統計學和應用統計學
理論統計學(Theoretical Statistics)即數理統計學(Mathematical Statistics)主要探討統計學的數學原理和統計公式的來源。由于現代統計學幾乎用到了所有方面的數學知識,從事統計理論和方法研究的人員需要有堅實的數學基礎。而且,由于概率論是統計推斷的數學和理論基礎,所以廣義的統計學亦應包括概率論在內。理論統計學是統計方法的理論基礎,沒有理論統計學的發展,統計學也不可能發展成為像今天這樣一個完善的科學知識體系。理論統計學包括的主要內容有:概率理論、抽樣理論、實驗設計、估計理論、假設檢驗理論、決策理論、非參數統計、序列分析、隨機過程等。
應用統計學(Applied Statistics)探討如何運用統計方法去解決實際問題。其實,將理論統計學的原理應用于各個學科領域,就形成了各種各樣的應用統計學。例如,統計方法在生物學中的應用形成了生物統計學,在醫學中的應用形成了醫療衛生統計學,在農業試驗、育種等方面的應用形成了農業統計學。統計方法在經濟和社會科學領域的應用也形成了若干分支學科。例如,統計方法在經濟領域的應用形成了經濟統計學及其若干分支,在管理領域的應用形成了管理統計學,在社會學研究和社會管理中的應用形成了社會統計學,在人口學中的應用形成了人口統計學,等等。應用統計學除了包括各領域通用的方法,如參數估計、假設檢驗、方差分析等之外,還包括某領域所特有的方法,如經濟統計學中的指數法、現代管理決策法等。應用統計學著重闡明這些方法的統計思想和具體應用,而不是統計方法數學原理的推導和證明。
三、統計學和有關學科的聯系與區別
(一)統計學與數學
統計學與數學有著密切的聯系,又有本質的區別。現代統計學用到很多數學知識,研究理論統計學的人需要較深的數學功底,使用統計方法的人要具有良好的數學基礎。這可能給人造成一種錯覺,似乎統計學是數學的一個分支,這種理解是不妥當的。實際上,數學只是為統計理論和統計方法的發展提供了數學基礎,而統計學的主要特征是研究數據;另一方面,統計方法與數學方法一樣,并不能獨立地直接研究和探索客觀現象的規律,而是給各學科提供了一種研究和探索客觀規律的數量方法。統計學與數學又有著本質的區別。首先,雖然表面上看統計學與數學都是研究數量規律,跟數字打交道的,但是,數學研究的是抽象的數量規律,而統計學研究的則是具體、實際現象的數量規律;數學研究的是沒有量綱或單位的抽象的數,而統計學研究的則是有具體實物或計量單位的數據。其次,統計學與數學在研究中所使用的邏輯方法也是不同的,即數學研究所使用的是純粹的演繹,而統計學則是演繹與歸納相結合,占主導地位的是歸納。數學家可以坐在屋里,憑借聰明的大腦從假設命題出發推導出結果,而統計學家則需要深入實際搜集數據,并與具體實際問題相結合,經過科學的歸納才能得出有益的結論。
(二)統計學與其他學科的關系
統計學是一門應用性很強的學科。幾乎所有的學科都要研究和分析數據,因而統計學與這些學科領域都有著或多或少的聯系。這種聯系表現為,統計方法可以幫助其他學科探索學科內在的數量規律性,但若要對這種數量規律性作出內在必然聯系的解釋并從中把握該學科研究實體的實際規律,那就要由該學科的具體研究來完成了。例如,大量觀察法已經發現了新生嬰兒的性別比是107:100,但為什么是這樣的比例?形成這一比例的原因應由人類遺傳學或醫學來研究和解釋,而非統計方法所能解決的。再如,利用統計方法對吸煙和不吸煙者患肺癌的數據進行分析,得出吸煙是導致肺癌的原因之一的結論,但為什么吸煙能導致肺癌?這就需要醫學去解釋了。由此我們可以看出統計學能做什么和不能做什么。可以這樣說,統計方法僅僅是一種有用的定量分析工具,它不是萬能的,不能解決你想要解決的所有問題。能否用統計方法解決各學科的具體問題,首先要看使用統計工具的人能否正確選擇統計方法;其次還要在定量分析的同時進行必要的定性分析,也就是要在使用統計方法進行定量分析的基礎上,應用該學科的專業知識對統計分析的結果作出合乎規律的解釋和分析,這樣才能得出令人滿意的結論。盡管各學科所需要的統計知識不同,所使用的統計方法的復雜程度各異,統計學也不能解決各學科的所有問題,但統計方法在各學科的研究中將會發揮越來越重要的作用。
1.統計學與哲學的關系:哲學是統計學的方法論基礎。存在決定意識,質量互變原理。
2.統計學與經濟學的關系:經濟學是統計學的基礎。
3.統計學與數學的關系:統計學中要運用大量的數學方法。
4.統計學與數理統計學的關系:一方面,統計學的產生先于數理統計學,從一定意義上說,它是數理統計學的基礎; 另一方面,統計學的研究中要運用大量的數理統計方法。
5.統計學與計量經濟學的關系:計量經濟學是經濟學與統計學的綜合;經濟計量方法是經過修正后的社會經濟統計方法從這個意上說,統計學是計量經濟學的基礎。
第三節 統計學的基本概念
一、統計總體和總體單位
(一)統計總體:由客觀存在的、在同一性質基礎上結合起來的許多個別單位所形成的集合
3
具有大量性、同質性、變異性等特征。
(二 )總體單位:構成統計總體的個體單位稱總體單位。總體由總體單位構成,要認識總體必須從總體單位開始。
(三)統計總體與總體單位的相對性:
在一次特定范圍、目的的統計研究中,統計總體與總體單位是不容混淆的,二者的含義是確切的,是包含與被包含的關系。但是隨著統計研究任務、目的及范圍的變化,統計總體和總體單位可以相互轉化。
(四)統計總體的種類:
1、有限總體:指所包含的單位數目有限的總體;
2、無限總體:指所包含的單位數目無限的總體
二、樣本
1、由總體的部分單位組成的集合稱為樣本,樣本所包含的總體單位數稱為樣本容量。
2、抽取樣本時應注意的問題:
(1) 樣本單位必須取自同一總體;
(2) 樣本個數與樣本容量與抽樣方法有關;
(3) 樣本須按照隨機原則抽取;
(4) 樣本推斷總體存在誤差。
三、標志
(一)標志
1、概念:是總體單位所具有的屬性和特征的名稱。
2.種類
(1)其性質分可分為品質標志和數量標志。品質標志是表明總體單位的屬性特征,一般用文字說明,而不能用數量表示,如性別、文化程度、民族等。數量標志表明總體的數量特征,是用數值表示的,如年齡、工資、工齡等。
(2)其變動情況分為不變標志和可變標志。無論品質標志還是數量標志,當某個標志在各個總體單位上的具體表現相同時,該標志是不變標志。如,以全國國有商業企業為總體,每個企業都具有經濟成份和商業企業這兩個不變標志。
當某個標志在總體各個單位上的表現不盡相同時,該標志為變動標志,組成一個總體的各個總體單位都具有許多變動標志。例如在全國國有商業企業這個總體中,各企業的經營范圍、營業面積、勞動生產率、商品銷售額等標志都是不相同的,是變動標志。
(二)標志的表現
1、標志的表現是指標志特征在各單位的具體表現。
2、品質標志的標志表現用文字表述,如“漢族”、“大專”、等。
3、數量標志的標志表現是具體數值,如職工的工齡8年或10年,商品銷售額100萬元或400萬元。
四、 變異和變量
(一)變異
變異是變動的標志,具體表現在各個單位的差異,包括量(數值)的變異和質(性質、屬性)的變異。如:性別表現為男、女,這是屬性變異;年齡表現為18歲、25歲、28歲等這是數值上的變異。
(二)變量
1.概念
變量就是可變的數量標志。例如,商業企業的職工人數、商品流轉額、流動資金占用額等數量標志,這些變動的數量標志就稱做變量。
變量值就是變量的具體表現,也就是變動的數量標志的具體表現。例如,企業的職工人數是一個變量,甲企業職工人數100人,乙企業職工人數150人,丙企業職工人數200人等等,100人、150人、200人,都是職工人數這個變量的變量值(標志值)。
2.種類
按變量值的連續性可把變量區分為連續變量和離散變量兩種。連續變量的變量值是連接不斷的,相鄰的兩個數值之間可以作無限的分割,一般可以表現為小數。例如,人的身高、體重、年齡等都是連續變量。離散變量的變量值是間斷的。例如,職工人數、商業企業數、機器設備臺數都只能按整數計算,不可能有小數。
五、統計指標和指標體系
(一)統計指標的概念
統計指標是反映總體數量特征的概念和數值。例如,我國2001年國內生產總值95933億元,它是根據一定的統計方法對總體各單位的標志表現進行登記、核算、匯總而成的統計指標,說明我國國民經濟這個數量特征。這個數量指標的名稱是“國內生產總值”,指標的數值是“95933億元”
(二)特點
1.數量性
2.綜合性
3.具體性
(三)統計指標與統計標志聯系與區別
1、區別:一是指標說明總體的數量特征,而標志說明總體單位特征;二是指標都可以用數量表示,而標志有不能用數量表示的品質標志。
2、聯系:一是許多統計指標的數值是由總體單位的數量標志匯總得到的;二是指標和指標之間存在變化關系。
(四)統計指標的種類
1.統計指標按它所說明的總體現象內容的特征,可以分為數量指標和質量指標。
(1)數量指標是反映總體某一特征的絕對數量。這類指標主要說明總體的規模、工作總量和水平,一般用絕對數表示。例如,某一地區的總人口、工業企業總數、國民生產總值等等。
4
(2)質量指標是反映總體的強度、密度、效果、結構、工作質量等,例如,人口密度、勞動生產率、資金利潤率等。這類指標一般用平均數、相對數表示。這些質量指標的數值并不隨總體范圍的大小而增減。例如一個100 萬人口的城市第三產業在國民生產總值所占的比重也可能小于某個30萬人口的城市第三產業在國民生產總值中所占的比重。
2.統計指標按其具體內容和作用,可以分為總量指標、相對指標和平均指標。
(1)總量指標是反映總體現象規模的統計指標,它表明總體現象發展的結果。例如上述的總人口、國民生產總值等便是。
(2)相對指標是兩個有聯系的總量指標和平均指標相比較的結果,又分兩種情況:同一指標不同時期的數值對比可以說明事物的發展變化,如人口增長率、成本降低率;用總體中部分數值與總體數值相比說明事物的內部結構,如三次產業在國民生產總值中所占比重。
(3)平均指標是按某個數量標志說明總體單位一般水平的統計指標,如平均工資、平均成本等等。
(五)指標體系
1.指數體系的概念和意義
(1)概念:統計指標體系是指若干個相互聯系的統計指標組成的,一個整體社會經濟現象本身的聯系也是多種多樣的。例如,在商品流轉統計中,商品購進、商品銷售和商品庫存是相互聯系和相互制約的統計指標,由這些統計指標組成的一個整體就是商品流轉統計指標體系。
(2)意義:可以深刻認識事物的全貌和發展過程;利用統計指標體系,可以查明產生各種結果的主要因素,了解指標之間的相互聯系,可以根據已知指標來計算和推測未知指標。
2.指標體系種類
統計指標體系大體上可分為兩大類,即基本統計指標體系和專題統計指標體系。
基本統計指標體系是反映國民經濟和社會發展及其各個組成部分的基本情況的指標體系。
專題統計指標體系是對某一個經濟問題或社會問題制定的統計指標體系。例如,商品流轉統計指標體系、經濟效益統計指標體系、人民物質文化生活水平統計指標體系等等。
六、統計數據
(一)統計數據的計量尺度
1、定類尺度:按現象性質差異進行的辨別與區分。測量結果形成定類變量或定類指標。定類變量或指標確切的值是以文字表述的,可以用數值標識,但僅起標簽作用。定類變量或指標的各類別間是平等的,沒有高低、大小、優劣之分。
2、定序尺度:按現象順序差異進行的辨別與區分。測量結果形成定序變量或定序指標。
定序變量或指標確切的值是以文字表述的,也可以用數值標識,但僅起標簽作用。定序變量或指標各類別間有高低優劣之分,不能隨意排列。
3、定距尺度:按現象絕對數量差異進行的辨別與區分。測量結果形成定距變量或定距指標。定距變量或指標的值以數字表述,有計量單位,可以進行加減運算。定距變量或指標各類別間自然有大小之分,但沒有絕對的零點,不能進行乘除計算。
4、定比尺度:按現象絕對差異與相對差異進行的辨別與區分。測量結果形成定比變量或定比指標。定比變量或指標確切的值也以數字表述,有計量單位 ,可以進行加減運算。定比變量或指標有絕對意義上的零點,既可以加減運算,也可以乘除運算。
(二)數據的類型:
1、根據對客觀現象觀察的角度不同,統計數據分為:靜態數據和動態數據。
2、根據變量值連續出現與否,變量分為:連續變量和離散變量。
3、根據變量的取值確定與否,變量分為確定性變量和隨機變量。
(三)數據的表現形式:
1、絕對數:反映被研究對象在一定時期或時點的規模、水平或性質相同總體規模的數量差異。一般用絕對數表示,又稱絕對數指標。
按反映的時間狀況劃分為時期指標和時點指標。
時期指標:反映社會經濟現象在一定時期內發展變化過程總量的指標,如:商品銷售額、總產值、基本建設投資額等。
時點指標:反映社會經濟現象在一定時點上狀況的數量的指標,如:人口數、房屋的居住面積,企業數等。
時期指標和時點指標的特點(區別):
a.性質相同的時期指標的數值可以相加,時點指標相加則無意義。
b.同類時期指標數值的大小與時期長短有直接關系,時點指標則沒有這種關系。
c.時期指標數值是經常登記取得, 時點指標不是。區分時期指標和時點指標決定了統計處理與應用上的不同,在運用時期和時點指標時,注意同一指標若從不同的角度考慮則總量指標的性質也不同,如:年末人口數和年初人口數是時點指標,但年末人口數一年初人口數=人口凈增數則為時期指標。
2、相對數:兩個有聯系的指標數值之比,反映現象之間所固有的數量對比關系。常用的相對數包括:結構相對數、動態相對數、比較相對數、強度相對數、利用程度相對數、計劃完成相對數。
3、平均數:反映現象總體的一般水平或分布的集中趨勢。
本章的重點
1、統計學的基本概念;
2、統計學科的研究對象和研究方法;
3、統計學的學科性質。
本章的難點
統計學各基本概念之間的聯系與區別
5
復習思考題
1、統計的涵義及其他們之間的關系。
2、簡述統計的產生和發展過程。
3、統計學的研究對象是什么?研究對象有哪些特點?
4、怎樣理解統計總體的同質性和變異性?
5、為什么說沒有變異就沒有統計研究的必要?
6、簡述統計學與數學的聯系與區別。
7、簡述總體、單位、樣本的含義及其相互關系。
第二章 統計資料的搜集與整理
(一)教學目的
通過本章的學習,了解統計數據搜集與整理的基本理論與方法,掌握各種方法的特性。
(二)基本要求
要求靈活運用各種數據搜集的方式方法,并對所得數據進行加工整理,為以后各章學習統計分析方法打下基礎。
(三)教學要點
1、數據采集的方式方法;
2、統計調查方案的設計;
3、統計分組;
4、變量數列的編制;
5、統計數據的顯示。
(四)教學時數
7——9課時
(五)教學內容
本章共分四節:
第一節 統計資料的搜集
一、統計資料搜集概述:
(一)統計數據搜集的概念:
1、概念:統計數據搜集是指根據統計研究預定的目的和任務,運用科學的調查方法與手段,有計劃、有組織地從客觀實際采集數據的過程。
2、方式:
(1)
(2)
直接向調查對象搜集反映調查單位的統計資料(一般稱為原始資料);
根據研究目的,搜集已經加工、整理過的,說明總體現象的資料(一般稱為二手資料)。
(二)統計資料搜集的方案設計:
統計調查的工作量大,內容繁雜,研究目的和任務又客觀要求調查資料的準確性、全面性和及時性,為了做好本階段的工作,在調查工作開始之前,必須制定出一個周密的調查方案,對整個階段的工作進行統籌考慮、合理安排,保證統計調查工作的效率和質量。
一個完整的統計調查方案應包括的主要內容:
1、確定調查目的
統計調查是為一定的統計研究任務服務的,在制定調查方案時,首先要確定調查目的,即調查中要研究解決的問題和要取得的資料。例如,2000年11月1日零時舉行的全國第五次人口普查的調查方案中,明確規定這次調查的目的就在于:為了準確的查清第四次全國人口普查以來我國人口在數量、地區分布、結構和素質方面的變化,為科學的制定國民經濟和社會發展戰略規劃,統籌安排人民的物質和文化生活,檢查人口政策執行情況,提供可靠的資料。可見,在這一調查方案中,調查目的是具體和明確的。
2、確定調查對象和調查單位
統計調查的目的確定以后,就可以進一步確定調查對象和調查單位。確定調查對象和調查單位,就是為了回答向誰調查、由誰來具體提供資料的問題。
(1)調查對象:就是根據調查目的所確定的統計總體。例如,人口普查的對象就是全國的人口總體。
(2)調查單位是進行調查登記的標志值的承擔者。如我國進行的第五次人口普查,全國的人口總體(具有中國國籍,并在中國國境內常住的自然人)就是調查對象,每一個人就是調查單位。
明確調查單位,還要同填報單位區別開來。填報單位是填寫調查內容、提供資料的單位,它可以是一定的部門或單位,也可以是調查單位本身,這要根據調查對象的特點和調查任務的要求確定。
3、確定調查項目
調查項目就是所要調查的內容,及所要登記的調查單位的特征。調查項目一般就是調查單位各個標志的名稱,包括品質標志和數量標志兩種。
調查項目確定后,就要將這些調查項目科學的分類排隊,并按一定順序列在表格上,這種供調查使用的表格就叫調查表,
6
4、擬定調查表和問卷設計
(1)調查表:調查項目確定后,就要將這些調查項目科學的分類排隊,并按一定順序列在表格上,這種供調查使用的表格就叫調查表,
調查表一般分為單一表和一覽表兩種。
單一表(又稱卡片式)是將一個調查單位的調查內容填列在一份表格上的調查表。它可以容納較多的項目,且便于分類整理和匯總審核。
一覽表就是把許多個調查單位和相應的項目按次序登記在一張表格里的調查表。它便于合計和核對差錯,但一般要在調查項目不多時采用。
問卷調查是一種特殊的調查形式,根據調查目的,在調查對象中隨機選擇或有意識地確定調查單位,以文字或表格形式了解被調查者的意見,被調查者自愿、自由地回答問卷中所提出的問題。問卷設計的設計應簡明扼要。以保證所搜集資料的準確。
5、確定調查時間和調查期限
調查時間是調查資料的所屬時間。調查時間可以是時期,也可以是一定的時點。調查期限是進行調查工作所要經歷的時間,包括搜集資料和報送資料的工作所需的時間,應盡可能縮短。如第五次全國人口普查,因為人口數量是時點,所以規定的標準調查時點是2000年11月1日零時。
5、制定調查的組織實施計劃
調查組織工作包括確定調查機構,組織和培訓調查人員,落實調查經費的來源和開支辦法,確定調查資料的報送辦法和公布調查結果的時間。
(三)實驗設計的原則
1、重復性原則;
2、隨機化原則;
3、雙盲原則。
二、統計數據的搜集方法:
任何一種調查都必須采用一定的調查方法去搜集原始資料,即使調查的組織形式相同,其調查方法也可以是不同的。應根據調查目的與被調查對象的具體特點,選擇合適的調查方法。
(一)直接觀察法:是指由調查人員到現場對調查對象進行觀察點數和計量。
(二)報告法(通訊法):一般是由統計工作機構將調查表格分發或電傳給被調查者,被調查者根據填報的要求將填好的調查表格寄回。
查者逐一采訪,當面填答。被調查者自填法即調查人員把調查表交給被調查者,向被調查者說明填表的要求和方法,并對有關注意事項加以解釋,由被調查者按實際情況一一填寫,填好后交調查人員審核收回。
(三)采訪法:是根據被調查者的答復來搜集統計資料,這種方法又可分為口頭詢問法和被調查者自填法兩種。口頭詢問法是由調查人員對被調 (四)登記法:是由有關的組織機構發出通告,規定當事人在某事發生后到該機構進行登記,填寫所需登記的材料。
其他的調查方法還有:
1.郵寄調查。郵寄調查是通過郵寄、宣傳媒體和專門場所等將調查表或問卷送至被調查者手中,由被調查者填寫,然后將調查表寄回或投放到收集點的一種調查方法。這是一種標準化調查,其特點是,調查人員和受調查者沒有直接的語言交流,信息的傳遞完全依賴于調查表。郵寄調查在統計部門進行的統計報表及市場調查機構進行的問卷調查中經常使用。
2.電話調查。電話調查是調查人員利用電話同受訪者進行語言交流,從而獲得信息的一種調查方法。該方法具有時效快,費用低等特點。隨著電話的普及,電話調查也越來越廣泛。電話調查可以按照事先設計好的問卷進行,也可以針對某一專門問題進行電話采訪。電話調查所提問題要明確,且數量不宜過多。
3.電腦輔助調查。這種調查也叫做電腦輔助電話調查,就是在電話調查時,調查的問卷、答案都由計算機顯示,整個調查過程,包括電話撥號、調查記錄、數據處理等也都借助于計算機來完成的一種調查方法。目前,電腦輔助調查已在一些發達國家和地區廣泛應用,并已開發出了各種電腦輔助電話調查系統。
4.座談會。座談會也稱為集體訪談法,就是將一組被調查者集中在調查現場,讓他們對調查的主題發表意見,從而獲取資料的方法。參加座談會的受訪者應是所調查問題的專家或有經驗者,人數不宜太多,通常為6-10人,研究人員應對受訪者進行嚴格的甄別、篩選。討論方式主要看主持人的習慣和愛好。這種方法能獲取其他方法無法取得的資料,因為在彼此交流的環境里,受訪者相互影響、啟發、補充,不斷修正自己的觀點,這就有利于研究者從中獲得較為廣泛深入的想法和意見。而且座談會不會因為問卷過長而遭到拒訪。
5.個別深度訪問。深度訪問是一種一次只要一名受訪者參加的特殊的定性研究。“深訪”暗示著要不斷深入到受訪者的思想中,努力發掘其行為的真實動機。深訪是一種無結構的個人訪問,調查者運用大量的追問技巧,盡可能讓受訪者自由發揮,表達他的想法和感受。深度訪問常用于動機研究,如消費者購買某種產品的動機等,以發掘受訪者非表面化的深層意見。這一方法最適用于研究隱私的問題,如個人隱私問題,或敏感問題,如政治性問題。對于那些不同人之間觀點差異極大的問題,用小組討論可能會把問題弄糟,這時也可采用深度訪問法。
座談會和個別深訪法屬于定性方法,通常圍繞一個特定的主題取得有關定性資料。此類方法和定量方法不同。定量方法是從總體中按隨機方式抽取樣本獲得資料,其研究結果或結論可以進行推論。但定性研究著重于問題的性質和對未來趨勢的把握,而不是對研究總體數量特征的推斷。座談會和個別深度訪問主要用于市場調查和研究。
(五)實驗設計調查法:是用于搜集測試某一新產品、新工藝或新方法使用效果的資料的方法。
6、網絡調查法等。
三、統計調查的各種形式:
7
(一)按調查的范圍劃分,可分為:
1、全面調查:對調查對象的所有單位進行調查。
2、非全面調查:對調查對象其中的一部分單位進行調查。
(二)按時間標志可分為:
1、經常性調查:指隨著研究現象的變化,連續不斷地進行調查登記。
2、一次性調查:是指間隔一段較長的時間才對事物的變化進行一次性調查。
一專題研究而組織的專項調查。
1.普查。普查(Census)是為某一特定目的而專門組織的一次性全面調查方式,如人口普查、工業普查、農業普查等。世界各國一般都定期進行各種普查。普查適用于特定目的、特定對象,旨在搜集有關國情國力的基本統計數據,為國家制定有關政策或措施提供依據。它主要用于搜集處于某一時點狀態上的社會經濟現象的數量。普查作為一種特殊的調查組織方式有以下幾個特點:
(1)普查通常是一次性或周期性的。普查涉及面廣,調查單位多,要耗費大量的人力、物力和財力,所以間隔較長時間,如10年才進行一次。我國的人口普查從1953年到1990年共進行過4次。今后,我國的普查將規范化、制度化,每逢末尾為“0”的年份進行人口普查,末尾為“3”的年份進行第三產業普查,末尾為“5”的年份進行工業普查,末尾為“7”的年份進行農業普查,末尾為“1”或“6”的年份進行統計基本單位普查。
(2)普查一般需要規定統一的標準調查時間,以避免調查數據的重復或遺漏,保證普查結果的準確性。我國前四次人口普查的標準時間定為普查年份的7月1日0時,第五次人口普查為2000年11月1日0時。農業普查的標準時間定為普查年份的1月1日0時。標準時間一般定為調查對象比較集中、相對穩定的時期。
(3)普查的數據一般比較準確,規范化程度也高,因此可作為抽樣調查和其他調查的依據。
(4)普查的使用范圍較窄,只能調查一些最基本或特定的現象。
2.抽樣調查。抽樣調查(Sampling survey)是按照隨機原則從總體中抽取一部分單位構成樣本進行觀察,并根據樣本信息推斷總體數量特征的一種非全面調查。這是一種應用最為廣泛的調查組織方式。
抽樣調查有如下幾個特點:第一、樣本單位按隨機原則抽取;第二、根據部分調查的實際資料對總體的數量特征作出估計;第三、抽樣誤差可以事先計算并加以控制。
抽樣調查的適用范圍主要有:第一、對一些不可能或不必要進行全面調查的社會現象,采用抽樣調查;第二、對普查資料進行必要的修正。
抽樣調查必須遵循以下原則:首先是隨機原則,即要使所有調查單位都有同樣被抽取的機會;其次是最大抽樣效果原則,即在既定的調查費用下使抽樣估計誤差最小,或者是在給定的精確度下,使調查費用最少。
抽樣調查的其他具體內容將在后面設專章討論。
3.統計報表。統計報表(Statistical report forms)是按照國家有關法規規定,自上而下統一布置,自下而上逐級填報的一種調查組織方式。這種調查組織方式在我國政府統計工作中,經過幾十年的改進和完善,已形成了一套比較完備的統計報告制度,它要求以原始數據為基礎,按照統一的表式、指標、報送時間和報送程序填報,已成為國家和地方政府部門獲取統計數據的主要統計調查組織方式。
統計報表類型多樣。統計報表按調查范圍可分為全面報表和非全面報表;按報送時間可分為日報、月報、季報和年報等;按報送受體可分為國家、部門、地方統計報表。
4.重點調查。重點調查(Key-point investigation)是指在調查對象中,只從全部總體單位中選擇少數重點單位進行的非全面調查。
這些重點單位盡管在全部總體單位中出現的頻數極少,但其某一數量標志卻在所要研究的數量標志值總量中占有很大的比重。例如,要了解全國的鋼鐵生產總量,只要對產量很大的少數幾個鋼鐵企業,如鞍鋼、寶鋼、首鋼等進行調查,就可對全國的鋼鐵生產總量有個大致的認識。這幾個產量很大的企業,構成了這次全國鋼產量調查的重點單位,因為它們的鋼鐵產量在全國的鋼鐵生產總量中占有很大比重。
5.典型調查。典型調查(Model survey)是從全部總體單位中選擇一個或幾個有代表性的單位進行深入細致調查的一種調查組織方式。典型調查的目的是通過典型單位具體生動、形象的資料來描述或揭示事物的本質或規律,因此所選擇的典型單位應能反映所研究問題的本質屬性或特征。例如,要研究工業企業的經濟效益問題,可以在同行業中選擇一個或幾個經濟效益突出的單位做深入細致的調查,從中找出經濟效益好的原因和經驗。典型調查主要用于定性研究,調查結果一般不能推斷總體。
(三)按組織形式可分為:一定期報表:是按國家統一規定的表式和內容,定期向各級領導機構報送統計資料的一種形式。二專門調查:是為某 四、統計調查體系
面報表綜合運用的統計調查方法體系。
我國現階段使用的統計調查方法體系為:以必要的周期性的普查為基礎,經常性的抽樣調查為主體,同時輔之以重點調查、科學推算和部分全 五、現有統計資料的主要來源:
從統計數據本身的來源看,統計數據最初都是來源于直接的調查或實驗。但從使用者的角度看,統計數據主要來源于兩種渠道:一是來源于直接的調查和科學實驗,對使用者來說,這是統計數據的直接來源,我們稱之為第一手或直接的統計數據;二是來源于別人調查或實驗的數據,對使用者來說,這是統計數據的間接來源,我們稱之為第二手或間接的統計數據。
對大多數使用者來說,親自去做調查往往是不可能的。所使用的數據大多數是別人調查或科學實驗的數據,對使用者來說稱為二手數據。
8
這方面的資料,可通過兩個途徑獲得:一是從相關的年鑒、期刊和有關出版物上獲取;二是從有關網站搜尋。
(一)統計年鑒
1、《中國統計年鑒》
2、《國際統計年鑒》
3、《地方統計年鑒》
4、《中國縣(市)社會經濟統計年鑒》
5、《中國金融年鑒》
6、《中國人口統計年鑒》
7、《中國統計摘要》
(二)有關期刊
1、《中國經濟數據分析》
2、《經濟預測分析》
(三)有關網站
1、中國統計信息網
2、國研網
3、中國經濟信息網
4、中國經濟時報網
第二節 統計數據整理
一、統計數據整理的內容與程序
(一)統計數據整理的概念及意義
1.概念
統計整理,就是根據統計研究的目的,對所搜集到的資料進行科學的加工,使之系統化,條理化的工作過程。統計整理即包括對統計調查所得到的原始資料進行整理,也包括對加工過的綜合資料,即次級資料進行再整理。
2.意義
統計整理在整個統計研究中占有重要的地位。統計整理的正確與否,將直接影響和決定著能否完成整個統計研究的任務。如果采用不科學不完整的整理方法,即使搜集到準確、全面的統計資料,也往往使這些資料失去應用價值,掩蓋客觀現象的本質,難以得出正確的結論。因此,必須十分重視統計整理工作。
(二)統計數據整理的內容:
1、根據研究目的設計整理匯總方案
2、根據匯總方案,對各個調查項目的資料進行匯總,通過匯總計算各項指標
3、通過統計表或統計圖的形式,描述整理的結果
(三)統計數據整理的程序
第一步,設計和制定統計整理方案。
第二步,對原始資料進行審核。
第三步,對經過審核的資料進行分組、并結合匯總,計算出總體總量指標。
第四步,將匯總計算的結果,以統計表或統計圖的形式表現出來。
第五步,對統計資料妥善保存,系統積累。
二、統計分組
(一)統計分組的概念
統計分組就是根據統計研究的需要,將統計總體按照一定的標志分為若干個組成部分的一種統計方法。例如,將某一班級的全體同學按照性別劃分為男、女兩個組;對某市100家大型零售商店按照零售額、職工人數進行分組等。
統計分組具有兩個方面的含義:
對總體而言,是“分”,即將同質總體區分為性質有別的不同組成部分;
對總體單位而言,它是“組”,即將性質相同或相近的不同總體單位組合在一起,構成一個組。
例如,要了解我國人口狀況,只知道總人口數量是不夠的,而應將人口總體按照年齡、性別、民族、城鄉、文化程度……等分組,才能進一步地深入地了解我國人口總體的年齡結構、性別比例、民族構成等。
(二)統計分組的作用
1.區分現象的不同類型
2.研究總體的內部結構
3.分析現象間的依存關系
(三)統計分組的原則
1、窮盡原則:就是使總體中的每一個單位都應有組可歸,或者說各分組的空間足以容納總體中所有的單位。
2、互斥原則:就是在特定的分組標志下,總體中的任何單位只能歸屬于某一組,而不能同時或可能歸屬于幾個組。
(四)統計分組的種類
1、按分組標志的多少,可分為簡單分組和復合分組。將社會經濟總體只選擇一個標志分組稱為簡單分組。復合分組是用兩個或兩個以上分組標志重疊起來對總體進行的分組。例如,將人口先按“性別”分成男、女兩組,然后在男性和女性兩組中分別按照“文化程度”劃分為大學生及大學以上、高中、初中、文盲及半文盲如下五組。
2、按分組標志的性質不同,分為品質分組(或稱屬性分組)和數量分組(或稱變量分組)。品質分組就是按品質標志進行分組。一般地,對于以定類尺度或定序尺度計量的,采用品質分組。數量分組就是按數量標志進行分組。
9
3、按分組的作用和任務不同,分為類型分組、結構分組和分析分組。把復雜的現象總體劃分為若干個不同性質的部分,就是類型分組。在對總體分組的基礎上計算出各組對總體的比重以研究總體各部分的結構,就是結構分組。為研究對象之間的依存關系而進行的統計分組即分析分組。
(五)統計分組體系:分組體系有下列形式:
1.平行分組體系
對同一總體選擇兩個或兩個以上的標志分別進行簡單分組,排列起來,即成為平行分組體系。
2.復合分組體系
如果多個復合分組組成的體系就形成了復合分組體系。例如,為了認識我國高等院校在校學生的基本狀況,可以同時選擇學科、本科或專科、性別三個標志進行復合分組,并得到如下復合分組體系:
(六)統計分組的方法
統計分組的關鍵問題是正確地選擇分組標志與劃分各組界限。前者主要是指品質標志分組,后者主要是指數量標志分組。
1.分組標志選擇的原則
(1)要選擇能夠反映事物本質或主要特征的標志
(2)應根據研究的目的與任務選擇分組標志
(3)根據現象所處的歷史條件的變化選擇分組標志
2.統計分組的方法
(1)按品質標志分組
按照品質標志分組就是用來反映事物的屬性,性質的標志作為分組標志,就可以將總體單位劃分為若干性質不同的組成部分。
例如,人口按性別、文化程度、民族、籍貫等標志分組;企業按經濟類型、輕重工業、隸屬關系,企業規模等標志分組等。
(2)按數量標志分組
按數量標志分組就是用反映事物數量差異的標志作為分組標志,將總體各單位劃分為若干個組。例如,地區經濟按國內生產總值分組、企業按銷售收入分組等。
A、單項式分組與組距式分組:
單項式分組就是用一個變量值作為一組形成的分組。一般適用于離散型變量且變量變動范圍不大的場合。
組距式分組就是將變量依次劃分為幾段區間,一段區間表現為從“。。。到。。。”距離,把一段區間內的作有變量值歸為一組,形成組距式分組。一般對于連續型變量或者變動范圍較大的的離散型變量,適宜采用組距式分組。
B、間斷組距式分組和連續組距式分組:
組距是上下限之間的距離,相鄰兩組的界限,稱為組限。凡是組限不相連的,稱為間斷組距式分組。凡是組限相連(或稱相重疊)的,即以同一數值作為相鄰兩組的共同界限,稱為連續組距式分組。
統計上規定,凡是總體某一個單位的變量值是相鄰兩組的界限值,這一個單位歸入作為下限值的那一組內,即所謂“上限不在內”原則。
C、等距分組與異距分組:
等距分組就是標志值在各組保持相等的組距,即各組的標志值變動都限于相同的范圍。異距分組即各組的組距不相等。
(七)組距式分組中相關指標的計算
1、組限
組限為組距式變量數列中,每組區間兩端的極值稱組限。每一組的兩個組限中,較大者叫上限,較小者叫下限,如果各組的組限都齊全,成為閉口組;組限不齊全,即最小組缺下限或最大組缺上限,稱為開口組。
2、組距
組距為每組下限與上限之間的距離為組距。即:組距=上限-下限
組距式變量數列,有等距數列和不等距(異距)數列之分
計算公式:d=R/n 其中:d—組距 R—全距 n—組數
開口組的組距是以相鄰組的組距為本組的組距。
3、組數:組數就是分組后各組的個數之和。
斯特杰斯經驗公式:n=1+3.3logN 其中:n—組數 N—總體單位數
4、組中值:上下限之間的中點數值稱為組中值,計算公式入下:
組中值=上限?下限2
對于開口組中值的計算方式可以利用如下公式:
鄰組組距
2鄰組組距無上限組的組中值=下限?
2無下限組的組中值=上限?
第三節 頻數分布
一、頻數分布的基本概念
(一)頻數分布的概念與種類
1、定義:在統計分組的基礎上,總體中的所有單位按其所屬的組別歸類整理,并且按照一定的順序排列,形成總體單位數在各組分布的一系列數字,稱為分配數列,又稱次數分配或次數分布。
10
2、分配數列中,分布在各個組的總體單位數叫次數,又稱頻數。
3、如果將分組標志序列與各組相對應的頻率按照一定的順序排列,就形成頻率分布數列。
4、分配數列有兩個組成要求:一是分組;另一個是次數或比率。它可根據分組標志的性質不同,可以分為品質數列與變量數列。
(1)品質數列
它是按品質標志分組的數列,用來觀察總體單位中不同屬性的單位分布情況。例如,
表2.1 2000年我國人口性別構成情況
人口性別分組
男
女
合計
人口數(萬人)
65355
61228
126583
占人口的比重(%)
51.63
48.37
100
(分組名稱) (次數) (頻數)
品質數列的編制比較簡單,但要注意分組時,應包括分組標志的所有表現,不能有遺漏,各種表現相互獨立,不得相融。
(2)變量數列
變量數列是將總體按數量標志分組,將分組后形成的各組變量值與該組中所分配的單位次數或頻數,按照一定的順序相對應排列所形成的分配數列。
表2.2 某班級統計學成績分布表
考試分數
60以下
60——70
70—80
80—90
90—100
合計
(各組變量值) (次數) (頻數)
二、變量數列的編制
1.單項式變量數列,可以直接將每一變量值作為一組,
表2.3 某工廠生產車間工人按日產量分布
日產量
20
21
22
23
24
合計
工人數
3
7
10
6
4
30
比率(%)
10.0
23.3
33.3
20.1
13.3
100.0
人數(人)
2
7
11
12
8
40
頻率(%)
20.0
30.0
27.0
17.0
5.0
100.0
(各組變量值) (次數) (頻率)
單項式變量數列的編制比較明確、容易。但是用連續變量分組來編制分配數列時,或者雖是離散變量,但數值很多,變化范圍很大時,單項數列就不能適用,而應考慮采用組距數列的形式。
2.組距變量數列的編制
以下舉例說明:
[例2.1]對某企業30個工人完成勞動定額的情況進行調查,某原始資料如下(%)
98 81 95 84 93 86 91 102 100 103
105 100 104 108 107 108 106 109 112 114
109 117 125 115 120 119 118 116 129 113
第一步:計算全距
將各變量值由小到大排序,確定某最大值,最小值,并計算全距。
變量的最大值是129%最小值是81%
全距 = 最大值 - 最小值=129% - 81%= 48%
第二步:確定組數和組距
在等距分組時,組距與組數的關系是:
11
組距=全距
組數組距=本例中根據一般將成績分成優、良、中、及格和不及格的五檔評分習慣,可以先確定組數為5。在等距分組時,計算組距如下:
48%?9.6%
5為了符合習慣和計算方便,組距近似地取10%。
第三步:確定組限
關于組限的確定,應注意如下幾點:
第一,最小組的下限(起點值)應低于最小變量值,最大組的上限(終點值)應高于最大變量值。
第二,組限的確定應有利于表現出總體分布的特點,應反映出事物質的變化。
第三,為了方便計算組限應盡可能取整數,最好是5或10的整倍數。
第四,由于變量有連續型變量和離散型變量兩種,其組限的確定方法是不同的。
第四步:編制頻數(頻率)分布表。
表 2.4某企業30個工人勞動定額完成情況分布圖表
勞動定額完成程度(%)
80—90
90—100
100—110
110—120
120—130
合計
頻數(人)
3
4
12
8
3
30
頻數(%)
10.0
13.3
40.0
26.7
10.0
100.0
三、計算累計頻數和累計頻率
為了更詳細的認識變量的分布特征,還可以計算累計頻數和累計頻率,編制累計頻數和累計頻率數列。累計頻數和累計頻率有向上累計頻數(頻率)和向下累計頻數(頻率)兩種。
以變量值大小為依據,由變量值小的組向變量值大的組累計頻數和頻率,成為向上累計頻數和向上累計頻率。
向上累計數的意義是:小于各組的該組上限的各組的頻數或頻率之和;相反,由變量值大的組向變量值小的組累計各組的頻數或頻率,稱為向下累計頻數或向下累計頻數。
向下累計數的意義是:大于及等于該組下限的各組的頻數或頻率之和。
根據上例:某企業工人完成勞動定額的資料編制的向上累計頻數(頻率)和向下累計頻數(頻率)分布如表3—8。
表2.5 某企業工人完成勞動定額累計分布表
勞動定額完成情況
(%)
80~90
90~100
100~110
110~120
120~130
合計
頻數
(人)
3
4
12
8
3
30
頻率
(%)
10.0
13.3
40.0
26.7
10.0
10.0
向上累計
頻數
(人)
3
7
19
27
30
—
頻率
(%)
10.0
23.3
63.3
90.0
100.0
—
向下累計
頻數
(人)
30
27
23
11
3
—
頻率
(%)
100.0
90.0
76.7
36.7
10.0
—
四、次數分布的主要類型
1.鐘形分布
鐘形分布的特征是“兩頭小、中間大”,即靠近中間的變量值分布的次數多,靠近兩端的變量值分布的次數少,如果將變量值與其對應的頻數在直角坐標系中對應的點連接起來繪制成曲線圖,宛如一口鐘,所以又稱鐘形分布。
在自然或社會經濟現象中,有許多次數分布是屬于鐘形分布的。例如,人體體重、身高,學生的成績,居民貨幣收入,單位面積的農產品產量,市場價格等現象都屬于鐘形分布。
12
(a)
(b) (c)
圖2.1 鐘型頻數分布示意圖
2.U形分布
U形分布的特征是:靠近中間的變量值分布的次數少,靠近兩端的變量值分布的次數多,形成“兩頭大,中間小”的分布特征。將這種分布繪成曲線,像英文字母“U”的形狀,故稱U形分布
例如,人口死亡率的分布,一般是嬰幼兒死亡率和老年人死亡率均較高,而中年人死亡率最低,所以人口年齡分組的死亡率是呈U形分布的。另外,失業人口按年齡的分布等均呈U形分布。
圖2.2U型頻數分布示意圖
3.J形分布
J形分布的特征是“一邊小,一邊大”,即大部分變量值集中在某一端分布,有兩種類型。
(1)正J形分布
正J形分布是次數隨著變量值的增大而增多。如投資額按利潤率大小分布,一般是正J形分布。
(2)反J形分布
反J形分布是次數隨著變量值的增大而減小。如成年人數量按年齡大小分組,表現出年齡越高,人數越少。
圖2.3型頻數分布示意圖
本章難點
1、抽樣調查、重點調查與典型調查的比較;
2、統計調查方案的設計;
3、調查對象、調查單位、報告單位的內涵;
4、變量數列的內涵與外延;
5、統計分組的方法與技巧;
復習思考題
1、統計數據的來源渠道有哪些?
2、統計數據搜集方案包括哪幾項內容?
3、簡要解釋調查對象、調查單位與報告單位的含義及它們之間的聯系。
4、比較三種非全面調查的特點及應用場合。
5、何謂統計分組?統計分組應遵循的基本原則是什么?
6、說明組距、組限、組數、全距與組中值的含義及其它們的計算方法。
7、統計整理及其意義。
8、品質型數據的顯示方法主要有哪些?
13
9、數值型數據的顯示方法主要有哪些?
10、論述統計整理的完整過程。
第三章 統計描述
(一)教學目的
通過本章的學習,使同學們正確理解各種指標的概念及計算方法,學會運用相應的統計指標對數據的分布特征進行分析說明。
(二)基本要求
使學生熟練掌握數據分布特征的描述方法。
(三)教學要點
1、集中趨勢的測度指標及其計算方法;
2、離散趨勢的測度指標及其計算方法;
(四)教學時數
7——9課時
(五)學習內容
本章共分三節:
第一節 統計表與統計圖
一、統計表
(一)統計表的概念和結構
1、概念
統計表是表現統計資料的一種形式。把經過大量調查得來的統計資料,經過匯總整理以后,按照一定的規定和要求填列在相應的表格內,就形成了一定的統計表。
2、作用
統計表對表現統計資料具有重要作用。統計表是統計整理的重要形式。它利用表格形式,合理地安排統計資料,清晰、簡明地反映出現象總體的特征。統計表通過科學、合理地表現統計資料,便于對統計資料進行對照比較和分析,有利于計算統計分析指標。在統計分析報告中使用統計表,能節省文字敘述篇幅,達到簡明易懂、緊湊有力的分析效果。統計表還是匯總和積累統計資料,進行統計分析的重要工具。
3、結構
從外表形式上看,是由四部分構成:A、總標題:它是表的名稱,用于概括統計表中要說明的內容。B、橫行標題:它是各組的名稱,反映總體各組成部分的。C、縱欄標題:它是分組標志或指標的名稱,說明縱行所列各項資料的內容。D、指標數值:也稱數字資料,它是統計表的具體內容,
從統計表的內容來看,由主詞和賓詞兩個部分組成。主詞是統計表所說明的總體,總體的各組或各組的名稱。賓詞是用于說明主詞的各種指標。通常,統計表的主詞列在表的左方,賓詞列在表的右方。
(二)統計表的種類
1、統計表按照總體分組情況不同,可分為簡單表、分組表和復合表三類。
(1)簡單表
是主詞未經過任何分組,反映出總體各單位的名稱或按時間順序簡單排列,或同時反映以上內容的統計表。
(2)分組表
分組表是主詞按照一定標志分組的統計表,也稱簡單分組表。它可以揭示出現象的不同類型的特征,研究現象的內部結構。
(3)復合表
復合表是主詞按照兩個或兩個以上的標志層疊分組所形成的統計表。如表3—13
2、按賓詞設計分類,可分為賓詞簡單排列、分組平行排列和分組層疊排列。
賓詞簡單排列:賓詞不進行任何分組,按一定順序排列在統計表上。
分組平行排列:賓詞欄中各分組標志彼此分開,平行排列。
分組層疊排列:統計指標同時有層次地按兩個或兩個以上標志分組,各種分組層疊在一起,賓詞的欄數等于各種分組的組數連乘積。
(三)統計表的設計:
1、線條的繪制;
2、合計欄的設置;
3、標題設計;
4、指標數值;
5、計量單位;
6、注解或資料來源。
二、統計圖
1.統計圖的概念
統計圖是以圖形形象地表現統計資料的一種形式。用統計圖表現統計資料,具有鮮明醒目,富于表現,易于理解的特點,因而繪制統計圖是統計整理的重要內容之一。
統計圖可以揭示現象的內部結構和依存關系,顯示現象的發展趨勢和分布狀況,有利于進行統計分析與研究。
2.統計圖的種類
14
常用的統計圖主要有條形圖、面積圖、曲線圖、象形圖等。
(1)條形圖
1.條形圖(Bar)。條形圖可用于顯示離散型變量的次數分布。最主要是顯示順序數據和分類數據的頻數分布。條形圖是用寬度相同的條形的高度或長短來表示數據的多少的圖形。條形圖可以橫置或縱置,縱置時也稱為柱形圖。此外,條形圖有單式、復式等形式。
在表示分類數據的分布時,用條形圖的高度或長度來表示各類別數據的頻數或頻率。繪制時,各類別可以放在縱軸,稱為條形圖;也可以放在橫軸,稱為柱形圖。例如,如圖2.4所示。
條形圖(Bar)用于顯示離散型變量的次數分布,用條形的高度來表示變量值的大小,如圖2.5所示。
圖2. 4 類別數據條形圖
圖2. 5 離散型變量次數分布條形圖
繪制條形圖應注意以下幾個問題:A、在圖形中條形的寬度、條形之間距離要相等;B、圖形上的尺度必須以x軸或y軸為等線;C、圖形中要注明相應的數字;D、各條形的排列應有一定的順序,如比較現象在時間上的變動時,條形應按時間順序排列。
2.直方圖( Histogram )和折線圖。用于顯示連續型變量的次數分布。直方圖是用矩形的寬度和高度(即面積)來表示頻數分布的圖形。在平面直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,這樣,各組與相應的頻數就形成了一個矩形,即直方圖。在直方圖中,實際上是用矩形的面積來表示各組的頻數分布。在直方圖基礎上添加趨勢線,形成折線圖。例如根據表2—5資料繪制的直方圖(圖2. 6所示)和折線圖(圖2.7所示)。
表2. 6某生產車間50名工人日加工零件數原始資料(單位:個)
15
圖2. 6 某生產車間50名工人日加工零件頻數分布直方圖
圖2. 7某生產車間50名工人日加工零件頻數分布折線圖
直方圖與條形圖不同。首先,條形圖是用條形的長度(橫置時)表示各類別頻數的多少,其寬度(表示類別)則是固定的;直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距,因此,其高度與寬度均有意義。其次,由于分組數據具有連續性,直方圖的各矩形通常是連續排列,而條形圖則是分開排列。最后,條形圖主要用于展示分類數據,而直方圖主要用于展示數值型數據。
3.圓形圖(餅圖 Pie )。用于顯示定類變量的次數分布。它是用圓形及圓內扇形的面積來表示數值大小的圖形。餅圖主要用于表示總體中各組成部分所占的比例,對于研究結構性問題十分有用。在繪制餅圖時,總體中各部分所占的百分比用圓內的各個扇形面積表示,這些扇形的中心角度,是按各部分比占3600的相同比例確定的。如圖2. 8(a)、(b)、(c)所示。
頻數(人)20頻數(人)頻數(人)
105-110110-115115-120120-125125-130130-135135-140零件數(個)20頻數(人)111100-111155-112200-112255-113300-113355-140零件數(個)105-
圖2.8(a) 餅圖
圖2. 8(b) 餅圖
16
圖2. 8c) 餅圖
4.環形圖。環形圖與餅形圖類似,但又有區別。環形圖中間有一個“空洞”,總體或樣本中的每一部分數據用環中的一段表示。餅圖只能顯示一個總體和樣本各部分所占的比例,而環形圖則可以同時繪制多個總體或樣本的數據系列,每一個總體或樣本的數據系列為一個環。因此環形圖可顯示多個總體或樣本各部分所占的相應比例,從而有利于我們進行比較研究。例如根據表2.7、表2.8資料繪制成的環形圖,如圖2.9所示。
表2.7甲城市家庭對住房狀況滿意程度的頻數分布
表2—7乙城市家庭對住房狀況滿意程度的頻數分布
表2.8乙城市家庭對住房狀況滿意程度的頻數分布
圖2.9 環形圖
5.線圖(Line)。線圖是在平面坐標上用折線表現數量變化特征和規律的圖形。主要用于顯示連續型變量的次數分布和現象的動態變化。例如,根據表2—7資料繪制成的乙城市家庭對住房狀況的評價線圖,如圖2.10(a)、(b)所示。
17
31%26%21%7%13%10%8%15%36%33%非常不滿意不滿意一般滿意非常滿意
向上累積戶數(戶))戶400(300數262300戶200198戶數(戶)計100120累02112345非常不滿意 不滿意 一般 滿意非常滿意圖2.10(a) 乙城市向上累積頻數分布圖
向下累積戶數(戶)戶(400數300戶200279180積102戶數(戶)累03812345非常不滿意 不滿意 一般 滿意非常滿意2.10(b) 乙城市向上累計頻數分布圖
6.散點圖(Scatter)。主要用來觀察變量間的相關關系,也可顯示數量隨時間的變化情況。如圖2.11所示。
6050量轉40周運30系列1貨2050607080國內生產總值圖2.11 散點圖
第二節 數據分布的集中趨勢
一、描述分布集中趨勢的主要指標及其作用
、描述分布集中趨勢的主要指標:平均數、眾數、中位數
、作用:
(1)反映總體各單位變量分布的集中趨勢和一般水平;
(2)便于比較同類現象在不同單位間的發展水平;
(3)能夠比較同類現象在不同時期的發展變化趨勢或規律;
(4)分析現象之間的依存關系時也常借助于平均指標。
二、數值型數據集中趨勢的測定
1 2
18
(一)算術平均數
算術平均數(Arithmetic mean)也稱為均值(Mean),是全部數據算術平均的結果。算術平均法是計算平均指標最基本、最常用的方法。計算公式為:
算術平均數?總體標志總量總體單位總量
很多社會經濟現象,總體標志總量常常是總體單位變量值的算術總和。例如,工人工資總額是總體中每個工人工資的總和,某地區小麥總產量是所有耕地小麥產量的總和。在總體標志總量和總體單位總量的基礎上,就可以計算平均指標。
算術平均數與強度相對數都是兩個總量指標的比值,也都是有名數,都反映了相互聯系的兩個現象之間的數量對比關系,計算方法也非常相似。但它們卻是兩個性質不同的統計指標,主要區別有兩點:
其一,子項指標與母項指標的關系不同。平均數的子項指標與母項指標屬于同一個統計總體,是同一統計總體的總體標志總量與總體單位總量的比值,而強度相對數則是來自兩個不同總體但有聯系的總量指標之比;
其二,算術平均數的子項指標(標志總量)隨著母項指標(總體單位數)的變動而變動,二者互相適應,而強度相對數的子項指標同母項指標之間不存在這樣的關系。
算術平均數在統計學中具有重要的地位,是集中趨勢的最主要度量值,通常用x(讀作x?bar)表示。根據所掌握數據形式的不同,算術平均數有簡單算術平均數和加權算術平均數。
1.簡單算術平均數(Simple arithmetic mean)
未經分組整理的原始數據,其算術平均數的計算就是直接將一組數據的各個數值相加除以數值個數。設統計數據為平均數x的計算公式為:
x1,x2,…,xn,則算術x?x?x?12n?xn??xi?1nin (3.11)
[例3.3] 某班級40名同學統計學的考試成績原始資料如表3.1—2所示。
表3.2 40名同學統計學原始成績
該班40名同學統計學的平均成績為:
X?64?70?40?78?75?3089?77.2340(分)
2.加權算術平均數(Weighted arithmetic mean)
根據分組整理的數據計算算術平均數,就要以各組變量值出現的次數或頻數為權數計算加權的算術平均數。設原始數據被分成k組,各組的變量值為x1,x2,…,xk,各組變量值的次數或頻數分別為f1,f2,,fk…,則加權的算術平均數為:
xf?xf??xkfkx?1122?f1?f2??fk?xfi?1kkii?fi?1i (3.12)
[例3.4] 根據例3.3提供的40名同學的統計學成績原始資料分組整理如表3.1—3,根據此表資料計算平均成績。
19
表3. 3 40名同學統計學成績匯總表
根據(3.12)式得
Kx?
?xfi?1Kii??fi?13060?76.540
i根據(3.12)式計算的平均成績是76.5分,而與根據(3.11)式計算的平均成績77.23分相比,相差0.73分,顯然77.23分是準確的平均成績,因為(3.11)式所用的是原始數據的全部信息。而(3. 12)式是用各組的組中值代表各組的實際數據,使用代表值時是假定各組數據在各組中是均勻分布的,但實際情況與這一假定會有一定的偏差,使得利用分組資料計算的平均數與實際的平均值會產生誤差,它是實際平均值的近似值。
加權算術平均數其數值的大小,不僅受各組變量值(xi)大小的影響,而且受各組變量值出現的頻數即權數(fi)大小的影響。如果某一組的權數大,說明該組的數據較多,那么該組數據的大小對算術平均數的影響就越大,反之,則越小。實際上,我們將(3.12)式變形為下面的形式,就更能清楚地看出這一點。
x?
?xfi?1KKii?fi?1??xii?1Kfii?fi?1Ki (3.13)
由(3.13)式可以清楚地看出,加權算術平均數受各組變量值(xi)和各組權數即頻率fi?f大小的影響。頻率越大,相應的變量值計i入平均數的份額也越大,對平均數的影響就越大;反之,頻率越小,相應的變量值計入平均數的份額也越小,對平均數的影響就越小。這就是權數權衡輕重作用的實質。
當我們掌握的權數不是各組變量值出現的頻數,而是頻率時,可直接根據(4.3.3)式計算算術平均數。如例3. 2,根據各組的頻數計算的頻率分別為:0.05、0.2、0.4、0.25、0.1,各組頻率之和為1,則用頻率計算的加權算術平均數為:
x??xii?1Kfi?fi?1Ki
?55?0.05?65?0.2?75?0.4?85?0.25?95?0.1
?76.5(分)
從計算結果看,用頻率加權計算的結果與用頻數加權計算的結果是一致的。
需要指出的是,當各組變量值出現的頻數(fi)或頻率fi?fi相等時,權數的作用就消失了,這就意味著各組變量值對總平均的結果所起的作用是一樣的,此時,加權算術平均數就等于簡單算術平均數。
在實際生活中,我們也會經常遇到由相對數計算平均數的情況。一般地說,求相對數的平均數應采用加權平均的方法,此時,用于加權平均的權數不再是頻數或頻率,而應根據相對數的含義,選擇適當的權數。下面舉一個實例說明。
20
[例3.5] 某公司所屬10個企業資金利潤率分組資料如表3.4,要求計算該公司10個企業的平均利潤率。
表3.4 某公司所屬10個企業資金利潤率分組資料
該例子的平均對象是各企業的資金利潤率,表中的企業數雖然是次數或頻數,但卻不是合適的權數。要正確計算公司10個企業的平均資金利潤率,因為資金利潤率=利潤總額/資金總額,所以計算平均資金利潤率需要以資金總額為權數,才能符合該指標的性質。因此,該公司10個企業的平均利潤率為:
Kx??xi?1Ki?1ifi?i
算術平均數在統計學中具有重要的地位,它是進行統計分析和統計推斷的基礎。從統計思想上看,算術平均數是一組數據的重心所在,它是消除了一些隨機因素影響后或者數據誤差相互抵消后的必然性的結果。例如每年分季度的觀測數據,各年同季的數據由于受一些偶然性隨機因素的影響,其數值表現出一定的差異性,但將各年同季的數據加以平均,計算的算術平均數,就消除了一些隨機因素的影響,反映出季節變動必然性的數量特征。再如,對同一事物進行多次測量,由于測量誤差所致,或者其它因素的偶然影響,使得測量結果不一致,但利用算術平均數作為其代表值,則可以使誤差相互抵消,反映出事物固有的數量特征。另外,算術平均數具有下面一些重要的數學性質,這些數學性質在實際中有著廣泛的應用,同時也體現了算術平均數的統計思想。
⑴各變量值與其算術平均數的離差之和等于零,即
?f5%?40?10%?80?15%?14031?=11.9%40?80?140260
?(xi?1ni?x)?0 或
?(x?x)fii?1ki?0
⑵各變量值與其算術平均數的離差平方和最小,即
?(xi?1ni?x)?min(最小) 或
2?(xi?1ki?x)2fi?min(最小)
(二)調和平均數(Harmonic mean)
在實際工作中,經常會遇到只有各組變量值和各組標志總量而缺少總體單位數的情況,這時就要用調和平均數法計算平均指標。
為了方便調和平均數的概念和計算方法的說明,我們先看一個簡單的例子。
[例3.6] 市場上早、中、晚蔬菜的價格分別是早晨: 0.67公斤/元,中午0.5公斤/元,晚上0.4公斤/元。現在,我們分別按四種方法在購買蔬菜,分別計算平均價格(不管按什么方法購買,平均價格都應該等于花費的現金除所買蔬菜的數量):
第一種買法:早、中、晚各買一公斤
X?則蔬菜平均價格為:?xn0.67?0.5?0.43=0.523(元/公斤)
第二種買法:早晨買1公斤,中午買2公斤,晚上買3公斤
xf?X??f則蔬菜平均價格為:0.67?1?0.5?2?0.4?31?2?3=
=0.523(元/公斤)
第三種買法:早、中、晚各買一元
在這種情況下,計算蔬菜平均價格比上述兩種方法稍微復雜一些,我們得先計算出一元錢所購買蔬菜的數量,然后再計算蔬菜的平均價格。
要計算蔬菜的平均價格,首先應該計算出早、中、晚各花費1元錢所購買蔬菜的數量:
21
其中:早晨購買蔬菜的數量=1=1.5(公斤);
0.671=2(公斤);
0.51=2.5(公斤)。
0.4中午購買蔬菜的數量=晚上購買蔬菜的數量=蔬菜平均價格為:X?1?1?13??0.5(元/公斤)
1111.5?2?2.5??0.670.50.4這種計算平均指標的方法同算術平均法有很大的不同,由于資料中缺乏總體單位總量,所以,就不可能直接用算術平均的方法計算平均指標。為了達到計算目的,首先要用變量值的倒數計算出總體單位總量來,然后再計算平均指標,調和平均數法因此而得名,也正是由于這個原因,調和平均數又稱為倒數平均數。
第四種買法,早晨買1,中午買2,晚上買3元錢
和第三種買法一樣,我們還是得先計算出早晨、中午和晚上所購買蔬菜的數量,然后再計算平均價格。
早晨購買蔬菜的數量=1=1.5(公斤);
0.674=4(公斤);
0.53=7.5(公斤)。
0.4中午購買蔬菜的數量=晚上購買蔬菜的數量=蔬菜平均價格為:X?1?2?36??0.46 =(元/公斤)
1231.5?4?7.5??0.670.50.4在上述計算平均價格的過程中,早、中、晚三個時段購買蔬菜所花費的現金是計算平均價格的權數,這種方法我們稱為加權調和平均法。
由以上分析過程得出調和平均數的定義:
調和平均數是各個變量值倒數的算術平均數的倒數,習慣上用(H)表示。計算公式為:
簡單調和平均數:
H?1111????x1x2xnn?n?xj?1k (3.14)
j
加權調和平均數
m?m2?H?1m1m2??x1x2?mk?mk?xk?m?xi?1i?1KKimii (3.15)
在實際工作中,調和平均數通常是作為算術平均數的變形使用的,也就是由于受所掌握資料的限制,有時不能直接采用算術平均數的計算公
22
式計算平均數,這就需要使用調和平均數的形式進行計算。為了更好地理解調和平均數的應用場合,我們看下面的例子。
[例3.6] 某商品有三種不同的規格,銷售單價與銷售量如表3.5所示,求這三種不同規格商品的平均銷售單價。
表3.5 某商品三種規格的銷售數據
從平均價格的實際意義看,其計算方法應該是:
平均價格?銷售額銷售量
根據題中給出的原始數據(三種規格的銷售單價和銷售量),可以求出銷售額(xf)數據,因此計算平均價格在形式上采用的是加權算術平均數公式,即
x??xfi?1KKii??fi?17372?33.51220(元/件)
i 如果已知的不是銷售量數據,而是銷售額,如表3.1—6所示,就應改變計算方法。
表3.6 某商品三種規格的銷售數據
根據表3.6給出的原始數據(三種規格的銷售單價與銷售額)計算平均價格時,就無法直接采用加權算術平均數形式。這時,需要根據銷售單價和銷售額數據先求出銷售量數據,再用總銷售額除以總銷售量即得平均價格,即加權調和平均。根據表4.3.5的數據,代入(4.3.5)式得平均價格為:
H??mii?1K?xi?1Kmii?7372?33.51(元)220
這與采用加權算術平均數公式的計算結果完全相等。事實上,(4.3.5)式只是加權算術平均數的另一種表現形式,式中mi(銷售額)實際上是銷售單價xi與銷售量fi的乘積,即mi=xifi,這從下面的式中可以清楚地看出來。
H??mi?1KKi
由此可見,調和平均數和算術平均數在本質上是一致的,惟一的區別是計算時使用了不同的數據。在實際應用時,可掌握這樣的原則,當計算算術平均數其分子資料未知時,就采用加權算術平均數計算平均數,分母資料未知時,就采用加權調和平均數計算平均數。
(三)幾何平均數(Geometric mean)
幾何平均數是n個變量值乘積的n次方根。可分為簡單幾何平均數和加權幾何平均數,計算公式分別為:
23
mi?i?1xi??xfii?1KKixifi?i?1xi??xfii?1KKi?x?fi?1i
G?x1x2n簡單平均平均數
xn?n?xii?1kn (3.16)
G?加權幾何平均數
?fii?1kxf11xf22xfkk??fii?1?xi?1kifi (3.17)
式中,?為連乘符號。
幾何平均數是適應于特殊數據的一種平均數,在實際生活中,通常用來計算平均比率和平均速度。當所掌握的變量值本身是比率的形式,而且各比率的乘積等于總的比率時,就應采用幾何平均法計算平均比率。
[例3.7] 某產品需經三個車間連續加工,已知三個車間制品的合格率分別為95%、90%、98%,求三個車間平均合格率。
由于產品是由三個車間連續加工完成的,第二個車間加工的是第一個車間完工的合格制品,第三車間加工的又是第二車間完工的合格制品,因此,三個車間總合格率是三個車間相應合格率的連乘積,求平均合格率就不能采用算術平均法,而應當用幾何平均法。則三個車間平均合格率為:
G?n?xi?395%?90%?98%?94.28%
i?1n
[例3.8] 某地區GDP 1991~1995年平均發展速度為107.2%,1996~1998年平均發展速度為108.7%,1999~2000年平均發展速度為110%,求該地區1991~2000年間的平均發展速度。
由于總速度是各年發展速度連乘形成的,該資料提供的各時段的平均發展速度所代表的時間長度又有所不同,所以根據該資料求平均發展速度需用加權的幾何平均法。所要求的平均發展速度為:
G??fii?1k?xi?1kifi?101.0725?1.0873?1.12?
=1.082(或108.2%)
三、、定類數據集中趨勢的測定——眾數(Mode)
(一) 概念要點
眾數是指一組數據中出現次數最多的變量值,用Mo表示。從變量分布的角度看,眾數是具有明顯集中趨勢點的數值,一組數據分布的最高峰點所對應的數值即為眾數。當然,如果數據的分布沒有明顯的集中趨勢或最高峰點,眾數也可以不存在;如果有多個高峰點,也就有多個眾數。
1.集中趨勢的測度值之一
2.出現次數最多的變量值
3.不受極端值的影響
4.可能沒有眾數或有幾個眾數
5.主要用于定類數據,也可用于定序數據和數值型數據
眾數的不唯一性:
無眾數原始數據: 10 5 9 12 6 8
一個眾數原始數據: 6 5 9 8 5 5
多于一個眾數原始數據: 25 28 28 36 42 42
(二)眾數的計算
根據未分組數據或單變量值分組數據計算眾數時,我們只需找出出現次數最多的變量值即為眾數。對于組距分組數據,眾數的數值與其相鄰兩組的頻數分布有一定的關系,這種關系可作如下的理解:
設眾數組的頻數為fm,眾數前一組的頻數為f?1,眾數后一組的頻數為f?1。當眾數相鄰兩組的頻數相等時,即f?1=f?1,眾數組的組24
中值即為眾數;當眾數組的前一組的頻數多于眾數組后一組的頻數時,即后一組的頻數多于眾數組前一組的頻數時,即出的分組數據眾數的計算公式如下:
下限公式:
f?1>f?1,則眾數會向其前一組靠,眾數小于其組中值;當眾數組f?1<f?1,則眾數會向其后一組靠,眾數大于其組中值。基于這種思路,借助于幾何圖形而導Mo?L?
上限公式:
fm?f?1?d?L?(fm?f?1)?(fm?f?1)fm?f?1?d?U?(fm?f?1)?(fm?f?1)11?2?d (3.1)
Mo?U?
21?2?d (3.2)
式中:L表示眾數所在組的下限;
U表示眾數所在組的上限;
d表示眾數所在組的組距。
[例3.1] 現利用表3.1—1資料計算3000戶農民家庭年人均收入的眾數。
表3. 1 某地區農民家庭收入資料
從表3.1中的數據可以看出,出現頻數最多的是1050,即眾數組為1400—1600這一組可得眾數為:
fm=1050,f?1=480,f?1=600,根據(3.1)式Mo?1400?
1050?480?200(1050?480)?(1050?600)
=1511.8(元)
利用上述公式計算眾數時是假定數據分布具有明顯的集中趨勢,且眾數組的頻數在該組內是均勻分布的,若這些假定不成立,則眾數的代表性就會很差。從眾數的計算公式可以看出,眾數是根據眾數組及相鄰組的頻率分布信息來確定數據中心點位置的,因此,眾數是一個位置代表值,它不受數據中極端值的影響。
四、定序數據集中趨勢的測定——中位數
(一)概念要點
中位數是將總體各單位標志值按大小順序排列后,處于中間位置的那個數值。
1.集中趨勢的測度值之一
2.排序后處于中間位置上的值
3.不受極端值的影響
4.主要用于定序數據,也可用數值型數據,但不能用于定類數據
5.各變量值與中位數的離差絕對值之和最小,即
25
?nXii?Mee?mminin(3.3)
ii??11(二)中位數的計算
根據未分組資料和分組資料都可確定中位數。有三種情況:
1.對于未分組的原始資料,首先必須將標志值按大小排序。設排序的結果為:
x1?x2?x3?????xn
則中位數就可以按下面的方式確定:
Me=xn?1 ,當n為奇數 (3.4)
2xn?xnMe=22?12,當n為偶數 (3.5)
2.對于單項式變量數列資料,由于變量值以及序列化,故中位數可以直接按下面的方式確定:
x?f?1 ,當?f為奇數 (3.6)
2Me=
x?f?x?f222?1,當?f為偶數 (3.7)
3.對于組距式變量數列,確定中位數也需要分兩步進行:
(1)從變量數列的累計頻數欄中找出第?f個單位所在的組,即“中位數組”,該組的上、下限就規定了中位數的可能取值范圍;2(2)假定在中位數組內的各單位是均勻分布的,就可利用下面的公式計算中位數的近似值:
?f?sMe?L?1Me?2Mef?dMe (3.8)
Me?f?s?Me?1
?UMe?2f?dMe (3.9)
Me
26
上面兩式分別稱作中位數的“下限公式”。式中,一組為止的向下累計頻數;
sMe?1是到中位數組前面一組為止的向上累計頻數,s?Me?1則是到中位數組后面dMe=UMe?LMe為中位數組的組距。
第三節 數據分布的離散趨勢
描述一組數據離散程度常用分位差、極差、平均差、方差和標準差(含比率的標準差)、變異系數等。
一、 變異指標含義
平均指標是統計總體中各單位某一數量標志的一般水平,反映了總體分布的集中趨勢。集中趨勢只是數據分布的一個特征,它所反映的是各變量值向其中心值聚集的程度。而這種聚集的程度顯然有強弱之分,這與各變量值的差異有著密切的聯系。變量值的差異越大,數值的集中趨勢越弱,變量值的差異越小,數據的集中趨勢越強。因此,要全面描述數據的分布特征,除了要對數據集中趨勢加以度量外,還要對數據的差異程度進行度量。數據的差異程度就是各變量值遠離其中心值的程度,因此也稱為離中趨勢。
(一)變異指標的概念
在統計研究中,通常把一組數值之間的差異程度叫做標志變動度。測定標志變動度大小的指標叫做標志變異指標。標志變動度與標志變異指標在數值上成正比。如果說平均指標說明總體分布的集中趨勢的話,標志變異指標則說明總體分布的離中趨勢。
(二)變異指標的作用
變異指標是描述數據分布的一個很重要的特征值,因此,它在統計分析、統計推斷中具有很重要的作用。具體可以概括為以下幾點:
1.反映總體各單位變量值分布的均衡性
一般來說,標志變異指標數值越大,總體各單位變量值分布的離散趨勢越高、均衡性越低,反之,變量值分布的的離散趨勢越低、均衡性就越高。
2.判斷平均指標對總體各單位變量值代表性的高低
平均指標作為總體各單位某一數量標志的代表值,其代表性的高低與總體差異程度有直接關系:總體的標志變異指標值愈大,平均數的代表性愈低;反之,標志變異指標值愈小,平均數代表性愈高。另一方面,平均指標代表性的高低同總體各單位變量值分布的均衡性也有直接關系:總體各單位變量值分布的均衡性越高,平均指標代表性就越高;反之,總體各單位變量值分布的均衡性越低, 平均指標代表性就越低。
3.在實際工作中,借助標志變異指標還可以對社會經濟活動過程的節奏性和均衡性進行評價
4.標志變異指標是衡量風險大小的重要指標。
(三)變異指標的類型
根據所依據數據類型的不同,變異指標有全距、平均差、方差和標準差、離散系數等。
二 、全距
全距又稱極差,是一組數據的最大值與最小值之差,用R表示。計算公式為:
式中,R?max(Xi)?min(Xi) (3.20)
max(Xi)、min(Xi)分別表示為一組數據的最大值與最小值。由于全距是根據一組數據的兩個極值表示的,所以全距表明了一組數據數值的變動范圍。R越大,表明數值變動的范圍越大,即數列中各變量值差異大,反之,R越小,表明數值變動的范圍越小,即數列中各變量值差異小。
[例3.12] 例3.1給出的40個同學統計學的考試成績,其最高成績為99分,最低成績為36,則全距為:
R?99?36?63(分)
如果資料經過整理,并形成組距分配數列,全距可近似表示為:
R≈最高組上限值-最低組下限值
全距是描述離散程度的最簡單度量值,計算簡單直觀,易于理解,但其數值大小易受極端變量值的影響,且不反映中間變量值的差異,因而不能準確描述出數據的離中程度。
三、方差和標準差(Variance 、Standard deviation)
方差是各變量值與其算術平均數離差平方的算術平均數。標準差是方差的平方根。
方差和標準差同平均差一樣,也是根據全部數據計算的,反映每個數據與其算術平均數相比平均相差的數值,因此它能準確地反映出數據的差異程度。但與平均差不同之處是在計算時的處理方法不同,平均差是取離差的絕對值消除正負號,而方差、標準差是取離差的平方消除正負號,這更便于數學上的處理。因此,方差、標準差是實際中應用最廣泛的離中程度度量值。由于總體的方差、標準差與樣本的方差、標準差在計算上有所區別,因此下面分別加以介紹。
27
(一)總體的方差和標準差
設總體的方差為?,標準差為?,對于未分組整理的原始資料,方差和標準差的計算公式分別為:
2?2??(Xi?1Ni?X)2 (3.23)
N???(Xi?1Ni?X)2 (3.24)
NK對于分組數據,方差和標準差的計算公式分別為:
?2?
?(Xi?1iK?X)2Fii?Fi?1 (3.25)
??
?(Xi?1KiK?X)2Fii?Fi?1 (3.26)
[例3.15] 現仍利用[例4.4.5]資料計算方差和標準差,計算過程見表3.10。
表3.10 方差和標準差計算表
?2?
??(Xi?1KiK?X)2Fii?Fi?1?=1061905?10113.38105(元2 )
??2?10113.38?100.57(元)
(二)樣本的方差和標準差
樣本的方差、標準差與總體的方差、標準差在計算上有所差別。總體的方差和標準差在對各個離差平方平均時是除以數據個數或總頻數,而樣本的方差和標準差在對各個離差平方平均時是用樣本數據個數或總頻數減1去除總離差平方和。
2s設樣本的方差為,標準差為s,對于未分組整理的原始資料,方差和標準差的計算公式為:
S2??(x?x)ii?1n2n?1 (3.27)
28
S??(x?x)ii?1n2n?1k (3.28)
對于分組數據,方差和標準差的計算公式為:
S2?
?(x?x)ii?1ki?12fi(?fi)?1 (3.29)
2S??(x?x)ii?1ki?1kfi(?fi)?1 (3.30)
[例3.16] 如果表3.10的數據為樣本資料,則計算的樣本方差和標準差為:
S2?
S
?(x?x)ii?1ki?1k2fi(?fi)?1?1061905?10210.63105?1
?10210.63?101.05(元)
22這與根據總體的方差和標準差計算公式計算的結果相差不大。當n很大時,樣本方差S與總體的方差?的計算結果相差很小,這時樣本方差也可以用總體方差的公式來計算。
(三)是非標志的平均數、方差與標準差
在實際生活中,有些事物或現象的特征只表現為兩種性質上的差異,例如,產品的質量表現為合格或不合格,人的性別表現為男或女,人們對某種意見表示為同意或不同意;對學生考試成績分為及格和不及格,等等。這些只表現為是與否、有或無的標志,稱為是非標志,也稱為交替標志。在進行抽樣估計時,是非標志的方差或標準差具有很重要的意義。
1. 成數(比例)
如前所述,是非標志只有兩種表現,我們把總體中或樣本中具有某種表現或不具有某種表現的單位數占全部單位數的比重稱為成數,它反映了總體或樣本中“是”與“非”的構成,并且代表著兩種表現或性質各反復出現的程度,即頻率。例如,某一批產品,合格品占95%,不合格品占5%。在這里。95%和5%均為成數。
若以N1表示總體中具有某種表現的單位數,N0表示總體中不具有某種表現的單位數,N表示總體單位數,則成數可表示為:
P?N0N1 或
1?P?NNN1對應的就是
對于樣本來說,與總體n1,與總體N0對應的就是n0,樣本單位數為n,則有
p?
n1n1?p? 或
n0n
2. 是非標志的平均數
是非標志是一種品質標志,其表現為文字。因此,在計算平均數時,首先需要將文字表現進行數量化處理。用“1”表示具有某種表現,用“0”表示不具有某種表現,然后以“1”和“0”作為變量值,計算加權算術平均數。現以總體為例予以說明。
Xp
?1?N1?0?N0N1??p (3.31)
N1?N0N29
由此可知,總體是非標志的平均數,即為被研究標志具有某種表現的成數P,同樣可得樣本是非標志的平均數即為被研究標志具有某種表現的成數p。
3. 是非標志的方差與標準差
將經過量化處理的是非標志的表現“1”和“0”作為變量值代入總體的方差計算公式:
?P2?(Xi?X)2Fi(1?P)2N1?(0?P)2N0???FiN1?N0P(1?P)
?2?? 為區別于一般變量值的方差,我們將是非標志的方差記為,即
?P是非標志的標準差為:
2?P(1?P) (3.32)
?P?P(1?p) (3.33)
2類似地,可得樣本是非標志的方差s和標準差s為:
s2p?p(1?p) (3.34)
(3.35)
sp?p(1?p)[例3.17] 從一批產品中隨機抽取100件產品進行質量測試,測試的結果為96件合格,4件不合格,試計算成數的方差和標準差。
根據所給資料可得:
p?496?96%1?p??4%100100
s2p?96%?4%?3.84%sp?3.84%?19.6%
是非標志的方差、標準差,當p?0.5時取得最大值,方差最大值為0.25,標準差最大值為0.5,也就是說,此時是非標志的變異程度最大。如某學生群體中男生數和女生數相等,即男女生的成數均為0.5(或50%),說明該學生群體性別差異程度最大。是非標志的方差、標準差的最小值均為0。
四、離散系數
前面介紹的全距、方差和標準差都是反映一組數值變異程度的絕對值,其數值的大小,不僅取決于數值的變異程度,而且還與變量值水平的高低、計量單位的不同有關。所以,不宜直接利用上述變異指標對不同水平、不同計量單位的現象進行比較,應當先做無量綱化處理,即將上述的反映數據的絕對差異程度的變異指標轉化為反映相對差異程度的指標,然后再進行對比。
離散系數是反映一組數據相對差異程度的指標,是各變異指標與其算術平均數的比值。離散系數是一個無名數,可以用于比較不同數列的變異程度。離散系數通常用V表示,常用的離散系數有平均差系數和標準差系數,其計算公式分別為:
VM?MD?100%X (3.41)
V???X?100% (3.42)
[例3.19] 甲乙兩組工人的平均工資分別為138.14元、176元,標準差分別為21.32元、24.67元。兩組工人工資水平離散系數計算如下:
30
V?甲?V?乙?21.32?100%?15.43%138.14
24.67?100%?14.02%176
從標準差來看,乙組工人工資水平的標準差比甲組大,但不能斷言,乙組平均工資的代表性小。這是因為兩組工人的工資水平處在不同的水平上,所以不能直接根據標準差的大小作結論。而正確的方法要用消除了數列水平的離散系數比較。從兩組的離散系數可以看出,甲組相對的變異程度大于乙組,因而乙組平均工資的代表性要大。
本章難點
1、集中趨勢指標的計算方法與應用場合;
2、離散趨勢指標的計算方法與應用場合;
3、如何正確運用離散趨勢指標評價總體平均水平的代表性;
4、對標準差、方差等指標含義的準確理解。
5、偏度與峰度指標的計算方法與應用場合。
6、各種統計圖的靈活應用。
復習思考題
1、考察一個分布數列的特征時,為什么必須同時運用集中趨勢指標和離散趨勢指標?
2、對總體進行集中趨勢的描述時應遵循哪些基本原則?
3、試比較極差和標準差二種變異指標的特點,并說明為什么標準差是最常用、最基本的變異指標?
4、試比較算術平均數、調和平均數、幾何平均數、中位數與眾數的特點。
5、品質型數據的顯示方法主要有哪些?
6、數值型數據的顯示方法主要有哪些?
第四章 抽樣分布與參數估計
(一)教學目的
通過本章的學習,掌握抽樣基本理論及參數的估計方法,學會對總體參數進行區間估計。
(二)基本要求
要求掌握抽樣調查中的基本概念、抽樣估計的基本方法,學會樣本統計量的計算方法,并能對總體參數進行估計。
(三)教學要點
1、不同抽樣組織形式的抽樣誤差計算;
2、總體均值及比例的區間估計;
3、必要抽樣數目的計算方法。
(四)教學時數
7——9課時
(五)教學內容
本章共分三節
第一節 抽樣分布
一、統計推斷
統計學是一門關于數據資料的收集、整理、分析和推斷的科學,它的目的是提供顯示被研究客觀事物的群體特征和數量規律性的方法。根據所掌握客觀事物數據資料全面與否,統計學可以分成兩類。一類稱為描述統計學,它研究如何全面收集被研究客觀事物的數據資料并進行簡縮處理,描述其群體特征和數量規律性。本書前幾章內容即屬于描述統計學范疇。另一類稱為推斷統計學,它研究如何有效地收集和使用被研究客觀事物的不完整并且帶有隨機干擾的數據資料,以對其群體特征和數量規律性給出盡可能精確、可靠的推斷性結論。這是統計工作中經常遇到的問題。
[例6.1] 某省政府部門欲了解全省農民收入的平均水平。該省幅員遼闊,人口眾多,如果采用普查則工作量及調查費用將異常龐大。一個可行的方法是在全省抽取部分農戶進行調查,根據這部分調查所得收入數據資料去推斷全省農民收入的平均水平。
[例6.2] 某地為加強環境保護,加強水質監測,考察河水中某種污染物質是否超標。顯然對河水全部檢驗是不可能的,只能從河水中按照
31
一定地點定時取樣檢驗,根據檢驗結果推斷河水中污染物是否超標。
[例6.3] 某水泥廠加強產品質量控制和管理 ,需考察水泥標號是否達到規定標準,其方法是將水泥做成試塊進行耐壓試驗。由于這種試驗是一種破壞性試驗,顯然不能把全部水泥都做成試塊,只能從全部水泥中抽取部分進行試驗。
從上面例子可以看出,在很多統計問題中,或者由于人力、物力、財力或時間限制,或者由于取得全部數據是不可能的,或者雖然能夠取得全面數據但數據收集本身帶有破壞性,我們不能收集全面數據,只能從中收集部分數據,依據這部分數據對所研究對象的數量特征或數量規律性進行推斷。這種依據部分觀測取得的數據對整體的數量特征或數量規律性進行的推斷稱為統計推斷。
統計推斷有兩種類型。一類是參數估計(Estimation of parameters),由對部分進行觀測取得的數據對研究對象整體的數量特征取值給出估計方法。另一類是假設檢驗(Hypothesis testing),由對部分進行觀測取得的數據對研究對象的數量規律性是否具有某種指定特征進行檢驗。本章研究參數估計問題,下一章研究假設檢驗問題。
二、幾個基本概念
1.樣本容量與樣本個數
(1)樣本容量:樣本是從總體中抽出的部分單位的集合,這個集合的大小稱為樣本容量,一般用n表示,它表明一個樣本中所包含的單位數。一般地,樣本單位數大于30個的樣本稱為大樣本,不超過30個的樣本稱為小樣本。
(2)樣本個數:又稱樣本可能數目,它是指從一個總體中可能抽取多少個樣本。樣本個數的多少與抽樣方法有關。
2.總體參數與樣本統計量
(1)總體參數:總體分布的數量特征就是總體參數,也是抽樣統計推斷的對象。常見的總體參數有:總體的平均數指標,總體成數(比重)指標,總體分布的方差、標準差等等。
(2)樣本統計量:與總體參數對應的是樣本統計量。
雖然樣本提供了總體的信息,但樣本提供的信息是分散的,不集中,不便于有效地對總體進行推斷。為了能有效地推斷總體,我們必須對樣本進行“加工”,把樣本中所包含的有關總體某一特征的信息“提取”“聚集”在一起,這就是根據推斷問題的需要構造樣本的適當函數,不同的樣本函數反映總體的不同特征,一旦有了樣本觀察值就可以由此給出總體特征的推斷值。因此自然要求這種樣本函數應不包含任何未知參數。稱這種樣本函數為統計量(Statistic)。
設(X1,X2,Xn)是總體X容量為n的樣本,若樣本函數
,Xn)
T?T(X1,X2例如
中不含任何未知參數,則稱T為一個統計量。
1nX??Xini?1就是一個統計量,稱為樣本均值(Sample mean),
1nS??(Xi?X)2ni?1
2也是統計量,稱為樣本方差(Sample variance),
k1nAk??Xink?1
也是統計量其中k是自然數,稱為樣本k階原點矩(Moment of order k about the origin)。
3、重復抽樣與不重復抽樣
(1)重復抽樣:是指從總體中抽出一個樣本單位,記錄其標志值后,又將其放回總體中繼續參加下一次樣本單位的抽取。
(2)不重復抽樣:即每次從總體中抽取一個單位,登記后不放回原總體,不參加下一次抽樣。
三、抽樣分布
根據樣本統計量去估計總體參數,必須知道樣本統計量分布。
某個樣本統計量的抽樣分布,從理論上說就是在重復選取容量為n的樣本時,由每一個樣本算出的該統計量數值的相對數頻數分布或概率分布。
由于現實中我們不可能將所有的樣本都抽出來,因此,統計的抽樣分布實際上是一種理論分布。
(一)樣本均值的抽樣分布
32
從單位數為N的總體中抽取樣本容量為n的隨機樣本,在重復抽樣的條件下共有Nn個可能的樣本,在不重復抽樣條件下,共有nCN?N!2個可能樣本。對于每一個樣本,我們都可以計算出樣本的均值x(或s或p),因此,樣本均值是一個隨機變量。所有的n!(N?n)!樣本均值形成的分布就是樣本均值的抽樣分布。
[例6.4]設一個總體含有4個個體(元素),即N=4,取值分別為:
x1?1x2?2x3?3x4?4
總體分布為均勻分布,如圖6.1所示。
y
0.3
0.25
0.2
0.1
x
0
1
2
3
圖6.1
總體均值:??X?104?2.5
2總體方差:?2??(x?x)n?1.25
若重復抽樣,n=2 則共有42?16個可能樣本。具體列示如表
表6.1 可能的樣本及其均值
33
每個樣本被抽中的概率相同,均值為1
16樣本均值的抽樣分布如表5.1.2和圖5.1.2所示。
樣本均值x抽樣分布的形狀與原有總體的分布有關,如果原有總體是正態分布,樣本均值也服從正態分布。
如果總體分布是非正態分布,當x為大樣本(n?30)時,樣本均值的分布趨于服從正態分布;當x為小樣本時,其分布不是正態分布。
下面再讓我們來看看樣本均值x抽樣分布的特征:數學期望和方差。
設總體共有N個元素,其均值為?,方差為?,從中抽取容量為n的樣本。
2E(x)?x?X??
??2x2x?2n(重復抽樣)
???2N?nn(N?1)(不重復抽樣)
對于無限總體,樣本均值的方差,不重復抽樣也可按重復抽樣來處理;對于有限總體,當N很大,而n/N又很小,修正系數趨于1,不重復抽樣也可按重復抽樣來處理。
樣本均值x抽樣分布的特征—數學期望和方差的計算公式,可以通過[例6.4]加以驗證。
樣本均值的均值xN?n會N?1?1.0?1.5?162i?3.5?4.0?40?2.5??
16 樣本均值的方差?2x?(x??)?n
101.25?2???162n表6.2 樣本均值的抽樣分布
p(x)
0.3
0.2
0.1
0 1.0 1.5 2.0 2.5 3.0 3.5 4.0
x
34
圖6.2 樣本均值的抽樣分布
(二)樣本成數的抽樣分布
比例即結構相對數,即成數。
總體比例P?N0N1
1?P?NNn1n
1?
樣本比例p?p?n0n
當n很大時,樣本比例p的抽樣分布可用正態分布近似。
對于樣本比例p,若np?5和n(1?p)?5,就可以認為樣本容量足夠大了。
E(P)?p
2?P?p(1?p)(重復抽樣)
np(1?p)N?n()(不重復抽樣)
nN?12?P?與樣本均值分布的方差一樣,樣本比例的方差,對于無限總體,不重復抽樣也可按重復抽樣來處理;對于有限總體,當N很大,而n/N?5%,修正系數
N?n會趨于1,不重復抽樣也可按重復抽樣來處理。
N?1第二節 抽樣誤差
一、抽樣誤差的概念
(一) 抽樣誤差的一般概念
一般地說,抽樣誤差是指樣本指標與被它估計未知的總體參數(總體特征值)之差。具體地是指樣本平均數x與總體平均數X的差,樣本成數p與總體成數P的差(p-P)。例如,某地區全部小麥平均畝產400公斤,而抽樣調查得到的平均畝產為391公斤或403公斤,則樣本指標與總體指標之間的誤差為-9公斤或3公斤。
(二) 統計調查誤差的種類
統計調查誤差按產生的原因可以分為登記性誤差和代表性誤差。
二、影響抽樣誤差的因素
1.總體各單位標志值的差異程度。差異程度愈大則抽樣誤差愈大,差異程度愈小則則抽樣誤差愈小。
2.樣本單位數。在其他條件相同的情況下,樣本的單位數愈多,則抽樣誤差愈小。
3.抽樣方法。抽樣方法不同,抽樣誤差也不同。一般情況下重復抽樣誤差比不重復抽樣誤差要大一些。
4.抽樣調查的組織形式。不同的抽樣組織形式就有不同的抽樣誤差。
三、抽樣平均誤差
35
(一) 抽樣平均誤差的意義
抽樣平均誤差是反映抽樣誤差一般水平的指標,其實質是抽樣指標的標準差。抽樣平均誤差反映抽樣指標和總體指標間的平均誤差程度。
(二) 抽樣平均誤差的計算
1.平均數抽樣的平均誤差
重復抽樣條件下:??x?n
不重復抽樣條件下:?x2.成數抽樣平均誤差
重復抽樣條件下:??2n(1?n)
N??pp(1?p)n
不重復抽樣條件下:?p?p(1?p)n(1?)
nN3.重復抽樣和不重復抽樣條件下抽樣平均誤差的區別。
從上面的計算公式可看到,在其他條件相同的情況下,重復抽樣和不重復抽樣僅差一個修正因子的平方根(1?nn)。?1,由于1?Nn所以不重復抽樣的平均誤差小于重復抽樣的平均誤差的1?nN倍。nN又稱抽樣比例或抽樣強度。
四、抽樣極限誤差
1.抽樣極限誤差的概念
抽樣極限誤差是指抽樣指標與總體指標之間誤差可允許的最大范圍。
因平均誤差反映抽樣的可能誤差范圍,而實際上每次抽樣推斷中只抽一個樣本,因此實際上的抽樣誤差可能大于抽樣平均誤差,也可能小于抽樣平均誤差。誤差太大或太小都會給抽樣工作造成不利影響,因而在抽樣估計時,應根據研究對象的變異程度和分析任務的要求確定可允許誤差的范圍,這一允許范圍稱極限誤差。
2.抽樣誤差的概率度
把極限誤差?x或?p分別除以?x或?p得相對數t ,表示誤差范圍為抽樣平均誤差的t倍。t是測量估計可靠程度的一個參數,稱抽樣誤差的概率度。
t??x?x或t??p?p
3.抽樣極限誤差與概率度、抽樣平均誤差的關系。
抽樣極限誤差與概率度、抽樣平均誤差可以互相推算。即:
?x
?t.?x或
?p?t.?p
36
?x??x?p或?p?
tt以上公式展開以后可得到下面公式:
?x?t??2n 或
?x?t??2n(1?n)
N?p?t?p(1?p)n 或
?p?t?p(1?p)n(1?)
nN第三節 參數估計和樣本容量的確定
一、參數估計概述
在許多實際問題中,總體被理解為我們所研究的那個統計指標,它在一定范圍內取數值,而且是以一定的概率取各種數值的,從而形成一個概率分布,但是這個概率分布往往是未知的。例如為了制定綠色食品的有關規定,我們需要研究蔬菜中殘留農藥的分布狀況,對這個分布我們知之甚少,以致它屬于何種類型我們都不清楚。有時我們可以斷定分布的類型,例如在農民收入調查中,根據實際經驗和理論分析如概率論中的中心極限定理,我們斷定收入服從正態分布,但分布中的參數取何值卻是未知的。這就導致統計估計問題。統計估計問題專門研究由樣本估計總體的未知分布或分布中的未知參數。直接對總體的未知分布進行估計的問題稱為非參數估計;當總體分布類型已知,僅需對分布的未知參數進行估計的問題稱為參數估計。本節我們研究參數估計問題。本節及以后假定抽樣方法為放回簡單隨機抽樣,樣本的每個分量都與總體同分布,它們之間相互獨立。
二、參數估計的基本方法
(一)估計量與估計值
1.參數估計就是用樣本統計量去估計總體參數
2.用來估計總體參數的統計量的名稱稱為估計量,如樣本均值、樣本比例、樣本方差等都可以是一個估計量。
3.估計量的具體數值稱為估計值
(二)點估計與區間估計
參數估計方法有點估計與區間估計兩種方法。
1.參數估計的點估計法
(1)設總體X的分布類型已知,但包含有未知參數?,從總體中抽取一個簡單隨機樣本(X1,X2,對總體未知參數?進行估計。構造一個適當的統計量
,Xn),欲利用樣本提供的信息???T(X1,X2,,Xn)
?為未知參數?的點估計量(Point estimate)作為?的估計,稱?。當有了一個具體的樣本觀察值(x1,x2,到估計量的一個具體觀察值T,xn)后,將其代入估計量中就得(x1,x2,,xn),稱為參數?的一個點估計值。今后點估計量和點估計值這兩個名詞將不強調它們的區別,通稱為點估計,根據上下文不難知道此處的點估計究竟是點估計量還是點估計值。
通俗地說,用樣本估計量的值直接作為總體參數的估計值稱為點估計。
常用的點估計量有:2、估計的評價標準:
??X?
p?P
??s2???2?(X?X)n?12
?(1)無偏性: 設??T(X1,X2,,Xn)是未知參數?的一個點估計量,若??滿足
E????
即估計量的數學期望等于被估計參數
?是?的無偏估計量(Unbiad estimate)則稱?,否則稱為有偏估計量。
37
?是樣本(X,X,需要注意的是,由于估計量?12的概率分布求平均。
?求平均是按樣本(X,X,,Xn)的函數,樣本量是n維隨機變量,所以對?12,Xn)無偏性是我們衡量點估計量好壞的一個評價標準,這個評價標準的直觀意義如下。由于樣本的出現帶有隨機性,所以基于一次具體抽樣所得的參數估計值未必等于參數真值,這是由樣本的隨機性造成的。我們希望當大量使用這個估計量對參數進行估計時,一系列估計值的平均值應該與待估參數真值相等。這就從平均效果上對估計量的優劣給出一個評價標準。
?(2)有效性:設?1取值有
?T1(X1,X2,??T(X1,X2,,Xn),?22,Xn)均為未知參數?的無偏估計量,如果對參數?的一切可能?)?Var(??)
Var(?12?比??有效(Efficiency)且嚴格不等號至少對參數?的某個可能值成立,則稱無偏估計量?。
12一個無偏估計量并不意味著他就非常接近被估計的參數,他還必須與總體參數的離散程度比較小。對同一總體參數的兩個無偏點估計量,方差小者更有效。
(3)一次性:設對容量為n的樣本(X1,X2,意?>0,
??T(X1,X2,,Xn),?nn,Xn)是參數?的一個估計量,n?1,2,若對任limP???n??n????1
?則稱????是?的一個一致的估計量序列,或稱此估計量序列????具有一致性。
nn隨著樣本容量的增大,點估計量的值越來越接近總體參數
2.參數估計的區間估計法
在參數估計中,雖然點估計可以給出未知參數的一個估計,但不能給出估計的精度。為此人們希望利用樣本給出一個范圍,要求它以足夠大的概率包含待估參數真值。這就是導致區間估計(Interval estimation)問題。
所謂區間估計,就是估計總體參數的區間范圍,并要求給出區間估計成立的概率值。
設?是未知參數,(X1,X2,??T(X1,X2,,Xn)是來自總體的樣本,構造兩個統計量?11滿足
??T(X1,X2,,Xn),?22,Xn),?、??對于給定的?(0<?<1),若?12?P??1?
???2??
?1??
?,??]是參數?的置信水平(Confidence level)為1??的置信區間(Confidence interval),
1??稱為[??,則稱隨機區間[?121。
??2]的置信度,??1,??2稱為置信限(Confidence limit)這里有幾點需要說明:
?,??]的端點??,??及長度??-??都是樣本的函數,從而都是隨機變量,因此[??,??]是一個隨機區間。 (1)區間[?12122112(2)P????
????12?
?1??是說隨機區間?,??]以1??的概率包含未知參數真值,區間長度??-??描述估計的精度,[?1221?]包含?的,?2置信水平1??描述了估計的可靠度。
?,??]的概率是1??,而應是隨機區間[??(3)因為未知參數?是非隨機變量,所以不能說?落入區間[?121概率是1??。
通俗地說,在點估計的基礎上,給出總體參數的一個范圍稱為區間估計。
三、總體均值的區間估計
(一)正態總體且方差已知;或非正態總體、方差未知、大樣本情況下
38
在這種情況下,樣本均值的抽樣分布呈正態分布,其數學期望為總體均值?,方差為信水平下的置信區間。
設樣本(X1,X2,?2n。則X?Z??2?n稱為總體均值在1??置,Xn)來自正態總體N(?,?x),?是總體均值,當?x22已知時數理統計證明X服從正態分布N(?,?2n),從而X??服從標準正態分布N(0,1),對給定的置信度1??查N(0,1)表可得Z?n?2,使得
???X???P??Z???1??
??n?2??從而有
????P?X?Z????X?Z???1??
22nn??取
?1?X?Z??則
?n2?2?X?Z?,??n2
?1,??2?即是?的置信水平為1??的置信區間。
??[例6.5]保險公司從投保人中隨機抽取36人,計算得36人的平均年齡X?39.5歲,已知投保人平均年齡近似服從正態分布,標準差為7.2歲,試求全體投保人平均年齡的置信水平為99%的置信區間。
解:1???0.99,??0.01,查N(0,1)表得Z??2.575
2X?Z??n2?39.5?2.575?7.2?36.41
367.2?42.59
36X?Z??n2?39.5?2.575?故全體投保人平均年齡的置信水平為99%的置信區間為[36.41,42.59]
在不重復抽樣條件下,置信區間為:
X?Z??2?nN?nN?1 (6.17)
[例6.6]一家食品公司,每天大約生產袋裝食品若干,按規定每袋的重量應為100g。為對產品質量進行檢測,該企業質檢部門采用抽樣技術,每天抽取一定數量的食品,以分析每袋重量是否符合質量要求。現從某一天生產的一批食品8000袋中隨機抽取了25袋(不重復抽樣),測得它們的重量如表6.3所示。
表6.3 25袋食品重量
已知產品重量服從正態分布,且總體方差為100g。試估計該批產品平均重量的置信區間,置信水平為95%。
39
解:已知?=100g,n=25,1??=95%,Z2?2=1.96
根據樣本資料,計算的樣本均值為:
X??x?2634?105.36
n25根據(6.17)式得
X?Z???N?n2nN?1=105.36±1.96×10025×8000?258000?1
即105.36±3.914115=(101.4459, 109.2741),該批產品平均重量在95%置信水平下的置信區間為:101.4459~109.2741。
若總體方差?2未知,可用樣本方差S2代替
[例6.7]承[例6.5]假定保險公司從投保人中隨機抽取36人,得到他們的年齡數據如表6.4所示。
表6.4 36名投保人的年齡
若總體方差未知,試建立投保人年齡90%的置信區間。
解:已知n=36,1??=90%,Z?22=1.645,由于總體方差?未知,但為大樣本,故可用樣本方差代替。
根據樣本資料計算的樣本均值和樣本標準差為:
?x2X??1422?39.5
s??(x?x)n36n?1?7.77
(樣本均值和樣本標準差的計算,也可直接通過Excel軟件中的描述統計功能計算,計算結果如圖6.3所示)
圖6.3 描述統計運行結果
40
則置信區間為:
X?Z??2s7.77?39.5?1.645?
n36即39.5±2.13=(37.37,41.63),投保人平均年齡在90%的置信水平下的置信區間為37.37歲~41.63歲。
(二)正態總體、方差未知、小樣本情況下
如果總體服從正態分布,無論樣本容量大小,樣本均值的抽樣分布都服從正態分布。只要總體方差已知,即使在小樣本情況下,也可以計算總體均值的置信區間。如果總體方差?2未知,需用樣本方差S2代替,在小樣本情況下,應用t分布來建立總體均值的置信區間。
t分布是類似正態分布的一種對稱分布,他通常要比正態分布平坦和分散。隨著自由度的增大,t分布逐漸趨于正態分布。
正態總體、方差未知、小樣本情況下,總體均值在1??置信水平下的置信區間為:
X?ts?2?n (重復抽樣條件下) (6.18)
X?tsN?n?2?nN?1 (不重復抽樣條件下) (6.19)
其中t?(n?1)為t分布臨界值,可以查t分布臨界值表得到,也可由Excel計算得到。
2Excel計算,可使用粘貼函數 “Tinv”完成。操作步驟依次為:Tinv→?→df→確定
[例6.8]已知某種電子元件的壽命服從正態分布,現從一批電子元件中隨機抽取16只,測得其壽命如圖6.4中的原始數據部分。
圖6.4 16只電子元件壽命原始數據及描述統計部分結果
試建立該批電子元件使用壽命95%的置信區間。
根據樣本資料計算的樣本均值和樣本標準差為:
?x2X?n?2384016?1490
s??(x?x)n?1?24.77
(樣本均值和樣本標準差的計算,也可直接通過Excel軟件中的描述統計功能計算,計算結果如圖6.4所示)
由1??=95%知,t?(n?1)=t0.025(15)=2.131
2則該批電子元件平均使用壽命95%的置信區間為:
X?t??s2n?1490?2.131?24.7716
即1490?13.2=(1476.8,1503.2),該批電子元件平均使用壽命在95%的置信水平下的置信區間為1476.8小時~1503.2小時。
41
現將總體均值的區間估計總結如表6.5所示.
表6.5 不同情況下總體均值的區間估計
四、總體比例的區間估計
在大樣本(一般經驗規則:np明如下結論:
置信水平為1??的置信區間為:
?5和n(1?p)?5)條件下,樣本比例的抽樣分布可用正態分布近似。在這種情況下,數理統計已經證p?Z??2p(1?p)n (重復抽樣)
p?Z??2p(1?p)N?n() (不重復抽樣)
nN?1[例6.9]某城市想要估計下崗職工中女性所占的比例,采取重復抽樣方法隨機抽取了100名下崗職工,其中65人為女性。試以95%的置信水平估計該城市下崗職工中女性所占比例的置信區間。
解:已知n?100,z?根據公式得:
2?1.96,p?65?65%
100p?Z??2p(1?p)65%?(1?65%)?65%?1.96?n100
即65%±9.35%=(55.65%,74.35%),95%的置信水平下估計該城市下崗職工中女性所占比例的置信區間為55.65%~74.35%。
[例6.10]某企業共有職工1000人,企業準備實行一項改革,在職工中征求意見,采用不重復抽樣方法,隨機抽取200人作為樣本,調查結果顯示,由150人表示贊成這項改革,有50人表示反對。試以95%的置信水平確定贊成改革的人數比例的置信區間。
解:已知n?200,z?根據公式得:
2?1.96,p?150?75%
200p?Z??2p(1?p)N?n()
nN?175%(1?75%)1000?200()
2001000?175%?1.96?即75%±5.37%=(69.63%,80.37%),95%的置信水平下估計贊成改革的人數比例的置信區間為69.63%~80.37%。
五 、 樣本容量的確定
(一)影響樣本容量的因素
在抽取樣本時樣本容量應多大是一個很實際的問題。樣本容量取得比較大,收集的信息就比較多,從而估計精度比較高,但進行觀測所投
42
入的費用、人力及時間就比較多;樣本容量取得比較小,則投入的費用、人力及時間就比較少,但收集的信息也比較少,從而估計精度比較低。這說明精度和費用對樣本量的影響是矛盾的,不存在既使精度最高又使費用最省的樣本量。一個常用的準則是在使精度得到保證的前提下尋求使費用最省的樣本量。由于費用通常是樣本量的正向線性函數,故使費用最省的樣本量也就是使精度得到保證的最小樣本量。
(二)估計總體均值時樣本容量的確定
在簡單隨機重復抽樣下,設樣本(X1,X2,,Xn)來自正態總體N(?,?x2),總體均值?的點估計為樣本均值X。如果要求以X估計?時的絕對誤差為Δ,可靠度為1??,即要求
PX?????1??
由
???X???P??z???1??
2??/n?知
???P?X???z???1??
2n??故只要需取絕對誤差
??z?從而解得
n??n
222z??2?2(重復抽樣條件下)
同理,在簡單隨機不重復抽樣條件下,我們可以得出估計總體均值時樣本容量的計算公式為:
n?22Nz??2N??z??2222(不重復抽樣條件下)
[例6.12] 在某企業中采用簡單隨機抽樣調查職工月平均獎金額,設職工月獎金額服從標準差為10元的正態分布,要求估計的絕對誤差為3元,可靠度為95%,試問應抽多少職工?
解:已知??10??31???0.95n?22z??2z??1.96則
2?21.962?102??42.68?43
23即需抽取43名職工作為樣本進行調查。
(三)估計總體比例時樣本大小的確定
在簡單隨機重復抽樣條件下,估計總體比例時,我們可以定義絕對誤差d為:
??Z?從而得到樣本容量:
n2p(1?p)n
?Z?2P(1?P)2?P2(重復抽樣條件下) (6.25)
同理,在簡單隨機不重復抽樣條件下,我們可以得出估計總體比例時樣本容量的計算公式為:
43
n?NZ?2P(1?P)2N?P?Z?2P(1?P)22(不重復抽樣條件下) (6.26)
[例6.13]根據以往的生產統計,某種產品的合格率為90%,現要求絕對誤差為5%,在置信水平為95%的置信區間時,應抽取多少個產品作為樣本?
已知,P?90%
?P?5%
Z??1.96
2Z?2P(1?P)1.962?0.9?(1?0.9)?139 則n?2=0.052?P2
本章難點
1、如何理解抽樣估計的基本理論;
2、抽樣誤差的含義與計算方法;
3、不同類型總體的參數區間估計問題。
復習思考題
1、什么是抽樣估計,抽樣估計的基本方法有哪些?
2、在抽樣估計中,為什么說準確性的要求和可靠性的要求是一對矛盾,在實際估計中又如何解決這對矛盾?
3、抽樣估計的優良標準是什么?
4、什么是抽樣平均誤差、抽樣極限誤差,兩者在抽樣估計中發揮什么作用?
5、類型抽樣中的分組和整群抽樣中的分群有什么不同意義和不同要求?
6、為什么說對總體指標的區間估計只能是一種可能范圍估算,而不是絕對范圍估算?
第五章 假設檢驗
(一)教學目的
假設檢驗是抽樣推斷的繼續和必要補充,在推斷統計中起重要作用。了解假設檢驗的基本思想,掌握檢驗的步驟,學會對總體均值和總體比例的假設檢驗。
(二)基本要求
要求掌握假設檢驗的基本思路,區分假設檢驗中的兩類錯誤,學會對總體參數進行假設檢驗。
(三)教學要點
1、假設檢驗的基本思想;
2、假設檢驗的基本概念及步驟;
3、不同總體的各種參數的假設檢驗。
(四)教學時數
3——5課時
(五)教學內容
本章共分二節
第一節 假設檢驗概述
一、假設檢驗的基本思想
1、小概率原理
如果對總體的某種假設是真實的,那么不利于或不能支持這一假設的事件A(小概率事件)在一次試驗中幾乎不可能發生的;要是在一次試驗中A竟然發生了,就有理由懷疑該假設的真實性,拒絕這一假設。
總 體 樣 本
抽樣
(某種假設) 觀察結果
檢驗
44
(接受) (拒絕)
小概率事件 小概率事
未 發 生 件 發 生
2、假設的形式
H0——原假設, H1——備擇假設
雙尾檢驗:H0:μ=μ0 , H1:μ≠μ0
單尾檢驗:H0:μ≥μ0 , H1:μ<μ0
H0:μ≤μ0 , H1:μ>μ0
假設檢驗就是根據樣本觀察結果對原假設(H0)進行檢驗,接受H0,就否定H1;拒絕H0,就接受H1。
二、假設檢驗規則與兩類錯誤
1、確定檢驗規則
檢驗過程是比較樣本觀察結果與總體假設的差異。差異顯著,超過了臨界點,拒絕H0;反之,差異不顯著,接受H0。
差 異
臨界點
c
c
判 斷
拒絕H0
接受H0
|X??0|?|X??0|< 怎樣確定c?
2、兩類錯誤
接受或拒絕H0,都可能犯錯誤
I類錯誤——棄真錯誤,發生的概率為α
II類錯誤——取偽錯誤,發生的概率為β
檢驗決策
拒絕H0
接受H0
α大β就小,α小β就大
基本原則:力求在控制α前提下減少β
α——顯著性水平,取值:0.1, 0.05, 0.001, 等。如果犯I類錯誤損失更大,為減少損失,α值取小;如果犯II類錯誤損失更大,α值取大。
確定α,就確定了臨界點c。
①設有總體:X~N(?,?2xH0為真
犯I類錯誤(α)
正確
H0非真
正確
犯II類錯誤(β)
),σ已知。
2
45
2②隨機抽樣:樣本均值
X??。
X~N(?,?n)③
X標準化:
Z??。n
0~N(0,1)④確定α值,
拒絕域
接受域
拒絕域
⑤查概率表,
??22 知臨界值
|Z?|2⑥計算Z值,作出判斷。
?ZZ
?Z?
20
2
三、假設檢驗的一般步驟
(1)
建立總體假設
H0,H1
(2) (3) (4)
抽樣得到樣 選擇統計量 根據具體決策
本觀察值 確定H0為真 要求確定α
(6) 時的抽樣分布 (5)
計算檢驗統計量 確定分布上的臨界
的數值 點C和檢驗規則
(7)
比較并作出檢驗判斷
46
第二節 總體均值、比例和方差的假設檢驗
一、總體均值的檢驗
類型 條 件 檢驗統計量 H0、H1 拒絕域
正態總體
x(1) H0:μ=μ0
?Z????0σ2已知
?n22 H1:μ≠μ0
0
Z
(2) H0:μ≤μ0
α
I H1:μ>μ0
0 Z
Zα
(3) H0:μ≥μ0
α
H1:μ<μ0
0
Z
-Zα
正態總體σ2未知
?t?x??0(1) H0:μ=μ0
?22(n<30)
Sn H1:μ≠μ0
?t?t
20
t?2(2) H0:μ≤μ0
α
II H1:μ>μ0
0
tt
α
(3) H0:μ≥μ0
α
H1:μ<μ0
-t0
t
α
非正態總體n≥30 (1) H??Z?x??00:μ=μ0
22σ2已知或未知
?n H1:μ≠μ0
?Z??Z
Z?x??0
20
Z2Sn(2) H0:μ≥μ0
α
III H1:μ>μ0
0
Z
Zα
(3) H0:μ≥μ0
α
H1:μ<μ0
-Z0
Z
α
47
二、總體成數的檢驗
條 件
np≥5
nq≥5
檢驗統計量 H0、H1
(1) H0:P=P0
H1:P≠P0
拒絕域
(2) H0:P≤P0
1.
Z?P?pp(1?p)n?2?Z?2?20
Z?2Z
α
H1:P>P0
(P)
Z
0
Zα
(3) H0:P≥P0
α
H1:P<P0
-Zα
0
Z
n1p1≥5 (1) H??0:P1=P2
Z?P?1?P?222n1q1≥5
P?q?P?q? H1:P1≠P2
?Z?Z?Z
n2p2≥5
2n?
0
2n1n22q2≥5
(2) H0:P1≤P2
?2.
P??n1P?21?n2P?2 H1:P1>P2
(P1-P2)
n1?n2
0
Zα
Z
(3) H0:P1≥P2
Hα
1:P1<P2
-ZZ
α
0
第三節 假設檢驗中的其他問題
一、利用置信區間進行假設檢驗
(一)、雙側檢驗
1.求出雙側檢驗均值的置信區間
?2已知時:???x?z????2n,x?z?2n??
?2未知時:??x?tss??n?11?2n,x?t?n?2n?
?2.若總體的假設值?0在置信區間外,拒絕H0
(二)左側檢驗
48
1.求出單邊置信下限
x?z??n或x?t?sn?1n
2. 若總體的假設值?0小于單邊置信下限,拒絕H0
(三)、右側檢驗
1.求出單邊置信下限
x?z??n或x?t?sn?1n
2.若總體的假設值?0大于單邊置信下限,拒絕H0
本章的重點
1、假設檢驗的基本思想;
2、不同總體的各種參數的假設檢驗。
復習思考題
1、抽樣推斷與假設檢驗是一回事嗎?若不是,兩者關系如何?
2、什么是零假設,零假設與備擇假設有什么不同?
3、第一類錯誤與第二類錯誤有何不同?
4、如果“總體均值等于4”的零假設在研究過程中被錯誤地拒絕了,請問這是犯了第幾類錯誤?
第六章 方差分析
(一)教學目的
通過本章的學習使學生掌握方差分析的基本方法
(二)基本要求
要求了解方差分析的基本概念,掌握方差分解的思想,學會單因素方差分析的方法及檢驗。
(三)教學要點
1、方差分析的基本概念;
2、方差的分解及檢驗統計量;
3、單因素條件下離差平方和的分解及因素作用的檢驗;
(四)教學時數
3——4課時
(五)教學內容
本章共分二節:
第一節 方差分析的基本問題
一、方差分析問題的提出
在生產實踐、科學實驗及經濟工作中,經常遇到這樣的問題:影響產品產量、質量、經濟指標的因素往往很多。例如影響農作物產量的因素有種子、肥料、土質、水分、氣候等等;影響產品銷售的因素有廣告、款式、包裝、顏色、人口、收入等等。有的因素影響較大,有的因素影響較小,我們需要了解在諸多因素中哪些因素影響顯著。因此,我們需要進行試驗,然后對試驗結果進行處理和分析。
例1 小麥品種比較試驗
在氣候、水利、土質、肥料和管理等條件基本相同時,進行小麥品種比較試驗。有5個小麥品種,考察小麥品種對產量的影響作用,從中挑選優良品種。若小麥品種這個因素對產量沒有影響,則各品種下的平均小麥產量應該沒有顯著差異。若通過分析發現各品種下的平均小麥產量差
49
本文發布于:2023-12-29 07:41:37,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/170380689744945.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:統計學教案.doc
本文 PDF 下載地址:統計學教案.pdf
| 留言與評論(共有 0 條評論) |