
人才評價結果的分析
首都經濟貿易大學經濟系2003級碩士研究生 郝兆麗
人們對人才測評的信任感是建立在一定的可靠性和有效性基礎之上的,作為評價體系的組成部分,對人才測評的信度和效度進行鑒定是正確解釋和應用測評結果的保證,它是對測評本身的測評,是對人才評價工作的評價。在實際的測驗編制過程中,為了改善和提高測驗的信度和效度,應對每個測題進行分析,這就是項目分析,主要包括難度分析和區分度分析。我們將在下面作詳細的介紹。
一、信度分析
(一)信度的基本概念
信度又叫可靠性程度,用于分析一種測評方法所得結果的前后一致性水平,并以這種一致性程度為指標來判斷測評的可靠性。測驗結果的可靠性與測驗結果受誤差影響的程度密切相關。在人才測評中誤差是不可避免的,我們只能盡可能追求高的精度,把誤差控制在一個有規律的X圍以內,這樣測量得到的結果才比較穩定可靠。信度實際上就是隨機誤差的一種度
量。
(二)信度系數與估計方法
一般條件下,信度指標都用信度系數的形式呈現。信度系數是同一樣本在兩種不同時間、不同情境條件或兩組不同評價材料評定結果之間的相關系數。針對不同的誤差來源,信度可以有不同的確定方法。一般有以下幾種類型:重測信度、復本信度、內部一致性信度、評分者信度。
1.重測信度
重測信度又稱為穩定性系數,它是估計測評跨時間的一致性程度,即用同一測驗,在兩個不同時間里對同一群體施測兩次,這兩次測驗分數的相關系數就是重測系數。一個測驗的重測系數越高,說明測評的穩定性越好,測評受隨機因素的影響越小。
重測信度所考察的誤差來源是時間的變化所帶來的隨機影響。在獲得重測系數時,最需要注意的是我們必須根據測驗的性質和目的來控制合理的時間間隔,這樣才有可能獲得較好的穩定系數。時間間隔長了,被試的心理特征就會因為學習、經歷、教育培訓等因素而發
展變化,使相關系數降低;時間間隔短了,又會使首次測評時的練習效果和記憶效果的影響增大,從而造成了假性的高相關。
2.復本信度
復本信度又稱為等值性系數,它是代表測評跨形式的一致性,即在對被試進行測評以后間隔一定的時間,運用復本再測評一次所獲得的復本相關系數。復本是指在內容、數量、格式、難度、平均數、標準差等各方面與原測評一樣的測評,即功能等值但題目內容不同。兩個等值的測驗互為復本。復本信度的高低反映了兩個測驗復本在內容上的等值性程度。
復本信度的優點在于適用于在長期追蹤研究或調查某些干涉變量對測驗成績影響,同時減少了輔導或作弊的可能性。當然,復本相關系數也有局限性。一方面,在現實中,編制理想的復本常常很難,有許多測評都沒有復本。另一方面,復本測評也會受練習的影響。
3.內部一致性信度
用重測相關系數和復本相關系數,都需測評兩次,不但要花較多的精力,而且受測者會受練習的影響使第二次測評失真。內部一致性系數則不同,它只需要測評一次,它通過分析
同一測評內部各測評項目之間的相關系數的方法來估計信度系數。內部一致性系數反映的是跨測題的一致性,即測評內部各部分之間是否具有同質性。內部一致性信度又分為分半信度、同質性信度和α系數。
(1)分半信度
獲得分半系數的方法是把一個測評分成兩個最為等值的兩半,并分別計算每位被試在兩半測驗上的得分,再求出這兩個分數的相關系數,從而來估計整個測評的信度。
因為分半系數只是根據原測題的一半題目而來,而信度的大小又與測驗的長度有關,所以分半系數常常要比原測驗的信度低。為了校正這個差異,常運用斯皮爾曼-布朗公式(Spearman-Brown Formula)。該公式可以估計增長或縮短一個測驗對其信度系數的影響,用此公式的前提條件是:兩半測驗的方差相等。
斯皮爾曼-布朗修正公式為:rxx=2rhh/(1+rhh)
其中,rhh:兩半測驗的相關系數;rxx:估計或修正后的信度。
當兩半測驗的方差不同時,應采用盧倫公式(Rulon Formula)或弗拉納根公式(Flanagan Formula)進行修正。
(2)同質性信度
同質性信度不需要把測評分為兩半,它是指測驗內部的各題目在多大程度上考察了同一內容。所謂的同質性是指所有的測驗題目測量的只是單一的特質或內容,表現為所有測驗題目得分的一致性。常用的計算方法是庫德-理查遜(Kuder-Richardson)估計方法 。計算公式有庫德-理查遜20號公式(簡稱KR20)和21號公式(KR21)。下面是KR20公式:
n為測驗題目數,pi為通過i題的人數比例;qi為未通過該題的人數比例;pi+qi=1;∑piqi為所有題目答對與答錯人數百分比乘積的總和。
庫德-理查遜信度系數的運用需要滿足幾個條件:所有測題都采用二分法記分,即都采用0,1記分,答對記1分,答錯記0分;測驗的項目難度比較接近;項目間的組間相關相等。
(3)α系數
當測驗項目采用多重記分(如人格測驗、態度量表),庫德-理查遜信度就無法運用。克倫巴赫(Cronbach.L)提出了適用于各種記分情況的α系數來估計信度。具體公式如下:
其中,
為每一項目的方差;
為測驗總分方差。 4.評分者信度
在人事測評中,不同的評分者其觀察角度、注意力、對被試的偏見等都會使評分的結果不
一致,因此,評分者的評判也是誤差的來源之一。評分者信度就是指不同評分者對同樣對象進行評定的一致性。
具體方法是:由兩名評分者對同一個被試樣組進行評分,再求兩個評判分數的相關系數。這種相關系數的計算可以用積差相關方法,也可以采用斯皮爾曼等級相關方法。
如果評分者在三人以上,而且又采用等級記分時,就要用肯德爾和諧系數來求評分者信度。公式為:
其中,K為評分者人數,N為被評定的人數或答卷數; Ri為每一個對象被評等級。
(三)影響信度系數的因素
測驗的信度會受到各種因素的影響,在解釋信度系數是我們應充分考慮這些因素,在編制測驗和測驗的實施過程中要力圖避免它們。主要的影響因素有:測驗長度、測驗難度、樣本團體的性質。
1.測驗長度
在其他條件相等的情況下,測驗長度(題目的多少)越長,信度值越高。因為測驗越長,題目取樣或內容取樣就越充分,結果就越可靠,同時也避免猜測題目的影響。
2.測驗難度
測驗難度對信度也會產生影響。如果一個測驗的難度太低,大多數被試都可以輕而易舉地答對題目,測驗分數會非常集中并聚在高分端;如果測驗的難度太高,多數被試都只能憑猜測答題,所有分數都集中在低分端。這樣都會使測量到的分數分布太窄,導致信度降低。只有當難度水平適中,使得測驗分數分布X圍最大時,測驗的信度才會比較理想。
3.樣本團體的性質
一般而言,在其他條件不變的情況下,樣本團體的分數分布X圍越大,變異性越大,信度系數將越大。樣本團體的異質性越大,信度系數就越高。
二、效度
(一) 效度的含義
人事測量的效度就是指測量的有效性,即所采用的測評工具對其所要測評的特性測量到什么程度的估計。為了更好的理解效度的概念,有以下幾點需要注意,一是效度是針對測驗結果的。二是效度是針對某種特定的測評目的而存在的。三是效度是連續性的,是一個關于程度的估計。
我們在前面對信度進行分析時,只考慮了隨機誤差的影響;而在效度分析時將系統誤差也引入進來。原因就在于系統誤差是恒定的,所以不影響測驗的一致性,但卻影響測驗的準確性。信度高是效度高的必要條件,而不是充分條件。
(二)效度的類型與估計方法
我們一般把效度分為內容效度、構思效度和效標關聯效度三類,這三類效度是相互聯系的,一個好的測評通常可以用一種或一種以上的效度來表示。
1.內容效度
內容效度是檢查測驗內容是否是所欲測量的行為領域的代表性取樣的指標,即是說指標與標準是否符合該類人員的功能特征。要素的設計與標準的編制成為鑒定測評效度的內容。內容效度的估計方法有以下幾種:
(1)通過對照內容X圍來估計
我們通過考察測驗中包含的項目是否涵蓋了內容X圍來對內容效度加以檢驗。在具體的操作過程中,可以編制雙向細目表來確定項目的分配是否將主要問題都包含進去了。可以用內容效度比CVR來計算內容效度:
CVR=2(Ne-n/2)/N
其中,Ne為評判中認為某項目很好地表示了測量內容X疇的評判者人數,N為評判者總人
數。CVR的值從-1~1,-1表示所有人都認為內容不當,而1則表示了所有人都認為內容很好。
(2)評分者信度
計算兩個評分者之間評定的一致性,即評分者信度。通過此信度來說明內容效度。兩者的符合程度越高越能反映測驗的內容效度。
(3)統計分析
克倫巴赫提出內容效度可以通過計算被評估者在兩個獨立取自同樣內容X圍的測驗得分的相關來做數量上的估計。如果相關高,表明具有高的內容效度;如果相關低,表明兩者中至少有一個缺乏內容效度。
2.構思效度
構思效度是指測驗能夠測量到理論上的構思或特質的程度。所謂的構思是指一些抽象的假設性的概念、特性或變量。如智力、創造力、言語流暢性、焦慮、動機等。構思不能直接測量,需要借助一定的測評工具來反映。
構思效度的估計方法有許多,總的來說,可以分為測驗內部的方法和測驗間方法兩大類。
(1)測驗內部的方法
這種方法主要是通過研究測驗內部構造來分析測驗的構思效度。具體來說包括測驗內容效度、被評估者解答測題時的反應過程與因素分析法。
(2)測驗間方法
這一方法是同時考慮幾個測驗間的相關性,考察這些測驗是否在測量同一構思。這里主要介紹兩種常見的方法。
第一,相容效度 理論上測量相同構思的測驗,彼此之間應該有高相關。因此新測驗與原有的測驗間的相關,可以作為衡量新測驗所大致測量的相同行為的程度的標準。這種相關系數被稱為相容效度。
第二,聚合效度和辨別效度
聚合效度和辨別效度是由肯貝爾等人在1959年提出的。聚合效度是說如果兩個測驗是測量
同一特質的,即使使用不同的方法進行測量,它們之間的相關也應該是高的。辨別效度是說如果兩個測驗測量的是不同的特質,即使使用相同的方法進行測量,它們之間的相關也應該是低的。
3.效標關聯效度
效標關聯效度是以測評分數和效度準則之間的相關系數來表示測評效度的高低的,也就是測評分數對個體的效標行為表現進行預測的有效性程度。這里效標是指考察測驗效用的外在參照標準,是一種可以直接、獨立測量的行為。
通常情況下,對一般職工來講,其效標應為產量與質量;對于科技人員應以發明、創造與技術成果的數量和效益為效標;對管理人員應以工作效率、職工積極性調動程度和經濟效益為效標;對領導人員應以開發人才、開創局面和社會、經濟效益為效標。