現代教育研究社有限公司

學與教資源中心
L & T Resources

現代教育通訊
MERS Bulletin

現代教育通訊 78期

前期教訊：

第78期《現代教育通訊》：從評估的詞彙和功能反思

本期教訊目錄

從評估的詞彙和功能反思

◎

顏明仁博士
香港教育學院課程與教學學系講師

前人作業，但後人承擔後果的新學位分配評估辦法，是公平和公義嗎？

中一入學前香港學科測驗用作中學學位分配調整機制
教育統籌局通告第 3/2006 號〈修訂後的中學學位分配辦法〉指出，由 2005/2007 派位年度（2007 年中學學位分配辦法）正式實施新的中學學位分配。這將影響 2007 年 9 月及以後入讀中一的學生。通告內容指出，中學學位分配在自行分配學位方面，每所中學自行分配學位的最高比例增加至30%，學生則可以向全港任何兩所參加中學學位分配辦法的中學提出申請，並只須向教統局表明選校次序，而學校不得另外要求申請學生提供坊間公開考試的成績作為甄選的參考。當中在調整機制上改變最大的，是把現有的「中一入學前香港學科測驗」（「中一入學前測驗」）改作為調整工具。即教統局會隔年抽取測驗的成績樣本，並以最近兩次抽樣所得的平均成績，調整來屆升中學生的校內成績（即學生在小五下學期及小六上、下學期的校內成績）。而無「往績可尋」的新校，則以該校所屬學校網內所有小學在該年度「中一入學前測驗」的平均成績作為調整工具。

通告指出 2006 年進行的「中一入學前測驗」將首次在 2007 年中學學位分配辦法中用作調整工具。在未有第二次「中一入學前測驗」抽樣成績前，2006 年「中一入學前測驗」及 1999/2000 學年「學能測驗」的平均成績，將用作調整 2007 年 9 月升讀中一的學生在小學的校內成績。而把評估目的和作用改為調整工具的首次「中一入學前測驗」將於2006年7月18日上午舉行。香港的中小學教師信必嚴陣以待，小學教師必會三令五申，要求他們的小六學生，全力以付，「為爭取中學學位」努力（問題是依據這考試而得的中學學位，是考生自己？還是別人的？）。

讀者必然發覺我在文中把兩處文字特別標示出來，以及在上段最後用問句收結，是有甚麼緣機呢？就且看下文的解說吧！

評估相關詞彙的意義是甚麼？
評估和教學是難以分開的。教學工作必然觸及評估的工作，因為教師的工作是促進學生進行學習，因為學習才是學校教育的核心事務工作。教學目的、教學方法、教學策略、以至評估（Assessment）等工作，都是教師必要面對和處理的問題。在探討和評估有關的課題當中，我必要承認，教師的日常工作，不論喜愛測驗與否，都要為學生打分評等第，教師往往都必須處理有關評估與評鑑（Evaluation）的話題，當中涉及評估相關的定義（Definitions）、目的（Purposes）、原理（Principles）、策略（Strategies）等等。在本文，我只選取評估的基本概念和其功用來回應題目。

對教師來說，接觸的評估術語總離不開「測驗（Test）、考試（Examination），小測（Quiz）、周測、月測、段考、期考、入學試、畢業試、量或考或評（Assess），測量、打分、評等、檢定、或鑑定」……等等用詞。當中，教師最應該掌握的或許是「考試和測驗」，因為大多數人都把評估和測驗和考試聯想在一起，這是由於長久以來使用標準化測驗作為評估的結果，把學生比較。

測驗和考試兩者，從狹義來說包括兩點：
1. 學校考核學生學業成績的制度；
2. 是檢查學生學習情況和教學效果的方法。

在廣義來說，考試和測驗是使用一定的標準和辦法的制度，用來檢驗教師的教學方法是否有效，以及檢視學生的學習是否理想的一種制度。台灣的學者王文中（2004）便認為考試是指教師針對學生學習，所進行的小考、段考，形式可以是紙筆、口試、資料審查、認知能力等。

測驗，在英文的用詞則為 Test 和 Testing。Test 就是材料或工具，如智力測驗、成就測驗（Hart, 1994；王文中，2004）。Testing 為動名詞，是指在特定時間內要求受測者自己完成一系列問題的回答。而測驗的形式與內容皆已事先建構清楚，每個受測者的測驗情境也力求一致，由此蒐集得到資料。測驗本身強調過程，如測驗材料的編制、施測、解釋分數。可見測驗對應的是考核標準。為了保障此標準的客觀性，考核的進行有指定時間、特定問題、形式一致、情境相同、固定答案、唯一的評分指標等。

測量（Measurement）是指根據某種測驗工具，描述個體特質的過程（吳毓瑩，1996；王文中，2004）。測量對應的就是考核等第。為了保障此等第的可比較性，考核的答案，往往會以數字代表其主要特質、形成量化資料與數據。

另一方面，在中文詞彙而言，評估的說法也可以使用「評」來表達。如評論一詞可以是表示對於學習意義（例如針對動機引發、自我發現、思維刺激等）的看法。為了保障這種意義的顯現，考核的模式就較有彈性，會以文字描述、分析及詮釋有關考試過程的資料或數據。

評鑑（Evaluation）則是指針對蒐集到的評估資料（Assessment Information），進行價值判斷的過程（Doran, Lawrenz & Helgeson, 1994；王文中，2004），亦即品評的意思，利用分數或等級，並透過搜集、分類、排序等的途徑來標籤學生的成就。目的是以評估作為說明及報告的手段，令個別學生的表現，在外在標準或規準的規約下，明確地公諸於世。所對應的是較廣義的教育價值。為了保障此價值於不同程度的實現，會連繫較寬闊的考評資料，例如以測、量、評的結果，再配合現實環境或社會需要的考慮，而作出整體的價值判斷（吳毓瑩，1995；Airasian, 2005）。

Assessment 評估一辭出自法文「Assidere」，原意是「坐視」「To sit beside」而不是干預。從學習的角度，評估者只須旁觀學習者的學習經歷，而犯不著過分地作外在的干預。而所謂「評估」，最重要的是建立有效的架構、搜集有效的資料，以幫助學生、師長與家長了解和判斷學生的學習情況。亦是指經由不同測驗、觀察及其他的技術，蒐集學生知道甚麼以及學生能做什麼的資訊，包括：量的與質性的收集方法。

而收集資訊的方法有很多，例如：觀察學生的學習、考驗學生所獲得、測驗學生的知識技能。故教師要理解「評估是有兩個重要的意義，即其一是與教育目標掛鉤；其二是與學習過程掛鉤（黃麗芳，2005，頁7）」。讀者也必然察覺「Assessment」一詞於香港中譯可以為「評估或評核、評量、評價、考核……」等等，台灣則較多中譯為評量（王文中等，2004），內地則較多譯為評估或評鑑。再者，中文使用評估一詞，往往涉及用者身處的位置而有別，例如「評核」多由上級機構對下級使用，表示權威，得到他的「評」和「核准」，對教師而言，工作是通過考查，「估量」學生在學習上的表現，「估計」學生掌握的知識和確認學生仍然不知甚麼和不明白甚麼，用作教學和學習的補救，對教師而言，用以改進教師自己的教學也是重要。

與評估相關的術語，在香港流行的總不離開「考試」、「測驗」、「測量」、「評估」和「評鑑」……等等，而且使用並不嚴謹。在此我挑選了測驗、測量、評鑑和評估等四個術語，列表讓讀者辨別清楚（見表一）：

表一：評估術語的定義

術語	定義
測驗 Testing	測量某一樣本行為的工具或系統方法。一般來說，測驗在於回答與其他人比較時，在特定範疇，個人的表現如何？
測量 Measurement	根據某種標準規則，對量度對象的某種屬性，依實施測驗結果分派數字，用以表達考生對所測問題了解多少的一種工作歷程。一般來說，可以說是把學生的表現進行分類或量化，以量化方式加以描述的過程。回答有多少（How much？）提問。
評鑑 Evaluation	為了確定學生到達目標的程度，收集、分析和解釋資訊的系統過程。這涉及對所收集得的數據進行價值判斷，回答多好（How good？）的問題。
評估 Assessment	對學生學習成就的數據化過程，這涉及「收集學生學習表現的證據。這些證據包括學生在學習過程中，學習應用的共通能力、展現的學習態度和他們在學習後的成果（如：學到的知識／概念、解難能力或價值觀的改變）（教育署，2002，頁10）」等學習狀態。教師要對數據詮釋和描述，然後對學生進行判斷。在學校而言，往往是使用一套有系統的程序，用以確定學生與學校有關的問題。也可以說是用作顯示一個人知道甚麼以及能做甚麼而設計的一種活動，用以判定學生在一些教師關注的教育變量上的狀況。

故此，一個典型的評估定義可以是「評估是推論人的依據」（在這裡，「人」也可以指學生和學生的學習，或學校和學校的表現）。

總括而言，評估是一個整合學習資訊的過程，目的是幫助我們更容易理解和說明學生的學習、學校的成就，以及人在生活地區的種種表現。

然而，以上的說法，只不過是書生論政，仍不過是學者從有關評估的詞彙中做理解概念的工夫吧。在系統層面的「教育行政人員」，講的往往是追求實際，求一致，要求能以簡單數字表示現狀和可能的趨勢，以數字來理解和學習有關的問題，對學生施行統一的測驗就可以保障客觀性，讓考生在相同指定時間，回答特定相同問題，問題形式一致，有固定答案和唯一評分依據的測驗來選拔人才。

中一入學前香港學科測驗是甚麼和有何作用？
香港的學科測驗是由前教育署的教育研究組前輩們創立及推廣，再由現在教統局的教育行政人員及教育研究僱員發展跟進。理論上，題目都經過嚴謹的試題構想、設計、分析和篩選，才形成評估工具。從性質上，它屬於成就測驗或學力測驗的類別，其目的在於測量學生在某學科經過學習後所獲得的知識、技能。測驗的題目視科目的不同性質、用途和記分標準而異。測驗方式可以綜合或是分科進行的。設計本意，並不是用來做篩選用途的。

由於參與這些測驗的學生數量頗多，決策者相信這些數據足以用來做選取人才的依據，理解這測驗及誰評分數往往是採取常模參照測驗（Norm-referenced Test, NRT）或叫作常模效標參照測驗的方式。用作評分等第時，可稱為常模參照評等第。它是依據測驗結果，以同級或設定的集體中的平均水準為參照點，亦即常模（Norm），而據此比較學生間之相對差異情形。例如學生A數學取得70百分等級（或利用標準分），即表明他在集體中有70%的人在他之下。這評估能夠區分學生的個別差異和相對位置水平，作為分班編組的依據。這也是中一入學前，中學教師同工，運用這學科測驗的理據。

現時，把中一入學前香港學校測驗用作中一學位分配的調整機制，乃建基於相信統計方法，以相關（Correlation）來支持由考生所作努力與其兩年後的學弟妹的能力有關，用作調整兩年後整所學校取得的中學不同組別名額，再依學生校內成績編成三組作學位分配。

評定成績時，使用的方式有兩類，即常態分配等第法和標準差法。常態分配等第法是把學生個人成績與集體比較。依常態分配比例定學生等第，例如五等第法，則把每等所佔人數比例為 A（7%），B（24%）、C（38%）、D（24%）、E（7%）等。標準差法是根據集體的平均數（Mean, M）與標準差（Standard Deviation, SD）或以上來定等第，如 M+1.5 以上定為 A，M+.05 至 M+1.5為 B，M ± 0.5 間定為 C，M - 0.5 至 M- 1.5 間定為 D，M-1.5 以下為 E，把學生編組。學生在不同學科的表現是可以存在差異的。究竟中學如何把學生分組，往往視乎個別學校的政策。而這種分組方式，與用來作調整機制的分組依據會有不同。

再者，對位處系統層面的決策者來說，他們極重視這些學科測驗的結果，因為他們相信常模為本的測驗成績能夠反映一個地區、一個城市或一個國家的整體學生的表現，通過學校數據累集，就可以得出全體學生學習能力表現的大圖像。

評估有甚麼功能？

普遍而言，評估會有九種功能（綜合自張景媛，1992，頁31；王孝玲，2004，頁23-27），即：

1.	檢查和鞏固學習──如在教學過程中，於初期，了解學生的起始行為，查清哪些學生潛力較大，適合超前學習，進行安置性（Placement）測驗，哪些學生基礎較弱，需要進行補救學習，進行準備性測驗。在教學進行期間，為了解學生對某單元教學內容掌握程度，進行形成性或進展性（Formative）測驗；或為了解學生學習中的缺點、錯誤及困難所在，以及採用何種補救措施，進行診斷（Diagnosis）測驗。在教學結束時，為了解學生能否達到課程要求，客觀評定學生的成績，進一步鞏固所學知識技能，於期末進行總結性（Summative）測驗，屬於評定學生的學習結果。
2.	辨別智愚
3.	選拔人才──例如美國大學的 SAT，考查學生的語文和數學能力，語文部分主要測量對字詞關係的理解能力，對閱讀材料的領會能力；數學部分主要對數學符號的理解能力及使用符號解決問題的能力。
4.	對比實驗——例如把合作學習和傳統的講授法，在教學法不同之外，其他條件盡量相等下，進行成就測驗。
5.	考查學生學習努力程度——例如同時應用智力測驗和成就測驗，考查學生學習的努力程度。
6.	預測能力
7.	指導就業
8.	課程評價
9.	使教師了解教學的得失等等
現在，因應香港的應用，我還可以加入：
10.	派位依據

我在香港教育學院講授評估單元時，為方便學生理解，把功能歸成四類，即在教學、行政、輔導及處理學生學習成就這四方面的功能。例如：

一、教學上：
	1.	確定起點行為；
	2.	建立確實可行的教學目標；
	3.	了解教學目標達到的程度；
	4.	改進教學方法；
	5.	評定學生的學習水平。
二、行政上：
	1.	決定的功能；
	2.	安置的功能；
	3.	課程與教學計畫的功能。
三、輔導上：
	1.	協助學生瞭解自己；
	2.	診斷學習困難；
	3.	指導學生作最佳的選擇。
四、學生學習成就：
	1.	了解學生的潛能與學習成就，用以判斷學生所作努力的程度；
	2.	診斷學生學習的困難，做為補救教學及個別輔導的依據；
	3.	獲得學習進步的情況，進一步引發學生學習動機；
	4.	可幫助學生明瞭如何改變或發展自己的行為；
	5.	幫助學生記憶及學習遷移；
	6.	促進學生自我評估以求學習進步；
	7.	提供學生資料，作為進一步決定的基礎。新中一香港學科測驗的功能偏向行政吧！

反思：中一入學前香港學科測驗用作
分配調整機制和前人作業，後人承擔
利用中一入學前香港學科測驗成績作分配中一學位機制，對首批以至以後參加新派位的小六學生來說，我認為效用發生的時空是不恰當的，因為參加測試考生的「所作所為」，對自己所屬學校當年的整體升中學額沒有「即時的分派學位影響」。Brady & Kennedy（1999, p.144）在 Curriculum Construction 一書曾經指出評估的原理包括「評估是持續不斷，與教學及學習聯成整體；評估要變化多；評估要有效；評估必須包括學生；評估具診斷性；評估能對教師的決定作評價；評估與所處環境有關；評估要對持分者有意義」。前教育署（2002，頁10-11）的《校內成績評估指南》文件也指出：

「評估要促進學習和教學，在教學上，教師應以評估達至促進教學。教師就評估所得，了解學生的學習需要和進展；診斷學生的疑難；提供有效回饋；反思教學成效；因應學生的學習需要，調整教學內容，改善教學策略」。

我個人對這小六生參加的新中一入學前香港學科測驗成績改作調整機制，把診斷學生成績、用作安置性測驗的一種評估，改作檢視學生學習能力以外的派位依據，認為它是扭曲了評估目的。

當前香港的小六生在 2006 年七月便要參與新中一入學前香港學科測驗，他們取得的成績，除提供數據給中學的老師編班之餘，還對日後，同校的學弟學妹的出路有決定性影響。而這種影響，乃是建基於一種假設：「龍生龍、鳳生鳳」，「學生學業成就可以世襲」的想法。決策者以統計技巧支持自己的想法，他們相信在分派中學學位時，對一所學校的學生，只要看他們學校過往歷史中，能夠取得良好升中派位的小學學位名額及兩年前的考生成績，對這所學校未來的小學畢業生，也會有統計上的相關性，「公平地」分派升中機會。這種中學學位分配辦法對一所幾經努力，老師為改進教與學用心的小學，以至對小學生努力參加新中一入學前香港學科測驗取得的成績，對當前的考生自己是無用的，因為派位機制得到的中學學額，受兩年前的學兄學姊在調節試中的成績表現，影響整所小學取得的學位組別數目，當前的考生只是在同組（同校）中爭取派位機會的位置。這便出現一種前人作業，後人承受的現象，也出現一種「強校更強、弱校更弱」的兩極現狀，也未免使人質疑「教育改變命運」是否對付出努力的學生發生效用的質疑，似乎催生一種「宿命」觀，學生派位所得，皆因你的前學兄學姊所作的「因」，當前的考生受到「果」報。我預言小學為新中一入學前香港學科測驗，催谷學生多做補充習作和出版商為做生意多出教材的現象，必然出現。因為，在爭取派位機會上，大家都希望學生能夠取得好的中學學位，大家現時仍然相信，只要付出努力，就會取得回報。可惜，這種所謂回報，卻是「前人種樹、後人納涼」。聰明的學生、師長和家長，會不禁追問，為甚麼當前考生的個人努力，要由前人主宰。

在中學學位過剩，適齡學生日少的景況下，香港仍要為了分配中學學位，讓香港的小學生在十一、二歲仍要參加有高風險的公開考試（新中一編班學能測驗試），還是恰當嗎？對參與新中一入學前香港學科測驗的考生付出的努力，竟會影響他們的學弟學妹，這種承擔，對未成年的小六學生而言，實在是太過沉重了。老師也很為難，要怎樣向學生說，「你要全力以付，為自己的中學學位而努力」呢？因為我們從通告中，清楚明白得知，測驗成績是用來作為兩年後，他的同校學弟學妹派位調整使用，對他無關。教師要如何向自己的學生說，校長要如何向現行的家長解說，以至將來的小五小六學生家長說，你們的子女中學派位，調節機制是由他的學兄學姊兩年前的成績所決定？這種不公平不公義的任務，教統局的同工站在背後，面向學生和家長的工作，卻要由校長和老師承擔，真是……

參考資料

‧	Airasian, P. W. (2005). Classroom Assessment: Concepts and Applications, 5th ed., Boston: McGraw-Hill.
‧	Brady, L & Kennedy, K (1999). Curriculum Construction. New York: Prentice Hall. pp. 141-152.
‧	Doran, R.L., Lawrenz, F. & Helgeson, S.(1994). Research on assessment in science. In Gabel, D. L.(ed). Handbook of Research on Science Teaching and Learning A Project of the National Science Teachers Association. New York: Macmilan (p.388-442),
‧	Hart, D. (1994). Authentic Assessment: A Handbook for Education. California: Addison-Wesley.
‧	Popham, W. J.(2005). Classroom Assessment - What Teachers Need to Know. Boston: Pearson Allyn and Nacon.
‧	王文中（2004）。〈測驗與評估的意義與趨勢〉，載於王文中、呂金燮、吳毓瑩、張郁雯、張淑慧（2004）。《教育測驗與評量：教室學習觀點》。台北：五南圖書出版公司。
‧	王文中、呂金燮、吳毓瑩、張郁雯、張淑慧（2004）。《教育測驗與評量：教室學習觀點》。台北：五南圖書出版公司。
‧	王孝玲（2004）。《教育測量》修訂版。上海：華東師範大學出版社。
‧	吳毓瑩（1996）。量的蛻變與突破——從哲學思潮與效度理論思考起。《教育資料與研究》，13，2-15。
‧	張景媛（1992）。〈教學評量與教學輔導〉，刊於台灣國立師範大學（1992）。《教學評量研究》，第1版，頁31-42。台北：五南圖書出版公司。
‧	教育署（2002）。《校內成績評估指南》，香港：香港特別行政區政府，教育署學位分配組。
‧	黃麗芳（2005）。《香港高中視覺藝術學習成就評估架構研究-視覺藝術評估架構的建立》委託研究計劃報告。香港：香港特別行政區教育統籌局課程發展處藝術教育組。

本期教訊目錄