數據異化,這樣練成

(2015年12月30日星期三)

美國近年的教育政策有兩重點:標準和考試。政策認為,只要訂定清晰的標準,學校自然會跟隨;又只要常測試,利用成績數據向學校問責,教育質素就有保證。這政策還副以賞罰,某校若合格人數不達標,學校就會放在「自新榜」(probation list) ,限時改善,仍不達標則殺校。

政策原意是幫助學校改進,但實行起來是何樣子,完全取決於個別學校的「處境」(organizational context)。學者 Diamond Cooper (2007) 在芝加哥對8所「高分」和「低分」小學進行詳細觀察,研究學校如何應用「數據」。

他們發現,只有在「高分」的學校,數據才真會用作檢討和改進教學。處於「低分」的學校,目標在於盡速提高合格率,脫離「自新榜」,避免殺校,只會利用數據找出著力點:強生自然會合格,因此不用多教;弱生怎也扶不上合格線,因此教不得,故焦點要放在合格線附近的中游學生 (這些學生被稱作「泡泡生」,bubble kids)。學校集中資源給他們進補,安排小班授課,個別跟進等,以確保他們合格,成績浮在泡泡之上。結果強生和弱生都被邊緣化。

「低分」學校還會把教學資源集中在3, 6, 8 年級的學生,因為官方規定,這三班學生要參加基準考試,不合格的強制留班。留班生多會被看作學校不濟的表現,故這三班是關口,必須守著。此外,統考只考語言和數學,因此要在這兩科駐重兵。不考的科目如科學、常識,可留待考完試才教。

不過,兩學者還發現,「低分」學校的學生多數來自貧窮家庭,少數族裔和弱勢社群。

參考資料:
Diamond, John B. & Kristy Cooper. (2007). “The Uses of Testing Data in Urban Elementary Schools: Some Lessons from Chicago.” pp. 241-263 in P. A. Moss (Ed.). Evidence and Decision Making. National Society for the Study of Education Yearbook. 106(1).

沒有操練誘因或壓力的NAEP

(2015年12月23日星期三)

在美國,對全國學生進行的系統評估是「國家教育進步評估」(National Assessment of Educational Progress,簡稱 NAEP)NAEP1969年舉行,覆蓋全國,長期測試每4年舉辦一次,測試9, 13, 17歲學生的數學和閱讀;州的主要測試隔年舉行,對象是4, 8, 12年級的學生,科目是數學、閱讀、科學、寫作;也有非主要科目測試,包括地理、公民、經濟、藝術、本國歷史。

NAEP看來完全符合香港教育局對 TSA 的期望:「唯一能提供客觀、具質量及全面數據的基本能力評估」,但NAEP卻沒有給學校操練的誘因或壓力。為甚麼呢?

原來NAEP是按人口和地區作比例對學校進行抽樣,抽中的學生也可能分發到不同科目、不同年級的考試;試題庫有不同年份不同年級的問題,各人的試卷不盡相同,但會有部份問題重疊,故每學生只需完成總體試題的一小部份,即可算出該生的成績和對應等級。在這些安排下,無人事前知道哪間學校、哪級學生會被抽中,抽中考哪一科,又題目眾多故無從備試;官方亦恪守原則,不收集可識別個別學生或個別學校的資料,更不會拿成績向個別學校跟進或問責。

每次測試完成後,即發出一張「國民成績表」(Nation’s Report Card),既開列不同年份的全國成績作縱向比較,也有州與州的、地區和地區的橫向比較;成績標準分兩種:標準分數 (scale scores),由 0500分,用來顯示按年成績的起落變化;等級 (achievement levels), 分優秀、熟練、基本合格、不合格四等。當然,某年某科哪個分數屬於哪個等級,是種主觀判斷,亦反映掌政者對學生成績期望的變化。


NAEP的網址:http://nces.ed.gov/nationsreportcard/about/

是教練還是球證?

(2015年12月16日星期三)

教育局稱TSA不能撤,原因是該試是唯一能提供客觀、具質量及全面數據的基本能力評估。但TSA題目越來越深,閱讀材料越來越長,「客觀」一詞從何而來?如果學生的分數是操練之功,怎談得上「具質量」測試的稱號?又所謂「基本能力」測試,其實只限中英數,學校為考試側重這三科而忽視其他方面的學習,得來的數據怎會是「全面」?

教育局又稱,TSA有助找出學生的問題,讓學校幫助學生打穩基礎。但請問證據何在?若真有找出學生問題,教育局又做過多少跟進工作?有何成效?香港的教與學如何因此得到改進?

TSA幫助找出問題讓學校改進的這種說法,聽來就好像是球隊的教練,要找出球員的缺點弱項進行訓練,為的是增強球隊的實力。但實況並非如此,過往十年學童人口下降,政府的政策是縮班殺校,官員或明或暗地拿TSA分數來質詢學校,大家都會察覺,TSA並不是教練,而是隨時會變身為舉紅牌驅逐球員的「球證」。今天經歷殺校潮刀下餘生的校長教師,試問誰能不奮進求存,爭取TSA好成績?教育總監校董校監們求面子的、求收生的,又豈會輕輕放過學校的TSA成績?

教育局最近向學校發通告,明令不可以TSA為名,要求學生補課或測驗,否則會向校監或校董會作出嚴正跟進云。這樣的通告有多少效力值得質疑,校監校董們總不能一方面拿TSA成績向校長施壓,另一方面又不批准補課測驗。

只要TSA的風險繼續存在,只要操練是致勝之道,人總會想出操練的辦法。

數字膜拜

(2015年12 月9日星期三)

教育局長吳克儉喜孜孜地稱,大學畢業後堅持每月看書或雜誌30本。稍作推算,一年就是360本,他畢業已40年,纍積14400本,果然是讀過萬卷書!

不過近日吳局長解釋說,30本的組成是24本雜誌,其餘是書籍或刊物,原來真正讀書的數量是06本!局長又曾說,坐飛機10多小時,已可以完成看10多本書。但讀過點書的人都知道,書有深淺厚薄,怎能以「本數」計?我曾上過中大張燦輝的課,一學期的海德格哲學,還讀不完《存在與時間》開頭的80頁呢!

當今是「數字膜拜」的年代,否則誰會用「數豆」(bean counting)的方式表達對讀書的愛好?書的數量就好像一把尺,一本一本的數,每月讀書30本的,排名(ranking) 自然優於讀029本的!

「數字膜拜」也跑進環球教育界,否則 TIMSS, PIRLS, PISA分數怎會成為一把「國際標準」尺,不但用作排名和區別教育制度的優劣,還成為各國教育政策追求的目標,尋找抄襲對象的指南?在這膜拜下,教育變成一種可標準化、固定、絕對、與本土歷史情景脈絡無關的東西。

就是因為對數字膜拜,所以要有一把便利的尺。達官貴人們竟充心相信一把TSA尺可用作長期的系統評估,大概是忘記了被評估的不只是「系統」,系統裡還有人,教育是件複雜的事。若知道評估結果還會用作在哪裡開刀,縮班殺校,誰能不想「耍弄系統」(game the system) ,爭取較佳的讀度?操練過後,懂得答題的不等於懂得,懂得的不懂得答題,把學生都弄成高分低能兒,你真相信這是成功的系統評估?

從「孟母三遷」談起

(2015年12月2日星期三)

今年文憑試中文科口試出題目「孟母三遷」,有考生作答時指孟母太溺愛子女,是怪獸家長表現。考評局報告以此為例,批評學生推論粗疏,信口開河。在此之前,2013年的考評報告亦曾批評學生運用成語和古語並不恰當,張冠李戴,例如考生把周星馳電影句寫成「古語有云:沒有夢想和鹹魚沒有分別」,以為是古語。

要學生學懂語文規範,明白和運用典故,固然很重要,上述例子的確顯示學生犯了錯誤,不過也有同情學生的看法:今天樓價高企,誰家母親可搬家3次?學生在急促的口試中想出這樣的答案,推論並不算粗疏;又生活裡有周星馳電影,夢想與鹹魚句雖非古語,亦算是積極的生活態度。

社會現實和潮流俗語影響學生學習規範語文,但考評局在2008年的會考中文卷,亦出現「見鬼勿O嘴,潛水怕屈機」的閱讀題目。這不但不是規範語文,還令不少考生一頭霧水,然考評局卻能解釋說:只要求考生分析潮語,而非使用它們。

考試就是這樣的一回事:主考和考生的權力並不對等。學生即使對試題產生疑問,也無法即時提出,只得猜估擬題者想要甚麼答案。猜不中者可能是不夠醒目,卻未必是欠缺「能力」。例如, TSA作業問:「老鼠為何認為鴕鳥沒英雄氣慨?」,答案為甚麼一定是「鴕鳥經常把頭埋在沙裡」?為甚麼陳家洛田北辰答「鴕鳥不敢面對自己的困難」還不可以?

出題目的、評卷的、提供標準答案的、撰寫考評報告的,宜多加思考注意。