▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

GRE作文用AI打分20周年:給中國考生分數高于人類打分

2019-10-06 09:40
來源:澎湃新聞·澎湃號·湃客
字號

關注前沿科技 量子位 栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

GRE作文用了AI打分。

這原本不能算個新聞。

但由于美媒VICE發布的一項調查,這件事又成了熱烈討論的焦點。

VICE調查了美國的50個州,發現有至少21個州 (包括加州) 的教育系統,已經把AI當成作文打分的主要/第二主要工具,用在標準化考試里。

△ 藍=AI打分,淺藍=有試點,紅=無AI打分,桃紅=看學區,灰=未回應

這21個州里,只有3個州表示,人類也會參與作文打分;余下18個州,只會隨機抽出5%-20%的作文,交給人類復核一下AI給的成績。

問題是,標準化考試常常作為選拔依據,左右人類前途。AI打分的話,命運就在AI手里了。

這時,人們不免想起了GRE,這個20年前就開始用AI判作文的大前輩。

有有不少研究表明,包括GRE打分機器e-rater在內,許多AI評判文章的機制,都有明顯的缺陷。

不過經年累月,AI不但沒有被各種作文考試拋棄,反而越發受歡迎了。

于是,Hacker News網友開啟了激烈的討論,不到一日熱度便有了330+。 GRE:機器比人更偏愛中國考生

早在1999年,主辦GRE的美國教育考試服務中心 (ETS) ,就開始用e-rater給作文打分了。

跟據官方信息,這個自然語言處理 (NLP) 模型,評分標準有以下8條:

· 基于詞匯考量的內容分析 (Content Analysis Based on Vocabulary Measures)

· 詞匯復雜度/措辭 (Lexical Comlexity/Diction)

· 語法錯誤比例 (Proportion of Grammar Errors)

· 用法錯誤比例 (Proportion of Usage Errors)

· 機械錯誤比例 (Proportion of Mechanics Errors)

指拼寫錯、大小寫錯、標點錯等等技術問題。

· 風格評論比例 (Proportion of Style Comments)

比如,某個短語出現過多,太短的句子過多,太長的句子過多等等。

· 文章組織和發展分 (Organization and Development Scores)

· 地道用語 (Features Rewarding Idiomatic Phraseology)

當然,這只AI不止服務GRE。至少,托福和GRE一樣,也是ETS出品的考試。

至于這套算法的缺陷都出在哪,ETS官方就做過不少研究,且從不避諱研究結果。

在1999、2004、2007、2008、2012和2018年的作文里,都能發現AI給中國大陸考生的分數,普遍比人類打分要高。

相反,在非裔美國人身上,AI常常比人類給分要低。在母語是阿拉伯語、西班牙語和印地語的考生那里,也有相似的情況。即便團隊一直改進算法,也沒有消除這個問題。

ETS的一位高級研究員說:

如果我們想讓算法對某個國家的某個群體友好一些,那就很可能會傷害到其他群體了。

再進一步,分單項來觀察AI的打分情況。

會發現在全部考生里面,e-rater給中國大陸考生的語法 (Grammar) 和寫作技巧 (Mechanics) 分,整體偏低;

而在文章長度和復雜單詞的選用上,中國大陸考生的AI打分超過平均。最終,AI給大陸考生的總分,整體比人類打分更高。GRE作文滿分6分,AI比人類打分平均高出1.3分。

相比之下,在非裔美國人身上,AI比人類打分平均要低0.81分。以及,這只是平均數據,在許多考生那里,差異來得比這更劇烈。

不論是1.3還是0.81,在6分制的考試里都不是小數字,可能嚴重影響考生的成績。

不止如此,MIT的小伙伴們開發過一個叫BABEL的算法,把復雜的詞句拼貼在一起,得出的文章沒有任何實在的意義,卻被GRE的線上評分工具ScoreItNow!打出了4分的好成績。

但ETS說,AI不是單獨判卷,每篇AI打分的作文,都有一個人類同時打分。然后,把人機打分之間的差異,交給第二個人類去判斷,得出最終的分數。

所以,ETS認為考生并不會受到AI缺陷的不利影響。

不過對比一下,傳統方法是兩個人類同時給一篇文章打分;而當AI替代其中一人打分,相當于這個人的職責變成了復核。

成本大概下降了不少,對結果的影響有多大就很難說,至少打分機制和AI參與之前有差別了。

另外,AI的存在不止影響評分,也直接影響考生的應試策略。這些年,討好AI的攻略越來越多:

△來自ChaseDream論壇@竹林中人

還好,GRE有人類和AI一起打分。

可還有許多考試是直接交給AI判作文的: 不止GRE算法有問題

比如,VICE調查發現,猶他州把AI作為主要 (Primary) 作文評分工具,已經有些年頭了。

州內的一位官員解釋了原因:

手動打分除了耗費時間之外,也是本州一項重大開支。

所以,用AI來為寫作評分,在降低成本的同時,能不能做到公平公正?

美國研究協會 (American Institutes of Research,AIR) 是一間非盈利機構,也是猶他州最主要的考試提供方。

關于交給AI打分的是怎樣的題目,AIR給出了一個范本:

這道題目是,看到一張海牛圖像,考生要寫出一個觀察 (A) ,和一個推理 (B) 。

而AIR每年都會做出一份報告,評估一些新題目的公平性。

評估的一個重點就是:女生和少數族裔學生,在特定考題上,是不是比男性/白人的表現要差。這個指標叫做“差異試題功能 (DIF) ”。

報告顯示,2017-2018學年、三至八年級的寫作考題里,有348道題被判定為,對女生和少數族裔學生有輕微DIF;相比之下,對男生和白人學生有輕微DIF的題目有40道。

另外,還有3道題被判定為:對女生和少數族裔學生有嚴重DIF。這些題目會交由專門的委員會審核。

可能造成DIF的原因有多種,而算法偏見是大家最關心的因素。

一位來自猶他州的家長 (@dahart) ,占據了Hacker News討論版的頂樓。

他很不喜歡聽那些官員講“成本”。他覺得,教育本來就是費時費力的,不可能又快又便宜。

他說,孩子的作文是機器打分,全家不滿意AI給的分數,愛人和孩子都會哭。

One More Thing

當然,AI判作文也不止美國才有。

去年,《南華早報》說國內已經有6萬所學校靠AI批改作業,分布在全國各地。

其中,學生提交的英文作業,也是機器打分。作文批改系統來自酷句批改網,要理解文字的一般邏輯和意思,對作文的整體質量做出像人一樣合理的評判,還要在寫作風格、結構、主題等方面給出建議。

據說,AI和人類教師對一篇作文的評分,在92%的情況下是一致的。

但從評論來看,同學們也像美國的小伙伴一樣,受了不少委屈:

這樣的情感,還是不分國界的。

參考資料:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS發的許多NLP論文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

— 完 —

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 民丰县| 松桃| 临漳县| 克什克腾旗| 临沂市| 锦州市| 博白县| 石家庄市| 安阳县| 沙坪坝区| 保康县| 连平县| 阿拉善右旗| 富蕴县| 古交市| 皮山县| 云南省| 南投县| 房山区| 连城县| 东阿县| 信丰县| 丰城市| 枞阳县| 东海县| 阿鲁科尔沁旗| 建宁县| 青阳县| 如皋市| 获嘉县| 杭锦旗| 饶河县| 定襄县| 玛纳斯县| 石嘴山市| 安宁市| 威海市| 永和县| 泾源县| 仁化县| 临安市|