ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

AI给中国考生的分数,远高于人类打分

2019-10-31 14:01:36  阅读:398  来源: 互联网

标签:分数 ETS AI 作文 GRE 考生 打分


有有不少研究表明,包括GRE打分机器e-rater在内,许多AI评判文章的机制,都有明显的缺陷。 不过经年累月,AI不但没有被各种作文考试抛弃,反而越发受欢迎了。

GRE:机器比人更偏爱中国考生

早在1999年,主办GRE的美国教育考试服务中心 (ETS) ,就开始用e-rater给作文打分了。 跟据官方信息,这个自然语言处理 (NLP) 模型,评分标准有以下8条:
· 基于词汇考量的内容分析 (Content Analysis Based on Vocabulary Measures) · 词汇复杂度/措辞 (Lexical Comlexity/Diction) · 语法错误比例 (Proportion of Grammar Errors) · 用法错误比例 (Proportion of Usage Errors) · 机械错误比例 (Proportion of Mechanics Errors) 指拼写错、大小写错、标点错等等技术问题。 · 风格评论比例 (Proportion of Style Comments) 比如,某个短语出现过多,太短的句子过多,太长的句子过多等等。 · 文章组织和发展分 (Organization and Development Scores) · 地道用语 (Features Rewarding Idiomatic Phraseology)
当然,这只AI不止服务GRE。至少,托福和GRE一样,也是ETS出品的考试。 至于这套算法的缺陷都出在哪,ETS官方就做过不少研究,且从不避讳研究结果。 在1999、2004、2007、2008、2012和2018年的作文里,都能发现AI给中国大陆考生的分数,普遍比人类打分要高。 相反,在非裔美国人身上,AI常常比人类给分要低。在母语是阿拉伯语、西班牙语和印地语的考生那里,也有相似的情况。即便团队一直改进算法,也没有消除这个问题。 ETS的一位高级研究员说:
如果我们想让算法对某个国家的某个群体友好一些,那就很可能会伤害到其他群体了。
再进一步,分单项来观察AI的打分情况。 会发现在全部考生里面,e-rater给中国大陆考生的语法 (Grammar) 和写作技巧 (Mechanics) 分,整体偏低; 而在文章长度和复杂单词的选用上,中国大陆考生的AI打分超过平均。最终,AI给大陆考生的总分,整体比人类打分更高。GRE作文满分6分,AI比人类打分平均高出1.3分。 相比之下,在非裔美国人身上,AI比人类打分平均要低0.81分。以及,这只是平均数据,在许多考生那里,差异来得比这更剧烈。 不论是1.3还是0.81,在6分制的考试里都不是小数字,可能严重影响考生的成绩。 不止如此,MIT的小伙伴们开发过一个叫BABEL的算法,把复杂的词句拼贴在一起,得出的文章没有任何实在的意义,却被GRE的线上评分工具ScoreItNow!打出了4分的好成绩。 但ETS说,AI不是单独判卷,每篇AI打分的作文,都有一个人类同时打分。然后,把人机打分之间的差异,交给第二个人类去判断,得出最终的分数。 所以,ETS认为考生并不会受到AI缺陷的不利影响。 不过对比一下,传统方法是两个人类同时给一篇文章打分;而当AI替代其中一人打分,相当于这个人的职责变成了复核。 成本大概下降了不少,对结果的影响有多大就很难说,至少打分机制和AI参与之前有差别了。 还好,GRE有人类和AI一起打分。 可还有许多考试是直接交给AI判作文的:

不止GRE算法有问题

比如,VICE调查发现,犹他州把AI作为主要 (Primary) 作文评分工具,已经有些年头了。 州内的一位官员解释了原因:
手动打分除了耗费时间之外,也是本州一项重大开支。
所以,用AI来为写作评分,在降低成本的同时,能不能做到公平公正? 美国研究协会 (American Institutes of Research,AIR) 是一间非盈利机构,也是犹他州最主要的考试提供方。 而AIR每年都会做出一份报告,评估一些新题目的公平性。 评估的一个重点就是:女生和少数族裔学生,在特定考题上,是不是比男性/白人的表现要差。这个指标叫做“差异试题功能 (DIF) ”。 报告显示,2017-2018学年、三至八年级的写作考题里,有348题被判定为,对女生和少数族裔学生有轻微DIF;相比之下,对男生和白人学生有轻微DIF的题目有40。 另外,还有3道题被判定为:对女生和少数族裔学生有严重DIF。这些题目会交由专门的委员会审核。 可能造成DIF的原因有多种,而算法偏见是大家最关心的因素。 一位来自犹他州的家长 (@dahart) ,占据了Hacker News讨论版的顶楼。 他很不喜欢听那些官员讲“成本”。他觉得,教育本来就是费时费力的,不可能又快又便宜。 他说,孩子的作文是机器打分,全家不满意AI给的分数,爱人和孩子都会哭。

标签:分数,ETS,AI,作文,GRE,考生,打分
来源: https://www.cnblogs.com/shangke0975/p/11770774.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有