作文_ GRE作文用AI打分，已经20周年了：AI给中国考生的分数，远高于人类打分

栗子从凹非寺出来

GRE作文在AI评分。

这本来不是新闻。

但是，根据美国媒体VICE发表的调查，这又成为了热烈讨论的焦点。

VICE调查了美国50个州，发现至少有21个州的教育系统，将AI作为作文评分的主要/第二主要工具用于标准化考试。

青=AI评分，淡蓝色=试行，红=AI评分，桃色=学区，灰=未回应

在这21个州中，只有3个州表明人也参加作文评分的馀下18个州，只能随机抽取5%-20%的作文，请人研究AI给的成绩。

问题是，标准化考试常常作为选拔的依据，左右着人类的未来。 AI一评分，命运就在AI手中。

这时，人们想起了GRERE，从这20年前开始在AI写作文的大前辈。

许多研究表明，包括GRERE评分仪器e-rater在内，许多AI评分文章的机制都有明显的缺陷。

但是，多年来，AI不仅没有被各种作文考试抛弃，而且越来越受欢迎。

因此，Hacker News的网民开始了激烈的讨论，不到一天就有330人。

格瑞:机器比人更喜欢中国考生

1999年由GRE主办的美国教育考试服务中心开始在e-rater上批改作文。

根据官方信息，该自然语言处理模型的评价标准有以下8个

基于词汇考虑的内容分析

词汇的复杂性/措词

·语法错误比例

·用法错误的比例

？机械错误比例

指拼写错误、大小写差异、标点符号错误等技术问题。

样式审查百分比

例如，某个短语过多、过短的句子过多、过长的句子过多等。

文章的组织和发展点

地道用语

当然，这个AI不仅仅是服务GRE。至少，tofu和GRERE一样，也是ETS制造的测试。

关于该算法的缺陷在哪里，ETS正式做了很多研究，从未隐藏过研究结果。

在1999年、2004年、2007年、2008年、2012年、2018年的作文中，AI给中国大陆考生的分数通常比人的分数高。

相反，在非裔美国人中，AI常常低于人的得分。母语为阿拉伯语、西班牙语、印地语的考生也有同样的经历。就算团队改进了算法，这个问题也没有解决。

ETS的高级研究员说，

如果我们想对某个国家的某个团体友好运算法则，伤害其他团体的可能性很高。

进一步分别观察AI的评分情况。

在所有的考生中，e-rater给中国大陆考生的语法和文章技巧总体上都很低

在文章的长短和复杂的单词选择中，中国大陆考生的AI分数超过了平均。最终，AI给大陆考生的总得分总体上被评价得比人高。 GRE作文满分6分，AI平均比人分高1.3分。

相比之下，在非裔美国人中，AI比人的分数平均低0.81个百分点。而且，这只是平均的数据，很多考生比这个差别更大。

无论是1.3还是0.81，在6分制的考试中不是很小的数字，有可能会对考生的成绩产生很大影响。

不仅如此，MIT合作伙伴们还开发了一种叫做BABEL的算法，把复杂的词语排列在一起，得到的文章没有任何意义，但是GRE的在线评价工具ScoreItNow！取得了四分的好成绩。

但是根据ETS，AI不是单独的答案，而是按照AI评分的每篇作文，人们同时评分。然后，把人的评分差异交给第二个人进行判断，得到最终的分数。

因此，ETS认为考生不会受到AI缺陷的不良影响。

但是，比较起来，传统的方法是两个人同时评分文章的AI代替其中一个人评分的话，相当于该人的责任就变成了讨论。

成本相当低，不知道对结果的影响有多大。至少评分机制与AI参与前不同。

另外，AI的存在不仅影响评价，还直接影响考生的考试策略。最近几年，取悦AI的攻略在增加

ChaseDream论坛@竹林中来的人

GRERE有人和AI一起评分。

但是，很多考试直接把作文交给了AI

除了GRE算法还有问题

例如VICE的调查显示，犹他州以AI为主要作文评价工具，已经有很多年了。

州官员说明了理由

手动评分不仅耗费时间，也是本州的一大支出。

所以，在AI评分文章，降低成本的同时，能公平公正吗？

美国研究协会是非营利组织，也是犹他州最主要的试验提供者。

关于AI评分的主题，AIR给出了榜样

这个题目是看海牛的画像，考生写观察和推论。

AIR每年都提出评价新主题公平性的报告书。

评价的一个重点是，女学生和少数族裔学生在特定问题上的成绩是否比男性/白人差。该指标被称为“差异问题功能”。

报告显示，2017-2018年学年、3-8年作文考试中，有348道题目被判定为女生和少数族裔学生仅有DIF，而男生和白人学生有40道题目有轻微DIF。

另外，被判定为女性和少数族裔学生有严重DIF的问题也有3个。这些主题由专门委员会审查。

DIF的原因可能有很多，但算法偏见是大家最关心的因素。

来自犹他州的家长占据了Hacker News讨论版的顶层。

他不喜欢听那些官员的“成本”。他认为教育本来很费时间，并不快而便宜。

他说孩子的作文是机器评分，家人不满意AI的分数，恋人和孩子都哭。

再多一点

当然，AI的作文不仅仅是美国的。

去年《南华早报》报道国内已有6万所学校在AI评分工作中分布于全国各地。

其中，学生提交的英语作业也是机器评分。作文评分系统来自酷文章评分网，理解文字的一般逻辑和含义，对作文的整体质量进行人工合理评价，在文章风格、结构、主题等方面提出建议。

据悉AI和人类教师对作文的评价，92%达成一致。

但是，据评论，同学们也像美国的小伙伴一样，受到了很多不满

这种感情，还是不能越过国境。

参考资料:

https://www.vice.com/en _ us/article/pa7dj9/ flawed-algorithms-are-grading-millions-of-students-es sys

https://www.Washington post.com/news/answer-sheet/WP/2016/05/should-you-trust-a-computer-to-grade-your-childs-writing -在线计算机

https://www.ets.org/research/topics/as _ NLP/writing _ quality /

完了

大会开幕！预见智能技术的新未来

募集排行榜！三个奖项，锁住AI Top玩家

2019中国人工智能年度评选开幕，选出领航企业、商业突破者、最具创新力的产品三大奖项，在MEET 2020大会上发表，欢迎优秀的AI公司的审查注册

量子比特QbitAI ·头条号契约者

跟踪“”AI技术和产品的新动向

如果你喜欢，就把它弄干净

作文_ GRE作文用AI打分，已经20周年了：AI给中国考生的分数，远高于人类打分

作文_ GRE作文用AI打分，已经20周年了：AI给中国考生的分数，远高于人类打分的相关文章

加拿大不放人后果_加拿大不放人

歌词里有么么哒的歌曲_中国么么哒歌词

园长证报名官网_园长证报名入口

南京周边两日游推荐_南京周边二日游最佳路线

公司食堂英语_食堂油烟机清洗公司

pes2018球员快速升级_pes2018隐藏球员

ff14观赏鱼图鉴_中国原生观赏鱼图鉴电子版

朝贡_朝贡关系

一键玩修改密码_一键修改qq密码

胡庆余堂官网坐诊表_胡庆余堂电话

小米5s手机壳新款_一个小米5手机壳多少钱

税收预测表_税收预测

广州奢侈品a货市场在哪里_广州哪里买a货奢侈品

宝应吾悦广场房价_宝应新城生态园2018房价

贵州省疫情措施_魏国楠辞去贵州省人民政府副省长职务

广西疫情三月能开学吗_钟南山预测疫情结束时间，高三家长进退两难: 3月还能开学吗？

儿童自闭症的早期表现_儿童自闭症的症状

咪咕直播有电视版吗_咪咕直播电视版apk

仙洋胳膊纹身都是什么_仙洋演过什么电影

中国影视传媒公司_中国影视传媒有限公司

大家都在看

相关专题

作文_ GRE作文用AI打分，已经20周年了：AI给中国考生的分数，远高于人类打分

作文_ GRE作文用AI打分，已经20周年了：AI给中国考生的分数，远高于人类打分的相关文章

加拿大不放人后果_加拿大不放人

歌词里有么么哒的歌曲_中国么么哒歌词

园长证报名官网_园长证报名入口

南京周边两日游推荐_南京周边二日游最佳路线

公司食堂英语_食堂油烟机清洗公司

pes2018球员快速升级_pes2018隐藏球员

ff14观赏鱼图鉴_中国原生观赏鱼图鉴电子版

朝贡_朝贡关系

一键玩修改密码_一键修改qq密码

胡庆余堂官网坐诊表_胡庆余堂电话

小米5s手机壳新款_一个小米5手机壳多少钱

税收预测表_税收预测

广州奢侈品a货市场在哪里_广州哪里买a货奢侈品

宝应吾悦广场房价_宝应新城生态园2018房价

贵州省疫情措施_魏国楠辞去贵州省人民政府副省长职务

广西疫情三月能开学吗_钟南山预测疫情结束时间， 高三家长进退两难: 3月还能开学吗？

儿童自闭症的早期表现_儿童自闭症的症状

咪咕直播有电视版吗_咪咕直播电视版apk

仙洋胳膊纹身都是什么_仙洋演过什么电影

中国影视传媒公司_中国影视传媒有限公司

大家都在看

相关专题

广西疫情三月能开学吗_钟南山预测疫情结束时间，高三家长进退两难: 3月还能开学吗？