该团队通过作弊的方式获取了测试集的答案,而且为了让分数看起来更加真实,他们只用了其中一部分答案。

编者按:本文来自微信公众号“机器之心”(ID:almosthuman2014)

参与:张倩、蛋酱

Kaggle 一项竞赛的讨论页面显示,一个名为「Bestpetting」的冠军团队因作弊被 Kaggle 取消了参赛资格,团队成员还包含一位 Grandmaster。这位 Grandmaster 被永久禁赛,因为有证据表明,他是该作弊活动的关键人物

该团队通过作弊的方式获取了测试集的答案,而且为了让分数看起来更加真实,他们只用了其中一部分答案。大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关

作为最著名的数据科学竞赛平台,Kaggle 成立于 2010 年,并于 2017 年被谷歌收入旗下。迄今为止,这一平台上已经举行了三百多场各种类型的数据竞赛。

很多公司、政府研究机构都会把自己的数据放上来,开放给全球范围内的参赛者,让他们帮助自己建模型。为了提高参赛积极性,他们也会设置一定的奖金,用来奖励模型精度最高的几个队伍,有些竞赛的奖金甚至可以高达百万美元。

于是乎,Kaggle 源源不断地吸引了成千上万的开发者来参加竞赛,许多数据科学家在 Kaggle 上投入了大量的时间和精力。在诸如机场安全、卫星数据分析这类的任务上,不乏数十年经验的优秀团队加入比赛。

在机器学习爱好者们心中,Kaggle 是一个灯塔般的存在

为了激励参赛者不断挑战新的难题,Kaggle 设置了一个排行榜,将参赛者分为「Novice」、「Contributor」、「Expert」、「Master」、和「Grandmaster」四个等级。

其中,「Novice」、「Contributor」等级最低,注册就能成为「Novice」,添加一些资料、探索一下 Kaggle 并与社区进行一些交流就能升级为「Contributor」。

但从「Expert」开始,参赛者就要实打实地拿出成绩了。要晋升到竞赛的「Grandmaster」,你需要至少获得 5 枚金牌大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关

违反公益初衷的作弊行为

此次被曝作弊的团队参与的是一项预测宠物领养速度的竞赛。研究表明,宠物被领养的速度与它们在网上的照片、描述等信息存在相关性。参赛者的任务就是找出这种相关性,帮助宠物领养机构优化宠物的电子档案,使其看上去更加「可爱」,从而提高被领养的速度,减少「安乐死」的数量。

大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关此次竞赛在去年三月份展开,奖金池总共 2.5 万美元,冠军团队可以获得 1 万美元的奖励。大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关Kaggle 信息显示,该团队在比赛中存在以下作弊行为:

1. 他们通过作弊的方式获取了私有测试数据的领养速度答案(可能是通过爬取 Kaggle 网站);

2. 这些数据和答案被编码、模糊处理并混入一个 ID 字段,伪装成他们名为「cute-cats-and-dogs-from-pixabaycom」的外部数据集的一部分;

3. 在处理数据时,他们混进来的 ID 字段被解码,答案在预测阶段可以被检索到;

4. 他们只使用了其中一部分被编码的答案,以使分数看起来更加「真实」;

5. 这些经过处理的代码被精心隐藏并混淆在许多嵌套的函数和代码层下,故意被设计成高度不可读和平淡无奇的样子。

一位 Kaggle 网友「Benjamin Minixhofer」最早发现了其中的猫腻,在尝试将这项比赛的几个优秀方案转化为生产系统的过程中,他发觉了冠军方案似乎不太对劲,随后就将这项违规行为报告给了 Kaggle 组委会,组委会也立马展开了相关调查。

在事件曝光后,这位举报者小哥撰写了一个详细文档来说明该团队的作弊行为:https ://www.kaggle.com/c/quora-insincere-questions-classification/discussion/80665

他说:「这件事破坏了 Kaggle 比赛的公平性,而且我费了半天劲想把他们的方案转化为生产系统,结果竟然是作弊。也许 Kaggle 官方不希望我发表这篇公开了许多私人测试数据的文章,但我希望参赛者们都能从中得到一些启发。」

曾经的 Kaggle Grandmaster 被终身禁赛

确认作弊行为后,Kaggle 组委会取消了冠军团队的资格,目前已经重新修改了排行榜。不过当时颁发给冠军团队的 10000 美元奖金已经覆水难收。

这件事的问题在于,「预测宠物领养速度」本是一个公益性的赛题,初衷也是挽救小动物的生命。在这样的前提下,团队仅仅为了经济利益而采取作弊手段,更令人不齿。

此前也发生过获奖者被取消资格的事情,但都是在比赛前。这是第一次在比赛结束 9 个月之后才被挖出来的作弊行为,也是 kaggle 平台创立以来,第一次有人因为作弊被彻底取消参赛资格。

被举报团队中的 Kaggle Grandmaster 同时也在硅谷一家开源软件公司 H2O.ai 任数据科学家职位。大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关

这个「Former」也是耐人寻味。

这家公司主要的产品是一款数据科学和机器学习开源平台,叫做「H2O」,为许多世界 500 强企业提供人工智能产品解决方案。

事发后,公司已经作出了回复,称「已进入调查程序,此人与我司不再有任何关系」。

大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关

先是被禁赛名誉扫地,接着又面临被公司开除的命运,有人开始同情这位 Grandmaster,觉得这种做法未必太过严苛,惩罚的公平性也有待商榷。也有人因为 Kaggle 的严厉做法而被圈粉,觉得这么做是理所当然。而且 ta 认为,欲戴王冠,必承其重,Grandmaster 本身就对遵守规则负有更大的责任。

但也有人爆料称,这位 Grandmaster 在 Kaggle 比赛中出现不端行为已经不是第一次了。在去年的一项谷歌地标检索竞赛中,他们也有类似的行为并被取消了参赛资格。

大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关

吃瓜通道:https://www.kaggle.com/c/landmark-retrieval-2019/discussion/95136

目前,这个帖子已被删除,但从评论区我们依然可以大体还原争论的焦点所在:Kaggle 在这项比赛中出现了数据泄漏问题,该团队发现了这一漏洞并充分利用,以此为优势取得了很好的结果。

数据泄漏问题在各种数据竞赛问题中屡次出现,有些团队发现之后会将这一问题报告给组委会。如在 Kaggle 的某个 NLP 比赛中,一些团队的准确率达到了 100%(NLP 领域出现这种准确率是非常不可思议的)。有人发现了泄漏的数据集并将其合并提交了上去。

但也有团队会利用其作为秘密武器取得高分。对此,批评者一致认为这种做法是不道德的,对之后的竞赛和参赛者都没有借鉴意义,也不利于科学的进步。

大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关对此,这位 Grandmaster 辩解称,他们没有向大众隐藏自己的方法,所以没有违反规则,而且是诚实的行为。至于为什么利用漏洞,他解释说,「如果比赛本身就有漏洞,那总会有人去利用。不用的话就会失去优势,得到令人失望的结果。所以摆在参赛者面前的只有两个选择:要么退赛,要么利用漏洞。大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关

由此可见,这种作弊行为的不断出现不只是参赛者个人道德的问题,赛事的设计者也负有不可推卸的责任。参赛者的道德参差不齐、难以把控,只有在赛事设计上多下工夫才是解决问题的根本方法。

参考链接:

https://www.reddit.com/r/MachineLearning/comments/emus6a/n_kaggle_petfindermy_contest_first_place_winner/https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/125436