AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


使用 ChatGPT 面试作弊
发布日期:2024-11-08 07:06:35 浏览次数: 2082 来源:跳动的数据

使用 ChatGPT 作弊,你们的面试流程并不像你们想的那样擅长筛查作弊者。

一位同事指出了一个关于面试者使用 ChatGPT 作弊的半科学研究,这项研究由 interview.io 主持。结果表明,如果你依赖 LeetCode 风格的问题,那么结果不太理想:“不出所料,[使用常见的 LeetCode 问题且未做修改的面试者组]表现最好,通过率达到了 73%。面试者报告称他们从 ChatGPT 获得了完美的解决方案……在我们的实验中,面试官并不知道面试者被要求作弊。正如您所记得的,在每次面试后,我们让面试官完成了一项调查,要求他们描述对候选人评估的信心。72% 的面试官表示对他们的录用决策有信心。”
https://interviewing.io/blog/how-hard-is-it-to-cheat-with-chatgpt-in-technical-interviews
哎呀!也许是时候给你的面试流程做单元测试了?
这些数字并不让人放心。当几乎四分之三的面试中,面试者明确被告知(由实验人员)不要依赖自己的技能,而是只依赖 ChatGPT,但仍被认为是“有信心”的时候,你真的得思考:你的面试流程到底有多好?你允许了多少误判的通过?又漏掉了多少优秀的候选人?
这种面试流程的科学测试(虽然为了得出科学结论,这确实需要对不同的面试者和面试官进行更多次的测试)需要更加频繁地进行。虽然我会让更有资历的心理测试专家来告诉我们如何在全行业范围内创建这种测试,但我认为考虑更本地化的测试——也就是在自己公司的招聘流程内进行测试——也有价值。
不过,让我们暂时忘掉“使用 ChatGPT 作弊”这一话题吧——因为在 ChatGPT 出现之前,我们其实也还没真正解决面试问题。大多数公司,他们的面试流程是有缺陷的——甚至可以说是荒谬的。
许多科技公司不仅不认为他们的面试/招聘流程有问题,反而认为它很棒。实际上,作为一名候选人,我曾被直接告知:“我们的面试流程在整个行业中名列前 10%。”(当时我脑海中闪过了许多问题,比如:你们怎么测量的?有谁参与了?这里使用了什么衡量标准?是公司自己测量的,还是由中立的第三方执行的?有没有询问过候选人的意见?关于最后一点,答案显然是“没有”。)
任何测试的基础——无论是单元测试还是其他测试——都是想通过将已知输入放入一端,观察/比较另一端的已知/预期输出来验证算法。对于代码,我们可以相对轻松地做到这一点,因为(大多数)代码是确定性的:例如,将字符串传递给 "toLower()" 函数,我们期望结果是一个所有大写 ASCII 字符都被转为小写的字符串。输入相同,结果就会相同。
但对于人类,这就比较棘手了。人类显然不是确定性的,因此相同的输入可能会产生截然不同的输出。(在这里可以插入电影《侏罗纪公园》中的 Dr. Ian Malcolm 对混沌理论的解释:“条件……永不重复,且会极大地影响结果。”)想象一下我每天早晨上班时,对门口的保安说同一句话:“早上好,Joe。”有些早上他可能会点头回应,有些早上他可能会微笑,有些早上他可能会把这当作长聊的邀请。为什么 Joe 的反应如此多变呢?因为有时他的早晨很美好:闹钟准时响起,起床后精神焕发,配偶还为他准备了一顿可口的早餐等等。有些早上,他的早晨糟糕透顶:闹钟没响,一夜没睡好,配偶生病了等等。有些因素甚至和我们互动的次数有关——一开始,他可能觉得我只是在礼貌地打招呼,但后来发现我对别人也说类似的话,这可能引发了关于孩子、天气或体育的更长对话,Joe 可能在思考,我是不是在用这种问候语作为深入交谈的开端。许多不同的条件都会深刻影响 Joe 的回应,而我既无法控制,也无法了解这些条件。
现在让我们来谈谈你的面试流程:如果你像大多数公司一样,有一组人负责面试。这是变化因素 #1,因为不同的面试官会以不同的方式测试和与候选人互动。许多公司随机组合面试团队(通常在面试时随意挑选人员),这又创造了一个显著的变化因素,因为团队动态会影响团队如何得出答案。团队通常即兴出题,或者更糟的是,随机挑选标准的 LeetCode 问题让候选人解决,面试时不断与候选人互动(期间通过姿势、面部表情、言语甚至直接陈述来推动、鼓励或打击候选人)。
我们可以规范化一些内容——采用相同的面试问题,相同的流程,甚至为答案制定评分标准——但无论多么努力,除非你测试它,否则你永远无法知道是否成功。
这就引出了我的观点:除非你测试面试流程,否则你无法了解它到底有多好或多差。
面试测试
在我进一步阐述之前,我想明确两点:首先,我从未有机会执行任何此类测试——我所在的一些组织中,当我想实施该计划时,它们出于各种原因明确否决了这个想法;其次,我绝对会继续寻找实施这种测试的机会,因为我坚信这是建立对面试流程信心的必要前提。
假设:将候选人投入我们的招聘/面试流程中时,得到的是确定性的结果。(公平地说,人类之间永远无法实现完全确定的结果——有太多的变量在起作用。所以让我们先退而求其次,期望得到一个“合理确定”的结果,至少在我们积累了一些经验之后。)
实验:我们将让候选人执行面试流程中的所有步骤,和其他候选人一样。
注意事项:
  • 我们不希望改变流程:更改流程会改变算法,从而导致不可信的结果。

  • 我们不希望更换面试官:面试官也是流程的一部分。然而,如果面试官知道这是一次测试,他们很可能会与在“实际”情况下表现得不同。因此,必须确保面试官对测试的进行一无所知。

为了能够“知晓实验结果”,我们需要提前掌握“已知”输入,即,如果我们让一位被高度尊重、广受赞誉的工程师通过我们的面试流程,流程应能识别出其高级工程师的身份(即使我们无法得知其所有荣誉或成就);同样,如果让一位“素人”没有相关技能地通过流程,我们应该能够将其识别出来,并给出“不录用”的反馈。
熟悉我文章的读者可能已经想到我认为关键的环节:与已知的候选人合作,既可以是团队的朋友和同事,已知的优秀表现者,作为“是-录用”的已知输入。至于“否-录用”的已知输入?可以使用受雇的演员。不过,为了确保,将“已知-录用”候选人完全透明地告知面试流程可能的问题,并明确告诉“已知-不录用”候选人如何回答任何问题。
这样一来,候选人必须对面试官是未知的(这意味着你不能用公司内部的其他工程师,除非公司规模极大),或者必须隐藏候选人的个人和物理特征(无论如何,建议这样做,这又是另一个话题了)。理想情况下,可以使用已经被公司录用的人员,从而最大程度减少“外来者-是或否”的歧义性(有些人会坚持认为即使是像 Vint Cerf 这样的网络专家也不适合他们的团队),因此最好对流程进行一些调整以实现这种隐瞒。
顺便说一句,如果每个月进行几次这样的测试(例如,每五个“实际”候选人中加入一个,或者每十个候选人中加入一个),可以不时加入一个“已知-不录用-使用 ChatGPT”的候选人,看看流程的反应如何。
批评者会坚称这是在浪费时间。我还记得人们在提到单元测试,甚至 QA 测试时,也说过同样的话。如果这对你来说很重要,那么就值得测量、审视和批判。
但是嘿,如果你想以接近 0% 的信心来进行面试并确保结果准确无误……那就随你吧。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询