Buster - 用 AI 打败 AI,自动过验 reCAPTCHA。
引言
「在网络的海洋中遨游时,你是否曾与这样的验证码不期而遇?」
这是 reCAPTCHA,谷歌旗下的的验证码系统,国内部分网站都接入了这个验证码。
CAPTCHA 直译为:全自动区分计算机和人类的图灵测试
CAPTCHA 进化论
起初它只是个科研项目
最初,reCAPTCHA 只是卡内基梅隆大学的一个研究项目,目的是利用 CAPTCHA 技术来辅助完成古籍数字化录入工作。这个计划将由书本扫描下来无法准确的被光学文字辨识技术识别的文字显示在 CAPTCHA 问题中,让人类在回答 CAPTCHA 问题时用人脑加以识别。(可以当做人工 OCR)
借助于人类大脑对复杂字符的强大辨别能力,对古旧书籍中难以被机器 OCR 识别的字符进行人工辨别。
随着每天完成验证的人数增加,古籍的数字化工作速度以指数提升,很快便完成了近 110 年古籍的数字化录入工作。
最终沦为了商业工具
到了 2012 年,Google 旗下的 reCAPTCHA 就开始将其街景平台中难以识别的门牌和路牌加入验证码,请用户帮忙标注。这也就是最开始所提到沿用至今的图形验证码。
你以为自己在填验证码,其实你是义务帮 Google 做数据分类。
就连 reCAPTCHA 官网也毫不避讳的介绍了这种:集众人之力标注数据、训练 AI 的“众包”模式。
用魔法打败魔法
回到最初,让我们品味一下这个官方名称:全自动区分计算机和人类的图灵测试。
所以,这种图片验证码本质上是一场 受试对象为人类 的图灵测试。
已经有人证明:全人类每天要花费 500 年在图片验证码上。
Buster
是时候和无时无刻蹦出来的 “我是人类” 验证说再见了
让我们引出今天的主角 —— Buster,一款利用了 reCAPTCHA 的语音验证码进行验证的开源工具。
它的原理是调用 Google 的语音识别 API,来识别 Google 的 reCAPTCHA 验证;随着更新迭代,现在也支持了 Azure 之类的其他平台。
Privacy Pass
和 Buster 一样,Privacy Pass 并不能让你直接免去验证的过程,而是在出现图形验证码的时候,通过点击转换为语音验证,然后自动通过验证。它所支持的平台是 hCAPTCHA。