一覺睡醒,AI 破解驗證碼的速度比我還快了?互聯(lián)網(wǎng)+
導(dǎo)讀
AI 識別驗證碼,現(xiàn)在比人都快了。不僅快,準(zhǔn)確率還吊打人類。
AI 識別驗證碼,現(xiàn)在比人都快了。不僅快,準(zhǔn)確率還吊打人類。
最近世超看到了個消息:AI 識別驗證碼,現(xiàn)在比人都快了。不僅快,準(zhǔn)確率還吊打人類。
這不,前段時間加州大學(xué)艾爾文分校就甩出了一份論文,里面的研究數(shù)據(jù)是啪啪打驗證系統(tǒng)的臉。
簡單來說,他們把市面上所有類型的驗證碼,點擊類的,拖拽旋轉(zhuǎn)類的,圖片選擇類的等等等等,都搜羅了過來,分別讓 AI 和測試者做了個遍。
其中,最簡單的點擊識別, AI 直接 1.4 秒就能過,還百分百準(zhǔn)確度,而人類不但要得花 3~4 秒,竟然有一兩成的人過不了。
到拉大難度的圖片驗證, AI 雖然在速度上稍有下降,但起碼還保持在人類的平均水平里,準(zhǔn)確度也和人類相當(dāng)。
讓我選紅綠燈,這桿子我是真不知道該不該選
測試結(jié)果大家也都看到了,看這AI 幾乎門門兒接近百分百的準(zhǔn)確率,速度也普遍比人快,說夸張點已經(jīng)是吊打人類的程度了。
反正論文提交后,這個項目的主任 Gene Tsudik 直接給驗證碼戴了個 “ 氣數(shù)已盡 ” 的帽子。
還有一些媒體甚至打出 “ 暴擊人類 ” 、 “ 驗證碼失效 ” 、 “ 驗證碼被攻破 ” 之類的標(biāo)題。
連馬斯克都出來發(fā)文稱,過去的驗證機器人全失效了。
最近,也有不少朋友反映登個 X ( 原 twitter )要三四個驗證碼,估計也是這個緣故。
啊這這。。。驗證碼難道真就這么被AI 錘爆了??
講真,一開始看到這消息的時候,我心里也是驚了一下。
于是,我們立馬找到在國內(nèi)外都頗具影響力的驗證碼頭部企業(yè)極驗聊了聊,想聽聽他們的評價。
結(jié)果他們告訴差評,別太擔(dān)心,類似的事情他們身經(jīng)百戰(zhàn)見得多了。
雖然AI 確實越來越強了,但在日常生活中,最新的驗證系統(tǒng)還是能夠能攔截一大波機器人的。
其實很多人可能也都知道,驗證碼的攻和防是個博弈的過程。
黑客那邊的攻擊手段不斷升級,不代表驗證系統(tǒng)這里就無動于衷。
就比如初期 AI 模型還沒出現(xiàn)的時候,黑客那邊破解驗證碼就是靠窮舉法。
前期黑客會通過特定算法去攻擊網(wǎng)站界面,用來獲取這個網(wǎng)站的所有驗證碼圖像。
黑客頻繁向頁面發(fā)送請求
在得到這些圖像后,就該對它們進行標(biāo)注了,也就是讓人類給出標(biāo)準(zhǔn)答案。
但用當(dāng)?shù)氐娜斯?biāo)注,總歸是一筆不小的費用,于是黑客就把這些任務(wù)外包出去,就是我們常說的打碼工。
像東南亞、拉美、非洲那些地區(qū),單價基本在一分錢一張。
折下來,黑客 10 天就能搞掉一個 30 萬張的圖庫,并且成本還能控制在四五百。
這樣搞好之后,黑客就有了自己的一個驗證碼數(shù)據(jù)庫。
破解的時候,就是簡單的查答案、寫答案過程。
當(dāng)然,驗證系統(tǒng)也得防守。
前面提到既然你機器人搞數(shù)據(jù)庫來破解,那我驗證平臺就定期更新數(shù)據(jù)庫,并且每次更新數(shù)萬張。
直接用成本搞垮你。。。
目前,國內(nèi)普遍的驗證平臺已經(jīng)差不多可以做到一周更新一次的頻率,最快的都能到 1 小時更新一次。
這個更新頻率,換天王老子來也遠遠吃不消。
然鵝轉(zhuǎn)折又到了,這幾年來, AI 迎來井噴期。
從自然語言處理,到計算機視覺,那研究成果是一個接著一個。
在驗證碼這塊兒,類似開頭 AI 破解速度超過人類的消息也是不斷傳出。
驗證系統(tǒng)也在不斷上強度。
可能系統(tǒng)一波小更新,就能讓上面的 AI失效。而極驗的朋友就告訴差評,前面論文所談及的驗證碼的 AI 識別率,其實都不說是小更新,是它們幾年前沒有銷售的上一代產(chǎn)品了。
目前大家也在針對 AI 做驗證系統(tǒng)。
打蛇打七寸,防AI 當(dāng)然也得從它的軟肋下手。
一旦我們摸清了 CV ( 計算機視覺 )領(lǐng)域的主要模型的原理,它的軟肋就是手拿把掐的事。
這些圖片識別的 AI 一大缺點就是會像人類一樣產(chǎn)生視覺誤差。
比如下面這張圖,世超也是辨認了好久才認出這是一個人和狗的錯位照。
目前圖像識別主流的方法就兩種,一種靠分類識別,另一種靠相似度識別。
比如對抗分類模型,系統(tǒng)直接把驗證碼圖中的一些物體粗暴地替換成 AI 不容易分類的,這樣一來它識別物體的準(zhǔn)確率自然就降下來了,主打一個繞道走。
相似度模型的話,則是通過提前模糊掉物體的標(biāo)志性特點,讓 AI 識別不出來。
就比如下面花環(huán)中的字符,直接用工具對字符輪廓做一些干擾處理。
除了找軟肋,我們還可以換個角度看,AI 破解驗證碼,他背后也是人在控制,用什么模型,投喂什么數(shù)據(jù)也都是可以操控的事。
既然黑客能用 AI 做工具,那驗證系統(tǒng)也能用 AI 來防御。
也就是說,讓 AI 破解 AI 生成的驗證圖片。最典型的就是 AIGC 的一些應(yīng)用了。
前不久那個把字融到建筑上的照片很火,就可以試著把這樣的照片丟給 AI 看它能不能認出來。
極驗告訴差評,就目前 AI 破解的水準(zhǔn),這種圖它們暫時還拿捏不住。
甚至有網(wǎng)友想出了個損招兒:AI 出了名的弱點不就是手嘛,那讓它猜猜下面哪個是真正的人手?
你覺得這道題 AI 能解出來嗎?
用極驗朋友的話來說,現(xiàn)在驗證碼已經(jīng)正式迎來了 “ 用魔法打敗魔法” 的時代。
可能還會有朋友擔(dān)心,萬一 AI 真的能繞過驗證碼,那該怎么辦?
大可放心,就算機器人突破了,驗證系統(tǒng)還有另外一道隱形的防線。
不妨設(shè)想一下,一般哪種情況下黑客才會用機器人破解驗證碼?
設(shè)置驗證碼的場景無非是在一些軟件注冊、登錄界面,或者投票、搶票網(wǎng)頁等等。
黑客破解驗證碼要么是為了惡意爬蟲獲取信息,要么就是搶票、刷票。
但在這樣的場景下它們都有一些共性,要數(shù)次訪問網(wǎng)站或軟件頁面。
這時,隱形攔截就會出手。
除了我們能看到的這些數(shù)字圖片驗證碼之外,在用戶操作的過程中,驗證系統(tǒng)也會對操作環(huán)境進行判別。
這些環(huán)境就包括你用的啥設(shè)備,瀏覽器環(huán)境比如 IP 地址,訪問次數(shù)如何,甚至你的鼠標(biāo)操作軌跡是怎樣的。
就拿瀏覽器環(huán)境來說,正常人肯定不會快速頻繁地去刷新登錄一個網(wǎng)頁。
黑客們就不一定了,頻繁訪問頁面是他們必須要做的。
舉個例子,如果黑客要攻擊的是下面這種驗證碼,讓你依次點漢字。
在短時間內(nèi),他們肯定會訪問成千上萬次網(wǎng)頁,遇到同樣的驗證題目不可避免。
照他們這樣每次都點同樣的位置,系統(tǒng)再不判定是機器人就真有點說不過去了。
但這畢竟是隱形門檻,并且還得累積到一定程度上才能識別出機器人,所以系統(tǒng)關(guān)鍵還是要做好前面提到的驗證碼識別。
總結(jié)下來,這場驗證系統(tǒng)與黑客之間的攻防戰(zhàn)不會停歇,沒有一勞永逸的方法, AI 出現(xiàn)只不過在技術(shù)層面上拉高了這場 “ 戰(zhàn)爭 ” 的 level 。
更重要的是,至少在短時間內(nèi),驗證碼不會消失,也不會失效。
撰文:松鼠 編輯:江江 & 面線封面:煥妍
圖片、資料來源:
網(wǎng)絡(luò),極驗
An Empirical Study & Evaluation of Modern CAPTCHAs
IT 之家,研究人員:reCAPTCHA 機器人驗證器已經(jīng)被 AI 突破,未來難以具有實際作用
















1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。