TMT观察网_独特视角观察TMT行业

當AI開始擁有“潛意識”互聯網+

腦極體 2019-10-21 10:16
分享到:
導讀

伴隨著基礎改造與觀念普及的逐步完成,讓AI走向精細化、微觀層面的迭代升級,或許是產業端正翹首期盼的未來。

伴隨著基礎改造與觀念普及的逐步完成,讓AI走向精細化、微觀層面的迭代升級,或許是產業端正翹首期盼的未來。 好久沒有跟大家聊聊算法方面的新研究了。理由當然不是學術領域沒有新聞,畢竟頂會們收到的論文也是盆滿缽滿。但總體而言,說深度學習的理論研究一直在瓶頸期徘徊,想必也少有人會反對。
深度學習在應用上與廣大傳統行業融合,讓AI獲得了前所未有的大爆發。但正如斯坦福大學教授李飛飛所說,(深度學習)無論在智力、人力或機器設備方面,都還有很長的路要走。
學無止境,不過在很長一段時間內,算法領域幾乎沒有什么重大顯著的進步,這也導致模型在落地部署中顯露出的一些先天不足,也使AI沒有停止過被質疑的命運。比如人工智能泛濫所帶來的隱私問題,在要求科技企業進行自我約束的同時,對算法的優化與完善顯然也很必要。
AI會如何影響人們的隱私?僅靠一篇文章或許無法回答這個復雜問題,但我們希望現在就開始拋出它。
當神經網絡擁有記憶
在探討隱私問題之前,我們先來聊聊老生常談的LSTM模型。
關于其作用,我們已經有過很多介紹了,簡單來說,就是在神經網絡上加入記憶的概念,使模型可以記住長時間序列上的信息,并作出預測。AI能寫出語句更通順的文章、與人類進行流暢自然的多輪對話等等神奇能力,都建立在這一能力基礎上。
隨后很長一段時間內,科學家們對神經網絡的記憶進行了一系列的補充和擴展。比如引入注意力機制,讓LSTM網絡可以對信息進行長期而精確的跟蹤。再比如運用外部記憶來增強時序生成模型,提升卷積網絡的性能。
總的來說,記憶能力的提升,一方面賦予了神經網絡對關系進行復雜推理的能力這使其智能得以明顯提高;而在應用端,寫作、翻譯、客服系統等智能系統的體驗也大幅度升級。某種程度上,記憶是AI撕掉“人工智障”這一印象標簽的開始。
不過,擁有記憶力,也代表著兩個問題:一是神經網絡必須要學會遺忘,從而釋放出存儲空間,只保留那些重要信息。比如某部小說中一個篇章結束,那模型應當重置相關信息,只保留對應的結果。
另外,神經網絡的“潛意識”也需要被警惕。簡單來說,就是經過在敏感的用戶數據上進行訓練之后,機器學習模型被發布給公眾時會不會不自覺地帶出那些敏感信息呢?在這個人人皆可被采集的全民數字化時代,這是不是意味著隱私風險在加劇?
AI真的會偷偷記住隱私嗎?
對于這個問題,伯克利大學的研究人員做了一系列實驗,答案也許震撼很多人,那就是——你的數據,AI可能都記在心里了。
想要理解神經網絡的“無意記憶”,首先要引入一個概念,即過度擬合。
在深度學習領域,模型在訓練數據上的表現很好,在訓練數據之外的數據集上卻達不到同樣的精度或錯誤率,這就是出現了過度擬合。而造成這種從實驗室到現實樣例中的差異,主要原因是訓練數據中存在噪音,或者是數據量太少。
作為深度神經網絡訓練時的常見副作用,過度擬合是一種全局現象,也就是整個數據集的狀態。而要檢驗神經網絡會不會偷偷“記住”訓練數據中的敏感信息,要觀察的卻是局部細節,比如某個模型是不是對某個示例(如信用卡號碼、賬戶密碼等)有特殊情結。
對此,伯克利的研究人員為了探尋模型的“無意記憶”,進行了三個階段的探索:
首先,防止模型的過度擬合。通過對訓練數據進行梯度下降和最小化神經網絡的損失,保證最終模型在訓練數據上達到接近100%的精度。
然后,給機器一個理解語言底層結構的任務。這通常是通過在一系列單詞或字符上訓練分類器來實現的,目的是預測下一個標記,該標記將在看到前面的上下文標記后出現。
最后,研究人員進行了一個對照實驗。在給定標準的penn treebank(ptb)數據集中,插入了一個隨機數“281265017”,用來做安全標記。然后在這個擴充后的數據集上訓練一個小的語言模型:給定上下文的前一個字符,預測下一個字符。
從理論上來說,模型的體積都比數據集小很多,所以它不可能記住所有的訓練數據。那么,它能記住那串字符嗎?
答案是YES。
研究者給模型輸入一個前綴“隨機數是2812”,模型就愉快而正確地預測了整個剩余后綴:“65017”。
更令人驚訝的是,當前綴改為“隨機數為”時,模型卻不會緊接著輸出“281265017”這串字符。研究人員計算了所有9位后綴的可能性,結果表明插入的那串安全標記字符比其他后綴更有可能被模型選中。
至此可以謹慎地得出一個粗略的結論,那就是深度神經網絡模型確實會在訓練過程中,無意識地記住那些投喂給它的敏感數據。
當AI擁有潛意識,人類該不該恐慌?
我們知道,今日AI已經成為一場跨場景、跨行業的社會運動,從推薦系統、醫療診斷,到密布城市的攝像頭,越來越多的用戶數據被收集來哺育算法模型,里面都可能包含敏感信息。
以前,開發者往往會對數據的敏感列進行匿名化 (anonymization)處理。但這樣并不意味著數據集中的敏感信息就是絕對安全的,因為別有用心的攻擊者依然可以通過查表等方法反推原數據。
既然模型中涉及敏感數據已經不可避免,那么衡量一個模型對其訓練數據的記憶程度,也是評估未來算法模型安全性的應有之義。
這里就需要解決三個疑惑:
1.神經網絡的“無意記憶”會比傳統的過度擬合更危險嗎?
伯克利的研究結論是,盡管“無意記憶”在第一次訓練之后,模型就已經開始記住插入的安全字符了。但測試數據顯示,“無意記憶”中數據曝光率的峰值,往往隨著測試損失的增加,在模型開始過度擬合之前,就已經達到了峰值并開始下降。
因此,我們可以得出這樣的結論:“無意記憶”雖然有一定的風險,并不會比過度擬合更危險。 2.“無意記憶”的具體風險可能發生在哪些場景?
當然,沒有“更危險”并不意味著無意記憶不危險。實際上,研究人員在實驗中發現,利用這種改進的搜索算法,只需數萬次查詢就可以提取16位信用卡號碼和8位密碼。具體的攻擊細節已經被公之于眾。
也就是說,如果有人在訓練數據中插入了一些敏感信息,并發布給世界時,那么它被曝光的概率其實很高,即使它看起來并沒有出現過擬合現象。而且這種情況還不能立即引發關注,這無疑大大增加了安全風險。
3.隱私數據被暴露的前提有哪些?
目前看來,被研究人員插入數據集中的“安全字符”被暴露的可能性會比其他隨機數據更大,并且呈現正態分布趨勢。這意味著,模型中的數據并不享有同樣概率的暴露風險,那些被刻意插入的數據更加危險。
另外,想要提取模型“無意記憶”中的序列也不是一件容易的事,需要純粹的“蠻力”,即無限的算力才能做到。舉個例子,所有9位社保號碼的存儲空間只需要幾個GPU數個小時的時間搞定,而所有16位信用卡號碼的數據規模則需要數千GPU年才能枚舉。
目前來看,只要有了量化這種“無意記憶”,將敏感訓練數據的安全性控制在一定的范圍內。即知道一個模型存儲了多少訓練數據,又有多少被過度記憶,從而訓練出一個通向最優解的模型,幫助人們判斷數據的敏感性,以及模型泄露數據的可能性。
過去我們提到AI產業化,大多聚焦在一些宏觀層面,如何消除算法偏見,如何避免復雜神經網絡的黑箱性,如何“接地氣”實現技術紅利落地。如今伴隨著基礎改造與觀念普及的逐步完成,讓AI走向精細化、微觀層面的迭代升級,或許是產業端正翹首期盼的未來。
模型 數據 記憶 AI 網絡
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 首页 - 军军小站|张军博客 | 团建-拓展-拓展培训-拓展训练-户外拓展训练基地[无锡劲途] | 碳钢法兰厂家,非标法兰,定制异型,法兰生产厂家-河北九瑞管道 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 多功能干燥机,过滤洗涤干燥三合一设备-无锡市张华医药设备有限公司 | 新材料分散-高速均质搅拌机-超声波分散混合-上海化烁智能设备有限公司 | 塑钢件_塑钢门窗配件_塑钢配件厂家-文安县启泰金属制品有限公司 深圳南财多媒体有限公司介绍 | 宁夏活性炭_防护活性炭_催化剂载体炭-宁夏恒辉活性炭有限公司 | vr安全体验馆|交通安全|工地安全|禁毒|消防|安全教育体验馆|安全体验教室-贝森德(深圳)科技 | 企业管理培训,企业培训公开课,企业内训课程,企业培训师 - 名课堂企业管理培训网 | 应急灯_消防应急灯_应急照明灯_应急灯厂家-大成智慧官网 | 四川职高信息网-初高中、大专、职业技术学校招生信息网 | 利浦顿蒸汽发生器厂家-电蒸汽发生器/燃气蒸汽发生器_湖北利浦顿热能科技有限公司官网 | 餐饮加盟网_特色餐饮连锁加盟店-餐饮加盟官网 | 光栅尺厂家_数显表维修-苏州泽升精密机械 | 美的商用净水器_美的直饮机_一级代理经销商_Midea租赁价格-厂家反渗透滤芯-直饮水批发品牌售后 | 自动气象站_农业气象站_超声波气象站_防爆气象站-山东万象环境科技有限公司 | 不锈钢螺丝,不锈钢螺栓,不锈钢标准件-江苏百德特种合金有限公司 交变/复合盐雾试验箱-高低温冲击试验箱_安奈设备产品供应杭州/江苏南京/安徽马鞍山合肥等全国各地 | 布袋式除尘器|木工除尘器|螺旋输送机|斗式提升机|刮板输送机|除尘器配件-泊头市德佳环保设备 | 金属切削液-脱水防锈油-电火花机油-抗磨液压油-深圳市雨辰宏业科技发展有限公司 | 北京四合院出租,北京四合院出售,北京平房买卖 - 顺益兴四合院 | 济南宣传册设计-画册设计_济南莫都品牌设计公司 | 今日娱乐圈——影视剧集_八卦娱乐_明星八卦_最新娱乐八卦新闻 | 亚克隆,RNAi干扰检测,miRNA定量检测-上海基屹生物科技有限公司 | 中药超微粉碎机(中药细胞级微粉碎)-百科 | 液压升降货梯_导轨式升降货梯厂家_升降货梯厂家-河南东圣升降设备有限公司 | 英国雷迪地下管线探测仪-雷迪RD8100管线仪-多功能数字听漏仪-北京迪瑞进创科技有限公司 | 电线电缆厂家|沈阳电缆厂|电线厂|沈阳英联塑力线缆有限公司 | ALC墙板_ALC轻质隔墙板_隔音防火墙板_轻质隔墙材料-湖北博悦佳 | 北京租车公司_汽车/客车/班车/大巴车租赁_商务会议/展会用车/旅游大巴出租_北京桐顺创业租车公司 | 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机,东莞喷码机 UV喷码机,日期喷码机,鸡蛋喷码机,管芯喷码机,管内壁喷码机,喷码机厂家 | 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库-首页-东莞市傲马网络科技有限公司 | 拉曼光谱仪_便携式|激光|显微共焦拉曼光谱仪-北京卓立汉光仪器有限公司 | 撕碎机,撕破机,双轴破碎机-大件垃圾破碎机厂家 | 玻璃钢型材_拉挤模具_玻璃钢拉挤设备——滑县康百思 | 南京PVC快速门厂家南京快速卷帘门_南京pvc快速门_世界500强企业国内供应商_南京美高门业 | 作文导航网_作文之家_满分作文_优秀作文_作文大全_作文素材_最新作文分享发布平台 | 陶瓷砂磨机,盘式砂磨机,棒销式砂磨机-无锡市少宏粉体科技有限公司 | 瑞典Blueair空气净化器租赁服务中心-专注新装修办公室除醛去异味服务! | 日本细胞免疫疗法_肿瘤免疫治疗_NK细胞疗法 - 免疫密码 | 全自动过滤器_反冲洗过滤器_自清洗过滤器_量子除垢环_量子环除垢_量子除垢 - 安士睿(北京)过滤设备有限公司 |