TMT观察网_独特视角观察TMT行业

和數據濫用說再見,用少樣本學習拯救被群嘲的推薦系統互聯網+

腦極體 2018-10-30 10:15
分享到:
導讀

冷啟動到底有何價值?

推薦系統想必大家都不陌生,一個推薦系統有多“聰明”,將在很大程度上決定了用戶是留下還是跳出,甚至可能影響一款產品的生命周期和商業價值。


在推薦系統誕生的三十多年間,不同平臺衍生出了各有特色的機制和算法,冷啟動卻是伴隨其始終的話題。


所謂冷啟動,就是在推薦系統初期,沒有任何用戶與平臺信息的交集信息和行為軌跡的情況下,無法通過用戶偏好等方式進行推薦。這時,推薦系統就處于冷啟動狀態。


簡單來說,就是一個新顧客來到饅頭鋪,第一次買饅頭、也沒有任何動作表情可供揣測,如何讓他第一眼就看到自己想吃的饅頭。


今天我們就用一篇文章,看看AI在推薦系統的冷啟動上,有哪些新突破。


流量紅利耗盡后,

互聯網公司還能向誰要增長?


后面我們會深入探討一些關于推薦算法及冷啟動的技術概念,但首先,我們需要闡述一下,冷啟動到底有何價值?


先說結論:冷啟動可以讓推薦系統用最快的效率黏住新用戶。


2017年以來,所有中國互聯網公司都在流量紅利枯竭的深淵中掙扎。智能設備的用戶數量不再自發性增長,用戶使用時長也來到了瓶頸期,此時想要繼續擴大規模的互聯網公司,路徑無非兩個:


一是去海外市場攫取新用戶,二是在存量市場中撬走新用戶。


無論哪一種,都面臨一個難題:如何第一時間吸引住越來越缺乏耐心的用戶?


例如,某新聞資訊APP好不容易吸引了一個新用戶下載,如果他在首頁上翻了二十分鐘也看不到自己想看的內容,或許就不會再浪費時間;


同樣,如果一個大眾社交平臺在不知道用戶特征的時候,推薦的賬號都與他心目中的理想型八竿子打不著,自然也難逃涼涼的命運。


在這些例子中,推薦系統與新用戶之間難免出現信息與預期的不兼容,往往需要用戶進行一些顯著的操作才能提高匹配的精準度,而冷啟動恰恰是推動用戶與平臺產生交互的關鍵所在。


精準的幻象:

目前的冷啟動存在哪些問題?


冷啟動要與潛在用戶有效契合,問卷調查和興趣選擇,是最常見的一種。


諸如豆瓣、微博、喜馬拉雅等內容分發平臺,在用戶第一次打開APP,都會強制注冊并采取一定的獎勵機制,引導用戶留下個人資料和感興趣的話題,主動推薦關注相關熱門賬號,以盡可能保證用戶在正式體驗過程中,能刷到自己喜歡的話題。


這種主動引導用戶留下行為軌跡的方式,可以快速積累起第一批用戶數據,做一些顆粒度比較大的推薦。


如果用戶很懶,或者不愿意讓系統知道自己的個人信息,推薦系統還可以使用熱度模型,基于統計分析推薦一些大部分人都會感興趣的熱點信息。雖然很容易讓平臺調性顯得有點low,但從概率學角度看,說不定就正好撞到用戶心口上了呢。


比如一直強調算法推薦的今日頭條,在冷啟動狀態就采用了這種做法,向新用戶推薦的大多是“新娘給伴娘下藥”、“孿生姐妹共侍一夫”這樣low得不要不要的內容,還是有一定效果的。


如果以上還不夠,那么也可以采取更加激進一點的方式。比如基于大數據的協同過濾,可以根據關聯行為或關聯用戶的相似性來進行推薦。


像是采集用戶的地理位置信息,旅游商務、本地O2O等應用可以更有針對性地進行推薦;或者調取手機中關聯APP的用戶行為數據進行預分析。


今日頭條就曾引導用戶使用微博登錄,然后爬取用戶在微博上的一些社交數據,比如動態、圖片、文章、贊過的人等等。依據這些信息,可以判斷出用戶最近喜歡哪個明星,并為其推送相關資訊。


反正大數據時代,“凡有接觸,必留痕跡”,總有一些隱藏的信息能夠捕捉到用戶內心的吉光片羽。


說了這么多,我們來歸納一下傳統意義上冷啟動的內在邏輯——盡可能多地掌握用戶信息的獲取維度。


這個過程同時也向我們揭示了一種推薦系統的集體困境,那就是,如果企業無限度地擴展獲取用戶信息的渠道,必然會遭遇隱私和法律之墻;而挖掘已有的用戶信息,數據量往往又捉襟見肘。


那么,情況有可能發生變化嗎?少樣本學習(fewshot learning)正在嘗試解決這一問題。


少樣本學習:改變的不只一點點


不難發現,推薦系統冷啟動的眾多通用方法,都需要越多越好的標注數據才能有效發揮其作用。


但現實是,冷用戶往往不會提供那么多的標注數據。在小數據的環境下,推薦算法還能發揮作用嗎?


這里就涉及到一個重要的“多臂老虎機問題(Multi-armed bandit problem, MAB)”。


當你走進一家賭場,面對20個一模一樣的老虎機,在不知道它們吐錢概率的情況下,如果可以無限制地搖下去,自然可以知道哪臺老虎機成功率最高。


但當你手里的錢有限的時候,搖弊的次數也被限制了,該如何最大化自己的收益呢?


顯然,此時每一次搖臂的機會對你來說都是極其寶貴的。


在冷啟動中,用戶的每一次有效行為也是如此。


系統既要盡可能地擴大信息的多樣性和寬度,又要防止過多“無用”信息夾雜其中,讓用戶“信息過載”。


過去,不少平臺試圖通過熱度模型來解決這個冷啟動中的“多臂老虎機問題”,給新用戶推薦目前點擊率最高的結果。但這又會大大降低信息的覆蓋率和多樣性,出現反復推薦。


那么,少樣本學習(fewshot learning)又是怎么做的呢?


簡單來說,就是讓推薦引擎具備經過少量樣本訓練之后快速泛化的能力,從而在冷用戶有限的行為軌跡下,實現推薦效果的最大化。


舉個例子,電商平臺可以先用隨機試探的方式,選擇帶有不同標簽的熱門商品展示給冷用戶,并對冷用戶的有效動作進行強化學習。


比如給用戶的動作設定一個獎勵函數。用戶點擊一次,收益就是1;沒有點擊,收益就是0。以此測試冷用戶對哪些商品有反饋,再在此基礎上根據實際收益去調整被展示的商品。


這樣做的好處是,即便是在有限的條件下,也能快速判斷出用戶的興趣所在,降低瀏覽過程中用戶的耐心損耗,同時避免熱度模型制造的“信息繭房”。


一個商品的收益均值越大,被選中展示給用戶的機會就越大。而那些被選次數較少的商品,也回被呈現在冷用戶面前,相當于一張“復活卡”。


又比如孿生網絡,訓練時利用雙路神經網絡進行交叉計算,從而得出共性特征。再用這一模型去測試樣本,對于樣本的共性指數進行排列。這樣電商就可以通過這種共性指數來進行商品推薦,把用戶行為和商品標簽看做一對孿生數據,假如用戶與“少女”、“溫馨”這樣的數據標簽共性指數越高,那么自然與“直男”、“酷炫”這樣的標簽共性指數越低,反之亦然。當用戶無視了粉紅色手機殼時,系統可以嘗試推薦白酒這類商品,通過實時反饋不斷縮小用戶畫像的范圍,在少量數據的前提下達到和協同推進算法近似的效果。


除了電商,少樣本學習還能夠被應用在眾多其他領域。


比如視頻網站。


“一千個觀眾有一千個哈姆雷特”,用戶認知標準不一,讓視頻的數據標注也充滿了不確定性,無法建立龐大的標簽體系,使得視頻平臺個性化推薦的冷啟動更加困難。


從這個角度看,少樣本學習在視頻領域更有用武之地。


比如用戶的觀看長度、觀看時間段、觀看次數、跳進跳出等等行為都存在者很大的主觀性,很難用標簽語言來概括。在這種情況下,在用少量視頻“試探”冷用戶的時候,反而可以對這些主觀因素進行價值判斷并賦值,再讓機器進行在線學習,選出成功率最高的進行推薦。


并不討好的少樣本學習,

會完成推薦系統的終極理想嗎?


說了這么多不難發現,“少樣本學習”的條件要比大數據學習苛刻的多。


它將訓練范疇鎖定在了新用戶與單一平臺的有限交互之間,既不能調取外部用戶行為進行協同過濾,也不讓用戶主動告知系統自己的個人偏好,可說是完全暴露在用戶行為的數據孤島上。


在中國如此寬松的隱私環境下,這種探索有必要的嗎?


我認為是有的。


首先我們要知道,當前寬松的隱私環境一定只是一時的。相關法律法規的制定、用戶的防范意識只會越來越完善。未來數據泛濫供人取用的情況只會越來越少,如何最大程度下發揮有限數據的作用,一定是推薦系統取勝的關鍵。


同時,能用更少的數據去捕捉更多用戶,也是中國科技企業發展從流量轉向算法的關鍵。在巨頭割據下,或許流量、再從流量中轉化數據正在成為一件奢侈的事情,但沒有數據,也就沒有精準的推薦算法,無法留住用戶更無法商業化。而少樣本學習的出現,正在打破這個怪圈,未來崛起新企業不一定是BAT的附庸,但一定會應用少數據學習算法。


更重要的是,冷啟動所面對的,不是等待被收割商業價值的賬號,而是一個個充滿好奇的靈魂。真正優質的推薦系統,要做的就是不斷帶來驚喜,這才是技術的終極理想。


用萊蒙托夫的一句詩結束這篇文章吧……


一只船孤獨地航行在海上/它既不尋求幸福/也不逃避幸福/它只是向前航行/底下是沉靜碧藍的大海/而頭頂是金色的太陽/將要直面的/與已成過往的/較之理想/皆為微沫……

用戶 推薦 數據 系統 啟動
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 散热器-电子散热器-型材散热器-电源散热片-镇江新区宏图电子散热片厂家 | 美名宝起名网-在线宝宝、公司、起名平台 | 今日热点_实时热点_奇闻异事_趣闻趣事_灵异事件 - 奇闻事件 | 浙江红酒库-冰雕库-气调库-茶叶库安装-医药疫苗冷库-食品物流恒温恒湿车间-杭州领顺实业有限公司 | 工业风机_环保空调_冷风机_工厂车间厂房通风降温设备旺成服务平台 | 房车价格_依维柯/大通/东风御风/福特全顺/江铃图片_云梯搬家车厂家-程力专用汽车股份有限公司 | 定做大型恒温循环水浴槽-工业用不锈钢恒温水箱-大容量低温恒温水槽-常州精达仪器 | 福建省教师资格证-福建教师资格证考试网 | 液压压力机,液压折弯机,液压剪板机,模锻液压机-鲁南新力机床有限公司 | 江西高职单独招生-江西单招考试-江西高职单招网 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 儿童语言障碍训练-武汉优佳加感统文化发展有限公司 | 临时厕所租赁_玻璃钢厕所租赁_蹲式|坐式厕所出租-北京慧海通 | 驾驶人在线_专业学车门户网站| 档案密集柜_手动密集柜_智能密集柜_内蒙古档案密集柜-盛隆柜业内蒙古密集柜直销中心 | 北京开业庆典策划-年会活动策划公司-舞龙舞狮团大鼓表演-北京盛乾龙狮鼓乐礼仪庆典策划公司 | 南京泽朗生物科技有限公司-液体饮料代加工_果汁饮料代加工_固体饮料代加工 | 基业箱_环网柜_配电柜厂家_开关柜厂家_开关断路器-东莞基业电气设备有限公司 | 蒸汽热收缩机_蒸汽发生器_塑封机_包膜机_封切收缩机_热收缩包装机_真空机_全自动打包机_捆扎机_封箱机-东莞市中堡智能科技有限公司 | 多功能三相相位伏安表-变压器短路阻抗测试仪-上海妙定电气 | 联系我们老街华纳娱乐公司官网19989979996(客服) | 杭州画室_十大画室_白墙画室_杭州美术培训_国美附中培训_附中考前培训_升学率高的画室_美术中考集训美术高考集训基地 | 高压互感器,电流互感器,电压互感器-上海鄂互电气科技有限公司 | 洗瓶机厂家-酒瓶玻璃瓶冲瓶机-瓶子烘干机-封口旋盖压盖打塞机_青州惠联灌装机械 | 云阳人才网_云阳招聘网_云阳人才市场_云阳人事人才网_云阳人家招聘网_云阳最新招聘信息 | 科研ELISA试剂盒,酶联免疫检测试剂盒,昆虫_植物ELISA酶免试剂盒-上海仁捷生物科技有限公司 | 广州工业氧气-工业氩气-工业氮气-二氧化碳-广州市番禺区得力气体经营部 | 全温度恒温培养摇床-大容量-立式-远红外二氧化碳培养箱|南荣百科 | 薄壁轴承-等截面薄壁轴承生产厂家-洛阳薄壁精密轴承有限公司 | 杭州实验室尾气处理_实验台_实验室家具_杭州秋叶实验设备有限公司 | 蔬菜清洗机_环速洗菜机_异物去除清洗机_蔬菜清洗机_商用洗菜机 - 环速科技有限公司 | 深圳侦探联系方式_深圳小三调查取证公司_深圳小三分离机构 | 自动气象站_气象站监测设备_全自动气象站设备_雨量监测站-山东风途物联网 | DNA亲子鉴定_DNA基因检测中心官方预约平台-严选好基因网 | 密度电子天平-内校-外校电子天平-沈阳龙腾电子有限公司 | 石家庄小程序开发_小程序开发公司_APP开发_网站制作-石家庄乘航网络科技有限公司 | 北京翻译公司-专业合同翻译-医学标书翻译收费标准-慕迪灵 | 蔬菜清洗机_环速洗菜机_异物去除清洗机_蔬菜清洗机_商用洗菜机 - 环速科技有限公司 | 粉末冶金注射成型厂家|MIM厂家|粉末冶金齿轮|MIM零件-深圳市新泰兴精密科技 | 北京遮阳网-防尘盖土网-盖土草坪-迷彩网-防尘网生产厂家-京兴科技 | 广东护栏厂家-广州护栏网厂家-广东省安麦斯交通设施有限公司 |