TMT观察网_独特视角观察TMT行业

斯坦福最新研究:看圖“猜車禍”,用谷歌街景數據建立車禍預測新模型互聯網+

大數據文摘 2019-05-10 10:19
分享到:
導讀

從一張房子的圖像中可見的特征預測發生車禍的風險,而且獨立于經常使用的變量,如年齡或郵政編碼。

從一張房子的圖像中可見的特征預測發生車禍的風險,而且獨立于經常使用的變量,如年齡或郵政編碼。 大數據文摘出品 編譯:笪潔瓊
預測是機器學習算法最重要的一個研究方向。眾多保險公司利用機器學習算法為他們的客戶建立預測模型。其中,車禍預測模型是眾多模型里面最難建立的。
車禍發生的影響因素多種多樣,變化多端,著實讓人摸不著頭腦。
2.gif
與其他商品不同的是,車禍保單的最終成本在初始銷售時是未知的。因此,建立一個合理的定價機制是非常具有挑戰的。有些保險公司嘗試使用統計方法來解決這一問題:預測每個客戶的未來風險。

例如,非常經典的汽車保險。大部分的保險公司確定的保險風險因素有司機的年齡、他的汽車配置相關以及汽車發生事故的歷史情況。這也是為什么保險公司會在成交汽車保險之前需要客戶提供的詳細信息的原因。
3.jpg
下載地址: https://arxiv.org/abs/1904.05270
波蘭華沙大學經濟科學系的Kinga Kita-Wojciechowska和斯坦福大學生物工程系的?ukasz Kidziński利用谷歌Google街景收集相對應的房屋圖像,通過標釋房屋的特征:例如年齡、類型以及其它條件。然后與目前最先進的保險風險模型相比,最后發現用谷歌街景數據建立的模型,能夠有效地改進了汽車事故風險預測。
作者通過對谷歌街景數據的研究,發現下列結論?
建模數據收集方法與特點
保險公司之前進行的風險建模和定價,通常只使用郵政編碼這一特征。然而匯總到郵政編碼的索賠數據仍然太不穩定,所以還需要進一步地調整。
另一方面,對于一些“外人”來說,保險公司客戶的信息數據很難獲得。本文使用的谷歌街景數據可以從來自Google街景的公開圖像信息中提取出來。
4.jpg 圖1.位于同一郵政編碼中不同房屋的示例,根據當前保險公司的模型,這些房屋的居民具有相同的預期索賠頻率。
此數據集包含20,000條記錄的汽車保險數據集,數據來源于2012年1月至2015年12月期間收集到在波蘭的保險投資組合的隨機樣本。
其中每項記錄均涵蓋汽車發動機第三方責任(MTPL)保險單的特點,包括投保人的地址、風險敞口(定義為一小部分有效年份在2013-2015年期間的保單)以及2013-2015年間發生的財產損壞索賠的統計數量。保險公司還提供了這些保單的財產損失索賠的預期頻率,是根據他們目前最好的風險模型進行估計的,是根據客戶的郵政編碼進行分區的。
5.jpg 640.jpg 圖2.使用注釋功能將為數據庫中提供的地址,匹配收集谷歌衛星視圖和谷歌街景圖像。
對圖像中可見的房屋中以下特征作了說明:居民的年齡、狀況、財富以及鄰近地區其他建筑物的類型。根據Fleiss’kappa(屬性型測量分析)統計數據結果表明,它們之間大多數是一致穩健的。
繼續注釋剩余的19,371個地址(還從本研究的范圍中刪除了129個地址,因為它們要么是另外區域的,要么是Google地圖找不到的),剩余的都將得到了一組單獨的、隨機選擇的地址。
研究者比較了收集到的注釋的分布情況,并在最后對四個注釋器進行了小的修正,以匹配平均值和標準差。
6.jpg 表1。在進行了必要的簡化后,風險模型中對7個新創建的變量進行了統計
建模過程
接下來,估計一個廣義線性模型(GLM)來研究新創建的變量對于風險預測的重要性。
假設索賠的概率模型如下:

頻率為f,定義為索賠次數除以風險敞口: 7.png
其中,MTPL保險中的一些財產損失索賠是服從泊松分布的,X是自變量的向量,也是系數的向量。
為了對方法所帶來的增加值進行評價,引入了三個模型: 模型A(空模型),其中向量為         8.png 模型B(一流保險商模型):其中向量為 9.png 模型C(研究者使用的模型):其中向量為 0.png
保險人為數據集中的每條記錄提供了模型B的實現。
該模型是在一個更大的未對外披露數據集上進行估計的,包含j個預測變量(駕駛員特征、車輛特征、索賠歷史、地理區域等)。
利用GLMs的特性,可以將模型C分解為兩個部分:一個對應于模型B,另一個則包含新變量。
因此,模型C為:
01.png
這些系數的值是否為非零,將表明研究者構造的變量為模型提供了額外的預測能力。在本研究中新創建的七個變量中,有五個對于預測財產損壞MTPL索賠頻率模型具有重要意義,而在最好的保險公司模型中使用的許多其它評級變量都是重要的(表1)。
通過觀察a、B、C模型的基尼系數的顯著變異性,特別是對于模型A(只包含截距且沒有選擇其他變量的空模型)在20次重采樣試驗中,其變化范圍為20 ~ 38%。將其解釋為證據,即所提供的數據集非常小(20,000條記錄),用于構建MTPL保險中的罕見事件,如財產損失索賠(平均頻率為5%)。
02.jpg 圖3.在20個自舉試驗中獲得的20%的檢驗樣本上的基尼系數(A),從零模型(A)到最好的保險公司的模型(B)和研究者新建立的變量模型(C)。
盡管數據的波動性很大,但將五個簡單變量加入到保險公司的模型中,在20次重新采樣試驗中的18次中嘗試,提高了它的性能,并提高了基尼系數的平均水平。提高系數接近2個百分點(從38.2%到40.1%)。
通常保險公司的模型會運用更大的數據集,并包含了廣泛的變量選擇(例如駕駛員特征、汽車特征、索賠歷史和基于客戶郵政編碼的地理區域),將基尼系數與空模型從0~30%提高到0~38%,提高了8個百分點(見圖3)。
創新之處
通常保險公司的預測模型都是以常規的特征進行預測的,比如駕駛車輛習慣,索賠歷史和客戶財富級別等特征。
但是文中的模型使用了全新的谷歌街景地圖的特征,比如街景地圖中房屋所在周圍環境,所在區域的密度,街景的質量和房屋類型年限等特征,評測結果也是比較令人欣慰,三個模型的基尼系數變動范圍在20%—38%之間,我們能從圖3中看見,經過20次的重采樣實驗得到的結果:具有街景新特征的模型比使用原有的優秀傳統模型還要高出接近2個百分點。
當然由于數據樣本量比較少,大概只有2萬條左右,所以這也在一定程度上影響了基尼系數的提升。但是這在預測模型的研究方向中,給了我們一個新的思路,原來街景地圖的特征會比傳統的特征更加有效。當然未來肯定還會有更加有效的特征出現,來幫助我們提升預測準確度。
譯者注: 基尼系數通常判定超過60%就是一個好模型,但是文章中的數據量有點少,所以這個系數可能沒有60%,但是肯定不能說這個思路錯的,希望大家可以嘗試自己更換數據集來做復現。
總結
從一張房子的圖像中可見的特征預測發生車禍的風險,而且獨立于經常使用的變量,如年齡或郵政編碼。

這一發現邁出了一大步。它不僅提供了更為精確的風險預測模型,而且還說明了社會科學的一種新方法。
在這種方法中,真實世界中的細粒度數據可以經過大規模收集后進行分析。從保險公司的實際情況來看,給出的實驗結果是顯著的。研究者使用的模型中的5個變量包含了來自不完全注釋的一些偏差,與保險公司在其最佳風險模型中已經使用的眾多變量帶來的8個百分點的改進相比,基尼系數提高了近2個百分點。
保險行業可能很快就會被銀行效仿,因為保險風險模型與信用風險之間存在著已被證明的相關性。從谷歌街景(GoogleStreetView)中提取有價值信息的方法本身,不僅為金融業提供了各種機會。
此方法和深層次的學習技術可以使它在一個大規模自動化的模型中進行。同時,這種做法引起了人們對存儲在公開可用的Google街景、Microsoft Bing Streetside、Mapillary或類似的私有數據集中的數據隱私的擔憂。
客戶同意公司存放其地址信息并不一定意味著同意儲存有關其房屋外觀的信息。特別是房屋的特征可以是種族、宗教或與一個人的社會地位有關的其他特征的代名詞,法律上也禁止將這些特征用于任何歧視,例如某些區域的價格歧視。
模型 數據 特征 保險公司 風險
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: ★店家乐|服装销售管理软件|服装店收银系统|内衣店鞋店进销存软件|连锁店管理软件|收银软件手机版|会员管理系统-手机版,云版,App | 工业胀紧套_万向节联轴器_链条-规格齐全-型号选购-非标订做-厂家批发价格-上海乙谛精密机械有限公司 | 上海logo设计| 聚氨酯复合板保温板厂家_廊坊华宇创新科技有限公司 | 活性炭-蜂窝-椰壳-柱状-粉状活性炭-河南唐达净水材料有限公司 | 莱州网络公司|莱州网站建设|莱州网站优化|莱州阿里巴巴-莱州唯佳网络科技有限公司 | 披萨石_披萨盘_电器家电隔热绵加工定制_佛山市南海区西樵南方综合保温材料厂 | 珠海网站建设_响应网站建设_珠海建站公司_珠海网站设计与制作_珠海网讯互联 | 立式矫直机_卧式矫直机-无锡金矫机械制造有限公司 | 淘剧影院_海量最新电视剧,免费高清电影随心观看 | 西安标准厂房_陕西工业厂房_西咸新区独栋厂房_长信科技产业园官方网站 | 检验科改造施工_DSA手术室净化_导管室装修_成都特殊科室建设厂家_医疗净化工程公司_四川华锐 | 硫酸钡厂家_高光沉淀硫酸钡价格-河南钡丰化工有限公司 | 超声骨密度仪-动脉硬化检测仪器-人体成分分析仪厂家/品牌/价格_南京科力悦 | 免费分销系统 — 分销商城系统_分销小程序开发 -【微商来】 | 免费网站网址收录网_海企优网站推荐平台| 高压直流电源_特种变压器_变压器铁芯-希恩变压器定制厂家 | 焊管生产线_焊管机组_轧辊模具_焊管设备_焊管设备厂家_石家庄翔昱机械 | 耐驰泵阀管件制造-耐驰泵阀科技(天津)有限公司 | 快速门厂家批发_PVC快速卷帘门_高速门_高速卷帘门-广州万盛门业 快干水泥|桥梁伸缩缝止水胶|伸缩缝装置生产厂家-广东广航交通科技有限公司 | 除尘器布袋骨架,除尘器滤袋,除尘器骨架,电磁脉冲阀膜片,卸灰阀,螺旋输送机-泊头市天润环保机械设备有限公司 | 四合院设计_四合院装修_四合院会所设计-四合院古建设计与建造中心1 | 行星搅拌机,双行星搅拌机,动力混合机,无锡米克斯行星搅拌机生产厂家 | 油液红外光谱仪-油液监测系统-燃油嗅探仪-上海冉超光电科技有限公司 | 缠膜机|缠绕包装机|无纺布包装机-济南达伦特机械设备有限公司 | 银川美容培训-美睫美甲培训-彩妆纹绣培训-新娘化妆-学化妆-宁夏倍莱妮职业技能培训学校有限公司 临时厕所租赁_玻璃钢厕所租赁_蹲式|坐式厕所出租-北京慧海通 | 北京宣传片拍摄_产品宣传片拍摄_宣传片制作公司-现像传媒 | 温控器生产厂家-提供温度开关/热保护器定制与批发-惠州市华恺威电子科技有限公司 | 房车价格_依维柯/大通/东风御风/福特全顺/江铃图片_云梯搬家车厂家-程力专用汽车股份有限公司 | 千斤顶,液压千斤顶-力良企业,专业的液压千斤顶制造商,shliliang.com | 深圳展厅设计_企业展馆设计_展厅设计公司_数字展厅设计_深圳百艺堂 | 东莞螺丝|东莞螺丝厂|东莞不锈钢螺丝|东莞组合螺丝|东莞精密螺丝厂家-东莞利浩五金专业紧固件厂家 | 蒸汽热收缩机_蒸汽发生器_塑封机_包膜机_封切收缩机_热收缩包装机_真空机_全自动打包机_捆扎机_封箱机-东莞市中堡智能科技有限公司 | 电动车头盔厂家_赠品头盔_安全帽批发_山东摩托车头盔—临沂承福头盔 | 预制舱-电力集装箱预制舱-模块化预制舱生产厂家-腾达电器设备 | 伊卡洛斯软装首页-电动窗帘,别墅窗帘,定制窗帘,江浙沪1000+别墅窗帘案例 | 冷水机,风冷冷水机,水冷冷水机,螺杆冷水机专业制造商-上海祝松机械有限公司 | 杭州画室_十大画室_白墙画室_杭州美术培训_国美附中培训_附中考前培训_升学率高的画室_美术中考集训美术高考集训基地 | 鹤壁创新仪器公司-全自动量热仪,定硫仪,煤炭测硫仪,灰熔点测定仪,快速自动测氢仪,工业分析仪,煤质化验仪器 | 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | 软文发布-新闻发布推广平台-代写文章-网络广告营销-自助发稿公司媒介星 |