TMT观察网_独特视角观察TMT行业

說“快樂”還是“安康”?如何在不抬杠的情況下用AI搞定這問題互聯網+

腦極體 2018-06-19 10:18
分享到:
導讀

折騰了幾年,某種程度上近乎于鬧劇的“端午節安康”問題,在今年非但沒有停下來的意思,反而矛盾愈演愈烈,一時間好不熱鬧。

祝大家端午節快樂,我們今天要聊的…..什么?不能說快樂了?顯得沒文化?


哦,那祝大家端午節安康,咱們今天……什么?端午節安康都是一群營銷號瞎忽悠的,相信他們還是沒文化?


到底還能不能好好說話了?要不我干脆祝大家端午節多吃月餅得了?


放眼望去,這個折騰了幾年,某種程度上近乎于鬧劇的“端午節安康”問題,在今年非但沒有停下來的意思,反而矛盾愈演愈烈,一時間好不熱鬧。也不知道是不是已經有了“安康快樂對罵群”,反正整體上是感覺這事挺耽誤大家吃粽子的時間的。




在我們這行業看來,當然是一切能動科技的都別瞎吵吵。既然到了相持不下的境地,是不是可以考慮用相對公允的方式來解決無止境的爭論呢?畢竟安康派和保快樂黨都說自己是傳統文化,既然是傳統總歸是有據可循的。


今天是個思古的日子,不妨讓我們從安康和快樂的問題開始,來聊聊AI+考據的“懷古之思”。


到底爭的是什么?


安康派之所以誕生,是因為前兩年突然朋友圈里有這么個說法火了:端午節是紀念屈原,或者紀念伍子胥、紀念曹娥的。總之這是個祭祀和哀傷的日子,不能說快樂。這個說法很快流行起來,比如今天大部分明星發的端午節微博,似乎“安康”已經成了標準說法。


根據凡事必有反轉的互聯網定律,隨后也有人認為這種說法純屬無稽之談。端午節快樂說了那么多年,我想快樂就快樂還用你批準?于是,爭論最終很自然地變成了爭吵,兩邊都覺得自己是更符合傳統文化的一方。


首先筆者非常想要感慨的是,整個話題中最大成分只是營銷號惡意蹭流量,以及廣大網友們進行喜聞樂見的“抬杠運動”,真沒什么意思。


而實事求是地說,現在能找到最早過端午節傳統的記載,是唐代《藝文類聚》保留《續齊諧志》中南朝時期的民間節日風俗,在端午這天為紀念屈原而系五彩繩、包粽子。換言之端午節最早出現在可追溯的歷史文本中,它就是以一個有吃有玩的節日出現的。而早期文本,比如出現屈原其人其事的《史記》,據說為屈原創作的《楚辭》,都沒有過任何五月初五相關的記載。


作為一個節日的端午,自然也承擔著一個節日的氣氛和話語定位。唐宋時對端午節、端陽節的記載,也基本是把酒言歡為主。當然這是個追懷的日子,但也沒見過一定要在這個日子肅穆莊嚴的記載。很多歷史學教授專家,也對安康說不屑一顧。




話說回來,重陽是避災躲難的,那也有“佳節又重陽”。而今天肯定沒有人祝鄰居“清明節快樂”,但在古人來看清明本就是郊游玩賞值得開心的日子。程顥《郊行即事》是這么說的,“莫辭盞酒十分勸,只恐風花一片飛。況是清明好天氣,不妨游衍莫忘歸”。


或許可以這么說,所謂的中華傳統,遠比我們今天的互聯網氛圍寬懷大度的多。


好吧,一不小心暴露了立場。但是我們還是要強行回歸中立客觀:既然你有你的道理,我有我的道理,那到底怎么能彼此不抬杠呢?


或許AI可以在這里刷一個助攻。既然整個安康和快樂之爭,爭論的核心是:固定文本環境中(代表中國歷史傳統的文本數據,包括但不限于經史古籍),某種涵指解讀(端午節到底是不是值得慶祝的)的正確性。


那么用把所有相關數據都找出來,判斷一下古人到底能不能在這天快樂,似乎就是解決方案了。


AI搞清“端午到底快不快樂”

實現方法


或許有人會說,這事好像用不著AI,把古籍數據里的端午節記載都搜出來。一看不就知道了嗎?


想法固然是好的,但現實從來都很骨感。首先中國古籍系統當中,《四庫全書》所代表的經史系統其實只是很小一部分。各種文書、檔案、民間文本、吉金、出土資料,加在一起汗牛充棟都不止。假如只是用關鍵詞搜索,或者只是用部分古籍庫來完成文本方式,那么肯定無法完成完全的數據統計,從而得到的結果當然也就片面。


假如我們搜找了100個“端午快樂”的數據源,但是安康派認為還有200個反例沒找到,那豈不是白忙?


而假如面對全部古籍數據(包括未電子化數據),來進行一個問題的全面求證。那么人力是完全無法負擔的,而且也一定會有大量紕漏。比如說有些小眾的端午節說法、隱晦的端午節記載描述難以被人發現。而且群體工作也很難形成對端午節到底是不是端康的準確標準。


假如讓AI進場,至少可以解決這樣幾個問題:




1、確定我們要分辨的問題“端午節到底是值得慶祝的,還是反之”以后,我們可以用機器學習的方式輸入大量雙方觀點,來形成對端午節到底應該怎么過的標準化描述。基于文本來抽取關鍵節點,從而準確判斷一條古人過端午的記載到底是快樂的還是不能快樂。


2、非標準文本的識別。如今OCR等識別技術,已經廣泛被應用到金石資料、敦煌文獻、手寫文檔的識別中。如果我們想最大程度搞定到底端午是否快樂,就無法離開對非標準文本的識別工作,傳統的文本錄入方式完全是基于手工大字。早期很多中文古籍庫還是以眾包的方式交給本科生來錄入,造成訛誤百出。AI來做這些,顯然在效率和準確度上都已經有了技術保障。


3、彈性判斷相關數據。人工判斷端文本特征的時候,很可能會漏掉一些不常見描述,很多時候這不是因為研究人員不知道這件事,而是由于大腦的選擇性記憶誤差,天然會漏掉不那么敏感的說法。而AI的優點是可以彈性判斷相關數據,比如不說端午節,而是端陽,午日,重五,女兒節,浴蘭,地臘等字眼,或者非關鍵詞的描述形式,都可以有效處理。


4、綜合感知,判斷“良品率”。工業互聯網技術中,一個很常見的方式是機器視覺加傳感器,來綜合判斷出產品的質量。通過復雜的算法模型,最終得出是否良品的確定性標準。在文本溫習中,類似使用GAN等算法來進行語義分析,判斷一個語句含義歸屬的方式,顯然也是可行的。比如上文中“喜逢佳節,端午良辰”,這個說法顯然就是“端午快樂”。


其實吧,以上只是個例子,也沒有誰會較真到去大張旗鼓統計端午到底快不快樂。這些技術的真正內涵,是一個人文學術與AI的交叉點:AI考據。


比抬杠重要:

AI帶給文本考據的機會與挑戰


AI與考據的結合,顯然比端午節問候的抬杠重要很多。這項技術在今天世界范圍內還屬于剛剛起步的階段,但絕對不是無中生有。


在AI考據之前,是很多人熟悉的“E考據”概念。這個解決方案是以互聯網和大數據為基礎,從古籍電子化開始,用相對人力更有效率的方式來透視人文文本,甚至得出不一樣的結論與分析邏輯。這個領域的代表人物,可以說是臺灣的黃一農院士,其用《紅樓夢》相關文獻與清史文本結合,得到的成果令人耳目一新。




但E考據的局限性,在于它僅僅解決了考據第一步的問題:數據龐大。而面對龐大的數據和不同層次的文本,能否用技術取代進一步的人工,則成了考據學發展中的下一個話題。


考據的本質是什么?乾嘉學派代表人物王引之,在評價其父王念孫的治經之道時,總結為“諸說并列,則求其是,字有假借,則改其讀”,充分體現了考居家的工作依據:音、形、義之間的轉換與互通。




讓智能體實現對語境的理解和跳出跳入,顯然是僅僅依靠數據技術所無法達到的。那么AI技術也就成為了接下來文獻學與歷史學發展中,可以相互融合的技術手段。


馬創新等所著的《中文古籍數字化的開發層次和發展趨勢》中,談到下一步電子考據與古籍開發的任務,是解決古籍內容的深層語義標注和知識檢索方法。那么其能憑借的核心,似乎也僅僅是AI而已。


在電子文本分析中,AI可以讓嘗試,至少是幫助研究者擺脫對關鍵詞考據的依賴,實現主動對文本含義的辨別、搜求,與多重內涵確認。這是其他技術所無法復制的。


當然即使這項技術很有用。擺在今天人文科學,尤其是文獻學研究面前的挑戰也非常艱巨:想要讓AI技術、硬件環境與人文素養與研究能力結合,今天似乎很難有這樣的跨學科人才與研究環境。而且即使是技術相對簡單,效果很清晰的E考據,在傳統人文研究領域面前,走的也是舉步維艱。


更多現實應用場景


上面這些考據學的相關內容,可能相對有點生澀。那么最后我們不妨看看幾個AI+文本考據可能帶給大眾的能力釋放:


1、文本溯源。其實相比于端午安康的合理性,我更好奇的是這個說法是誰編出來的。而今天顯然經常有這樣的問題,謠言、不實信息這類的有害信息。或者一個精彩段子,一個奇思妙想的真正作者;一個文本如何被改的面目全非;一篇報道有沒有斷章取義,這些場景都會讓我們想要溯源文本,看看最初的文本模樣。這就需要成熟的AI文本考據來實現,至少是作為輔助文本溯源的方案之一。


2、問答式搜索。今天搜索引擎已經有了問答式搜索的功能,但很顯然,這還僅僅是個雛形。因為大量垂直問題和具體問題,是搜索引擎的知識圖譜技術無法偵測到的。而發展AI文本考據技術,可以讓算法主動連接海量文本,去識別深處歸納出答案,這對于知識的傳播價值巨大。


3、過往文本加鏈。區塊鏈很火爆的時候,一個被提及的重要場景是電子合約與文本著作權保護。但加鏈技術僅僅能保存新文本。如果我們想對過往文本,比如說以某人的聊天信息、某個網站發布的謠言等等進行加鏈,保留不可更改的證據邏輯時,就需要涉及到對過往文本的識別與分析處理。這也是AI與區塊鏈相結合的一個可能性。


說了不少,其實我們是想借端午安康這個梗,來談一個平時談比較晦澀,但其實十分重要的AI技術類別。說到底,安康還是快樂,又有什么關系呢?最好的端午節解釋,當然是聞一多先生說的那樣:只要屈原的精神在就行了。




而在筆者這樣的吃貨看來,只要粽子是甜的就行了……

文本 端午節 AI 技術 快樂
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


專題報道

主站蜘蛛池模板: 定制异形重型钢格栅板/钢格板_定做踏步板/排水沟盖板_钢格栅板批发厂家-河北圣墨金属制品有限公司 | 培训一点通 - 合肥驾校 - 合肥新亚驾校 - 合肥八一驾校 | 淘气堡_室内儿童乐园_户外无动力儿童游乐设备-高乐迪(北京) | 高压包-点火器-高压发生器-点火变压器-江苏天网 | 亿诺千企网-企业核心产品贸易| 砍排机-锯骨机-冻肉切丁机-熟肉切片机-预制菜生产线一站式服务厂商 - 广州市祥九瑞盈机械设备有限公司 | HV全空气系统_杭州暖通公司—杭州斯培尔冷暖设备有限公司 | 广东恩亿梯电源有限公司【官网】_UPS不间断电源|EPS应急电源|模块化机房|电动汽车充电桩_UPS电源厂家(恩亿梯UPS电源,UPS不间断电源,不间断电源UPS) | 达利园物流科技集团- | 凝胶成像仪,化学发光凝胶成像系统,凝胶成像分析系统-上海培清科技有限公司 | Boden齿轮油泵-ketai齿轮泵-yuken油研-无锡新立液压有限公司 | 深圳VI设计-画册设计-LOGO设计-包装设计-品牌策划公司-[智睿画册设计公司] | 天空彩票天下彩,天空彩天空彩票免费资料,天空彩票与你同行开奖,天下彩正版资料大全 | 全屋整木定制-橱柜,家具定制-四川峨眉山龙马木业有限公司 | 精密线材测试仪-电线电缆检测仪-苏州欣硕电子科技有限公司 | 昆明网络公司|云南网络公司|昆明网站建设公司|昆明网页设计|云南网站制作|新媒体运营公司|APP开发|小程序研发|尽在昆明奥远科技有限公司 | 江苏全风,高压风机,全风环保风机,全风环形高压风机,防爆高压风机厂家-江苏全风环保科技有限公司(官网) | 不锈钢电动球阀_气动高压闸阀_旋塞疏水调节阀_全立阀门-来自温州工业阀门巨头企业 | 工业废水处理|污水处理厂|废水治理设备工程技术公司-苏州瑞美迪 今日娱乐圈——影视剧集_八卦娱乐_明星八卦_最新娱乐八卦新闻 | 新密高铝耐火砖,轻质保温砖价格,浇注料厂家直销-郑州荣盛窑炉耐火材料有限公司 | HV全空气系统_杭州暖通公司—杭州斯培尔冷暖设备有限公司 | 烟气在线监测系统_烟气在线监测仪_扬尘检测仪_空气质量监测站「山东风途物联网」 | 换链神器官网-友情链接交换、购买交易于一体的站长平台 | 瓶盖扭矩仪(扭力值检测)-百科 | 雷蒙磨,雷蒙磨粉机,雷蒙磨机 - 巩义市大峪沟高峰机械厂 | ALC墙板_ALC轻质隔墙板_隔音防火墙板_轻质隔墙材料-湖北博悦佳 | 低噪声电流前置放大器-SR570电流前置放大器-深圳市嘉士达精密仪器有限公司 | 粘度计NDJ-5S,粘度计NDJ-8S,越平水分测定仪-上海右一仪器有限公司 | 橡胶接头_橡胶软接头_套管伸缩器_管道伸缩器厂家-巩义市远大供水材料有限公司 | 实验室pH计|电导率仪|溶解氧测定仪|离子浓度计|多参数水质分析仪|pH电极-上海般特仪器有限公司 | 仓储笼_仓储货架_南京货架_仓储货架厂家_南京货架价格低-南京一品仓储设备制造公司 | 聚合氯化铝-碱式氯化铝-聚合硫酸铁-聚氯化铝铁生产厂家多少钱一吨-聚丙烯酰胺价格_河南浩博净水材料有限公司 | 杭州营业执照代办-公司变更价格-许可证办理流程_杭州福道财务管理咨询有限公司 | 胶原检测试剂盒,弹性蛋白检测试剂盒,类克ELISA试剂盒,阿达木单抗ELISA试剂盒-北京群晓科苑生物技术有限公司 | 大学食堂装修设计_公司餐厅效果图_工厂食堂改造_迈普装饰 | 基业箱_环网柜_配电柜厂家_开关柜厂家_开关断路器-东莞基业电气设备有限公司 | 篮球架_乒乓球台_足球门_校园_竞技体育器材_厂家_价格-沧州浩然体育器材有限公司 | 电气控制系统集成商-PLC控制柜变频控制柜-非标自动化定制-电气控制柜成套-NIDEC CT变频器-威肯自动化控制 | 云杂志网-学术期刊-首页 | 金属雕花板_厂家直销_价格低-山东慧诚建筑材料有限公司 | 免费B2B信息推广发布平台 - 推发网 |