AR正在面臨的三大關鍵挑戰!智能
不論是AR還是VR都還需要一段時間才能變得更加成熟,開發者不斷得在學習的道路上繼續前進著。我們也同樣期待著。
自從蘋果開啟了全世界都能參與的AR大招之后,可能我們覺得AR時代即將到來!但事實是,AR要成為主流還需要很多年的努力及設計,因為它們現在面臨著一些不得不解決的挑戰。
1、沉浸式
在看完酷炫的ARKit演示視頻后,我們很容易想象完全占據視場的全屏幕視圖將有多么神奇。但現實情況是,即便是當前最優秀的便攜式AR頭顯開發套件,其視場仍十分有限(遠比不上今天的VR頭顯,而且部分人認為當前VR頭顯的視場也并不足夠)。
從許多方面來說,HoloLens是當前開發者能夠購買的最佳AR頭顯,但其視場也只不過是34度左右,遠比不上谷歌Cardboard(大約為60度)。文章中的視頻把全視場與約34度的視場進行了對比,結果顯示你在任何時刻內都只能看到增強現實世界的一小部分。
這非常重要,因為要實現合理的沉浸感,增強世界需要與現實世界無縫融合。如果無法立即看到大部分的增強現實世界,你將發現自己需要不自然地“掃描”環境,以找出AR對象的實際位置(就像在使用望遠鏡一樣),而不是說你的大腦能夠直觀地映射AR世界,并將其看作是現實世界的一部分。
并不是說34度視場的AR頭顯毫無用處,它只是不夠身臨其境而已,因此無法深入地沉浸你的自然感知,同時意味著它不太適合這種直觀的人機交互,不是消費者和娛樂用途的理想選擇。
有人或許會說,“那擁有90度視場的Meta2 AR頭顯呢?”這個問題問得好。
沒錯,Meta 2是目前擁有最大視場的已知AR頭顯,接近于今天的VR頭顯。但這款設備的體積十分龐大,也沒有在不犧牲大部分視場的情況下小型化其光學系統的明顯解決方案。
Meta 2的光學鏡頭其實很簡單。頭顯那大大的“帽檐”部分包含跟智能手機類似的顯示器。大型塑料遮光罩有一部分進行了鍍銀處理,并將顯示屏上的內容反射到用戶的眼睛里。縮小頭顯意味著縮小顯示屏和遮光罩,這顯然會減少視場。Meta 2對開發者來說可能是非常好的設備,他們愿意為開發未來的設備而忍受笨重的頭顯,但對消費者而言,Meta必須采用不同的光學解決方案來達到如此視場。
在這方面,ODG正在研發一種類似但體積更小的光學系統,并且能夠實現最高為50度的視場,亦即1800美元的R-9 AR眼鏡。然而,它們也只能勉強接近于消費者可以接受的尺寸。在另一邊,Lumus采用了不同的光學解決方案(波導),成功在2mm厚的光學元件中實現了55度的視場。
約50度的視場還不錯,但遠遠比不上當前高端VR頭顯的約110度視場,而且消費者仍在要求更寬的視場。對于真正身臨其境的視場而言,我們很難判斷一個具體的數字,而Oculus過去曾認為我們需要至少90度視場才能體驗真正的臨場感(至少在這方面,VR行業中的大部分人都予以認同)。
2. 實時對象分類
蘋果的ARKit技術和谷歌的ARCore技術能讓你在智能手機上實現一些非常炫麗和新穎的類AR體驗,但在大多數情況下,這些系統僅局限于“理解”地板和墻壁等平面。這就是為什么現在iOS上99%的AR應用和演示作品都只能發生在地板或桌子上。
為什么是地板和墻壁呢?因為它們很容易分類。地板或墻壁的平面與另一地板和另一墻壁的平面相同,所以系統有信心假定這一平面能夠向所有方面延展,直到與另一平面相交。
注意,我在這里是使用“理解”一詞,而不是“感知”或“檢測”。這是因為盡管所述系統或許能夠“看到”除地板和墻壁以外的對象的形狀,但目前無法理解它們。
我們不妨把杯子作為例子。當你看著一個杯子時,你看到的不僅只是一種形狀,你對杯子已經十分了解。了解有多少?下面讓我們一起看看:
你知道杯子與它所在的平面截然不同。你知道杯子里面包含一定的空間,可用來容納液體和其他物體。你知道我們可以用杯子來喝水。你知道杯子十分輕便,很容易打翻,從而導致杯內液體或物體溢出。……
我可以繼續往下說…我想說的是,計算機并不知道任何這一切。它只能“看到”一個形狀,而不是一個杯子。計算機無法得到杯子內部的完整視圖,無法映射出完整的形狀,計算機甚至不能假定杯子內部存在一定的空間。計算機也不知道杯子是獨立于其所在平面的一個對象。但你知道這一切,因為它是一個杯子。
然而,令計算機視覺能夠理解“杯子”,而不僅僅只是看到一個形狀,這是一個非常重要的問題。所以這么多年來,我們在AR演示作品中看到人們把基準標記附加到對象身上,以實現更細致的追蹤和交互。
為什么如此困難呢?第一個挑戰在于分類。杯子有數千種形狀,大小,顏色和紋理。部分杯子擁有特殊的屬性和特殊的用途(如燒杯),這意味著不同的杯子被用于不同的場景和背景。
你可以想象編程這么一個可以幫助計算機了解所有上述概念的算法的挑戰;你也可以想象編寫一個向計算機解釋杯子和碗之間區別的代碼的挑戰。
僅僅只是一個簡單的杯子就存在如此巨大的挑戰,更不用說世界上那數千或數十萬件常見物品。
當前基于智能手機的AR發生在你的環境之中,但你很難與之進行交互。這就是為什么你今天在智能手機上看到的所有AR體驗都被固定在地板和墻壁上。這種系統不可能與我們周圍的世界進行令人信服的交互,因為雖然系統能夠“看到”地板和墻壁,但不能“理解”它們。
對于我們所向往的科幻式AR(亦即AR眼鏡能夠向我展示杯子里的咖啡的溫度;或者說把微波爐的剩余時間顯示在其上方),我們需要系統“理解”更多關于我們周圍的世界。
那我們該如何實現呢?答案似乎是所謂的“深度學習”。用于每種對象類型的手寫分類算法,甚至是普通的分類算法,這都是一項非常復雜的任務。但我們可以訓練計算機的神經網絡,把這種神經網絡設計為能夠隨時間發展而自動調整其編程,并可靠地檢測周圍的常見物品。映維網曾報道研究人員已經在開展部分項目,而且看起來十分有希望。在下面這個視頻中,系統能夠稍微可靠地檢測任意人類,雨傘,交通燈和汽車之間的差異。
下一步是大幅擴展可能的分類庫,然后把基于圖像的檢測與從AR追蹤系統采集的實時環境映射數據結合起來。一旦我們可以讓AR系統開始“理解”我們周圍的世界,我們就可以著手解決AR體驗的自適應設計挑戰。
3. 自適應AR設計
打個比方,網頁開發者投入了多年時間來開發可靠,實用的設計規則,使得網站能夠適合不同形狀的屏幕。但與自適應AR設計相比,前者似乎是一個簡單的任務,因為后者需要支持涵蓋所有三維的任意環境。
這不是一個簡單的問題。即便是已投入多年實踐開發時間的VR游戲設計,開發者也仍然在努力解決這一難題的更基礎版本:針對不同的游玩空間大小進行設計。一般來說,VR游玩區域的形狀是正方形或矩形,而且除了玩家之外沒有任何東西。與伴隨著一系列并發對象的AR體驗而言,這似乎是簡單不過的問題。
想象一下:即使是生活在相同公寓單位的人來說,家具和物品的擺放也完全不同。要理解如何創建令人信服的娛樂體驗,AR游戲設計將需要很多年時間的發展。從平面到天花板,再到家具,再到數以百萬計的家庭,這種娛樂體驗需要適應一個看似無限的環境變量(更不用說更加廣泛的戶外空間)。
你可能會認為開發一款簡單的AR射擊游戲并不難,比如說在一房一廳的設計中,敵人就從那特定的房間中冒出來。但不要忘記,如果不預先映射環境,AR系統甚至不知道這棟房子存在另一個房間。
讓我們假設開發者已經解決了對象分類問題,這樣的系統可以在人類層面上理解你周圍的對象,那開發者應該如何創建一款利用這些對象的游戲呢?
比如說一款簡單的種田游戲,其中玩家需要在家中種植和澆灌AR作物,而這涉及使用真正的杯子來澆灌AR水。但如果你周圍沒有杯子呢?這樣的游戲是否將變得毫無用處?答案是否定的,開發者都是聰明人,比如說玩家可以把閉合的拳頭作為杯子的替代品,當傾斜拳頭時,AR水就會倒出來。
所以我們現在可以栽種作物。美國開發者認為,每個人都應該有足夠的空間來種植10排玉米;但在中國,我們居住的小型公寓不適合種植10排玉米,因為大部分人沒有多余的臥室來進行播種。
我可以繼續說下去。我想說的是:如果我們不再局限于在空白地板和墻壁上體驗沉浸式AR,我們需要設計自適應的AR游戲和應用,而這涉及利用我們周圍的實際空間和對象。因此,我們需要通過一些非常聰明的設計來管理數十億種變量。
盡管這可能是所述三大挑戰中最遙遠的一個,但在真正能夠實現這些體驗的未來設備到來之前,我們現在就可以從理論上進行設計。
在過去一年中,很多人都認為AR和VR在技術成熟度方面已經不相上下,但事實上AR仍然遠遠落后于當前的VR。AR令人十分興奮,但從硬件到感知,再到設計,我們仍有許多東西需要學習。對AR來說,現在是一個激動人心的時刻。這個領域仍然是相當開放,而且市場已經出現了一個牢固的立足點,進軍AR市場的時機已經成熟。
99VR視界君說:不論是AR還是VR都還需要一段時間才能變得更加成熟,開發者不斷得在學習的道路上繼續前進著。我們也同樣期待著。
來源:99VR視界
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。