牙齒矯正|人工植牙 - 專業牙周清潔矯正
    關於我們   牙齒矯正   人工植牙   植牙費用   牙齒美白   醫療器材   最新消息
最新消息 > 打破視頻會議平面化局限,全景方案拆分解析

文章来源:由「百度新聞」平台非商業用途取用"http://baijiahao.baidu.com/s?id=1645998364880061530&wfr=spider&for=pc"

玩機小胖發布時間:09-2916:39全景成像系統在民用端主要用于VLOG,比如現在很火熱的全景相機,三維像場全覆蓋的設計有諸多先天優勢:視角獨具趣味性,而且先天就沒有常規鏡頭傾角擺動帶來的圖像震動等等。而這些特性在商用環境中往往也很有生產力價值,比如監控領域,一個高分辨率全景系統就能覆蓋廣視角,再比如視頻會議,傳統方案的現狀和問題在于攝像頭視角局促,需要與會者全都擠在一起,比如這樣:這會帶來幾個問題,最明顯的是沒有視覺重心,當然目前也有可遙控的PTZ(平移、傾角、變焦)攝像頭,而且一般支持壁掛、吊頂和腳架等安裝手段,可以照顧到發言人,但妥協的是整個視場,且安裝相對麻煩,同時還需要專人進行操控,而且這種布局方式對絕大多數公司會議室來說都不太理想,存在縱深透視和邊緣成像的問題,無法照顧到所有參會者,而如果采用全景方案就是這個樣子:成像覆蓋360度視角,是不是明顯更符合大多數會議室的布局?直接把全景相機放在桌上就能搞定,但這只是解決了宏觀的問題,與民用全景相機相比,全景視頻會議系統依然有許多特有的技術細節要完善,而目前這種專機專用的產品寥寥無幾,看到科技新推出的“看到Meeting”算是其中一個,它的外形是這個樣子:前幾天發的盲猜產品就是它,沒有一個人猜對也說明這一領域的專業性和稀有程度。簡單來說,全景視頻會議系統需要細化的問題有這幾個:1、 為什麼它可以讓視頻會議參與更專注。2、 它是如何改善會議系統的成像素質問題的。3、 需要易于使用,視頻輸出模式和會議軟件適配要足夠豐富和簡潔。4、麥克風也要做全方向拾音,而且因為機身還內置揚聲器,所以還要做回聲消除處理。5、在保持攝像頭模組小巧的前提下,如何實現低畸變、高分辨率高準確度拼接、小盲區的圖像輸出。一點一點分析吧,先說沉浸體驗,傳統方案因為視角限制的關系,往往只能讓部分參會者進入系統之中,而其他參會者就變得有些無法融入,而全景則是很好的解決方案,看到Meeting有3種顯示模式,可通過機身按鍵直接切換,包括討論模式(水平360度全景和每個人特寫):單人演講(畫面根據聲源追蹤發言人):以及上下分屏,分別顯示兩個攝像頭取景的全局模式,可見各種模式下的畸變都并不明顯(注意區分透視變形和畸變的概念區別)。關鍵是看到Meeting可以通過麥克風拾音+AI人臉識別來判斷聲源位置,將三種模式結合使用可以獲得遠比傳統方案更高的,全員參與的智能化沉浸式會議體驗。其次是畫質的問題,一般的會議系統硬件分辨率都是1:1形式輸出,比如采用的傳感器就是1920*1080分辨率,但看到Meeting的2個全景攝像頭均為1200萬像素(4000*3000),而它的默認會議則是在8000*3000@25p的基礎上超采樣Motion JPEG編碼1920*1080@25p30Mbps,這個規格也一則充分考慮了視頻會議的帶寬問題,二則Motion JPEG即便在低碼率下有利于做高分辨率(作為對比,MPEG則更利于提高幀率),而且圖像處理延遲比較低,適合對幀率要求不那么高,但分辨率和實時性要求較高的會議系統使用。帶來的結果就是成像素質明顯強于市面上大多數中高端視頻會議系統。當然,如果支持插存儲卡內錄就更好了,畢竟這個組合的性能上限遠比這規格更高。整體來說,看到Meeting的成像素質很不錯,自動白平衡比較統一(上圖天空出現的顏色差是各自曝光設置有所區別,在會議應用中幾乎不會發生),自動亮度補償以及柔化的膚色模式也比較符合現代上班族對自拍的審美觀,并且像差校正做得還不錯,邊緣區域也能保證分辨率。而對于商用客戶來說,簡化安裝和易用非常關鍵。看到Meeting的易用設計比較人性化,與傳統視頻會議系統攝像頭、麥克風、揚聲器分離設計不同,看到Meeting為一體式設計,免安裝、便于帶到不同位置展開會議,零基礎就能上手。而USB免驅直連PC,實測Windows 7、Windows 10、macOS可用。攝像頭部分為按壓收納兼具開關功能設計,接入電源時按壓彈出就自動開機,連上PC就能使用,會議結束后按壓收納自動關機且保障隱私。一體式結構也就意味著對麥克風揚聲器的設計有較高的要求,比如前面提到各大模式中最值得注意的就是單人演講模式,因為它可以通過麥克風識別聲源方向進行取景調整。麥克風有足足8個,為環形陣列設計,一般的智能音箱都會控制在2~6個,比如HomePod和小米AI音箱有6個,亞馬遜Echo則是6+1,當然,即便數量相近,但它們之間也有明顯的區別,價格也不盡相同,在這里就不展開了。在看到Meeting機頂可以看到對應的8個等距開槽的拾音孔,下埋麥克風單元(目前的主流是MEMS,但看到Meeting采用模擬還是數字MEMS還是未知,當然也不排除采用性能更強的駐極體)。陣列麥克風的數量優勢在于增大拾音范圍和聲源指向性,前者自不必多說,后者則主要是因為遠場聲波波形近似平面波,陣列設計意味聲波抵達每個麥克風的行程不同,存在時間差,而根據這個時間差就能反推聲源方向,麥克風數量越多,指向就越準確,可參考下面畫出的線性簡圖:從實際測試結果來看,看到Meeting在4米以內有比較準確的方向判斷能力,并且拾音效果比較好,這意味著在50平方米左右的房間用看到Meeting進行視頻會議也能保證拾音效果,當然這只針對音頻,坐在遠端的參會者會存在圖像放大倍率過小的問題,因此從實用性而言看到Meeting主要適用的還是8人以內的小型會議。除此之外它還內置了2個10W功率揚聲器單元,比幾乎所有筆記本內置揚聲器效果都更出色,當然也是全向設計,但因為是開放式單元,所以必須做回聲消除設計,以免揚聲器發出的聲音又被麥克風拾取,影響通話質量。回聲消除硬件和軟件都有方法,硬件簡單粗暴一些但成本也相對更高,所以大多采用軟件算法,但算法的問題在于實時性,可能會存在聲音延遲的問題,而且看到Meeting主要適配的WindowsmacOS本身就是非實時平臺,所以具體回聲消除效果還需要配合具體的視頻語音軟件來看,目前業內領先的是Skype和QQ,我常用的也正好就是這兩個平臺,根據測試,至少在這兩個平臺上看到Meeting的通話質量是很高的,基本沒有回聲,雙向交流順暢,當然它還支持幾乎市面上主流的視頻語音平臺,適用面還是挺廣的。那么最后來聊聊技術吧,全景會議系統的基礎自然是360度全景,那么全景是如何實現的?簡單來說,只要有一個視場角達到360度的鏡頭系統就OK,顯然單顆鏡頭不可能做到這一點,至少需要2顆才能搞定,而且鏡頭系統越多,綜合成像質量越好,比如看到自家的Obsidian S和GO都是6攝像頭方案。但多個成像系統意味著成本的上漲和拼接算法的復雜化,因此絕大多數基礎型全景成像系統都只會采用雙鏡組方案。PS:用相機系統也比較容易拍攝二維全景圖像,只需要找到鏡頭入瞳位置(少數鏡頭會在鏡身上標注,沒有標注需要利用滑軌云臺自己慢慢找)并以此為云臺轉動軸心,就能拍攝無透視差的全景拼圖(因為入瞳是物面所有光束的共同入口)。利用此原理,使用大光圈長焦鏡頭可拍攝拼接淺景深廣視角效果,視覺震撼力很強:回到雙鏡頭全景系統上,因為單個鏡組需要負責的視場角至少180度,這也就意味著魚眼成為最靠譜的選擇(其實理論上還可以用折返系統做,但設計復雜、加工配準困難,抗震性還很差,所以并不適合)。而為了將半球視場投影到有限的平面傳感器上,根據理想投影公式:y為像高,f為系統焦距,θ為物方半視場角,可見當視場角達到或超過180度,也就是θ≥90度時,像高為無限大或負數無法成像,所以理想投影在這種情況下并不適用,需要引入桶形畸變做非相似投影,以拍攝正弦標靶為例,魚眼成像是中心稀疏而放大倍率高,邊緣密集且放大倍率低。主要的投影方式有等距離投影y=f *θ、等立體角投影y=2f*sin(θ2)、體視投影y=2f*tan(θ2)和正交投影y=f*sin(θ),攝影比較常用的是等距離投影,因為它的投影像點距畫面中心的距離,和物方視場角成線性關系,可直接提取物空間角坐標,相對簡單,當然等立體角和正交也有使用。會議系統需要邊緣成像不能差,分辨率要足夠高,而魚眼鏡頭的焦距選擇對邊緣分辨率有明顯的影響,焦距越短,邊緣分辨率越高,接下來是證明過程演算,不喜數學的可略過。假設一個180度視場角,像面尺寸為2h、傳感器像素間距為p的系統,以等距離投影成像,先引入實際像高與等距離投影像高的f-θ畸變值δ,實際像高就是y=f*θ*(1+δ),再設1+δ)為k,因為此時θ=π2,所以有:而與像高y像距2個像素的視場角θ2有:于是有:至此,此魚眼鏡頭邊緣角分辨率就可以表達為:微分上式可得:由此不難看出,當焦距f減小時,邊緣角分辨率增大,對于固定尺寸傳感器而言,相同物方視場角但焦距越短時,被壓縮的邊緣區域可以獲得較大的像素空間,進而提升邊緣分辨率。并且,這一點適用于所有四種投影模式,在這里就不逐一演算了。解決單鏡頭廣視角問題后,接下來全景鏡頭還需要做鏡頭間的邊緣拼接,看到Meeting采用的是2顆視場角220度的魚眼鏡頭,但大家要注意區分一個概念細節:視場角220度只代表傳感器對角線投影是220度,當傳感器有效受光區域高寬比不同時,水平視角也會隨之改變(當然,恒小于220度),所以“全景”相機并非真的能“看全”整個三維坐標系,而是要隨需求來選擇,或通過移動機位來實現動態覆蓋。看到Meeting是4:3比例傳感器,中心水平線是視角最窄的位置,按等距離投影粗略計算在176度左右,所以理論上中心水平位置的交叉區域會各自存在4度左右的盲區,但注意,雖然理論上盲區會隨遠離中心水平線而逐漸變小,并逐漸出現視場角交叉重疊,但實際上為了方便簡化計算所以幾乎不會這么做,而且拼接區域往往是實時渲染的,會根據具體紋理來具體操作。而且一般盲區出現在物距很近的情況下,對視頻會議來說幾乎不會發生,再加上超廣視角有放大倍率隨物距大幅降低的特性,圖像對齊是沒有問題的,如果安排座次時盡量避免與會人員坐在死角位置的話,基本可以忽略盲區的影響。而因為垂直視角不用做全景覆蓋所以基本可以無視,這也是它可以做收納型的伸縮柱形設計的原因。關于全景拼接,特別是有交叉冗余的情況下就必須嚴格對齊,比較經典的方法有特征點檢測和最優化圖像變換矩陣理論,前者速度快但易受噪聲和光照變化影響精度,后者則對迭代初值準確度敏感度很高,容易陷入局部鞍點,現代拼接一般采用混合兩者的方式來進行,比如利用相位相關性來提取特征點并優化自動匹配算法,提供較為精確的迭代初始值,減少迭代次數,實現低時滯的拼接,當然這個點展開也會非常細,就不多說了,總體來說現代全景相機在這方面做得都很不錯,但視頻會議的嚴肅性決定了它需要結合更高素質的硬件設計和軟件優化,在這方面,看到Meeting沒什麼問題。雖然沒有看到Meeting具體的鏡頭結構圖,但從1.45mm物理焦距和F2.4光圈還是能看出端倪,這種超短焦魚眼鏡頭的設計思路比較統一,大概率是12.5-2英寸CMOS傳感器,并采用7~8片反望遠結構打造,而且應該是由全球面玻璃材料,若合理結合非球面工藝理論上可以把焦距設計得更短。但即便如此,與看到Meeting類似的設計在200plmm空間頻率MTF也能跑到0.4,也就是1700LWPH(4:3比例12.5英寸),極限邊緣照度為中心的80%(強烈桶形畸變抵消了余弦四次方),這個成績看起來還不賴。最后說說落地商用的可能性吧,拓展行業領域最大的障礙是如何勸服企業用戶去打破傳統,事實上視頻會議系統的分門別類非常復雜,不少企業都會采購多種類型的產品,而看到Meeting主要應用于每個端口8人以內的會議規模,在這個前提下全景可充分發揮實用性:操作簡單、音視頻效果明顯比傳統攝像頭更出色,技術上足以突破壁壘,只要建設好渠道關系,在中小型視頻會議系統里分一杯羹應該不算難事。

關鍵字標籤:www.ingod.com.tw/