導航:首頁 > 網路數據 > stn網路技術

stn網路技術

發布時間:2023-01-12 05:28:33

⑴ 醫學圖像配准綜述之無監督轉換模型2019-09-23

盡管前幾節所述的方法取得了成功,但獲得可靠的地面真相的困難性質仍然是一個重大障礙。這促使許多不同的小組探索無監督的方法。對這些工作有用的一個關鍵創新是空間轉換網路(STN)[57]。有幾種方法使用STN來執行配准變形任務。本節討論利用圖像相似性度量(第5.1節)和圖像數據的特徵表示(第5.2節)來訓練網路的無監督方法。著名作品的描述見表3。

本節首先討論使用公共相似性度量和公共正則化策略來定義損失函數的方法。本節稍後將討論使用更復雜的基於相似性度量的策略的方法。圖9給出了一種基於標准相似度度量的變換估計可視化方法。

Neylon et al. [94] 在配准CT圖像時使用神經網路學習圖像相似度度量值與TRE之間的關系。這樣做是為了有效地評估配准性能。在95%的情況下,該網路能夠實現亞體素的准確性(subvoxel accuracy )。
Balakrishnan等[7,8]提出了一種無監督圖像配準的通用框架,理論上可以是單模態配准,也可以是多模態配准。神經網路使用一個選定的、手工定義的圖像相似性度量(如NCC、NMI等)進行訓練。

Dalca et al. [23] 將變形預測作為變分推斷進行了預測。將微分積分與轉換層相結合得到速度場。通過對速度場進行平方和重新標定,得到了預測的變形量。MSE作為相似度度量,與正則化項一起定義損失函數。他們的方法優於基於ANT的配准[6]和基於深度學習的方法描述的[7]。

Kuang et al. [68] 使用CNN和STN啟發的框架來執行t1加權腦MR的可變形配准。損失函數由一個NCC項和一個正則化項組成。該方法使用Inception模塊、低容量模型和殘差連接,而不是跳過連接。他們使用LBPA40和Mindboggle 101數據集,將他們的方法與VoxelMorph (Balakrishnan等人提出的方法,如上所述)、[8]和uTIlzReg GeoShoot[128]進行了比較,並證明了兩者的優越性能。

Ferrante et al. [35] 採用基於遷移學習的方法對x線和心臟圖像進行單峰配准。在這項工作中,網路使用NCC作為主要的損失函數項,對來自源域的數據進行訓練,並在目標域中進行測試。他們分別使用類似U-net結構 [103]和STN[57]進行特徵提取和變換估計。他們證明了使用域作為源域或目標域的轉移學習可以產生有效的結果。該方法優於Elastix配准技術[62]。
盡管將基於相似度度量的方法應用於多模態情況比較困難,Sun et al. [120] 提出了一種無監督的三維MR/US腦配准方法,該方法使用由特徵提取器和變形場發生器組成的三維CNN。該網路使用像素強度和梯度信息的相似性度量進行訓練。此外,圖像強度和梯度信息都被用作CNN的輸入。

Cao et al. [12]也將基於相似性度量的訓練應用於多模態情況。具體來說,他們使用模內圖像相似性來監督三維骨盆CT/MR體積的多模態可變形配准。利用真值變換得到的運動圖像與利用預測變換得到的運動圖像之間的NCC作為損失函數。這項工作採用「對偶」監督。這不能與前面描述的雙重監管策略相混淆。
受典型的無監督方法所估計的非對稱變換的局限性的啟發,Zhang等人[142]利用他們的網路——逆協調深度網路(network InverseConsistent Deep network, ICNet)來學習排列在同一空間中的每個大腦MR卷的對稱的不同形態變換。與其他使用標准正則化策略的作品不同,本文引入了一個反一致正則項和一個反折疊正則項,以確保高度加權平滑約束不會導致折疊。最後,兩個圖像之間的MSD允許以無監督的方式對網路進行訓練。該方法優於基於SyN的配准[5]、基於Demons的配准[80]和幾種基於深度學習的方法。

本節描述的後面三種方法採用GAN方法。與前面描述的基於gan的方法不同,這些方法既不使用真實數據,也不使用手工分割。Mahapatra等[85]使用GAN隱式學習密度函數(density function),該函數表示心臟圖像和多模態視網膜圖像(視網膜彩色眼底圖像和熒光素血管造影(FA)圖像)的可信變形范圍。除了NMI、結構相似度指標測度(SSIM)和特徵感知損失項(由VGG輸出之間的SSD決定)之外,損失函數還由條件約束和循環約束組成,這些約束是基於最近涉及到對抗性框架實現的進展。該方法優於基於彈性配准和de Vos等人提出的[26]方法。
Fan et al. [33] 使用GAN對三維腦磁共振體積進行無監督的可變形圖像配准。與大多數其他使用手工製作的相似性度量來確定損失函數的非監督工作不同,也不像以前使用GAN來確保預測的變形是真實的,這種方法使用一個鑒別器來評估對齊的質量。該方法在除MGH10外的所有數據集上都優於異態惡魔和SyN配准。此外,使用甄別器對注冊網路進行監督優於對所有數據集使用地面真值數據、SSD和CC。
Mahapatra等[86]不同於以往描述的工作(不僅僅是基於GAN的工作),提出了使用GAN框架同時分割和配准胸透。該網路有3個輸入:參考圖像、浮動圖像和參考圖像的分割掩碼,輸出變換後圖像的分割掩碼和變形場。三個鑒別器用於評估生成輸出的質量(變形場,翹曲圖像,分割)使用周期一致性和骰子度量。此外,生成器還使用NMI、SSIM和一個特徵感知丟失項進行訓練。
最後,與本節的其他方法不同,Jiang et al. [59] 沒有預測給定固定參數的變形場,而是使用CNN學習圖像變形的最優參數化,使用多網格b樣條方法和L1-norm正則化。他們使用這種方法來參數化4D CT胸部圖像體積的可變形配准。這里,SSD用作相似性度量,L-BFGS-B用作優化器。利用該方法得到的參數化變形模型的收斂速度比傳統的l1 -范數正則化多網格參數化變形模型速度快。

基於圖像相似度的無監督圖像配准技術由於克服了對任何類型的專家標簽的需求,近年來受到了研究領域的廣泛關注。這意味著模型的性能將不依賴於從業者的專業知識。此外,擴展了原有的基於相似度度量的方法,引入了更復雜的相似度度量(如GAN的判別器)和/或正則化策略已經產生了有希望的結果。然而,對於多模態配准應用,圖像相似度的量化仍然是一個難點。因此,基於圖像相似性的無監督作品的范圍很大程度上局限於單模態情況。鑒於在許多臨床應用中經常需要多模態配准,我們希望在不久的將來看到更多的論文來解決這個具有挑戰性的問題。

在本節中,研究了利用學習特徵表示訓練神經網路的方法。與前一節中研究的方法一樣,本節中調查的方法不需要ground truth數據。在本節中,首先介紹創建單模態配準的方法。然後,討論了一種解決多模態圖像配准問題的方法。基於特徵的變換估計大致結構如圖10所示

Yoo et al. [140] 使用STN來配准連續切片電子顯微鏡圖像(ssEMs)。訓練一個自編碼器對固定圖像進行重構,利用重構後的固定圖像與相應的運動圖像之間的L2距離和幾個正則化項構造損失函數。該方法優於bUnwarpJ配准技術[4]和彈性配准技術[105]。
Liu et al. [78] 提出了一種基於張量思想的單模態和多模態配准方法。實驗驗證了該方法的有效性,採用了吸氣-呼氣對胸CT容積和多模態對腦MR圖像。基於MI和剩餘復雜度(RC)的方法[92],原始的基於意識MIND的[44]配准技術採用該方法之後更優。。
Krebs et al. [65, 66]用隨機潛在空間學習方法對二維腦和心臟MR進行配准,繞過了空間正則化的需要。採用條件變分自編碼器[28]來保證參數空間服從規定的概率分布。利用給定潛表示的固定圖像的負對數似然性,以及潛分布與先驗分布的彎曲體積和KL散度來定義損失。

與本節所述的其他方法不同,Kori等人使用預訓練網路,在無監督容量下對二維T1和T2加權腦MR進行多模態配准特徵提取和仿射變換參數回歸[63]。首先對圖像進行二值化,然後利用移動圖像和固定圖像之間的 Dice score作為代價函數。由於這兩種模式的外觀差異不顯著,這些預訓練模型可的使用可以起到相當的效果。

以無監督的方式進行多模態圖像配准比進行單模圖像配准更困難,因為使用手工製作的相似性指標量化兩幅圖像之間的相似性的困難性,並使用上面描述的無監督技術建立/檢測voxel-to-voxel對應方法。最近引起了研究領域的極大興趣是使用無監督學習來學習特徵表示來求得最優轉換。前面討論的無監督圖像配准方法,我們希望基於特徵的無監督配准能夠繼續引起研究領域的極大興趣。此外,對多模態情況的擴展(特別是對於使用具有顯著外觀差異的圖像的應用)可能是未來幾年的一個突出研究重點。

⑵ 年會直播的製作方案以及搭建的流程應該怎麼做

公司近年來在新媒體直播方面大膽嘗試,積累了豐富的異地多會場媒體直播實戰經驗。本文以一次重要活動的技術方案為例,闡述此類直播技術的設計和實現方法,該技術的運用能起到擴大賽事活動影響,營造主會場與分會場上下聯動的作用。
為擴大影響,營造熱烈氛圍,主辦方要求電視台能夠對各會場活動進行大屏展示並進行實況互動直播,效果呈現為:主會場可以觀看收聽到其他分會場視音頻信號,分會場也可以收聽收看主會場視音頻信號。經過前期與運營商、相關部門進行調研溝通,後期技術人員的系統調試和網路搭建測試,初步選定了兩個方案。
一個方案是網路推拉流直播。技術上需要在各分會場布置拍攝地點和網路專線,通過切換設備輸出一路現場視音頻總信號進行編碼,然後以推流的方式將碼流輸出到雲端伺服器,由雲端軟體管理界面完成信號畫面的發布和調度。該方案優點是技術上部署快,架構簡單,短期內可以快速實現,所以是目前媒體公司多會場直播實現的主要方法,加上設備相對簡單,後台由直播平台管理,所以成本較低,多數直播平台採用此方案直播,人員設備採用打包租賃的方式,活動案例很多。有如某公司由紮根華南,服務大灣區的電視轉播服務商。團隊承包全國多個重要賽事、節目的直播項目。公司與北京星拓視聯文化傳媒有限公司、四開花園網路科技(廣州)有限公司、北京龍聚文化傳媒有限公司、河南衛視、澳亞衛視等企事業單位有長期合作關系。曾製作過國外版權機構ESPN播出的直播節目,擁有強大的製作實力。直播案例包括:2019散打天下總決賽(廣西貴港)、EFP-恆大U15/U17足球冠軍賽(雙製作區)、河南衛視-武林風橫琴之巔直播、Glory榮耀拳擊賽事、WCBA-中國女子籃球聯賽。缺點是由於直播碼率偏低,視頻質量通常在6M以下,延時也比較嚴重,通常為6到10秒。
另一個方案是電視直播。在各分會場布置視音頻現場製作系統,三機位廣播級攝像機加現場切換台輸出廣播級現場信號通過編碼器進行碼流轉換成IP視頻流,傳輸至視音頻光端機進行信號傳輸,經過運營商內部光纖網路、STN專網或MSTP綜合業務平台完成雙向數據交互。異地多會場視頻電視直播的切換的方式通常分為三級,一級切換負責總信號的製作,二級切換負責匯總各會場的信號供一級切換,三級切換負責各分會場現場信號的製作。整個系統涉及各個部門和人員協同參與(市縣兩級電視台、通信運營商、設備廠商、網路營運商)。該方案優點:直播碼率較高,視音頻質量和清晰度方面優勢明顯,安全有保障。缺點:調試時間較長,投入人力設備多,成本高。
因電視直播方案涉及技術面廣,效果較好,本文選擇此方案作為重點闡述。
一直播技術方案
1. 前期准備工作
公司在直播上需要多部門分工合作,共同進行系統測試和網路搭建,在效果呈現上需滿足:
◆各會場視頻信號接入現場大屏顯示;
◆各分會場大屏均可以看到主會場視頻信號;
◆主會場大屏可根據節目流程切換顯示分會場視頻信號。
技術上實現:主會場通過視頻切換台對主會場視頻信號以及分會場視頻信號進行特技切換,視頻信號和音頻信號輸出至直播編碼器,直播編碼器對視音頻信號進行採集並編碼,發布至電視廣播直播或流媒體伺服器進行各平台分發直播。用戶通過電視廣播收看收聽或移動客戶端訪問主站點,進行身份驗證後即能進行會議信息的接收以及會議實況錄像的選擇觀看。
前期准備工作有:
◆協調營運商布點施工提供直播專線網路和互聯網專線;
◆協調營運商提供STN平台傳輸,並完成各會場的布點、協同調試保障工作;
◆各分會場的視頻拍攝和切換輸出系統安裝調試;
◆主會場和各分會場編解碼和光收發設備的安裝調試;
◆系統聯調;
◆外包宣傳團隊進行前期宣傳
高效的團隊結構,策略核心來自國際4A廣告李奧貝納;產品核心來自全球知名企業匯豐銀行;技術核心來自老牌行業巨頭微軟科技;地處南中國一線城市廣州,國內電商互聯網巨頭雲集的地區,與業界緊密接觸,掌握前沿信息與資源。作為越秀集團合作夥伴,為集團提供年度社會責任報告裝訂版及線上版的設計與製作;作為平安人壽APP內容製作供應商,為平安人壽提供多款游戲及互動應用。

2.網路直播流程細則
前期准備:根據客戶提出的直播要求,預約准確的直播時間,制定直播成熟的策劃,引入抽獎元素,吸引用戶;前期專業團隊製作宣推的推文、小程序等進行預熱,多渠道分發保證直播傳播效果;公司專業服化團隊,指導主播造型,全程負責直播主播的妝發;直播道具、器材齊全,可適用於室內室外直播,直播設備包括但不限於腳架、話筒、攝像機、單反、燈光等。
直播現場:提前2小時到場布置場地,調整燈光,加防抖效果,以保證直播質量達到最佳效果確認最佳拍攝位置,技術人員檢測設備和網速。
直播期間:確保網路暢通,手機直播若使用wifi則開啟飛行模式,拉流直播由導播密切關注網路情況,同時制定全方位的應急預案。直播助手留意現場直播情況,關注觀眾提出問題,及時互動。直播過程中進行抽獎互動,現場直播放置二維碼,讓用戶掃碼進群抽獎,送出禮品。掃碼進群保證直播觀看人數不下降,保持直播熱度。
直播後:及時生成直播視頻,反饋直播數據。

3.設備的選型
整個系統組成包括:主會場視音頻設備(廣播直播車、電視直播車、新媒體直播系統、網路直播萬能機、多路編解碼器)。製作設備具體為大型直播運營一台8訊道(擴16訊)4K超高清轉播車、、一套12訊道高清EFP,
UHD-1轉播車車內配置。車體(含車頭):單側拉12米,展開4米;攝像機:索尼HDC4300x8訊(各焦段佳能4K鏡頭);切換台:索尼XVS6000 2ME 28鍵直切;矩陣:ROSS ultrix 64X64(12G)帶凈切換倒換備份;同步:泰克SPG700系列同步發生器及倒換;畫面分割:Ross UltrixScape;周邊模塊:Opengear系列Ross及Cobalt 9904等;轉換器:索尼hdrc4000 HDR轉換器x2台;通話系統:RTS ZEUSIII +KP32/KP12面板EVS:XT-VIA /XT4K(按需,最大4個LSM工位) 錄制:AJA kipro ultra plus音頻:YAMAHA CL3主台、YAMAHA-DM1000備台、dante音頻路由及台口箱。)。同時也為各種小型直播,配備有針對性的全套直播設備包括電容麥克風、外置音效卡、美顏攝像頭、監聽耳麥、直播電腦(拉流)、補光燈、支架配件。
主會場是活動直播是否能夠取得成功的關鍵點,因此在系統搭建的時候我們除了考慮設備的安全穩定性外,重點還對關鍵部位進行了備份;分會場視音設備;攜帶型視頻切換台;編解碼設備;光端收發設備;直播採集分發設備;光網路內部數據系統;網路服務中心(流媒體伺服器、WEB伺服器、資料庫伺服器);各會場終端設備;會場LED大屏顯示系統。
4. 網路架設方案
由於普通光端機信號傳輸距離過大,需要加設中繼設備對光信號進行放大才能收發正常,安全性因此受到路由節點的不穩定因素影響。因此,我們放棄了視音頻基帶信號進行遠距離光傳輸的方法,採用了網路運營商的專網和骨幹傳輸網核心傳輸技術,此方案採用了電信STN(Smart Transport Network)智能傳送網,是採用IP RAN和PTN技術相結合發展起來的一種增強型分組組網技術,是可以承載視頻、音頻、數據的綜合應用網路,最大的優點是可以靈活地調整帶寬,有著高可靠性做保障,通過網管可以實現端對端的管理,性能指標好(吞吐量、時延、丟幀率)。視音頻信號運用編解碼壓縮,通過TS over IP面向專業廣播電視信號傳輸實現流通進行傳輸,將TS包封裝成IP包,經廣播電視編解碼設備上的IP輸入輸出介面進行配置,在發送端完成編碼和IP化,在接收端經過適配、解復用、解碼的逆轉過程解碼後輸出現場信號,系統總延時在兩秒之內,能夠較好地完成各地的視音頻信號實時傳輸,傳輸質量穩定可靠,更為靈活有效。此次直播技術系統包含「信號攝錄」「信號處理及調度」「信號傳輸」「信號呈現及發布」等四部分,依據傳輸手段和發布渠道的異同,分為:公網IP流直播、專網IP流直播、電視直播、廣播直播。所有現場信號通過編碼器,把視頻信號轉換成IP流,通過公網(4G網路和光纖專網),把信號傳輸到各個會場,在主會場通過解碼器把信號傳輸分發到各平台進行直播。傳輸網路拓撲如圖2。

5. 核心參數的設置
多會場異地直播不僅系統繁雜,投入的人員和裝備規模大,指揮調度協同難度高,為確保系統的穩定安全和協同工作有序展開,技術人員對系統採用的主要編碼參數和傳輸網路分別進行飽和壓力測試,從而確保廣播電視信號可以正常工作於電信運營商提供的專網,保障活動直播安全穩定進行。
主會場電信專網採用上下行1000M帶寬,各分會場上下行100M帶寬,採用電信專網STN加內部業務地址實現源到目的IP點對點編解碼組播形式進行multicast,另外運營商再提供上下行100M互聯網專線,並單獨提供公網IP以及開通以下埠:9000-9010、18255、10020、80、1935。現場廣播電視信號以H.264進行編碼,編碼器主要參數設置有:視頻方面碼率為10Mbps,GOP Length:12,buffer mode:CBR,GOP Structure:IBBP,音頻方面PCR間隔:18,音頻編碼標准為:MPEG Layer2 bitrate256Kbps,音頻聲道:stereo,網路協議採用:IP Encapsulation:UDP,IP包為TS Packets per IP Packet:7。特別需要注意的是,在編碼器中音頻的設置需要把AC3BYPASS設置為OFF,否則編碼器的SDI介面會出現只有畫面沒有聲音的情況。在配置編解碼器時還需要注意源IP是編碼器IP,目的IP是解碼器在NMS軟體里的TS over IP里設置的IP(與解碼器的液晶面板IP是不同的,液晶面板的IP設置對應的是NMS軟體里的管理IP)。
二經驗總結
◆主辦方牽頭成立直播工作領導小組,統籌協調各單位有效配合為活動直播提供技術支持、保障、服務,明確了責任分工;
◆確定活動整體方案,因電視台本身沒有光纖網路傳輸平台,所以主辦方需在明確各會場地點後協調運營商解決各直播點之間的視頻光纖專線布點和與主會場之間連接貫通,並提供STN平台運用,同時提供會場數據網路光纖專線和內部高速網路的布點、調試與貫通;
◆直播預備基本應急措施。如直播信號有主備路、甚至多路信號保障,要求多路播出前進行技術測試,保證暢通、互不交織,以確保需要時相互轉換;直播節目進行相對延時播出,發現問題及時更改補救;直播出現如何問題,有準備直播內容相關的靜止畫面或短視頻,及時進行遮擋操作。

◆縣區台支持會場的視頻導播切換、視頻拍攝;
◆設備系統廠家支持會場流媒體直播系統、編解碼的調試運行保障。正是由於指揮調度高效、前期准備工作充分、專業技術人員調試到位,諸多直播工作才能圓滿順利完成。
三結束語
以上就是異地多會場直播的方案,這種方案已經成功地運用多個重要活動直播當中,如文明火炬傳遞、桃花節、馬拉松等活動。該方案的成功運用開創了傳統媒體直播和新媒體直播融合發展的先河,收到了良好的社會效益和經濟效益,在實際運用中,滿足了在重大活動直播中的新要求,突破了傳統多點異地直播中電視直播的時間空間限制,系統搭建更加靈活,實現更加快捷便利。未來我們將更加有效地組織開展新系統新技術的探索和運用,優化流程,確保在直播中系統能夠更加安全,運行更加穩定高效;充分結合傳統媒體和新媒體的技術運用,發揮媒體融合技術先行的優勢,促進媒體深度融合。

⑶ SDH,MSTP,OTN和PTN的區別和聯系

區別復:

1、使用的技術不制同:

SDH:用的是通過不同速率的數字信號的傳輸提供相應等級的信息結構的技術。

MSTP:是更高級的SDH,是基於SDH來傳輸乙太網。

OTN:用的是波分技術。

PTN:用的是分組交換的技術。

2、應用不同:

SDH:IP業務、ATM業務。

MSTP:種類豐富的帶寬服務。

OTN:提供網路保護、提高安全性。

PTN:適合各種粗細顆粒業務、端到端的組網能力。

3、原理不同:

SDH:映射、定位和復用。

MSTP:將傳統的SDH復用器、數字交叉鏈接器(DXC)、WDM終端、網路二層交換機和lP邊緣路由器等多個獨立的設備集成為一個網路設備,進行統一控制和管理。

OTN:在光域內實現業務信號的傳送、復用、路由選擇、監控,並且保證其性能指標和生存性。

PTN:在IP業務和底層光傳輸媒質之間設置了一個層面,它針對分組業務流量的突發性和統計復用傳送的要求而設計,以分組業務為核心並支持多業務提供。

聯系:

它們都是光傳輸的技術。

⑷ pstn什麼意思

PSTN的意思就是公共交換電話網路,全稱,一種常用舊式電話系統。 PSTN()定義:公共交換電話網路,一種常用舊式電話系統。即我們日常生活中常用的電話網。工作原理公共交換電話網路是一種全球語音通信電路交換網路,包括商業的和政府擁有的。 所謂公用電話交換網(PSTN--),即我們日常生活中常用的電話網。眾所周知,PSTN是一種以模擬技術為基礎的電路交換網路。在眾多的廣域網互連技術中,通過PSTN進行互連所要求的通信費用最低,但其數據傳輸質量及傳輸速度也最差,同時PSTN的網路資源利用率也比較低。 更多關於pstn什麼意思,進入:https://m.abcgonglue.com/ask/2d04601615835929.html?zd查看更多內容

⑸ ipran和stN的區別

IPRAN是指以IP/MPLS協議及關鍵技術為基礎,主要面向移動業務承載並兼顧提供二三層通道類業務承載,以省為單位,依託CN2骨幹層組成的端到端的業務承載網路。在IPRAN網路中主要包括接入層、匯聚層和核心層,而核心層又分為城域核心層、省核心層。STN(SuperTwistedNematic)是用電場改變原為180度以上扭曲的液晶分子的排列從而改變旋光狀態,外加電場通過逐行掃描的方式改變電場,在電場反復改變電壓的過程中,每一點的恢復過程較慢,因而產生余輝。它的好處是功耗小,具有省電的最大優勢

⑹ 微辰信息技術有限公司

本專業培養具有扎實的數學、物理、電子和計算機的基礎知識,系統地掌握光學信息處理技術、現代電子學技術和計算機應用技術的基本技能,能在光通信、光學信息處理、以及相關的電子信息科學、計算機科學等信息技術領域、特別是光機電算一體化產業從事科學研究、產品設計和開發、生產技術或管理的面向二十一世紀的高級專門人才。
培養要求:本專業學生主要學習光信息科學與技術的基本理論和技術,熟悉光學、電子學技術和計算機技術,受到科學實驗與科學思維的訓練,具有本學科及跨學科的科學研究與技術開發的基本能力。
畢業生應獲得以下幾方面的知識和能力:
1.掌握數學、物理等方面的基本理論和基本知識;
2.掌握光信息科學的基本知識和基本實驗技能;
3.了解相近專業的一般原理和知識;
4.熟悉國家信息產業政策及國內外有關知識產權的法律法規;
5.了解光信息科學與技術的理論前沿、應用前景和最新發展動態,以及信息產業發展狀況;
6.掌握資料查詢、文獻檢索及運用現代信息技術獲取相關信息的基本方法;具有一定的實驗設計,創造實驗條件,歸納、整理、分析實驗結果,撰寫論文,參與學術交流的能力。
(1)、我國的光學與光電子材料研究已進入應用和產業化的發展階段。 其中:
在半導體光電子材料方面:在我國,用於集成電路(IC)和太陽能電池單晶硅(Si)年產量約為400噸。用於光電子器件的GaAs單晶、用於LED和LD的InP單晶和用於紅、綠色LED的GaP晶元材料已實用化。用於藍光LD和藍、綠光LED和GaN、SiC等寬禁帶半導體材料正在研發中。
在激光晶體材料方面:華北光電技術研究所研製的Nd:YAG晶坯性能指標達到國際先進水平。華博技術有限公司的YAG激光棒年批量生產能力為3000根。中國已成為礬酸釔(YVO4)晶體的生產出口大國。中國科學院福建物質結構研究所研製成大尺寸YVO4單晶,並加工成偏振晶體器件。北京爍光特晶體科技有限公司已建成年產200公斤YVO4 單晶生產線。上海光機所研製的摻鈦藍寶石激光晶體也已經出口美國、日本、俄羅斯等國家。我國研製的Nd:YAG和Nd:YVO4激光晶體,其主要技術指標達到國際先進水平,出口產品數量約占國際市場1/3。
在非線性光學晶體方面:我國研製的偏硼酸鋇(BBO)、三硼酸鋰(LBO)等優質的非線性光學材料,系國際首創,用於激光光源在可見光區的頻率轉換。用於激光倍頻、光參量振盪、電光調Q和聲光、電光器件的鈮酸鋰(LN)單晶中國的年生產能力約為10 噸。
光電子材料發展的重點為:高功率、可調諧、LD泵浦和新波長激光晶體等;超高亮度(LED)、半導體激光器(LD)用GaAs ,Gap,GaN基外延材料等;STN,TFT顯示器用液晶材料等;用於密集波分復系統的G.655非零色散位移光纖及大尺寸光纖預制棒等。
(2)、光學元器件包括:光學儀器,光電檢測儀器,光學遙感、遙測儀器,機器人視覺,光學檢測和測量、夜視和偵察,微光夜視儀,紅外夜視儀,高解析度的成像衛星,偵察相機, 高靈敏探測器平面陣列(FRA),快速三維模型測量;計量學(定位,位置,線度,準直);機器視覺(特徵,方位和缺陷);光學感測器(成分,溫度,PH值探測等)。
1. 光通信與光纖感測器件(光電感測技術、光纖通信原理與技術、光通信實驗等)
這里可包括光纖光纜,光電子材料,集成光電子器件,光電元、器件,光纖通信器件(光纖無源器件,光纖有源器件),光纖感測器件,光纖激光器,光端機,光纖通訊機及設備,光纖數據傳輸設備;光纖陀螺儀;光纖控制的相控陣雷達,光纖地面和衛星通信系統等等。我國現有光纖通信企業320餘家,其中光纖光纜193家,光電器件46家,光纜材料和配套件企業22家,通信專用儀表9家,光通信傳輸設備50家。產值240億元,銷售額262億元。「十五」期間中國光通信產業發展重點為光傳輸、光接入、光傳送網產品、光纖光纜和光電器件五個方面。
2. 激光器件及應用(光學、物理光學、非線性光學、激光原理和技術、光信息處理等)
包括激光器件(光纖,半導體、固體、氣體、準分子及其它),激光加工,激光全息,激光醫療儀器,激光測距,激光雷達,激光跟蹤,激光制導,光學陀螺儀,交通控制系統,光導航設備與系統,目標指示器,干擾發射機和通信設備等。目前我國從事激光技術研究、激光應用產品研製生產的單位約有400餘家(不含激光音像設備生產單位),全國激光產品市場年銷售額約為32.4億元人民幣(此數據不包括激光音像設備、激光通信工程、激光條碼檢測及激光二次效益如激光醫療收入等)。
3. 光信息輸入與存貯(電工電子技術、計算機技術、光學基礎)
隨著計算機、網路技術和數字媒體技術的發展,光輸出入類設備,如掃描儀、列印機、復印機、傳真機和數碼相機等辦公自動化設備,以及光存儲類產品,如CD-ROM、CD-RW和DVD-ROM光碟機,以及記錄用的CD-R 光碟機和可重復讀寫型的CD-RW 光碟機,迅速地進入了人們的生活和工作。各種新型的辦公消費、娛樂類的光電產品將成為21世紀人們生活中的必需品。
數碼相機產業市場發展迅速:國家計委已確立重點發展數碼相機(DSC)產業的計劃,進軍數碼相機市場。目前在於組織力量,研發數碼相機的關鍵零部件、核心技術及配件;重點項目包括:彩色顯示器、專用IC、高性能球面鏡片及印表機、碳粉等。
目前中國從事數碼相機的研發、生產的廠家有:鳳凰數碼、喜馬拉雅、海鷗、方正科技、紫光、聯想集團、朝華科技、華旗資訊、TCL、先科、明基(BenQ)等。目前國內已有30多個品牌,大多集中在家用市場。
國外公司陸續在中國內地投資設立數碼相機生產線,這些公司包括:美能達(Minolta)、尼康(Nikon)、賓得(Pentax)、松下(Panasonic)、三星(Samsung)、惠普(HP)、愛普生(Epson)、 三洋公司、索尼(Sony)公司、奧林巴斯公司(Olympus)、柯達公司(Kodak) 、佳能公司(Canon)、 富士膠片公司(FujiFilm)等。
掃描儀市場穩定增長:掃描儀是計算機的重要外設產品之一,已成為光電產品中技術工藝成熟、市場應用穩定增長的重要產品。目前全球掃描儀的著名品牌Microtek、HP、AGFA、UMAX、Acer、EPSON、Canon等早已陸續進入中國國內市場,與此同時,台灣地區的代工生產廠商的生產基地也都全部轉移到了內地,北大方正、清華紫光等國內單位研發的掃描儀也正成為掃描儀市場中重要品牌。
研發生產掃描儀的廠商擁有掃描器生產技術和影像處理技術,因此包括數碼相機、PC Camera等相關產品都是目前掃描儀廠商謀圖發展的替代產品。為了適應多功能PC外圍光電輸入/輸出設備應用市場的需求,今後掃描儀產品必將向著多功能復合應用方向發展。 4 . 光顯示材料與設備(電路基礎、模擬電路、數字電路、微機原理與介面技術、光學等)
我國顯示器領域發展良好:
在液晶顯示器(LCD)方面:我國液晶顯示器產量佔世界產量的25 %。中國液晶行業年銷售額約為53.52億元。
我國已能生產滿足寬溫度低閾值等特殊要求的TN液晶材料,STN液晶材料已開始批量生產,結束了完全依靠進口的局面。國內的薄膜晶體管(TFT)用液晶材料仍處於實驗室研製階段。我國液晶材料年生產能力已超過40 噸。國內主要的企業有4家:北京清華亞王液晶材料有限公司、西安現代化學研究所、石家莊實力克液晶公司和煙台萬潤精細化工有限公司。
偏振片已進入穩定的批量生產階段,現有兩家生產企業,廣東福地日合偏光器件有限公司和深圳市深紡樂凱光電子材料有限公司,年銷售75萬平方米,銷售額超過6000萬元。
ITO導電玻璃是液晶三大材料之中發展最快的,生產廠家已超過10家,其中規模最大的是深圳萊寶真空技術有限公司。年生產ITO玻璃376萬平方米,銷售總值約6億元。STN用導電玻璃已大部分滿足國內需求。生產導電玻璃的成套設備已具備實現國產化的能力。
此外,掩膜版、背光源、取向劑、封接膠、光刻膠以及其他LCD相關材料的國內自給率有了很大的提高。即不完全統計,從事這方面生產的企業有7家,實現產值1.69億元。
中國現有LCD生產廠家約60家, 2003年北京市京東方科技集團有限公司以3.8億美元成功收購韓國現代顯示技術株式會社的TFT-LCD(薄膜晶體管液晶顯示器件)核心技術,已經在北京經濟技術開發區建設TFT-LCD產業基地,未來10年,TFT-LCD將在家電、電腦、數碼相機、手機等行業得到廣泛應用。
日本、韓國、台灣等向中國大陸加快轉移STN-LCD、TFT-LCD生產線,已建成的或開始建設已達14條線,大多數為STN-LCD生產線,也有TN 和彩色STN生產線。
在發光二極體(LED)方面:近年來我國LED產業呈現穩步增長趨勢,國內與LED研究、開發、生產有關的單位有300多家,大多數企業生產普通LED(指晶元為GaP、GaAlAs的發光二極體)。年產量達120億只,銷售額約40多億元。目前國內普通LED晶元能批量生產的企業只有一家——聯創光電公司,年產約20億只,聯創光電公司將向LED下游產品擴展,發展紅、綠、藍三基色全彩顯示屏、LED白光照明、LED交通等產品,屆時聯創光電將成為國內產品層次最多、規模最大的LED廠家。
LED顯示屏生產企業約有幾十家。中國正在成為全球傳統LED的生產加工供應基地之一。
中國生產的紅、綠、橙、黃發光二極體產量約佔世界產量的12 %,藍色發光二極體已研製成功。
在等離子體顯示器(PDP)方面:等離子體顯示器(PDP)研究開發取得較大進展, 已經開始生產42英寸PDP屏。
在其他類型顯示器方面方面:如真空熒光顯示(VFD)、有機EL(OLED)、場發射(FED)等均在科研生產中取得進展。「十五」期間中國發展顯示器投資了380億元。
5 . 紅外產品(電工電子技術、計算機技術、光學基礎)
近幾年來,我國的紅外產品市場發展迅速。隨著工業自動化的發展,熱故障與熱漏泄診斷的逐步推廣,以及技術安保體系的建立,紅外測溫儀、熱像儀和熱電視等產品的市場穩步增長。全國主要紅外產品年銷售額約為8億5千萬元人民幣。
6. 照明與能源(原子物理、半導體物理、量子力學、固體物理、電工電路技術、光學基礎)
高亮度高效金屬鹵化物燈、硫二聚物(微波放電)燈和發光二極體LED光源將逐步取代白熾燈,實現照明上的革命。發光材料,發光二極體與發光元器件;
發展太陽能電池,地球上的能源愈來愈短缺,美國預計到2050年,太陽能源將占能源的一半。
光全息與全息存儲(光學、物理光學、非線性光學、光信息處理、激光原理與技術)

⑺ [文獻翻譯]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

摘要 :深度卷積網路在靜態圖像的視覺識別方面取得了巨大的成功。 但是,對於視頻中的動作識別,相對於傳統方法的優勢並不是那麼明顯。 本文旨在設計有效的ConvNet架構來進行視頻動作識別,並在有限的訓練樣本下學習這些模型。 我們的第一項貢獻是時間分段網路(TSN),這是一種基於視頻的動作識別的新框架。這個結構是基於遠程時間建模的思想。它結合了稀疏的時間采樣策略和視頻級的監督,可以使用整個動作視頻進行有效的學習。 另一個貢獻是我們研究了在時間分段網路的幫助下學習視頻數據上的ConvNet的一系列實踐。我們的方法在HMDB51(69.4%)和UCF101(94.2%)的數據集上實現了SOTA。 我們還將ConvNet模型可視化,證明了時間分段網路和提出方法的有效性。

1介紹

基於視頻的動作識別由於其在安全和行為分析等許多領域中的應用而引起了學術界的極大關注[1,2,3,4,5,6]。在動作識別中,有兩個關鍵且互補的方面:外觀和動態。識別系統的性能在很大程度上取決於它是否能夠從中提取和利用相關信息。然而,由於諸如尺度變化,視角變化和相機運動之類的復雜因素,提取這樣的信息是困難的。 因此,設計有效的表示形式以解決這些挑戰同時保留動作類別的分類信息就變得至關重要。最近,卷積神經網路[7]在對物體,場景和復雜事件的圖像進行分類方面取得了巨大的成功[8.9.10.11]。ConvNets也已被引入以解決基於視頻的動作識別問題[12,1,13,14]。深度ConvNets具有強大的建模能力,並能夠在大規模監督數據集的幫助下從原始視覺數據中學習區分表示。但是,與圖像分類不同,端到端的深層ConvNet仍然無法獲得比傳統手工特徵提取明顯的優勢。

我們認為,ConvNets在基於視頻的動作識別中的應用有兩個主要障礙。首先,長時間結構在理解動作視頻的動態過程中起著重要作用[15,16,17,18]。但是,主流的ConvNet框架[1,13]通常集中在外觀和短期運動上,因此缺乏整合長時間結構的能力。最近有一些嘗試[19,4,20]來解決這個問題。這些方法主要依賴於具有設定采樣間隔的密集時間采樣。當將這種方法應用於長視頻序列時,將導致過多的計算成本,這限制了其在現實世界中的應用,並存在丟失長於最大長度視頻的重要信息的風險。其次,在實踐中,訓練深層ConvNets需要大量訓練樣本才能實現最佳性能。但是,由於數據收集和標注的困難,可公開使用的動作識別數據集(例如UCF101 [21],HMDB51 [22])在大小和多樣性上都受到限制。 因此,非在圖像分類中取得了顯著成功深層ConvNets [9,23]在視頻中面臨著過擬合的高風險。

這些挑戰促使我們研究兩個問題:1)如何設計一種有效和高效的視頻級框架來學習視頻表示,該框架能夠捕獲長期的時間結構; 2)如何在有限的訓練樣本下學習ConvNet模型。特別是,我們在成功的雙流體系結構[1]的基礎上構建了我們的方法,同時解決了上述問題。在時間結構建模方面,一個關鍵的發現是連續的幀是高度冗餘的。 因此,高度相似采樣幀的密集時間采樣通常是不需要的。相反,在這種情況下,稀疏的時間采樣策略將更為有利。 受此發現的啟發,我們提出了一個視頻級框架,稱為時間分段網路(TSN)。 該框架採用稀疏采樣方案在較長的視頻序列上提取短片段,其中采樣沿時間維度均勻分布。 之後,採用分段結構來聚集來自采樣片段的信息。從這個意義上講,TSN能夠對整個視頻的長時間結構進行建模。 而且,這種稀疏的采樣策略可以以較低的成本保存相關信息,從而可以在合理的時間和計算資源下,在長視頻序列上進行端到端學習。

為了開發STN框架的全部潛力,我們採用了最近介紹的深層ConvNet架構[23,9],並探索了許多良好實踐以克服由以下訓練樣本不足原因帶來的上述問題,包括1)交叉預訓練;2)正規化;3)數據增強擴充。同時,為了充分利用視頻中的視覺內容,我們對雙流ConvNets的四種輸入形式進行了經驗研究,即單RGB圖像,堆疊的RGB差,堆疊的光流場和堆疊的矯正光流場。

我們對兩個具有挑戰性的動作識別數據集(UCF101 [21]和HMDB51 [22])進行了實驗,以驗證我們方法的有效性。在實驗中,使用TSN學習的模型在這兩個具有挑戰性的動作識別數據集上的表現SOTA。 我們還可視化了我們所學的雙流模型,試圖為將來的動作識別研究提供一些參考。

2相關工作

在過去的幾年中,動作識別已被廣泛研究[2,24,25,26,18]。與我們有關的先前研究分為兩類:(1)用於動作識別的卷積網路,(2)時間結構建模。

卷積網路的動作識別 。先前的許多工作一直在嘗試設計有效的ConvNet架構來進行視頻中的動作識別[12,1,13,27,28]。Karpathy等[12]在大型數據集(Sports-1M)上測試了具有深層結構的ConvNets。 Simonyan等[1]通過利用ImageNet數據集進行預訓練和計算光流以捕獲運動信息,設計了包含空間和時間網路的雙流ConvNet。Tran等[13]在現實和大規模的視頻數據集上探索了3D卷積[27],他們嘗試通過3D卷積運算學習外觀和運動特徵。Sun等[28]提出了一個基於分解的時空ConvNets,並利用不同的方法來分解3D卷積核。 最近,有幾篇文章著重介紹了使用卷積建模長時間結構的方法[4,19,20]。但是,這些方法直接在較長的連續視頻流上運行。 受計算成本的限制,這些方法通常處理固定長度為64到120幀的序列。 由於它的時間覆蓋范圍有限,因此從整個視頻中進行學習並非易事。 我們的方法與這些端到端深層ConvNets的不同之處在於,它新穎地採用了稀疏的時間采樣策略,該策略可以在不限制序列長度的情況下使用整個視頻進行有效的學習。

時間結構建模 。許多研究工作致力於為動作識別時間結構建模[15,16,17,29,30,18]。Gaidon等[16]注釋了每個視頻的每個子動作,並提出了用於動作檢測的Actom序列模型(ASM)。Niebles等[15]提出使用潛在變數來建模復雜動作的時間分解,並藉助潛在SVM [31]以迭代方式學習模型參數。Wang等[17]和Pirsiavash等。[29]分別使用隱性層次模型(LHM)和分段語法模型(SGM)將復雜動作的時間分解擴展為分層方式。Wang等[30]設計了一個順序骨架模型(SSM)來捕捉動態體之間的關系,並進行時空動作檢測。 Fernando [18]為行為識別建模了BoVW表示。但是,這些方法仍然無法組合用於對時間結構建模的端到端學習方案。前文所提出的時間分段網路STN,同時也強調了這一原理,是對整個視頻進行端到端時間結構建模的第一個框架。

3時間分段網路的動作識別

在本節中,我們將詳細介紹使用時間分段網路執行動作識別的過程。具體來說,我們首先介紹TSN框架中的基本概念。然後,我們研究在TSN框架內學習雙流ConvNet的實踐。 最後,我們描述了學習到的雙流ConvNets的測試細節。

3.1時間分段網路

正如我們在第一節中討論的那樣。如圖1所示,雙流ConvNets當前的一個明顯問題是它們無法建模長時間結構。這主要是由於它們對時間軸前後的訪問受到限制,它們被設計為僅在短片段中的單個幀(空間網路)或單個幀堆棧(時間網路)上運行。但是,復雜的動作(例如體育動作)包括跨越相對較長時間的多個階段。如果在ConvNet訓練中沒有在這些動作中使用長時間結構,那將是巨大的損失。 為了解決這個問題,我們提出了時間分段網路,即圖1所示的視頻級框架,以便能夠對整個視頻進行動態建模。

具體來說,我們提出的時間分段網路框架,旨在利用整個視頻的視覺信息來執行視頻級別的預測,它也由空間流ConvNet和時間流ConvNet組成。時間分段網路不是在單個幀或幀堆棧上工作,而是在從整個視頻中稀疏采樣的一系列短片段上運行。此序列中的每個片段都將對動作類別產生自己的初步預測。 然後,片段之間的共識將被導出為視頻級別的預測。 在學習過程中,通過迭代更新模型參數來優化視頻級預測的損失值,而不是用於雙流ConvNet的局部預測的損失值。

形式上,給定視頻V,我們將其分為相等持續時間的K個段{S1,S2,…,SK}。 然後,TSN對片段序列進行如下建模:

其中C是動作類別的數量,yi是類別i的標簽。 在實驗中,根據先前的時間建模工作 [16,17],片段的數量K設置為3。 函數G的形式仍然是一個懸而未決的問題。 在這項工作中,我們使用最簡單的G形式,其中Gi = g(Fi(T1),...,Fi(TK))。 此處,使用函數g從所有片段上的同一類別的分數推斷出類別分數Gi。我們根據經驗評估了聚合函數g的幾種不同形式,包括實驗中的平均,極值和加權平均。 其中,平均均值用於報告我們的最終識別准確性。

取決於g的選擇,此TSN是可微的或至少具有子梯度。這使我們能夠利用多個片段,通過標準的反向傳播演算法共同優化模型參數W。 在反向傳播過程中,模型參數W相對於損耗值L的梯度可以推導為:

3.2學習時間分段網路

時間分段網路提供了執行視頻級學習的框架,但是要實現最佳性能,必須注意一些實際問題,例如訓練樣本數量有限。為此,我們研究了在視頻數據上訓練深層ConvNet的一系列良好做法,這些做法也可直接應用於學習時間分段網路。

網路體系結構 。網路體系結構是神經網路設計中的重要因素。幾項工作表明,更深的結構可以提高對象識別性能[9,10]。但是,原始的雙流Con vNets [1]採用了相對較淺的網路結構(ClarifaiNet [32])。 在這項工作中,由於在准確性和效率之間具有良好平衡和批歸一化的Inception[23]作為構建基塊。 我們將原始的BN-Inception體系結構調整為雙流ConvNet的設計。像在原始的雙流ConvNets [1]中一樣,空間流在單個RGB圖像上運行,而時間流將一堆連續的光流場作為輸入。

網路輸入 。我們也有興趣探索更多的輸入方式來增強STN的判別能力。 最初,雙流ConvNets將RGB圖像用於空間流,將堆疊的光流場用於時間流。 在這里,我們建議研究兩種額外的模式,即RGB差和矯正流場。

單個RGB圖像通常在特定時間點編碼靜態外觀,且缺少有關上下幀的信息。如圖2所示,兩個連續幀之間的RGB差異描述了外觀變化,該變化可能與運動顯著區域相對應。 受[28]的啟發,我們嘗試添加疊加的RGB差作為另一種輸入形式,並研究其在動作識別中的性能。

時間流ConvNets以光流場為輸入,旨在捕獲運動信息。但是,在真實的視頻中,通常存在攝像機運動,並且光流場可能不會集中在人體運動上。如圖2所示,由於攝像機的運動,在背景中突出了大量的水平運動。 受iDT[2]的啟發,我們建議將矯正的光流場作為附加的輸入形式。根據[2],我們首先通過估計單應性矩陣然後補償相機運動來提取矯正光流。如圖2所示,矯正的光流抑制了背景運動並使運動集中在人體身上。

網路****訓練****。 由於用於動作識別的數據集相對較小,因此訓練深度ConvNets面臨著過擬合的風險。 為了解決這個問題,我們設計了以下幾種在時域網中訓練卷積網路的策略。

交叉預訓練。 當目標數據集沒有足夠的訓練樣本時,預訓練是初始化深層ConvNets的有效方法[1]。 當空間網路將RGB圖像作為輸入時,參數可以利用在ImageNet [33]上訓練的模型作為初始化。 對於其他形式,例如光流場和RGB差,它們本質上捕獲了視頻數據的不同視覺方面,並且它們的分布與RGB圖像的分布不同。我們提出了一種交叉預訓練技術,其中我們利用RGB模型初始化時間流網路。首先,我們通過線性變換將光流場離散化為從0到255的間隔。 此步驟使光流場的范圍與RGB圖像相同。 然後,我們修改RGB模型的第一卷積層的權重以處理光流場的輸入。 具體來說,我們對RGB通道上的權重取平均值,並通過時間網路輸入的通道數來復制該平均值。 這種初始化方法在時態網路中效果很好,並減少了實驗中過度擬合的影響。

正則化技術。批處理規范化[23]是處理協變數偏移問題的重要手段。在學習過程中,批次歸一化將估計每個批次內的激活平均值和方差,並使用它們將這些激活值轉換為標準的高斯分布。這項操作會加快訓練的收斂速度,但由於對有限數量的訓練樣本的分布估計存在偏差,會導致在傳遞過程中過擬合。 因此,在使用預訓練模型進行初始化之後,我們選擇凍結除第一層外的所有批處理歸一化層的均值和方差參數。 由於光流的分布與RGB圖像不同,因此第一卷積層的激活值將具有不同的分布,因此我們需要相應地重新估計均值和方差。 我們稱這種策略為局部BN。同時,我們在BN-Inception體系結構的全局池層之後添加了一個額外的隨機失活層,以進一步減少過度擬合的影響。 對於空間流ConvNet,隨機失活率設置為0.8;對於時間流ConvNet,設置為0.7。

數據增強。數據增強可以生成各種訓練樣本,並防止嚴重的過擬合。在原始的雙流ConvNet中,隨機裁剪和水平翻轉被用來增加訓練樣本。我們利用兩種新的數據增強技術:角點裁剪和比例抖動。在角點裁剪技術中,僅從圖像的角點或中心選擇提取的區域,以避免隱式聚焦在圖像的中心區域。在多尺度裁剪技術中,我們將ImageNet分類中使用的尺度抖動技術[9]應用於動作識別。我們提出了尺度抖動的有效實現。 我們將輸入圖像或光流場的大小固定為256×340,並從{256,224,192,168}中隨機選擇裁剪區域的寬度和高度。 最後,將這些裁剪區域的大小調整為224×224,以進行網路訓練。 實際上,此實現不僅包含比例抖動,而且還涉及縱橫比抖動。

3.3測試TSN

最後,我們介紹了針對時間分段網路的測試方法。 由於所有的片段ConvNet都共享TSN中的模型參數,因此學習到的模型可以像普通的ConvNet一樣執行逐幀評估。這使我們能夠與沒有TSN的學習模型進行公平比較。具體來說,我們遵循原始雙流ConvNets的測試方案[1],在該方案中,我們從動作視頻中采樣了25個RGB幀或光流堆棧。 同時,我們裁剪了4個角和1個中心,並從采樣幀中進行了水平翻轉以評估ConvNet。對於空間和時間流網路的融合,我們對它們進行加權平均。 在TSN框架內學習時,空間流ConvNet和時間流ConvNet之間的性能差距比原始的雙流ConvNet中的性能差距小得多。 基於這一事實,我們將空間流的權重設置為1,將時間流的權重設置為1.5,從而為空間流賦予更高的權重。 當同時使用正常和矯正的光流場時,對於正常光流,權重被劃分為1,對於矯正的光流,權重被劃分為0.5。 在3.1中有描述,分段共識函數在Softmax歸一化之前應用。為了測試模型是否符合訓練條件,我們在Softmax歸一化之前融合了25個幀和不同流的預測分數。

4實驗

在本節中,我們首先介紹評估數據集和該方法的實現細節。然後,我們探索了用於學習時間分段網路的建議的良好實踐。在此之後,我們證明了通過應用時間分段網路框架來建模長時間結構的重要性。我們還將我們的方法的性能與最新技術進行了比較。最後,我們將ConvNet模型可視化。

4.1數據集和實施細節

我們對兩個大型動作數據集HMDB51[22]和UCF101 [21]進行實驗。UCF101數據集包含101個動作類和13320個視頻剪輯。我們遵循THUMOS13挑戰[34]的評估方案,並採用三個訓練/測試單元進行評估。HMDB51數據集是大量來自各種來源的真實視頻的集合,例如電影和網路視頻。 數據集由來自51個動作類別的6766個視頻剪輯組成。我們的實驗遵循原始的評估方案,使用了三個訓練/測試拆分,並報告了這些拆分的平均准確性。

我們使用小批量隨機梯度下降演算法來學習網路參數,其中批量大小設置為256,動量設置為0.9。我們使用來自ImageNet [33]的預訓練模型初始化網路權重。我們在實驗中設置了較小的學習率。 對於空間網路,學習率初始化為0.001,並且每2 000次迭代降低到其十分之一。整個訓練過程將在4500次迭代後停止。 對於時間網路,我們將學習率初始化為0.005,經過12000和18000次迭代後,學習率降低為十分之一。 最大迭代次數設置為20000。關於數據增強,我們使用了第3.2節中指定的位置抖動,水平翻轉,角點裁剪和比例抖動的技術。為了提取光流和矯正光流,我們選擇在OpenCV中使用CUDA實現的TVL1光流演算法[35]。為了加快訓練速度,我們採用了具有多個GPU的數據並行策略,並通過我們的修改版Caffe [36]和OpenMPI實現了該策略。對於具有4個TITANX GPU的硬體設備,空間TSN在UCF101上的整個培訓時間約為2小時,對於時間TSN則為9小時。

4.2進一步探究

在本節中,我們重點研究3.2節中描述的良好實踐,包括培訓策略和輸入方式。在本實驗研究中,我們使用[23]改編的具有深層體系結構的雙流ConvNets,並對UCF101數據集的第1部分進行所有實驗。

我們在第3.2節中提出了兩種訓練策略,即交叉預訓練和具有隨機失活的部分BN。 具體來說,我們比較了四種設置:(1)從頭開始訓練(2)僅像[1]中那樣預訓練空間流(3)交叉預訓練(4)使用交叉預訓練和帶有隨機失活的BN層。結果如表1所中。首先,我們發現從頭開始的訓練性能要比原始的雙流ConvNets(基準)差很多,這意味著精心設計的學習策略對於降低過擬合風險是必要的,尤其是對於空間網路。然後,我們使用空間流的預訓練和時間流的交叉模態預訓練,以初始化雙流ConvNets,並且其性能比基線更好。 我們進一步利用帶有隨機失活的部分BN來規范化訓練過程,從而將識別性能提高到92.0%。

我們在第3.2節中提出了兩種新型的模態:RGB差和矯正的光流場。 表2中報告了比較不同模式性能的結果。這些實驗是在表1中驗證的所有良好實踐下進行的。我們首先觀察到RGB圖像和RGB差的組合將識別性能提高到87.3%。 此結果表明RGB圖像和RGB差異可以對信息編碼互補。然後表明,光流和矯正光流產生了非常相似的性能(87.2%對86.9%),並且將它們融合可以將性能提高到87.8%。 結合所有四種模式可得出91.7%的准確性。由於RGB差可能描述相似但不穩定的運動模式,因此我們還評估了組合其他三種模式的性能,這帶來了更好的識別精度(92.3%vs 91.7%)。我們推測光流更適合捕獲運動信息,有時RGB差對於描述運動可能不穩定。 另一方面,RGB差可以用作運動表示低質量,高速的替代方案。

4.3對於TSN的性能評價

在本小節中,我們專注於TSN框架工作的研究。我們首先研究分段共識函數的影響,然後在UCF101數據集的split 1上比較不同的ConvNet體系結構。為了進行比較,在此探索中,我們僅將RGB圖像和光流場用作輸入模態。 如第3.1節所述,段數K設置為3。

在等式中(1),分段共識函數由其聚集函數g定義。在這里,我們評估了g的三個計算方式:(1)最大合並,(2)平均合並,(3)加權平均。實驗結果總結在表3中。我們看到平均池化功能可實現最佳性能。因此,在以下實驗中,我們選擇平均池作為默認聚集功能。 然後,我們比較了不同網路體系結構的性能,結果在表4中進行了總結。具體地說,我們比較了三種深層的體系結構:BN-Inception [23],GoogLeNet [10]和VGGNet-16 [9],所有這些架構都經過上述實踐的訓練。在比較的體系結構中,根據BN-Inception [23]改編的深層雙流ConvNets達到了92.0%的最佳精度。這與它在圖像分類任務中的更好表現相吻合。 因此,我們選擇BN-Inception [23]作為TSN的ConvNet架構。

設置了所有設計選項後,我們現在將時間分段網路(TSN)應用於動作識別。 結果在表4中進行了說明。在表5中還提供了根據識別准確度對組件進行逐項分析的結果。我們可以看到,在前面所有良好實踐下,時間分段網路都能夠提高模型的性能。 這證實了通過時間分段網路實現的對長時間結構進行建模對於理解視頻中的動作至關重要。

4.4與SOTA相比較

在探索了良好的做法並了解了時間分段網路的效果之後,我們准備建立最終的動作識別方法。具體來說,我們使用了三種輸入方式以及描述的所有技術作為最終方法,並在兩個具有挑戰性的數據集上進行了測試:HMDB51和UCF101。 結果總結在表6中,在表6中,我們將我們的方法與傳統方法(例如改進的軌跡(iDT)[2],MoFAP表示[39])和深度學習表示法例如3D卷積網路(C3D)[13],軌跡合並的深度卷積描述符(TDD)[5],分解時空卷積網路(FSTCN)[28],長期卷積網路(LTC)[19]和關鍵卷挖掘框架(KVMF)[41]。 我們的最佳結果在HMDB51數據集上優於其他方法3.9%,在UCF101數據集上優於1.1%。 我們方法的優越性能證明了TSN的有效性,並證明了長期時域建模的重要性。

4.5模型可視化

除了識別精度,我們還想進一步了解所學的ConvNet模型。這里,我們採用DeepDraw[42]工具箱。此工具在僅具有白雜訊的情況下對輸入圖像進行迭代梯度上升。因此,僅基於ConvNet模型內部的類知識,可以將經過多次迭代後的輸出視為類可視化。該工具的原始版本僅處理RGB數據。為了對基於光流的模型進行可視化,我們調整了工具以使其與時間網路一起運行。結果,我們首次在動作識別ConvNet模型中可視化了有趣的類信息。 我們從UCF101數據集中隨機選擇五個類別,即太極拳,打拳,跳水,跳遠和自行車,以實現可視化。 結果如圖3所示。對於RGB和光流,我們將通過以下三種設置可視化學習的ConvNet模型:(1)不進行預訓練;(2)僅接受預訓練;(3)具有TSN。

一般而言,具有預訓練的模型比沒有進行預訓練的模型更能表示視覺概念。可以看到,沒有經過預訓練的時空模型幾乎不能產生任何有意義的視覺結構。 利用預訓練過程中傳遞的知識,空間和時間模型能夠捕獲結構化的視覺特徵。

還很容易注意到,僅接受短期信息(例如單幀)訓練的模型往往會將視頻中的風景圖案和物體誤認為是行動識別的重要特徵。例如,在「潛水」類中,除進行潛水的人員外,單幀空間流ConvNet主要查找水和潛水平台。它的時間流對應物(光流)趨向於集中於由水波引起的運動。 隨著時間分段網路引入的長期時間建模,顯而易見的是,學習的模型更多地關注視頻中的人,並且似乎正在對動作類的長時間結構進行建模。仍以「潛水」為例,具有時間分段網路的空間卷積網路現在生成的圖像是人是主要的視覺信息。 並且可以在圖像中識別出不同的姿勢,描繪了一個潛水動作的各個階段。這表明用該方法學習的模型可能表現更好,這在我們的定量實驗中得到了很好的體現。我們為讀者提供補充材料,以實現更多動作類的可視化以及有關可視化過程的更多詳細信息。

5結論

在本文中,我們介紹了時間分段網路(TSN),這是一個視頻級框架,旨在為長期的時間結構建模。正如在兩個具有挑戰性的數據集上所展示的,這項工作將最新技術提升到了一個新的水平,同時保持了合理的計算成本。 這主要歸因於具有稀疏采樣的分段體系結構以及我們在本文中探索的一系列良好實踐。 前者提供了一種捕獲長期時間結構的有效方式,而後者則使得在有限的訓練集上訓練非常深的網路成為可能,而不會出現嚴重的過度擬合。

⑻ stn網路是什麼技術

stn網路可以理解為是基於IP技術的一種在現網應用中集成的技術,其技術基於上百個RFC,STN是在IPRAN的基礎上構建的。在傳統路由器的基礎上,繼承SDH的部分有點,增加了同步技術、OAM和QoS機制,滿足無線回傳需求,也就出現了IPRAN技術。

IP是Internet Protocol的縮寫,是TCP/IP體系中的網路層協議。設計IP的目的是提高網路的可擴展性,一是解決互聯網問題,實現大規模、異構網路的互聯互通。

二是分割頂層網路應用和底層網路技術之間的耦合關系,以利於兩者的獨立發展。根據端到端的設計原則,IP只為主機提供一種無連接、不可靠的、盡力而為的數據包傳輸服務。

IP分組的轉發規則

路由器僅根據網路地址進行轉發。當IP數據包經由路由器轉發時,如果目標網路與本地路由器直接相連,則直接將數據包交付給目標主機,這稱為直接交付。

否則,路由器通過路由表查找路由信息,並將數據包轉交給指明的下一跳路由器,這稱為間接交付。路由器在間接交付中,若路由表中有到達目標網路的路由,則把數據包傳送給路由表指明的下一跳路由器。

以上內容參考網路-IP

⑼ STN有什麼優勢嗎

STN有超強的資方背景實力,獲得了Arrington XRP Capital,Signum Capital,Longhash Ventures,Hyperchain Capital、Nas Capital、DFG、Dealean、 Block Dream Fund、TRG Capital Hillrise Capital等多家投資機構的投資及支持。擁有廣闊的市場前景,Stone面向的是2000億$的POS流動性資產市場。

⑽ 想知道什麼是STN業務業務如何開放

STN業務是指以IP/MPLS協議及關鍵技術為基礎,主要面向政企客戶提供二層、三層通道類業務承載,由城域的A、B、ER等設備組成的端到端的業務承載網路,STN網路由接入層、匯聚層、城域核心層、省核心層組成,實現政企業務點到點通道的業務承載。為保證網路以及承載業務的安全性,STN網路不能直接承載互聯網業務。一、業務開放及通達范圍中國電信寧夏公司面向全區范圍內的客戶提供省內點對點通道業務,暫不提供跨省點對點通道業務需求。二、業務實現方式STN網路目前主要提供二層點到點通道(簡稱通道類業務)政企專線等政企高價值業務,滿足政企業務高品質大帶寬承載需求。STN網路具備標准化IP系統的接入、帶寬擴展、差異化承載及端到端質量保障的能力。後期考慮承載三層業務,具體可分為但不局限於以下應用場景:1.域內二層通道類政企專線業務承載2.MSTP遷移場景3.MSAP遷移場景4.幀中繼/ATM遷移場景。客服217為你解答。寬頻服務可自助排障,簡單易操作,另外可辦理工單查詢、ITV修障、寬頻申請及密碼服務,方便快捷,更多功能敬請關注中國電信貴州客服。

閱讀全文

與stn網路技術相關的資料

熱點內容
克拉漫播下載的文件名 瀏覽:417
壓縮好的文件哪裡找 瀏覽:831
百度網盤怎樣上傳文件夾 瀏覽:320
java發展是 瀏覽:892
程序編程結束還要做什麼 瀏覽:778
pcb打版文件有哪些 瀏覽:39
網路原來ip地址忘記了怎麼辦 瀏覽:142
iphone6s微信密碼設置 瀏覽:810
java將數字轉換成字母 瀏覽:854
c盤中的哪些是系統文件夾 瀏覽:668
分布式服務如何跨庫統計數據 瀏覽:829
力控轉發數據客戶端模式如何建立 瀏覽:200
怎麼樣讓自己的網站不被別人看到 瀏覽:711
編程擴展效果如何 瀏覽:335
榮耀暢玩手環同步qq 瀏覽:475
怎麼向sql中添加資料庫 瀏覽:596
錄歌失敗重啟app什麼意思 瀏覽:522
壓縮文件包怎麼在微信發送 瀏覽:432
mysql資料庫怎麼插入時間值 瀏覽:191
微信視頻不能轉發朋友圈 瀏覽:596

友情鏈接