⑴ 医学图像配准综述之无监督转换模型2019-09-23
尽管前几节所述的方法取得了成功,但获得可靠的地面真相的困难性质仍然是一个重大障碍。这促使许多不同的小组探索无监督的方法。对这些工作有用的一个关键创新是空间转换网络(STN)[57]。有几种方法使用STN来执行配准变形任务。本节讨论利用图像相似性度量(第5.1节)和图像数据的特征表示(第5.2节)来训练网络的无监督方法。著名作品的描述见表3。
本节首先讨论使用公共相似性度量和公共正则化策略来定义损失函数的方法。本节稍后将讨论使用更复杂的基于相似性度量的策略的方法。图9给出了一种基于标准相似度度量的变换估计可视化方法。
Neylon et al. [94] 在配准CT图像时使用神经网络学习图像相似度度量值与TRE之间的关系。这样做是为了有效地评估配准性能。在95%的情况下,该网络能够实现亚体素的准确性(subvoxel accuracy )。
Balakrishnan等[7,8]提出了一种无监督图像配准的通用框架,理论上可以是单模态配准,也可以是多模态配准。神经网络使用一个选定的、手工定义的图像相似性度量(如NCC、NMI等)进行训练。
Dalca et al. [23] 将变形预测作为变分推断进行了预测。将微分积分与转换层相结合得到速度场。通过对速度场进行平方和重新标定,得到了预测的变形量。MSE作为相似度度量,与正则化项一起定义损失函数。他们的方法优于基于ANT的配准[6]和基于深度学习的方法描述的[7]。
Kuang et al. [68] 使用CNN和STN启发的框架来执行t1加权脑MR的可变形配准。损失函数由一个NCC项和一个正则化项组成。该方法使用Inception模块、低容量模型和残差连接,而不是跳过连接。他们使用LBPA40和Mindboggle 101数据集,将他们的方法与VoxelMorph (Balakrishnan等人提出的方法,如上所述)、[8]和uTIlzReg GeoShoot[128]进行了比较,并证明了两者的优越性能。
Ferrante et al. [35] 采用基于迁移学习的方法对x线和心脏图像进行单峰配准。在这项工作中,网络使用NCC作为主要的损失函数项,对来自源域的数据进行训练,并在目标域中进行测试。他们分别使用类似U-net结构 [103]和STN[57]进行特征提取和变换估计。他们证明了使用域作为源域或目标域的转移学习可以产生有效的结果。该方法优于Elastix配准技术[62]。
尽管将基于相似度度量的方法应用于多模态情况比较困难,Sun et al. [120] 提出了一种无监督的三维MR/US脑配准方法,该方法使用由特征提取器和变形场发生器组成的三维CNN。该网络使用像素强度和梯度信息的相似性度量进行训练。此外,图像强度和梯度信息都被用作CNN的输入。
Cao et al. [12]也将基于相似性度量的训练应用于多模态情况。具体来说,他们使用模内图像相似性来监督三维骨盆CT/MR体积的多模态可变形配准。利用真值变换得到的运动图像与利用预测变换得到的运动图像之间的NCC作为损失函数。这项工作采用“对偶”监督。这不能与前面描述的双重监管策略相混淆。
受典型的无监督方法所估计的非对称变换的局限性的启发,Zhang等人[142]利用他们的网络——逆协调深度网络(network InverseConsistent Deep network, ICNet)来学习排列在同一空间中的每个大脑MR卷的对称的不同形态变换。与其他使用标准正则化策略的作品不同,本文引入了一个反一致正则项和一个反折叠正则项,以确保高度加权平滑约束不会导致折叠。最后,两个图像之间的MSD允许以无监督的方式对网络进行训练。该方法优于基于SyN的配准[5]、基于Demons的配准[80]和几种基于深度学习的方法。
本节描述的后面三种方法采用GAN方法。与前面描述的基于gan的方法不同,这些方法既不使用真实数据,也不使用手工分割。Mahapatra等[85]使用GAN隐式学习密度函数(density function),该函数表示心脏图像和多模态视网膜图像(视网膜彩色眼底图像和荧光素血管造影(FA)图像)的可信变形范围。除了NMI、结构相似度指标测度(SSIM)和特征感知损失项(由VGG输出之间的SSD决定)之外,损失函数还由条件约束和循环约束组成,这些约束是基于最近涉及到对抗性框架实现的进展。该方法优于基于弹性配准和de Vos等人提出的[26]方法。
Fan et al. [33] 使用GAN对三维脑磁共振体积进行无监督的可变形图像配准。与大多数其他使用手工制作的相似性度量来确定损失函数的非监督工作不同,也不像以前使用GAN来确保预测的变形是真实的,这种方法使用一个鉴别器来评估对齐的质量。该方法在除MGH10外的所有数据集上都优于异态恶魔和SyN配准。此外,使用甄别器对注册网络进行监督优于对所有数据集使用地面真值数据、SSD和CC。
Mahapatra等[86]不同于以往描述的工作(不仅仅是基于GAN的工作),提出了使用GAN框架同时分割和配准胸透。该网络有3个输入:参考图像、浮动图像和参考图像的分割掩码,输出变换后图像的分割掩码和变形场。三个鉴别器用于评估生成输出的质量(变形场,翘曲图像,分割)使用周期一致性和骰子度量。此外,生成器还使用NMI、SSIM和一个特征感知丢失项进行训练。
最后,与本节的其他方法不同,Jiang et al. [59] 没有预测给定固定参数的变形场,而是使用CNN学习图像变形的最优参数化,使用多网格b样条方法和L1-norm正则化。他们使用这种方法来参数化4D CT胸部图像体积的可变形配准。这里,SSD用作相似性度量,L-BFGS-B用作优化器。利用该方法得到的参数化变形模型的收敛速度比传统的l1 -范数正则化多网格参数化变形模型速度快。
基于图像相似度的无监督图像配准技术由于克服了对任何类型的专家标签的需求,近年来受到了研究领域的广泛关注。这意味着模型的性能将不依赖于从业者的专业知识。此外,扩展了原有的基于相似度度量的方法,引入了更复杂的相似度度量(如GAN的判别器)和/或正则化策略已经产生了有希望的结果。然而,对于多模态配准应用,图像相似度的量化仍然是一个难点。因此,基于图像相似性的无监督作品的范围很大程度上局限于单模态情况。鉴于在许多临床应用中经常需要多模态配准,我们希望在不久的将来看到更多的论文来解决这个具有挑战性的问题。
在本节中,研究了利用学习特征表示训练神经网络的方法。与前一节中研究的方法一样,本节中调查的方法不需要ground truth数据。在本节中,首先介绍创建单模态配准的方法。然后,讨论了一种解决多模态图像配准问题的方法。基于特征的变换估计大致结构如图10所示
Yoo et al. [140] 使用STN来配准连续切片电子显微镜图像(ssEMs)。训练一个自编码器对固定图像进行重构,利用重构后的固定图像与相应的运动图像之间的L2距离和几个正则化项构造损失函数。该方法优于bUnwarpJ配准技术[4]和弹性配准技术[105]。
Liu et al. [78] 提出了一种基于张量思想的单模态和多模态配准方法。实验验证了该方法的有效性,采用了吸气-呼气对胸CT容积和多模态对脑MR图像。基于MI和剩余复杂度(RC)的方法[92],原始的基于意识MIND的[44]配准技术采用该方法之后更优。。
Krebs et al. [65, 66]用随机潜在空间学习方法对二维脑和心脏MR进行配准,绕过了空间正则化的需要。采用条件变分自编码器[28]来保证参数空间服从规定的概率分布。利用给定潜表示的固定图像的负对数似然性,以及潜分布与先验分布的弯曲体积和KL散度来定义损失。
与本节所述的其他方法不同,Kori等人使用预训练网络,在无监督容量下对二维T1和T2加权脑MR进行多模态配准特征提取和仿射变换参数回归[63]。首先对图像进行二值化,然后利用移动图像和固定图像之间的 Dice score作为代价函数。由于这两种模式的外观差异不显著,这些预训练模型可的使用可以起到相当的效果。
以无监督的方式进行多模态图像配准比进行单模图像配准更困难,因为使用手工制作的相似性指标量化两幅图像之间的相似性的困难性,并使用上面描述的无监督技术建立/检测voxel-to-voxel对应方法。最近引起了研究领域的极大兴趣是使用无监督学习来学习特征表示来求得最优转换。前面讨论的无监督图像配准方法,我们希望基于特征的无监督配准能够继续引起研究领域的极大兴趣。此外,对多模态情况的扩展(特别是对于使用具有显著外观差异的图像的应用)可能是未来几年的一个突出研究重点。
⑵ 年会直播的制作方案以及搭建的流程应该怎么做
公司近年来在新媒体直播方面大胆尝试,积累了丰富的异地多会场媒体直播实战经验。本文以一次重要活动的技术方案为例,阐述此类直播技术的设计和实现方法,该技术的运用能起到扩大赛事活动影响,营造主会场与分会场上下联动的作用。
为扩大影响,营造热烈氛围,主办方要求电视台能够对各会场活动进行大屏展示并进行实况互动直播,效果呈现为:主会场可以观看收听到其他分会场视音频信号,分会场也可以收听收看主会场视音频信号。经过前期与运营商、相关部门进行调研沟通,后期技术人员的系统调试和网络搭建测试,初步选定了两个方案。
一个方案是网络推拉流直播。技术上需要在各分会场布置拍摄地点和网络专线,通过切换设备输出一路现场视音频总信号进行编码,然后以推流的方式将码流输出到云端服务器,由云端软件管理界面完成信号画面的发布和调度。该方案优点是技术上部署快,架构简单,短期内可以快速实现,所以是目前媒体公司多会场直播实现的主要方法,加上设备相对简单,后台由直播平台管理,所以成本较低,多数直播平台采用此方案直播,人员设备采用打包租赁的方式,活动案例很多。有如某公司由扎根华南,服务大湾区的电视转播服务商。团队承包全国多个重要赛事、节目的直播项目。公司与北京星拓视联文化传媒有限公司、四开花园网络科技(广州)有限公司、北京龙聚文化传媒有限公司、河南卫视、澳亚卫视等企事业单位有长期合作关系。曾制作过国外版权机构ESPN播出的直播节目,拥有强大的制作实力。直播案例包括:2019散打天下总决赛(广西贵港)、EFP-恒大U15/U17足球冠军赛(双制作区)、河南卫视-武林风横琴之巅直播、Glory荣耀拳击赛事、WCBA-中国女子篮球联赛。缺点是由于直播码率偏低,视频质量通常在6M以下,延时也比较严重,通常为6到10秒。
另一个方案是电视直播。在各分会场布置视音频现场制作系统,三机位广播级摄像机加现场切换台输出广播级现场信号通过编码器进行码流转换成IP视频流,传输至视音频光端机进行信号传输,经过运营商内部光纤网络、STN专网或MSTP综合业务平台完成双向数据交互。异地多会场视频电视直播的切换的方式通常分为三级,一级切换负责总信号的制作,二级切换负责汇总各会场的信号供一级切换,三级切换负责各分会场现场信号的制作。整个系统涉及各个部门和人员协同参与(市县两级电视台、通信运营商、设备厂商、网络营运商)。该方案优点:直播码率较高,视音频质量和清晰度方面优势明显,安全有保障。缺点:调试时间较长,投入人力设备多,成本高。
因电视直播方案涉及技术面广,效果较好,本文选择此方案作为重点阐述。
一直播技术方案
1. 前期准备工作
公司在直播上需要多部门分工合作,共同进行系统测试和网络搭建,在效果呈现上需满足:
◆各会场视频信号接入现场大屏显示;
◆各分会场大屏均可以看到主会场视频信号;
◆主会场大屏可根据节目流程切换显示分会场视频信号。
技术上实现:主会场通过视频切换台对主会场视频信号以及分会场视频信号进行特技切换,视频信号和音频信号输出至直播编码器,直播编码器对视音频信号进行采集并编码,发布至电视广播直播或流媒体服务器进行各平台分发直播。用户通过电视广播收看收听或移动客户端访问主站点,进行身份验证后即能进行会议信息的接收以及会议实况录像的选择观看。
前期准备工作有:
◆协调营运商布点施工提供直播专线网络和互联网专线;
◆协调营运商提供STN平台传输,并完成各会场的布点、协同调试保障工作;
◆各分会场的视频拍摄和切换输出系统安装调试;
◆主会场和各分会场编解码和光收发设备的安装调试;
◆系统联调;
◆外包宣传团队进行前期宣传
高效的团队结构,策略核心来自国际4A广告李奥贝纳;产品核心来自全球知名企业汇丰银行;技术核心来自老牌行业巨头微软科技;地处南中国一线城市广州,国内电商互联网巨头云集的地区,与业界紧密接触,掌握前沿信息与资源。作为越秀集团合作伙伴,为集团提供年度社会责任报告装订版及线上版的设计与制作;作为平安人寿APP内容制作供应商,为平安人寿提供多款游戏及互动应用。
2.网络直播流程细则
前期准备:根据客户提出的直播要求,预约准确的直播时间,制定直播成熟的策划,引入抽奖元素,吸引用户;前期专业团队制作宣推的推文、小程序等进行预热,多渠道分发保证直播传播效果;公司专业服化团队,指导主播造型,全程负责直播主播的妆发;直播道具、器材齐全,可适用于室内室外直播,直播设备包括但不限于脚架、话筒、摄像机、单反、灯光等。
直播现场:提前2小时到场布置场地,调整灯光,加防抖效果,以保证直播质量达到最佳效果确认最佳拍摄位置,技术人员检测设备和网速。
直播期间:确保网络畅通,手机直播若使用wifi则开启飞行模式,拉流直播由导播密切关注网络情况,同时制定全方位的应急预案。直播助手留意现场直播情况,关注观众提出问题,及时互动。直播过程中进行抽奖互动,现场直播放置二维码,让用户扫码进群抽奖,送出礼品。扫码进群保证直播观看人数不下降,保持直播热度。
直播后:及时生成直播视频,反馈直播数据。
3.设备的选型
整个系统组成包括:主会场视音频设备(广播直播车、电视直播车、新媒体直播系统、网络直播万能机、多路编解码器)。制作设备具体为大型直播运营一台8讯道(扩16讯)4K超高清转播车、、一套12讯道高清EFP,
UHD-1转播车车内配置。车体(含车头):单侧拉12米,展开4米;摄像机:索尼HDC4300x8讯(各焦段佳能4K镜头);切换台:索尼XVS6000 2ME 28键直切;矩阵:ROSS ultrix 64X64(12G)带净切换倒换备份;同步:泰克SPG700系列同步发生器及倒换;画面分割:Ross UltrixScape;周边模块:Opengear系列Ross及Cobalt 9904等;转换器:索尼hdrc4000 HDR转换器x2台;通话系统:RTS ZEUSIII +KP32/KP12面板EVS:XT-VIA /XT4K(按需,最大4个LSM工位) 录制:AJA kipro ultra plus音频:YAMAHA CL3主台、YAMAHA-DM1000备台、dante音频路由及台口箱。)。同时也为各种小型直播,配备有针对性的全套直播设备包括电容麦克风、外置声卡、美颜摄像头、监听耳麦、直播电脑(拉流)、补光灯、支架配件。
主会场是活动直播是否能够取得成功的关键点,因此在系统搭建的时候我们除了考虑设备的安全稳定性外,重点还对关键部位进行了备份;分会场视音设备;便携式视频切换台;编解码设备;光端收发设备;直播采集分发设备;光网络内部数据系统;网络服务中心(流媒体服务器、WEB服务器、数据库服务器);各会场终端设备;会场LED大屏显示系统。
4. 网络架设方案
由于普通光端机信号传输距离过大,需要加设中继设备对光信号进行放大才能收发正常,安全性因此受到路由节点的不稳定因素影响。因此,我们放弃了视音频基带信号进行远距离光传输的方法,采用了网络运营商的专网和骨干传输网核心传输技术,此方案采用了电信STN(Smart Transport Network)智能传送网,是采用IP RAN和PTN技术相结合发展起来的一种增强型分组组网技术,是可以承载视频、音频、数据的综合应用网络,最大的优点是可以灵活地调整带宽,有着高可靠性做保障,通过网管可以实现端对端的管理,性能指标好(吞吐量、时延、丢帧率)。视音频信号运用编解码压缩,通过TS over IP面向专业广播电视信号传输实现流通进行传输,将TS包封装成IP包,经广播电视编解码设备上的IP输入输出接口进行配置,在发送端完成编码和IP化,在接收端经过适配、解复用、解码的逆转过程解码后输出现场信号,系统总延时在两秒之内,能够较好地完成各地的视音频信号实时传输,传输质量稳定可靠,更为灵活有效。此次直播技术系统包含“信号摄录”“信号处理及调度”“信号传输”“信号呈现及发布”等四部分,依据传输手段和发布渠道的异同,分为:公网IP流直播、专网IP流直播、电视直播、广播直播。所有现场信号通过编码器,把视频信号转换成IP流,通过公网(4G网络和光纤专网),把信号传输到各个会场,在主会场通过解码器把信号传输分发到各平台进行直播。传输网络拓扑如图2。
5. 核心参数的设置
多会场异地直播不仅系统繁杂,投入的人员和装备规模大,指挥调度协同难度高,为确保系统的稳定安全和协同工作有序展开,技术人员对系统采用的主要编码参数和传输网络分别进行饱和压力测试,从而确保广播电视信号可以正常工作于电信运营商提供的专网,保障活动直播安全稳定进行。
主会场电信专网采用上下行1000M带宽,各分会场上下行100M带宽,采用电信专网STN加内部业务地址实现源到目的IP点对点编解码组播形式进行multicast,另外运营商再提供上下行100M互联网专线,并单独提供公网IP以及开通以下端口:9000-9010、18255、10020、80、1935。现场广播电视信号以H.264进行编码,编码器主要参数设置有:视频方面码率为10Mbps,GOP Length:12,buffer mode:CBR,GOP Structure:IBBP,音频方面PCR间隔:18,音频编码标准为:MPEG Layer2 bitrate256Kbps,音频声道:stereo,网络协议采用:IP Encapsulation:UDP,IP包为TS Packets per IP Packet:7。特别需要注意的是,在编码器中音频的设置需要把AC3BYPASS设置为OFF,否则编码器的SDI接口会出现只有画面没有声音的情况。在配置编解码器时还需要注意源IP是编码器IP,目的IP是解码器在NMS软件里的TS over IP里设置的IP(与解码器的液晶面板IP是不同的,液晶面板的IP设置对应的是NMS软件里的管理IP)。
二经验总结
◆主办方牵头成立直播工作领导小组,统筹协调各单位有效配合为活动直播提供技术支持、保障、服务,明确了责任分工;
◆确定活动整体方案,因电视台本身没有光纤网络传输平台,所以主办方需在明确各会场地点后协调运营商解决各直播点之间的视频光纤专线布点和与主会场之间连接贯通,并提供STN平台运用,同时提供会场数据网络光纤专线和内部高速网络的布点、调试与贯通;
◆直播预备基本应急措施。如直播信号有主备路、甚至多路信号保障,要求多路播出前进行技术测试,保证畅通、互不交织,以确保需要时相互转换;直播节目进行相对延时播出,发现问题及时更改补救;直播出现如何问题,有准备直播内容相关的静止画面或短视频,及时进行遮挡操作。
◆县区台支持会场的视频导播切换、视频拍摄;
◆设备系统厂家支持会场流媒体直播系统、编解码的调试运行保障。正是由于指挥调度高效、前期准备工作充分、专业技术人员调试到位,诸多直播工作才能圆满顺利完成。
三结束语
以上就是异地多会场直播的方案,这种方案已经成功地运用多个重要活动直播当中,如文明火炬传递、桃花节、马拉松等活动。该方案的成功运用开创了传统媒体直播和新媒体直播融合发展的先河,收到了良好的社会效益和经济效益,在实际运用中,满足了在重大活动直播中的新要求,突破了传统多点异地直播中电视直播的时间空间限制,系统搭建更加灵活,实现更加快捷便利。未来我们将更加有效地组织开展新系统新技术的探索和运用,优化流程,确保在直播中系统能够更加安全,运行更加稳定高效;充分结合传统媒体和新媒体的技术运用,发挥媒体融合技术先行的优势,促进媒体深度融合。
⑶ SDH,MSTP,OTN和PTN的区别和联系
区别复:
1、使用的技术不制同:
SDH:用的是通过不同速率的数字信号的传输提供相应等级的信息结构的技术。
MSTP:是更高级的SDH,是基于SDH来传输以太网。
OTN:用的是波分技术。
PTN:用的是分组交换的技术。
2、应用不同:
SDH:IP业务、ATM业务。
MSTP:种类丰富的带宽服务。
OTN:提供网络保护、提高安全性。
PTN:适合各种粗细颗粒业务、端到端的组网能力。
3、原理不同:
SDH:映射、定位和复用。
MSTP:将传统的SDH复用器、数字交叉链接器(DXC)、WDM终端、网络二层交换机和lP边缘路由器等多个独立的设备集成为一个网络设备,进行统一控制和管理。
OTN:在光域内实现业务信号的传送、复用、路由选择、监控,并且保证其性能指标和生存性。
PTN:在IP业务和底层光传输媒质之间设置了一个层面,它针对分组业务流量的突发性和统计复用传送的要求而设计,以分组业务为核心并支持多业务提供。
联系:
它们都是光传输的技术。
⑷ pstn什么意思
PSTN的意思就是公共交换电话网络,全称,一种常用旧式电话系统。 PSTN()定义:公共交换电话网络,一种常用旧式电话系统。即我们日常生活中常用的电话网。工作原理公共交换电话网络是一种全球语音通信电路交换网络,包括商业的和政府拥有的。 所谓公用电话交换网(PSTN--),即我们日常生活中常用的电话网。众所周知,PSTN是一种以模拟技术为基础的电路交换网络。在众多的广域网互连技术中,通过PSTN进行互连所要求的通信费用最低,但其数据传输质量及传输速度也最差,同时PSTN的网络资源利用率也比较低。 更多关于pstn什么意思,进入:https://m.abcgonglue.com/ask/2d04601615835929.html?zd查看更多内容
⑸ ipran和stN的区别
IPRAN是指以IP/MPLS协议及关键技术为基础,主要面向移动业务承载并兼顾提供二三层通道类业务承载,以省为单位,依托CN2骨干层组成的端到端的业务承载网络。在IPRAN网络中主要包括接入层、汇聚层和核心层,而核心层又分为城域核心层、省核心层。STN(SuperTwistedNematic)是用电场改变原为180度以上扭曲的液晶分子的排列从而改变旋光状态,外加电场通过逐行扫描的方式改变电场,在电场反复改变电压的过程中,每一点的恢复过程较慢,因而产生余辉。它的好处是功耗小,具有省电的最大优势
⑹ 微辰信息技术有限公司
本专业培养具有扎实的数学、物理、电子和计算机的基础知识,系统地掌握光学信息处理技术、现代电子学技术和计算机应用技术的基本技能,能在光通信、光学信息处理、以及相关的电子信息科学、计算机科学等信息技术领域、特别是光机电算一体化产业从事科学研究、产品设计和开发、生产技术或管理的面向二十一世纪的高级专门人才。
培养要求:本专业学生主要学习光信息科学与技术的基本理论和技术,熟悉光学、电子学技术和计算机技术,受到科学实验与科学思维的训练,具有本学科及跨学科的科学研究与技术开发的基本能力。
毕业生应获得以下几方面的知识和能力:
1.掌握数学、物理等方面的基本理论和基本知识;
2.掌握光信息科学的基本知识和基本实验技能;
3.了解相近专业的一般原理和知识;
4.熟悉国家信息产业政策及国内外有关知识产权的法律法规;
5.了解光信息科学与技术的理论前沿、应用前景和最新发展动态,以及信息产业发展状况;
6.掌握资料查询、文献检索及运用现代信息技术获取相关信息的基本方法;具有一定的实验设计,创造实验条件,归纳、整理、分析实验结果,撰写论文,参与学术交流的能力。
(1)、我国的光学与光电子材料研究已进入应用和产业化的发展阶段。 其中:
在半导体光电子材料方面:在我国,用于集成电路(IC)和太阳能电池单晶硅(Si)年产量约为400吨。用于光电子器件的GaAs单晶、用于LED和LD的InP单晶和用于红、绿色LED的GaP芯片材料已实用化。用于蓝光LD和蓝、绿光LED和GaN、SiC等宽禁带半导体材料正在研发中。
在激光晶体材料方面:华北光电技术研究所研制的Nd:YAG晶坯性能指标达到国际先进水平。华博技术有限公司的YAG激光棒年批量生产能力为3000根。中国已成为矾酸钇(YVO4)晶体的生产出口大国。中国科学院福建物质结构研究所研制成大尺寸YVO4单晶,并加工成偏振晶体器件。北京烁光特晶体科技有限公司已建成年产200公斤YVO4 单晶生产线。上海光机所研制的掺钛蓝宝石激光晶体也已经出口美国、日本、俄罗斯等国家。我国研制的Nd:YAG和Nd:YVO4激光晶体,其主要技术指标达到国际先进水平,出口产品数量约占国际市场1/3。
在非线性光学晶体方面:我国研制的偏硼酸钡(BBO)、三硼酸锂(LBO)等优质的非线性光学材料,系国际首创,用于激光光源在可见光区的频率转换。用于激光倍频、光参量振荡、电光调Q和声光、电光器件的铌酸锂(LN)单晶中国的年生产能力约为10 吨。
光电子材料发展的重点为:高功率、可调谐、LD泵浦和新波长激光晶体等;超高亮度(LED)、半导体激光器(LD)用GaAs ,Gap,GaN基外延材料等;STN,TFT显示器用液晶材料等;用于密集波分复系统的G.655非零色散位移光纤及大尺寸光纤预制棒等。
(2)、光学元器件包括:光学仪器,光电检测仪器,光学遥感、遥测仪器,机器人视觉,光学检测和测量、夜视和侦察,微光夜视仪,红外夜视仪,高分辨率的成像卫星,侦察相机, 高灵敏探测器平面阵列(FRA),快速三维模型测量;计量学(定位,位置,线度,准直);机器视觉(特征,方位和缺陷);光学传感器(成分,温度,PH值探测等)。
1. 光通信与光纤传感器件(光电传感技术、光纤通信原理与技术、光通信实验等)
这里可包括光纤光缆,光电子材料,集成光电子器件,光电元、器件,光纤通信器件(光纤无源器件,光纤有源器件),光纤传感器件,光纤激光器,光端机,光纤通讯机及设备,光纤数据传输设备;光纤陀螺仪;光纤控制的相控阵雷达,光纤地面和卫星通信系统等等。我国现有光纤通信企业320余家,其中光纤光缆193家,光电器件46家,光缆材料和配套件企业22家,通信专用仪表9家,光通信传输设备50家。产值240亿元,销售额262亿元。“十五”期间中国光通信产业发展重点为光传输、光接入、光传送网产品、光纤光缆和光电器件五个方面。
2. 激光器件及应用(光学、物理光学、非线性光学、激光原理和技术、光信息处理等)
包括激光器件(光纤,半导体、固体、气体、准分子及其它),激光加工,激光全息,激光医疗仪器,激光测距,激光雷达,激光跟踪,激光制导,光学陀螺仪,交通控制系统,光导航设备与系统,目标指示器,干扰发射机和通信设备等。目前我国从事激光技术研究、激光应用产品研制生产的单位约有400余家(不含激光音像设备生产单位),全国激光产品市场年销售额约为32.4亿元人民币(此数据不包括激光音像设备、激光通信工程、激光条码检测及激光二次效益如激光医疗收入等)。
3. 光信息输入与存贮(电工电子技术、计算机技术、光学基础)
随着计算机、网络技术和数字媒体技术的发展,光输出入类设备,如扫描仪、打印机、复印机、传真机和数码相机等办公自动化设备,以及光存储类产品,如CD-ROM、CD-RW和DVD-ROM光盘机,以及记录用的CD-R 光盘机和可重复读写型的CD-RW 光盘机,迅速地进入了人们的生活和工作。各种新型的办公消费、娱乐类的光电产品将成为21世纪人们生活中的必需品。
数码相机产业市场发展迅速:国家计委已确立重点发展数码相机(DSC)产业的计划,进军数码相机市场。目前在于组织力量,研发数码相机的关键零部件、核心技术及配件;重点项目包括:彩色显示器、专用IC、高性能球面镜片及印表机、碳粉等。
目前中国从事数码相机的研发、生产的厂家有:凤凰数码、喜马拉雅、海鸥、方正科技、紫光、联想集团、朝华科技、华旗资讯、TCL、先科、明基(BenQ)等。目前国内已有30多个品牌,大多集中在家用市场。
国外公司陆续在中国内地投资设立数码相机生产线,这些公司包括:美能达(Minolta)、尼康(Nikon)、宾得(Pentax)、松下(Panasonic)、三星(Samsung)、惠普(HP)、爱普生(Epson)、 三洋公司、索尼(Sony)公司、奥林巴斯公司(Olympus)、柯达公司(Kodak) 、佳能公司(Canon)、 富士胶片公司(FujiFilm)等。
扫描仪市场稳定增长:扫描仪是计算机的重要外设产品之一,已成为光电产品中技术工艺成熟、市场应用稳定增长的重要产品。目前全球扫描仪的著名品牌Microtek、HP、AGFA、UMAX、Acer、EPSON、Canon等早已陆续进入中国国内市场,与此同时,台湾地区的代工生产厂商的生产基地也都全部转移到了内地,北大方正、清华紫光等国内单位研发的扫描仪也正成为扫描仪市场中重要品牌。
研发生产扫描仪的厂商拥有扫描器生产技术和影像处理技术,因此包括数码相机、PC Camera等相关产品都是目前扫描仪厂商谋图发展的替代产品。为了适应多功能PC外围光电输入/输出设备应用市场的需求,今后扫描仪产品必将向着多功能复合应用方向发展。 4 . 光显示材料与设备(电路基础、模拟电路、数字电路、微机原理与接口技术、光学等)
我国显示器领域发展良好:
在液晶显示器(LCD)方面:我国液晶显示器产量占世界产量的25 %。中国液晶行业年销售额约为53.52亿元。
我国已能生产满足宽温度低阈值等特殊要求的TN液晶材料,STN液晶材料已开始批量生产,结束了完全依靠进口的局面。国内的薄膜晶体管(TFT)用液晶材料仍处于实验室研制阶段。我国液晶材料年生产能力已超过40 吨。国内主要的企业有4家:北京清华亚王液晶材料有限公司、西安现代化学研究所、石家庄实力克液晶公司和烟台万润精细化工有限公司。
偏振片已进入稳定的批量生产阶段,现有两家生产企业,广东福地日合偏光器件有限公司和深圳市深纺乐凯光电子材料有限公司,年销售75万平方米,销售额超过6000万元。
ITO导电玻璃是液晶三大材料之中发展最快的,生产厂家已超过10家,其中规模最大的是深圳莱宝真空技术有限公司。年生产ITO玻璃376万平方米,销售总值约6亿元。STN用导电玻璃已大部分满足国内需求。生产导电玻璃的成套设备已具备实现国产化的能力。
此外,掩膜版、背光源、取向剂、封接胶、光刻胶以及其他LCD相关材料的国内自给率有了很大的提高。即不完全统计,从事这方面生产的企业有7家,实现产值1.69亿元。
中国现有LCD生产厂家约60家, 2003年北京市京东方科技集团有限公司以3.8亿美元成功收购韩国现代显示技术株式会社的TFT-LCD(薄膜晶体管液晶显示器件)核心技术,已经在北京经济技术开发区建设TFT-LCD产业基地,未来10年,TFT-LCD将在家电、电脑、数码相机、手机等行业得到广泛应用。
日本、韩国、台湾等向中国大陆加快转移STN-LCD、TFT-LCD生产线,已建成的或开始建设已达14条线,大多数为STN-LCD生产线,也有TN 和彩色STN生产线。
在发光二极管(LED)方面:近年来我国LED产业呈现稳步增长趋势,国内与LED研究、开发、生产有关的单位有300多家,大多数企业生产普通LED(指芯片为GaP、GaAlAs的发光二极管)。年产量达120亿只,销售额约40多亿元。目前国内普通LED芯片能批量生产的企业只有一家——联创光电公司,年产约20亿只,联创光电公司将向LED下游产品扩展,发展红、绿、蓝三基色全彩显示屏、LED白光照明、LED交通等产品,届时联创光电将成为国内产品层次最多、规模最大的LED厂家。
LED显示屏生产企业约有几十家。中国正在成为全球传统LED的生产加工供应基地之一。
中国生产的红、绿、橙、黄发光二极管产量约占世界产量的12 %,蓝色发光二极管已研制成功。
在等离子体显示器(PDP)方面:等离子体显示器(PDP)研究开发取得较大进展, 已经开始生产42英寸PDP屏。
在其他类型显示器方面方面:如真空荧光显示(VFD)、有机EL(OLED)、场发射(FED)等均在科研生产中取得进展。“十五”期间中国发展显示器投资了380亿元。
5 . 红外产品(电工电子技术、计算机技术、光学基础)
近几年来,我国的红外产品市场发展迅速。随着工业自动化的发展,热故障与热漏泄诊断的逐步推广,以及技术安保体系的建立,红外测温仪、热像仪和热电视等产品的市场稳步增长。全国主要红外产品年销售额约为8亿5千万元人民币。
6. 照明与能源(原子物理、半导体物理、量子力学、固体物理、电工电路技术、光学基础)
高亮度高效金属卤化物灯、硫二聚物(微波放电)灯和发光二极管LED光源将逐步取代白炽灯,实现照明上的革命。发光材料,发光二极管与发光元器件;
发展太阳能电池,地球上的能源愈来愈短缺,美国预计到2050年,太阳能源将占能源的一半。
光全息与全息存储(光学、物理光学、非线性光学、光信息处理、激光原理与技术)
⑺ [文献翻译]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
摘要 :深度卷积网络在静态图像的视觉识别方面取得了巨大的成功。 但是,对于视频中的动作识别,相对于传统方法的优势并不是那么明显。 本文旨在设计有效的ConvNet架构来进行视频动作识别,并在有限的训练样本下学习这些模型。 我们的第一项贡献是时间分段网络(TSN),这是一种基于视频的动作识别的新框架。这个结构是基于远程时间建模的思想。它结合了稀疏的时间采样策略和视频级的监督,可以使用整个动作视频进行有效的学习。 另一个贡献是我们研究了在时间分段网络的帮助下学习视频数据上的ConvNet的一系列实践。我们的方法在HMDB51(69.4%)和UCF101(94.2%)的数据集上实现了SOTA。 我们还将ConvNet模型可视化,证明了时间分段网络和提出方法的有效性。
1介绍
基于视频的动作识别由于其在安全和行为分析等许多领域中的应用而引起了学术界的极大关注[1,2,3,4,5,6]。在动作识别中,有两个关键且互补的方面:外观和动态。识别系统的性能在很大程度上取决于它是否能够从中提取和利用相关信息。然而,由于诸如尺度变化,视角变化和相机运动之类的复杂因素,提取这样的信息是困难的。 因此,设计有效的表示形式以解决这些挑战同时保留动作类别的分类信息就变得至关重要。最近,卷积神经网络[7]在对物体,场景和复杂事件的图像进行分类方面取得了巨大的成功[8.9.10.11]。ConvNets也已被引入以解决基于视频的动作识别问题[12,1,13,14]。深度ConvNets具有强大的建模能力,并能够在大规模监督数据集的帮助下从原始视觉数据中学习区分表示。但是,与图像分类不同,端到端的深层ConvNet仍然无法获得比传统手工特征提取明显的优势。
我们认为,ConvNets在基于视频的动作识别中的应用有两个主要障碍。首先,长时间结构在理解动作视频的动态过程中起着重要作用[15,16,17,18]。但是,主流的ConvNet框架[1,13]通常集中在外观和短期运动上,因此缺乏整合长时间结构的能力。最近有一些尝试[19,4,20]来解决这个问题。这些方法主要依赖于具有设定采样间隔的密集时间采样。当将这种方法应用于长视频序列时,将导致过多的计算成本,这限制了其在现实世界中的应用,并存在丢失长于最大长度视频的重要信息的风险。其次,在实践中,训练深层ConvNets需要大量训练样本才能实现最佳性能。但是,由于数据收集和标注的困难,可公开使用的动作识别数据集(例如UCF101 [21],HMDB51 [22])在大小和多样性上都受到限制。 因此,非在图像分类中取得了显著成功深层ConvNets [9,23]在视频中面临着过拟合的高风险。
这些挑战促使我们研究两个问题:1)如何设计一种有效和高效的视频级框架来学习视频表示,该框架能够捕获长期的时间结构; 2)如何在有限的训练样本下学习ConvNet模型。特别是,我们在成功的双流体系结构[1]的基础上构建了我们的方法,同时解决了上述问题。在时间结构建模方面,一个关键的发现是连续的帧是高度冗余的。 因此,高度相似采样帧的密集时间采样通常是不需要的。相反,在这种情况下,稀疏的时间采样策略将更为有利。 受此发现的启发,我们提出了一个视频级框架,称为时间分段网络(TSN)。 该框架采用稀疏采样方案在较长的视频序列上提取短片段,其中采样沿时间维度均匀分布。 之后,采用分段结构来聚集来自采样片段的信息。从这个意义上讲,TSN能够对整个视频的长时间结构进行建模。 而且,这种稀疏的采样策略可以以较低的成本保存相关信息,从而可以在合理的时间和计算资源下,在长视频序列上进行端到端学习。
为了开发STN框架的全部潜力,我们采用了最近介绍的深层ConvNet架构[23,9],并探索了许多良好实践以克服由以下训练样本不足原因带来的上述问题,包括1)交叉预训练;2)正规化;3)数据增强扩充。同时,为了充分利用视频中的视觉内容,我们对双流ConvNets的四种输入形式进行了经验研究,即单RGB图像,堆叠的RGB差,堆叠的光流场和堆叠的矫正光流场。
我们对两个具有挑战性的动作识别数据集(UCF101 [21]和HMDB51 [22])进行了实验,以验证我们方法的有效性。在实验中,使用TSN学习的模型在这两个具有挑战性的动作识别数据集上的表现SOTA。 我们还可视化了我们所学的双流模型,试图为将来的动作识别研究提供一些参考。
2相关工作
在过去的几年中,动作识别已被广泛研究[2,24,25,26,18]。与我们有关的先前研究分为两类:(1)用于动作识别的卷积网络,(2)时间结构建模。
卷积网络的动作识别 。先前的许多工作一直在尝试设计有效的ConvNet架构来进行视频中的动作识别[12,1,13,27,28]。Karpathy等[12]在大型数据集(Sports-1M)上测试了具有深层结构的ConvNets。 Simonyan等[1]通过利用ImageNet数据集进行预训练和计算光流以捕获运动信息,设计了包含空间和时间网络的双流ConvNet。Tran等[13]在现实和大规模的视频数据集上探索了3D卷积[27],他们尝试通过3D卷积运算学习外观和运动特征。Sun等[28]提出了一个基于分解的时空ConvNets,并利用不同的方法来分解3D卷积核。 最近,有几篇文章着重介绍了使用卷积建模长时间结构的方法[4,19,20]。但是,这些方法直接在较长的连续视频流上运行。 受计算成本的限制,这些方法通常处理固定长度为64到120帧的序列。 由于它的时间覆盖范围有限,因此从整个视频中进行学习并非易事。 我们的方法与这些端到端深层ConvNets的不同之处在于,它新颖地采用了稀疏的时间采样策略,该策略可以在不限制序列长度的情况下使用整个视频进行有效的学习。
时间结构建模 。许多研究工作致力于为动作识别时间结构建模[15,16,17,29,30,18]。Gaidon等[16]注释了每个视频的每个子动作,并提出了用于动作检测的Actom序列模型(ASM)。Niebles等[15]提出使用潜在变量来建模复杂动作的时间分解,并借助潜在SVM [31]以迭代方式学习模型参数。Wang等[17]和Pirsiavash等。[29]分别使用隐性层次模型(LHM)和分段语法模型(SGM)将复杂动作的时间分解扩展为分层方式。Wang等[30]设计了一个顺序骨架模型(SSM)来捕捉动态体之间的关系,并进行时空动作检测。 Fernando [18]为行为识别建模了BoVW表示。但是,这些方法仍然无法组合用于对时间结构建模的端到端学习方案。前文所提出的时间分段网络STN,同时也强调了这一原理,是对整个视频进行端到端时间结构建模的第一个框架。
3时间分段网络的动作识别
在本节中,我们将详细介绍使用时间分段网络执行动作识别的过程。具体来说,我们首先介绍TSN框架中的基本概念。然后,我们研究在TSN框架内学习双流ConvNet的实践。 最后,我们描述了学习到的双流ConvNets的测试细节。
3.1时间分段网络
正如我们在第一节中讨论的那样。如图1所示,双流ConvNets当前的一个明显问题是它们无法建模长时间结构。这主要是由于它们对时间轴前后的访问受到限制,它们被设计为仅在短片段中的单个帧(空间网络)或单个帧堆栈(时间网络)上运行。但是,复杂的动作(例如体育动作)包括跨越相对较长时间的多个阶段。如果在ConvNet训练中没有在这些动作中使用长时间结构,那将是巨大的损失。 为了解决这个问题,我们提出了时间分段网络,即图1所示的视频级框架,以便能够对整个视频进行动态建模。
具体来说,我们提出的时间分段网络框架,旨在利用整个视频的视觉信息来执行视频级别的预测,它也由空间流ConvNet和时间流ConvNet组成。时间分段网络不是在单个帧或帧堆栈上工作,而是在从整个视频中稀疏采样的一系列短片段上运行。此序列中的每个片段都将对动作类别产生自己的初步预测。 然后,片段之间的共识将被导出为视频级别的预测。 在学习过程中,通过迭代更新模型参数来优化视频级预测的损失值,而不是用于双流ConvNet的局部预测的损失值。
形式上,给定视频V,我们将其分为相等持续时间的K个段{S1,S2,…,SK}。 然后,TSN对片段序列进行如下建模:
其中C是动作类别的数量,yi是类别i的标签。 在实验中,根据先前的时间建模工作 [16,17],片段的数量K设置为3。 函数G的形式仍然是一个悬而未决的问题。 在这项工作中,我们使用最简单的G形式,其中Gi = g(Fi(T1),...,Fi(TK))。 此处,使用函数g从所有片段上的同一类别的分数推断出类别分数Gi。我们根据经验评估了聚合函数g的几种不同形式,包括实验中的平均,极值和加权平均。 其中,平均均值用于报告我们的最终识别准确性。
取决于g的选择,此TSN是可微的或至少具有子梯度。这使我们能够利用多个片段,通过标准的反向传播算法共同优化模型参数W。 在反向传播过程中,模型参数W相对于损耗值L的梯度可以推导为:
3.2学习时间分段网络
时间分段网络提供了执行视频级学习的框架,但是要实现最佳性能,必须注意一些实际问题,例如训练样本数量有限。为此,我们研究了在视频数据上训练深层ConvNet的一系列良好做法,这些做法也可直接应用于学习时间分段网络。
网络体系结构 。网络体系结构是神经网络设计中的重要因素。几项工作表明,更深的结构可以提高对象识别性能[9,10]。但是,原始的双流Con vNets [1]采用了相对较浅的网络结构(ClarifaiNet [32])。 在这项工作中,由于在准确性和效率之间具有良好平衡和批归一化的Inception[23]作为构建基块。 我们将原始的BN-Inception体系结构调整为双流ConvNet的设计。像在原始的双流ConvNets [1]中一样,空间流在单个RGB图像上运行,而时间流将一堆连续的光流场作为输入。
网络输入 。我们也有兴趣探索更多的输入方式来增强STN的判别能力。 最初,双流ConvNets将RGB图像用于空间流,将堆叠的光流场用于时间流。 在这里,我们建议研究两种额外的模式,即RGB差和矫正流场。
单个RGB图像通常在特定时间点编码静态外观,且缺少有关上下帧的信息。如图2所示,两个连续帧之间的RGB差异描述了外观变化,该变化可能与运动显著区域相对应。 受[28]的启发,我们尝试添加叠加的RGB差作为另一种输入形式,并研究其在动作识别中的性能。
时间流ConvNets以光流场为输入,旨在捕获运动信息。但是,在真实的视频中,通常存在摄像机运动,并且光流场可能不会集中在人体运动上。如图2所示,由于摄像机的运动,在背景中突出了大量的水平运动。 受iDT[2]的启发,我们建议将矫正的光流场作为附加的输入形式。根据[2],我们首先通过估计单应性矩阵然后补偿相机运动来提取矫正光流。如图2所示,矫正的光流抑制了背景运动并使运动集中在人体身上。
网络****训练****。 由于用于动作识别的数据集相对较小,因此训练深度ConvNets面临着过拟合的风险。 为了解决这个问题,我们设计了以下几种在时域网中训练卷积网络的策略。
交叉预训练。 当目标数据集没有足够的训练样本时,预训练是初始化深层ConvNets的有效方法[1]。 当空间网络将RGB图像作为输入时,参数可以利用在ImageNet [33]上训练的模型作为初始化。 对于其他形式,例如光流场和RGB差,它们本质上捕获了视频数据的不同视觉方面,并且它们的分布与RGB图像的分布不同。我们提出了一种交叉预训练技术,其中我们利用RGB模型初始化时间流网络。首先,我们通过线性变换将光流场离散化为从0到255的间隔。 此步骤使光流场的范围与RGB图像相同。 然后,我们修改RGB模型的第一卷积层的权重以处理光流场的输入。 具体来说,我们对RGB通道上的权重取平均值,并通过时间网络输入的通道数来复制该平均值。 这种初始化方法在时态网络中效果很好,并减少了实验中过度拟合的影响。
正则化技术。批处理规范化[23]是处理协变量偏移问题的重要手段。在学习过程中,批次归一化将估计每个批次内的激活平均值和方差,并使用它们将这些激活值转换为标准的高斯分布。这项操作会加快训练的收敛速度,但由于对有限数量的训练样本的分布估计存在偏差,会导致在传递过程中过拟合。 因此,在使用预训练模型进行初始化之后,我们选择冻结除第一层外的所有批处理归一化层的均值和方差参数。 由于光流的分布与RGB图像不同,因此第一卷积层的激活值将具有不同的分布,因此我们需要相应地重新估计均值和方差。 我们称这种策略为局部BN。同时,我们在BN-Inception体系结构的全局池层之后添加了一个额外的随机失活层,以进一步减少过度拟合的影响。 对于空间流ConvNet,随机失活率设置为0.8;对于时间流ConvNet,设置为0.7。
数据增强。数据增强可以生成各种训练样本,并防止严重的过拟合。在原始的双流ConvNet中,随机裁剪和水平翻转被用来增加训练样本。我们利用两种新的数据增强技术:角点裁剪和比例抖动。在角点裁剪技术中,仅从图像的角点或中心选择提取的区域,以避免隐式聚焦在图像的中心区域。在多尺度裁剪技术中,我们将ImageNet分类中使用的尺度抖动技术[9]应用于动作识别。我们提出了尺度抖动的有效实现。 我们将输入图像或光流场的大小固定为256×340,并从{256,224,192,168}中随机选择裁剪区域的宽度和高度。 最后,将这些裁剪区域的大小调整为224×224,以进行网络训练。 实际上,此实现不仅包含比例抖动,而且还涉及纵横比抖动。
3.3测试TSN
最后,我们介绍了针对时间分段网络的测试方法。 由于所有的片段ConvNet都共享TSN中的模型参数,因此学习到的模型可以像普通的ConvNet一样执行逐帧评估。这使我们能够与没有TSN的学习模型进行公平比较。具体来说,我们遵循原始双流ConvNets的测试方案[1],在该方案中,我们从动作视频中采样了25个RGB帧或光流堆栈。 同时,我们裁剪了4个角和1个中心,并从采样帧中进行了水平翻转以评估ConvNet。对于空间和时间流网络的融合,我们对它们进行加权平均。 在TSN框架内学习时,空间流ConvNet和时间流ConvNet之间的性能差距比原始的双流ConvNet中的性能差距小得多。 基于这一事实,我们将空间流的权重设置为1,将时间流的权重设置为1.5,从而为空间流赋予更高的权重。 当同时使用正常和矫正的光流场时,对于正常光流,权重被划分为1,对于矫正的光流,权重被划分为0.5。 在3.1中有描述,分段共识函数在Softmax归一化之前应用。为了测试模型是否符合训练条件,我们在Softmax归一化之前融合了25个帧和不同流的预测分数。
4实验
在本节中,我们首先介绍评估数据集和该方法的实现细节。然后,我们探索了用于学习时间分段网络的建议的良好实践。在此之后,我们证明了通过应用时间分段网络框架来建模长时间结构的重要性。我们还将我们的方法的性能与最新技术进行了比较。最后,我们将ConvNet模型可视化。
4.1数据集和实施细节
我们对两个大型动作数据集HMDB51[22]和UCF101 [21]进行实验。UCF101数据集包含101个动作类和13320个视频剪辑。我们遵循THUMOS13挑战[34]的评估方案,并采用三个训练/测试单元进行评估。HMDB51数据集是大量来自各种来源的真实视频的集合,例如电影和网络视频。 数据集由来自51个动作类别的6766个视频剪辑组成。我们的实验遵循原始的评估方案,使用了三个训练/测试拆分,并报告了这些拆分的平均准确性。
我们使用小批量随机梯度下降算法来学习网络参数,其中批量大小设置为256,动量设置为0.9。我们使用来自ImageNet [33]的预训练模型初始化网络权重。我们在实验中设置了较小的学习率。 对于空间网络,学习率初始化为0.001,并且每2 000次迭代降低到其十分之一。整个训练过程将在4500次迭代后停止。 对于时间网络,我们将学习率初始化为0.005,经过12000和18000次迭代后,学习率降低为十分之一。 最大迭代次数设置为20000。关于数据增强,我们使用了第3.2节中指定的位置抖动,水平翻转,角点裁剪和比例抖动的技术。为了提取光流和矫正光流,我们选择在OpenCV中使用CUDA实现的TVL1光流算法[35]。为了加快训练速度,我们采用了具有多个GPU的数据并行策略,并通过我们的修改版Caffe [36]和OpenMPI实现了该策略。对于具有4个TITANX GPU的硬件设备,空间TSN在UCF101上的整个培训时间约为2小时,对于时间TSN则为9小时。
4.2进一步探究
在本节中,我们重点研究3.2节中描述的良好实践,包括培训策略和输入方式。在本实验研究中,我们使用[23]改编的具有深层体系结构的双流ConvNets,并对UCF101数据集的第1部分进行所有实验。
我们在第3.2节中提出了两种训练策略,即交叉预训练和具有随机失活的部分BN。 具体来说,我们比较了四种设置:(1)从头开始训练(2)仅像[1]中那样预训练空间流(3)交叉预训练(4)使用交叉预训练和带有随机失活的BN层。结果如表1所中。首先,我们发现从头开始的训练性能要比原始的双流ConvNets(基准)差很多,这意味着精心设计的学习策略对于降低过拟合风险是必要的,尤其是对于空间网络。然后,我们使用空间流的预训练和时间流的交叉模态预训练,以初始化双流ConvNets,并且其性能比基线更好。 我们进一步利用带有随机失活的部分BN来规范化训练过程,从而将识别性能提高到92.0%。
我们在第3.2节中提出了两种新型的模态:RGB差和矫正的光流场。 表2中报告了比较不同模式性能的结果。这些实验是在表1中验证的所有良好实践下进行的。我们首先观察到RGB图像和RGB差的组合将识别性能提高到87.3%。 此结果表明RGB图像和RGB差异可以对信息编码互补。然后表明,光流和矫正光流产生了非常相似的性能(87.2%对86.9%),并且将它们融合可以将性能提高到87.8%。 结合所有四种模式可得出91.7%的准确性。由于RGB差可能描述相似但不稳定的运动模式,因此我们还评估了组合其他三种模式的性能,这带来了更好的识别精度(92.3%vs 91.7%)。我们推测光流更适合捕获运动信息,有时RGB差对于描述运动可能不稳定。 另一方面,RGB差可以用作运动表示低质量,高速的替代方案。
4.3对于TSN的性能评价
在本小节中,我们专注于TSN框架工作的研究。我们首先研究分段共识函数的影响,然后在UCF101数据集的split 1上比较不同的ConvNet体系结构。为了进行比较,在此探索中,我们仅将RGB图像和光流场用作输入模态。 如第3.1节所述,段数K设置为3。
在等式中(1),分段共识函数由其聚集函数g定义。在这里,我们评估了g的三个计算方式:(1)最大合并,(2)平均合并,(3)加权平均。实验结果总结在表3中。我们看到平均池化功能可实现最佳性能。因此,在以下实验中,我们选择平均池作为默认聚集功能。 然后,我们比较了不同网络体系结构的性能,结果在表4中进行了总结。具体地说,我们比较了三种深层的体系结构:BN-Inception [23],GoogLeNet [10]和VGGNet-16 [9],所有这些架构都经过上述实践的训练。在比较的体系结构中,根据BN-Inception [23]改编的深层双流ConvNets达到了92.0%的最佳精度。这与它在图像分类任务中的更好表现相吻合。 因此,我们选择BN-Inception [23]作为TSN的ConvNet架构。
设置了所有设计选项后,我们现在将时间分段网络(TSN)应用于动作识别。 结果在表4中进行了说明。在表5中还提供了根据识别准确度对组件进行逐项分析的结果。我们可以看到,在前面所有良好实践下,时间分段网络都能够提高模型的性能。 这证实了通过时间分段网络实现的对长时间结构进行建模对于理解视频中的动作至关重要。
4.4与SOTA相比较
在探索了良好的做法并了解了时间分段网络的效果之后,我们准备建立最终的动作识别方法。具体来说,我们使用了三种输入方式以及描述的所有技术作为最终方法,并在两个具有挑战性的数据集上进行了测试:HMDB51和UCF101。 结果总结在表6中,在表6中,我们将我们的方法与传统方法(例如改进的轨迹(iDT)[2],MoFAP表示[39])和深度学习表示法例如3D卷积网络(C3D)[13],轨迹合并的深度卷积描述符(TDD)[5],分解时空卷积网络(FSTCN)[28],长期卷积网络(LTC)[19]和关键卷挖掘框架(KVMF)[41]。 我们的最佳结果在HMDB51数据集上优于其他方法3.9%,在UCF101数据集上优于1.1%。 我们方法的优越性能证明了TSN的有效性,并证明了长期时域建模的重要性。
4.5模型可视化
除了识别精度,我们还想进一步了解所学的ConvNet模型。这里,我们采用DeepDraw[42]工具箱。此工具在仅具有白噪声的情况下对输入图像进行迭代梯度上升。因此,仅基于ConvNet模型内部的类知识,可以将经过多次迭代后的输出视为类可视化。该工具的原始版本仅处理RGB数据。为了对基于光流的模型进行可视化,我们调整了工具以使其与时间网络一起运行。结果,我们首次在动作识别ConvNet模型中可视化了有趣的类信息。 我们从UCF101数据集中随机选择五个类别,即太极拳,打拳,跳水,跳远和自行车,以实现可视化。 结果如图3所示。对于RGB和光流,我们将通过以下三种设置可视化学习的ConvNet模型:(1)不进行预训练;(2)仅接受预训练;(3)具有TSN。
一般而言,具有预训练的模型比没有进行预训练的模型更能表示视觉概念。可以看到,没有经过预训练的时空模型几乎不能产生任何有意义的视觉结构。 利用预训练过程中传递的知识,空间和时间模型能够捕获结构化的视觉特征。
还很容易注意到,仅接受短期信息(例如单帧)训练的模型往往会将视频中的风景图案和物体误认为是行动识别的重要特征。例如,在“潜水”类中,除进行潜水的人员外,单帧空间流ConvNet主要查找水和潜水平台。它的时间流对应物(光流)趋向于集中于由水波引起的运动。 随着时间分段网络引入的长期时间建模,显而易见的是,学习的模型更多地关注视频中的人,并且似乎正在对动作类的长时间结构进行建模。仍以“潜水”为例,具有时间分段网络的空间卷积网络现在生成的图像是人是主要的视觉信息。 并且可以在图像中识别出不同的姿势,描绘了一个潜水动作的各个阶段。这表明用该方法学习的模型可能表现更好,这在我们的定量实验中得到了很好的体现。我们为读者提供补充材料,以实现更多动作类的可视化以及有关可视化过程的更多详细信息。
5结论
在本文中,我们介绍了时间分段网络(TSN),这是一个视频级框架,旨在为长期的时间结构建模。正如在两个具有挑战性的数据集上所展示的,这项工作将最新技术提升到了一个新的水平,同时保持了合理的计算成本。 这主要归因于具有稀疏采样的分段体系结构以及我们在本文中探索的一系列良好实践。 前者提供了一种捕获长期时间结构的有效方式,而后者则使得在有限的训练集上训练非常深的网络成为可能,而不会出现严重的过度拟合。
⑻ stn网络是什么技术
stn网络可以理解为是基于IP技术的一种在现网应用中集成的技术,其技术基于上百个RFC,STN是在IPRAN的基础上构建的。在传统路由器的基础上,继承SDH的部分有点,增加了同步技术、OAM和QoS机制,满足无线回传需求,也就出现了IPRAN技术。
IP是Internet Protocol的缩写,是TCP/IP体系中的网络层协议。设计IP的目的是提高网络的可扩展性,一是解决互联网问题,实现大规模、异构网络的互联互通。
二是分割顶层网络应用和底层网络技术之间的耦合关系,以利于两者的独立发展。根据端到端的设计原则,IP只为主机提供一种无连接、不可靠的、尽力而为的数据包传输服务。
IP分组的转发规则
路由器仅根据网络地址进行转发。当IP数据包经由路由器转发时,如果目标网络与本地路由器直接相连,则直接将数据包交付给目标主机,这称为直接交付。
否则,路由器通过路由表查找路由信息,并将数据包转交给指明的下一跳路由器,这称为间接交付。路由器在间接交付中,若路由表中有到达目标网络的路由,则把数据包传送给路由表指明的下一跳路由器。
以上内容参考网络-IP
⑼ STN有什么优势吗
STN有超强的资方背景实力,获得了Arrington XRP Capital,Signum Capital,Longhash Ventures,Hyperchain Capital、Nas Capital、DFG、Dealean、 Block Dream Fund、TRG Capital Hillrise Capital等多家投资机构的投资及支持。拥有广阔的市场前景,Stone面向的是2000亿$的POS流动性资产市场。
⑽ 想知道什么是STN业务业务如何开放
STN业务是指以IP/MPLS协议及关键技术为基础,主要面向政企客户提供二层、三层通道类业务承载,由城域的A、B、ER等设备组成的端到端的业务承载网络,STN网络由接入层、汇聚层、城域核心层、省核心层组成,实现政企业务点到点通道的业务承载。为保证网络以及承载业务的安全性,STN网络不能直接承载互联网业务。一、业务开放及通达范围中国电信宁夏公司面向全区范围内的客户提供省内点对点通道业务,暂不提供跨省点对点通道业务需求。二、业务实现方式STN网络目前主要提供二层点到点通道(简称通道类业务)政企专线等政企高价值业务,满足政企业务高品质大带宽承载需求。STN网络具备标准化IP系统的接入、带宽扩展、差异化承载及端到端质量保障的能力。后期考虑承载三层业务,具体可分为但不局限于以下应用场景:1.域内二层通道类政企专线业务承载2.MSTP迁移场景3.MSAP迁移场景4.帧中继/ATM迁移场景。客服217为你解答。宽带服务可自助排障,简单易操作,另外可办理工单查询、ITV修障、宽带申请及密码服务,方便快捷,更多功能敬请关注中国电信贵州客服。