❶ CV計算機視覺每日開源代碼Paper with code速覽-2023.8.15
今日CV計算機視覺領域開源代碼速覽,涵蓋各類前沿技術:
異常檢測:Target before Shooting:通過級聯補丁檢索實現毫秒級准確的異常檢測和定位。
圖像分割:SegPrompt:通過類別級提示學習提升開放世界分割能力。
視頻分割:Isomer:零樣本視頻物體分割的異構Transformer。
目標跟蹤:輕量級層次視覺Transformer,提升視覺跟蹤效率;3DMOTFormer:用於在線3D多目標跟蹤的圖注意力變換器。
點雲:旋轉不變隨機特徵為3D點雲機器學習提供強大基礎。
醫學圖像:Robustness Stress Testing:醫學圖像分類中的魯棒性測試;CATS v2:混合編碼器提升醫療分割的魯棒性。
超解析度:TextDiff:針對場景文字的掩碼引導的殘差擴散模型。
動作識別:Masked Motion Predictors:強大的3D動作表示學習器;Orthogonal Temporal Interpolation:零樣本視頻識別的正交時間插值。
多模態:CTP:通過兼容動量對比和拓撲保持實現視覺語言連續預訓練;AdvCLIP:多模態對比學習中的下游無關對抗示例。
半監督學習:Shrinking Class Space:提升半監督學習中的確定性;SimMatchV2:基於圖一致性的半監督學習。
視頻增強:FastLLVE:基於強度感知查找表的實時低光視頻增強。
深度估計:DS-Depth:動態和靜態深度估計的融合成本體積方法。
自動駕駛:UniWorld:基於世界模型的自動駕駛預訓練;R2S100K:針對野外半監督自動駕駛的路區段分割數據集。
Diffusion:CLE Diffusion:可控制的光照增強擴散模型;IP-Adapter:適用於文本到圖像擴散模型的文本兼容圖像提示適配器。
網路剪枝:Influence Function Pruning:無需重新訓練即可評估剪枝對真實損失的影響;網路剪枝綜述。
圖像去噪:Self-Collaboration GANs:自協作生成對抗分支的無監督圖像去噪。
邊緣檢測:輕量級且高效的邊緣檢測模型。
三維重建:一體化3D目標重建與多級分割方法;Color-NeuS:帶顏色的神經隱式表面重建。
圖像去霧:Mutual Information-driven Network:用於高效圖像去霧的三元交互網路。
圖像檢索:僅全局特徵即可滿足圖像檢索和重排名需求。
網路量化:Rectified Straight Through Estimator:為二值神經網路訓練設計的修正直通估計器。
知識蒸餾:多標簽知識蒸餾。
圖像到圖像翻譯:Hierarchy Flow:實現高保真圖像到圖像翻譯的層次流。
持續學習:CBA:通過持續偏置適配器改進在線持續學習。
❷ 圖片格式詳解
在日常工作中,我們經常接觸到很多種圖片格式,最常接觸到的就是 JPG、BMP、PNG、GIF、 TIF 了,此外還有 PSD、AI、TIF、EPS、RAW 等,不同的圖片格式有不同的特性,佔用的數據空間也不同,有些格式圖片還需要特殊的軟體才能打開,相信大家都遇到過,所以就在這里講講他們的區別吧!
圖片格式可大致范分為:點陣圖、矢量圖(可無損縮放)、 HDR 高動態范圍圖(附帶光照信息的圖像)、平面軟體源文件等等。按照存儲的格式分為:有損壓縮、無損壓縮兩種。
JPG(又稱JPEG)是一種針對相片圖像而廣泛使用的一種有損壓縮標准方法。使用JPEG格式壓縮的圖片文件一般也被稱為JPEG Files,最普遍被使用的 擴展名 格式為.jpg,其他常用的 擴展名
還包括.jpeg、.jpe、.jfif以及.jif。JPEG格式的數據也能被嵌進其他類型的文件格式中,像是 TIFF 類型的文件格式
JPEG圖像格式是最常見也最常用的。它能夠將圖像壓縮在很小的儲存空間,但是會丟失一些圖像數據,尤其是在壓縮比例越高的情況下圖像質量更低。但是JPEG的壓縮技術也同時是它的應用優勢。它用有損壓縮方式去除冗餘的圖像數據,在獲得極高的壓縮率的同時能展現十分豐富生動的圖像,換句話說,就是可以用最少的磁碟空間得到較好的圖像品質。同時 JPEG是一種很靈活的格式,具有調節圖像質量的功能,允許用不同的壓縮比例對文件進行壓縮,支持多種壓縮級別,應用環境會更多,也更加方便。
PNG是一種無損壓縮的圖像存儲格式,其設計目的是試圖替代GIF和TIFF文件格式,同時增加一些GIF文件格式所不具備的特性。由於它使用的是無損壓縮演算法進行壓縮,所以相同像素寬高的圖像保存為PNG在文件大小上比JPEG往往要大的多,一般是JPEG大小的幾倍左右。由於無損壓縮不會丟失圖像數據,並且支持alpha通道而且完整的保存了圖像數據且無鋸齒,所以一般應用在PS素材或圖標上,這就為什麼不管Android和iOS圖標都是使用的png格式。
BMP(Bitmap)是微軟Windows操作系統中的標准圖像文件格式,可以分成兩類:設備相關點陣圖(DDB)和設備無關點陣圖(DIB),使用非常廣。它採用位映射存儲格式,通常是不壓縮的,除了圖像深度可選以外,不採用其他任何壓縮,因此,BMP文件所佔用的空間很大。BMP文件的圖像深度可選lbit、4bit、8bit及24bit。BMP文件存儲數據時,圖像的掃描方式是按從左到右、從下到上的順序。由於BMP文件格式是Windows環境中交換與圖有關的數據的一種標准,因此在Windows環境中運行的圖形圖像軟體都支持BMP圖像格式。
GIF(Graphics Interchange Format)的原義是「圖像互換格式」,是CompuServe公司在 1987 年開發的圖像文件格式,因其體積小、成像相對清晰,特別適合於初期慢速的互聯網,而大受歡迎。GIF文件的數據,是一種基於LZW演算法的連續色調的無損壓縮格式。其壓縮率一般在50%左右,它不屬於任何應用程序。GIF格式可以存多幅彩色圖像,如果把存於一個文件中的多幅圖像數據逐幅讀出並顯示到屏幕上,就可構成一種最簡單的動畫,大家平時看到網站中的動態圖片與表情包就是這個格式。
PSD(Photoshop Document)是著名的Adobe公司的圖像處理軟體Photoshop的專用格式,這種格式可以存儲Photoshop中所有的圖層,通道、參考線、註解和顏色模式等信息,是一種非壓縮的原始文件保存格式。PSD文件可以保留所有的原始操作信息,所以佔用空間會很大,但是對於後期修改、繼續操作更有保存意義。PSD文件其實就是Photoshop的源文件,目前其他軟體也可以逐漸的支持原生的 PSD,但是一些特效等會合並成一個獨立的像素層,如果你在製作需要反復推敲修改的圖像時,選保存為PSD格式是非常有必要的。
EPS(Encapsulated Post Script)是是目前桌面印刷系統普遍使用的通用交換格式當中的一種綜合格式。它是由一個PostScript語言的文本文件和一個(可選)低解析度的由PICT或TIFF格式描述的代表像組成,例如多色調曲線、Alpha通道、分色、剪輯路徑、掛網信息和色調曲線等,因此EPS 格式常用於印刷或列印輸出。EPS是我們處理圖像工作中的最重要的格式,它在Mac和PC環境下的圖形和版面設計中廣泛使用。
PDF(Portable Document Format)攜帶型文檔格式,是由Adobe Systems用於與應用程序、操作系統、硬體無關的方式進行文件交換所發展出的文件格式。PDF文件以PostScript語言圖象模型為基礎,無論在哪種列印機上都可保證精確的顏色和准確的列印效果,即PDF會忠實地再現原稿的每一個字元、顏色以及圖象。PDF文件使用了工業標準的壓縮演算法,通常比PostScript文件小,易於傳輸與儲存。它還是頁獨立的,一個PDF文件包含一個或多個「頁」,可以單獨處理各頁,特別適合多處理器系統的工作。此外,一個PDF文件還包含文件中所使用的PDF格式版本,以及文件中一些重要結構的定位信息。正是由於 PDF文件的種種優點,它逐漸成為出版業中的新寵。
Adobe公司設計PDF文件格式的目的是為了支持跨平台上的,多媒體集成的信息出版和發布,尤其是提供對網路信息發布的支持。為了達到此目的, PDF具有許多其他電子文檔格式無法相比的優點。PDF文件格式可以將文字、字型、格式、顏色及獨立於設備和解析度的圖形圖像等封裝在一個文件中。該格式文件還可以包含超文本鏈接、聲音和動態影像等電子信息,支持特長文件,集成度和安全可靠性都較高。
TIFF(Tagged Image File Format)是一種非失真的壓縮格式(最高也只能做到2~3倍的壓縮比)能保持原有圖像的顏色及層次,但佔用空間卻很大。例如一個200萬像素的圖像,差不多要佔用6MB的存儲容量,故TIFF常被應用於較專業的用途,如書籍出版、海報等,極少應用於互聯網上。TIFF是一種靈活的點陣圖格式,主要用來存儲包括照片和藝術圖在內的圖像。通過在文件頭中包含「標簽」它能夠在一個文件中處理多幅圖像和數據。標簽能夠標明圖像的如圖像大小這樣的基本幾何尺寸或者定義圖像數據是如何排列的並且是否使用了各種各樣的圖像壓縮選項。
HDR(High-Dynamic Range),相比普通的圖像,可以提供更多的動態范圍和圖像細節,根據不同的曝光時間的LDR(Low-Dynamic Range)圖像,利用每個曝光時間相對應最佳細節的LDR圖像來合成最終HDR圖像,能夠更好的反映出真實環境中的視覺效果。現實真正存在的亮度差,即最亮的物體亮度,和最暗的物體亮度之比為10的8次方, 而人類的眼睛所能看到的范圍是10的5次方左右,但是一般的顯示器,照相機能表示的只有256種不同的亮度。通俗點來講就是計算機現實器攝影機目前無法達到我們肉眼所能感知的色彩范圍,所以 hdr 的圖片格式就會附帶光照強度信息,它比其它格式的圖像有著更大亮度的數據貯存,而且它記錄亮度的方式與傳統的圖片不同,不是用非線性的方式將亮度信息壓縮到8bit或16bit的顏色空間內,而是用直接對應的方式記錄亮度信息,它可以說記錄了圖片環境中的照明信息,因此我們可以使用這種圖象來「照亮」場景。有很多HDRI文件是以全景圖的形式提供的,我們也可以用它做環境背景來產生反射與折射。這里強調一下HDRI與全景圖有本質的區別,全景圖指的是包含了360度范圍場景的普通圖象,可以是JPG格式,BMP格式,TGA格式等等,屬於Low-Dynamic RangeRadiance Image,它並不帶有光照信息。
RAW(RAW Image Format)是「未經加工」的圖像。可以理解為:RAW圖像就是CMOS或者CCD圖像感應器將捕捉到的光源信號轉化為數字信號的原始數據,RAW格式圖片細節更嚴密,更方便調整。RAW文件大多是通過相機直接輸出的,記錄了數碼相機感測器的原始信息,同時記錄了由相機拍攝所產生的一些元數據(如ISO的設置、快門速度、光圈值、白平衡等)的文件,因此RAW也是未經處理、也未經壓縮的格式,可以把RAW概念化為「原始圖像編碼數據」或更形象的稱為「數字底片」。
通常帶有 HDR 高動態范圍的光照信息,這在後期編輯圖片的時候可以更好的控制曝光、白平衡、色彩飽和度等等。所以,為了更加方便查閱和後期處理照片,攝影師通常採用同時記錄JPEG和RAW格式照片的辦法,既可以讓用戶使用常規的圖像處理軟體組織和編輯照片(JPEG);當需要獲得處理精細的照片或需要改善照片缺憾(如白平衡不正確和高光/暗部細節缺失 )的時候, 用戶可以使用RAW解決問題。
對於大多數用戶而言,我們最常用的應該是RAW、PSD和JPEG格式。如果你在進行照片拍攝時就採用RAW+JPEG格式,一張照片的佔用空間大概是35MB,同一場景多拍幾張就達到100MB了。加上現在很多人都有隨走隨拍的習慣,稍不注意就要拍幾個GB空間的照片,那就建議大家准備至少32GB的存儲卡進行拍攝,同時購買TB級的機械硬碟/移動硬碟進行備份保存。
如果在工作中需要使用EPS、TIF、BMP甚至更多其他圖片格式時,充分說明你的工作專業度很高,圖片數據的重要性也更大,數據保存就更是重中之重的事情了。這時候,你可能需要將一張照片保存為多個備用的圖片格式,佔用空間就會更大。加上本身素材數據量就不小,那就建議大家選購多款硬碟進行多地備份;也可以選擇搭建NAS數據中心,實現數據同步、共享以及遠程操作。