導航:首頁 > 數據分析 > 手繪圖像數據集有哪些

手繪圖像數據集有哪些

發布時間:2023-04-13 11:39:06

A. 細粒度圖像識別數據集Caltech-UCSD bird簡介

警告:此數據集中的圖像與ImageNet中的圖像重疊。 使用預先使用ImageNet的網路(或任何預先使用Flickr圖像的網路)時要小心,因為CUB的測試集可能與原始網路的訓練集重疊。

Caltech-UCSD Birds-200-2011 (CUB-200-2011) 是 CUB-200 dataset 的一個擴充版本,每個類的圖像數量大約增加兩倍和新的部位注釋則宏斗。 有關數據集的詳細信息,請參閱下面鏈接的技術報告。
(1)類別書目: 200
(2)圖像總數目: 11,788
(3)每張圖片的標注信息: 15 Part Locations, 312 Binary Attributes, 1 Bounding Box

該數據集是細粒度圖像分類最廣泛使用的基準。該數據集涵蓋了200種鳥類,其中包括5994張訓練圖像和5794張測試圖像。除類別標簽外孫磨,每絕拆個圖像都會用1個邊界框、15個零件關鍵點和312個屬性進行進一步注釋。

一些其他相關的數據集: Caltech-256 , Oxford Flower Dataset , Animals with Attributes . 更多的數據集可以瀏覽 Caltech Vision Dataset Archive .

[1] Caltech-UCSD Birds-200-2011

[1] The caltech-ucsd birds-200- 2011 dataset

B. 圖像分類數據集怎麼拍

圖像分類數據集(Fashion-MNIST)

在介紹softmax回歸的實現前我們先引入一個多類圖像分類數據集。

它將在後面的章節中被多次使用,以方便我們觀察比較演算法之間在模型精度和計算效率上的區別。圖像分類數據集中最常用的是手寫數字識別數據集MNIST[1]。但大部分模型在MNIST上的分類精度都超過了95%。

為了更直陪伏觀地觀察演算法之間的差異,我們將使用一個圖像內容更加復雜的數據集Fashion-MNIST[2](這個數據集也比較小,只有幾十M,沒有GPU的電腦也能吃得消)。

本節我們將使用torchvision包,它是服務於PyTorch深度學雹亂察習框架的,主要用來構建計算機視覺模型。torchvision主要由以下幾部分構成:

torchvision.datasets: 一些載入數據的函數及常用的數據集介面;
torchvision.models: 包含常用的模型結構(含預訓練模型)源茄,例如AlexNet、VGG、ResNet等;
torchvision.transforms: 常用的圖片變換,例如裁剪、旋轉等;
torchvision.utils: 其他的一些有用的方法。

C. 回歸數據集是什麼意思

Copyright © 1999-2020, CSDN.NET, All Rights Reserved

打開APP

lj_FLR
關注
深度學習基礎14(softmax回歸數據集的選擇以及讀取) 原創
2022-03-28 18:31:25
2點贊

lj_FLR

碼齡3年

關注
圖像分類數據集
MNIST數據集是圖像分類中廣泛使用的數據集之一,是對手寫數字的識別,大概86年提出的

但作為基準數據集過於簡單。

我們將使用類似但更復雜的Fashion-MNIST數據集

讀取數據集
可以通過框架中的內置函數將Fashion-MNIST數據集下載並讀取到內存中。

Fashion-MNIST由10個或斗余類別的圖像組成, 每個類別由衫滾銷乎訓練數據集(train dataset)中的6000張圖像 和測試數據集(test dataset)中的1000張圖像組成。

因此,訓練集和測試集分別包含60000和10000張圖像。 測試數據集不會用於訓練,只用於評估模型性能。

D. imagenet數據集 有多少類

一:程序開始

由於要向數據集中設置resize和是否亂序等參數,所以本文使用gflags命令行解析工具;在Create.sh文件中,調用convert_imageset.bin語句為:

<pre name="code" class="cpp">GLOG_logtostderr=1$TOOLS/convert_imageset \
--resize_height=$RESIZE_HEIGHT \
--resize_width=$RESIZE_WIDTH \
--shuffle \
$TRAIN_DATA_ROOT \ 圖像數據集存放的根目錄
$DATA/train.txt \ 圖像的ID和對應的分類標簽數字
$EXAMPLE/ilsvrc12_train_lmdb lmdb文件保存的路徑

由於train.txt文件太大,電腦打不開,故打開val.txt一窺之;val.txt中的某個數據為:

65ILSVRC2012_val_00000002.JPEG ,65應該是對應的標簽,後面的是圖像的編號id。
二:數據轉換流程圖

三:convert_imageset.cpp函數分析(caffe-master/tools/)

1引入必要的頭文件和命名空間

#include<algorithm>//輸出數組的內容、對數組進行升冪排序、反轉數組內容、復制數組內容等操作,
#include <fstream> // NOLINT(readability/streams)
#include <string>
#include<utility>//utility頭文件定義了一個pair類型,pair類型用於存儲一對數據
#include<vector>//會自動擴展容量的數組
#include "boost/scoped_ptr.hpp"//智能指針頭文件
#include "gflags/gflags.h"
#include "glog/logging.h"
#include"caffe/proto/caffe.pb.h"
#include "caffe/util/db.hpp" //引入包裝好的lmdb操作函數
#include "caffe/util/io.hpp" //引入opencv中的圖像操作函數
#include "caffe/util/rng.hpp"
頭文件和convert_cifar_data.cpp的區別:

1,引入gflags命令行解析工具;
2,引入utility頭文件,裡面提供了數組洗牌等操作

using namespace caffe; // NOLINT(build/namespaces)
using std::pair;
using boost::scoped_ptr;
命名空間區別:

1,引入全部caffe命名空間
2,引入pair對命名空間
2 gflags宏定義參數
//通過gflags宏定義一些程序的參數變數

DEFINE_bool(gray, false,"When thisoption is on, treat images as grayscale ones");//是否為灰度圖片
DEFINE_bool(shuffle, false,"Randomlyshuffle the order of images and their labels");//定義洗牌變數,是否隨機打亂數據集的順序
DEFINE_string(backend, "lmdb","The backend {lmdb, leveldb} for storing the result");//默認轉換的數據類型
DEFINE_int32(resize_width, 0, "Width images areresized to");//定義resize的尺寸,默認為0,不轉換尺寸
DEFINE_int32(resize_height, 0, "Height imagesare resized to");
DEFINE_bool(check_size, false,"When this optionis on, check that all the datum have the samesize");
DEFINE_bool(encoded, false,"When this option ison, the encoded image will be save in datum");//用於轉換數據格式的
DEFINE_string(encode_type, "","Optional:What type should we encode the image as ('png','jpg',...).");//要轉換的數據格式

3 main()函數
沒有想cifar和mnist的main函數,通過調用convert_data()函數來轉換數據,而是直接在main函數內完成了所有數據轉換代碼
3.1 通過gflags宏定義接收命令行中傳入的參數

const boolis_color = !FLAGS_gray; //通過gflags把宏定義變數的值,賦值給常值變數
const boolcheck_size = FLAGS_check_size; //檢查圖像的size
const boolencoded = FLAGS_encoded;//是否編譯(轉換)圖像格式
const stringencode_type = FLAGS_encode_type;//要編譯的圖像格式
3.2讀取源數據

3.2.1創建讀取對象變數
std::ifstream infile(argv[2]);//創建指向train.txt文件的文件讀入流
std::vector<std::pair<std::string, int> > lines;//定義向量變數,向量中每個元素為一個pair對,pair對有兩個成員變數,一個為string類型,一個為int類型;其中string類型用於存儲文件名,int類型,感覺用於存數對應類別的id
如val.txt中前幾個字元為「ILSVRC2012_val_00000001.JPEG65ILSVRC2012_val_00000002.JPEG」;感覺這個string= ILSVRC2012_val_00000001.JPEG int=65
std::stringfilename;
int label;
3.2.2 讀取數據
//下面一條while語句是把train.txt文件中存放的所有文件名和標簽,都存放到vextor類型變數lines中;lines中存放圖片的名字和對應的標簽,不存儲真正的圖片數據

while (infile>> filename >> label) {
nes.push_back(std::make_pair(filename, label));
//make_pair是pair模板中定義的給pair對象賦值的函數,push_back()函數是vector對象的一個成員函數,用來在末端添加新元素}

3.3判斷是否進行洗牌操作

if(FLAGS_shuffle) {
// randomlyshuffle data
LOG(INFO)<< "Shuffling data";
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">//洗牌函數,使用隨機生成器g對元素[first,last)容器內部元素進行隨機排列</span>

shuffle(lines.begin(), lines.end());//vector.begin() - 回傳一個Iterator迭代器,它指向 vector 第一個元素。}
3.4以智能指針的方式創建db::DB類型的對象 db

scoped_ptr<db::DB>db(db::GetDB(FLAGS_backend));
//智能指針的創建方式類似泛型的格式,上面通過db.cpp內定義的命名的子命名空間中db的「成員函數」GetDB函數來初始化db對象
db->Open(argv[3], db::NEW);//argv[3]的文件夾下創建並打開lmdb的操作環境
scoped_ptr<db::Transaction>txn(db->NewTransaction());//創建lmdb文件的操作句柄

3.5 源數據中提取圖像數據
3.5.1 通過ReadImageToDatum函數把圖像數據讀取到datum中
//到源數據位置讀取每張圖片的數據。(../imagenet/xxx.jpeg,65,256,256,true,jpeg,&datum)

status= ReadImageToDatum(root_folder + lines[line_id].first,lines[line_id].second, resize_height,resize_width, is_color,enc, &datum); //把圖像數據讀取到datum中
3.5.2 ReadImageToDatum函數說明

ReadImageToDatum函數為io.cpp文件中定義的函數;io.cpp主要實現了3部分功能:
1,從text文件或者二進制文件中讀寫proto文件;
2,利用opencv的Mat矩陣,把圖像數據讀到Mat矩陣中;
3,把Mat矩陣中的值放入到datum中

E. uvos任務經典數據集有哪些

1、MNIST:一個手寫數字分類數據集,包含訓練集旅槐孫和測試集,每個數據樣本由圖像數據和標簽構成。
2、IMDB:一個電影評論分類數據集,可以用來訓練文本分類器拆鏈。
3、CIFAR-10:一個圖像分類數據集,共有10個類別,每個類別包含6000張32*32像素的彩色圖像。
4、KITTI:一個自動駕駛數據集,包含高清圖像和3D點雲數據。
5、SQuAD:一個自然語言問答數據集,用於訓練自然語言處明肆理系統

F. imagenet100多大

ImageNet100是一個由100個類別組成的大型圖像數據集,每個類別包含超過500張圖像,總計超圓讓過50000張圖像。它的橘廳局圖像大小為224x224像素,每張圖像的文件大伏高小約為1MB左右。

G. 【技術綜述】多標簽圖像分類綜述

圖像分類作為計算機視覺領域的基礎任務,經過大量的研究與試驗,已經取得了傲人的成績。然而,現有的分類任務大多是以單標簽分類展開研究的。當圖片中有多個標簽時,又該如何進行分類呢?本篇綜述將帶領大家了解多標簽圖像分類這一方向,了解更具難度的圖像分類。

作者 | 郭冰洋

編輯 | 言有三

隨著科學技術的進步與發展,圖像作為信息傳播的重要媒介,在通信、無人駕駛、醫學影像分析唯閉頌、航天、遙感等多個領域得到了廣泛的研究,並在國民社會、經濟生活中承擔著更加重要的角色。人們對圖像研究的愈發重視,也促使計算機視覺領域迎來了蓬勃發展的黃金時代。

作為計算機視覺領域的基礎性任務,圖像分類是目標檢測、語義分割的重要支撐,其目標是將不同的圖像劃分到不同的類別,並實現最小的分類誤差。經過近30年的研究,圖像分類已經成功應用至社會生活的方方面面。如今,在我們的生活中隨處可見——智能手機的相冊自動分類、產品缺陷識別、無人駕駛等等。

根據分類任務的目標不同,可以將圖像分類任務劃分成兩部分:(1)單標簽圖像分類;(2)多標簽圖像分類。

單標簽圖像分類是指每張圖片對應一個類別標簽,根據物體類別的數量,又可以將單標簽圖像分類劃分成二分類、多類別分類。如下圖所示,可以將該圖的標簽記為海洋,通過單標簽圖像分類我們可以判定該圖像中是否含有海洋。

然而,現實生活中的圖片中往往包含多個類別的物體,這也更加符合人的認知習慣。我們再來觀察下圖,可以發現圖中不僅包含海洋,還包括了海豚。多標簽圖像分類可以告知我們圖像中是否同時包含這些內容,這也能夠更好地解決實際生活中的問題。

機器學習演算法主要包括兩個解決思路:

(1) 問題遷移,即將多標簽分類問題轉化為單標簽分類問題,如將標簽轉化為向量、訓練多個分類器等;

(2) 根據多標簽特點,提出新的適應性演算法,包括ML-KNN、Ranking SVM、Multi-label Decision Tree等。現對其中具有代表性的演算法進行總結。

2.1 問題遷移

問題遷移方法的主要思想是先將多標簽數據集用某種方式轉換成單標簽數據集,然後運用單標簽分類方法進行分類。該方法有可以包括基於態茄標簽轉換和基於樣本實例轉換。

2.1.1 基於標簽轉換

針對每個標簽,將屬於這個標簽的所有實例分為一類,不屬於的分為另一類,將所有數據轉換為多個單標簽分類問題(如下圖)。典型演算法主要有Binary Relevance和Classifier Chain兩種。

2.1.2 基於樣本實例轉換

這種方法是將多標簽實例分解成多個單標簽實例。如下圖所示。實例E3對應標簽y3和y4,則通過分解多標簽方法法將E3分解成單獨選中標簽y3和y4的實例,然後對每一個標簽作單獨預測。

2.2 適應性方法

如上文所述,新的適應性演算法是根據多標簽分類的特殊性,改進現有的單標簽分類演算法,主要包括以下三種:

2.2.1 ML-KNN

ML-KNN由傳統的KNN演算法發展而來。首先通過KNN演算法得到樣本最接近的K個鄰近樣本,然後根據K個鄰近樣本的標簽,統計屬於某一標簽的鄰近指鄭樣本個數,最後利用最大後驗概率原則(MAP)決定測試樣本含有的標簽集合。

2.2.2 Rank SVM

Rank SVM是在SVM的基礎上,加入Ranking Loss損失函數和相應的邊際函數作為約束條件,並擴展目標函數而提出的一種多標簽學習演算法。該演算法的簡要思路是:首先定義函數s(x)是樣本x的標簽集的規模大小,然後定義rk(x)=wkTx+bk,如果求得的rk(x)值在最大的s(x)個元素(r1(x),...rQ(x))之間,則認為該樣本x選中該標簽k,否則就沒被選中。在求解過程中定義新的排序函數rk(x)-rl(x)≥1,其中k表示被樣本x選中的標簽,l表示沒有被選中的標簽,並基於這個新的排序函來大間隔分類器,同時最小化Ranking Loss,從而推導出適合多標簽分類的目標函數和限制條件。

2.2.3 Multi-label Decision Tree

該演算法採用決策樹技術處理多標簽數據,利用基於多標簽熵的信息增益准則遞歸地構建決策樹。樹形結構包括非葉結點、分支、葉節點。決策樹模型用於分類時,特徵屬性用非葉節點表示,特徵屬性在某個值域上的輸出用非葉節點之間的分支表示,而類別則用葉節點存放。

計算思想如下:首先計算每個特徵的信息增益,挑選增益最大的特徵來劃分樣本為左右子集,遞歸下去,直到滿足停止條件,完成決策樹的構建。對新的測試樣本,沿根節點遍歷一條路徑到葉子節點,計算葉子節點樣本子集中每個標簽為0和1的概率,概率超過0.5則表示含有該標簽。當遍歷所有路徑到底不同的葉節點之後,則可判斷涵蓋的所有標簽信息。

除了上述三類主要演算法外,還包括諸多以單標簽分類進行改進的演算法,在此不再贅述。

深度學習的發展帶動了圖像分類精度的大幅提升,神經網路強大的非線性表徵能力可以在大規模數據中學習到更加有效的特徵。近年來,多標簽圖像分類也開始使用深度學習的思想展開研究。

魏雲超等在程明明教授提出的BING理論基礎上,提出了Hypotheses-CNN-Pooling。首先對每張圖片提取含有標簽信息的候選區域(如上圖中的Hypotheses Extraction過程),然後將每個候選區域送入CNN進行分類訓練,最後利用cross-hypothesis max-pooling融合所有候選區域的分類結果,從而得到多個標簽信息完整的圖片。

CNN具有強大的語義信息提取能力,而RNN則可以建立信息之間的關聯。根據這一理論觀點,Jiang Wang等提出了CNN-RNN聯合的網路結構。首先利用CNN對輸入圖像進行訓練,得到相應的特徵,然後將圖片對應的特徵投影到與標簽一致的空間中,在該空間利用RNN進行單詞的搜索訓練。該演算法充分考慮了類別之間的相關性,可以有效對圖像中具有一定關系的標簽進行識別。

在CNN-RNN結構的基礎上,後續文章又加入Regional LSTM模塊。該模塊可以對CNN的特徵進行導向處理,從而獲取特徵的位置信息,並計算位置信息和標簽之間的相關性。在上文的結果上進一步考慮了特徵、位置和標簽之間潛在的依賴關系,可以有效計算圖片中多個標簽同時存在的可能性,並進行圖片的分類。

最近,諸多基於image-level進行弱監督分割研究的文章,充分利用了多標簽分類網路的信息。其主要思想是將標簽統一處理為向量形式,為每幅圖片構建一個維度為1xN的矩陣標簽(如[0,0,0,1,1,0]形式),並採用專門的損失函數(Hanming loss、Ranking loss等)進行訓練。這一方法成功地將多標簽的復雜問題,轉化為單標簽問題,從而可以利用傳統的分類網路進行訓練。

多標簽圖像分類的相關演算法仍然層出不窮,但不論是基於機器學習還是基於深度學習的演算法,都有其優勢和不足,如何根據實際應用需求選用合適的演算法,才是我們應當關注的重點內容。

單標簽分類中通常採用准確率(Precision),召回率(Recall)、F值(F-measure)和AUC曲線對分類結果進行評價。然而,在多標簽分類中一個圖片與多個標簽同時關聯,其復雜程度遠遠高於單標簽分類。因此,在繼承單標簽分類評價指標的基礎上,許多關於多標簽分類的評價指標也被提出。在這里只介紹多標簽分類常用的指標,有關單標簽分類的指標不再贅述。

4.1 平均准確率(AP)和平均准確率均值(mAP)

同單標簽分類一樣,當一張圖片中的所有標記均預測正確時,准確率才可以置1,否則置零。每個類別下的標簽分別進行計算後,取其平均值即可獲得平均准確率,對所有平均准確率取均值即可獲得平均准確率均值。平均准確率可以衡量模型在每個類別的好壞程度,而平均准確率均值則衡量的是在所有類別的好壞程度。

4.2 漢明距離

將預測的標簽集合與實際的標簽集合進行對比,按照漢明距離的相似度來衡量。漢明距離的相似度越高,即漢明損失函數越小,則模型的准確率越高。

4.3 1-錯誤率

1-錯誤率用來計算預測結果中排序第一的標簽不屬於實際標簽集中的概率。其思想相當於單標簽分類問題中的錯誤率評價指標。1-錯誤率越小,說明預測結果越接近實際標簽,模型的預測結果也就越好。

4.4 覆蓋率

覆蓋率用來度量「排序好的標簽列表」平均需要移動多少步數,才能覆蓋真實的相關標簽集合。對預測集合Y中的所有標簽{y1,y2,… yi … yn}進行排序,並返回標簽yi在排序表中的排名,排名越高,則相關性越差,反之,相關性越高。

4.5 排序損失

排序損失計算的是不相關標簽比相關標簽的相關性還要大的概率。

高質量的數據集是圖像分類的基礎,更是關鍵所在。隨著人們對數據質量的重視程度越來越高,如今已有諸多完備的多標簽圖像分類數據集。

5.1 Pascal VOC

Pascal VOC數據集的主要任務是在真實場景中識別來自多個類別的目標。該數據集共有近兩萬張圖片,共有20個類別組成。Pascal VOC官方對每張圖片都進行了詳細的信息標注,包括類別信息、邊界框信息和語義信息,均保存在相應的xml格式文件中。通過讀取xml文件中的項,我們可以獲取到單張圖片中包含的多個物體類別信息,從而構建多標簽信息集合並進行分類訓練。

5.2 COCO

COCO(Common Objects in Context)數據集由微軟公司贊助搭建。該數據集包含了91個類別,三十餘萬張圖片以及近二百五十萬個標簽。與Pascal VOC相類似,COCO數據的標注信息均保存在圖片對應的json格式文件中。通過讀取json文件中的annotation欄位,可以獲取其中的category_id項,從而獲取圖片中的類別信息。同一json文件中包含多個category_id項,可以幫助我們構建多標簽信息。COCO數據集的類別雖然遠遠大於Pascal VOC,而且每一類包含的圖像更多,這也更有利於特定場景下的特徵學習。

除了上述兩個個主流數據集之外,比較常用的還包括ImageNet數據集、NUS-WIDE數據集。近年來,諸多公司、科研機構也提出了諸多全新的數據集,如ML-Images等。這些標注完善的數據,為多標簽圖像分類的研究提供了有力的支持,同樣也為圖像處理領域的發展做出了巨大貢獻。

(1)多標簽圖像分類的可能性隨著圖片中標簽類別的增加呈指數級增長,在現有的硬體基礎上會加劇訓練的負擔和時間成本,如何有效的降低信息維度是面臨的最大挑戰。

(2) 多標簽分類往往沒有考慮類別之間的相關性,如房子大概率不會出現老虎、海洋上不太可能出現汽車。對於人類來說,這些均是常識性的問題,但對於計算機卻是非常復雜的過程,如何找到類別之間的相關性也能夠更好的降低多標簽圖像分類的難度。

古語有雲:「紙上得來終覺淺,絕知此事要躬行」,理論知識的學習必須通過實踐才能進一步強化,完成了綜述內容的書寫,後續將基於Pytorch框架以Pascal VOC2012增強數據集進行多標簽圖像分類實戰,敬請期待哦!

如果想加入我們,後台留言吧

技術交流請移步知識星球

更多請關注知乎專欄《有三AI學院》和公眾號《有三AI》

H. 與姿態、動作相關的數據集介紹

參考:https://blog.csdn.net/qq_38522972/article/details/82953477

姿態論文整理:https://blog.csdn.net/zziahgf/article/details/78203621

經典項目:https://blog.csdn.net/ls83776736/article/details/87991515

姿態識別和動作識別任務本質不一樣,動作識別可以認為是人定位和動作分類任務,姿態識別可理解為關鍵點的檢測和為關鍵點賦id任務(多人姿態識別和單人姿態識別任務)

由於受到收集數據設備的限制,目前大核段部分姿態數據都是收集緩凱公共視頻數據截取得到,因此2D數據集相擾氏喚對來說容易獲取,與之相比,3D數據集較難獲取。2D數據集有室內場景和室外場景,而3D目前只有室內場景。

地址:http://cocodataset.org/#download

樣本數:>= 30W

關節點個數:18

全身,多人,keypoints on 10W people

地址:http://sam.johnson.io/research/lsp.html

樣本數:2K

關節點個數:14

全身,單人

LSP dataset to 10; 000 images of people performing gymnastics, athletics and parkour.

地址:https://bensapp.github.io/flic-dataset.html

樣本數:2W

關節點個數:9

全身,單人

樣本數:25K

全身,單人/多人,40K people,410 human activities

16個關鍵點:0 - r ankle, 1 - r knee, 2 - r hip,3 - l hip,4 - l knee, 5 - l ankle, 6 - l ankle, 7 - l ankle,8 - upper neck, 9 - head top,10 - r wrist,11 - r elbow, 12 - r shoulder, 13 - l shoulder,14 - l elbow, 15 - l wrist

無mask標注

In order to analyze the challenges for fine-grained human activity recognition, we build on our recent publicly available \MPI Human Pose" dataset [2]. The dataset was collected from YouTube videos using an established two-level hierarchy of over 800 every day human activities. The activities at the first level of the hierarchy correspond to thematic categories, such as 」Home repair", 「Occupation", 「Music playing", etc., while the activities at the second level correspond to indivial activities, e.g. 」Painting inside the house", 「Hairstylist" and 」Playing woodwind". In total the dataset contains 20 categories and 410 indivial activities covering a wider variety of activities than other datasets, while its systematic data collection aims for a fair activity coverage. Overall the dataset contains 24; 920 video snippets and each snippet is at least 41 frames long. Altogether the dataset contains over a 1M frames. Each video snippet has a key frame containing at least one person with a sufficient portion of the body visible and annotated body joints. There are 40; 522 annotated people in total. In addition, for a subset of key frames richer labels are available, including full 3D torso and head orientation and occlusion labels for joints and body parts.

為了分析細粒度人類活動識別的挑戰,我們建立了我們最近公開發布的\ MPI Human Pose「數據集[2]。數據集是從YouTube視頻中收集的,使用的是每天800多個已建立的兩級層次結構人類活動。層次結構的第一級活動對應於主題類別,例如「家庭維修」,「職業」,「音樂播放」等,而第二級的活動對應於個人活動,例如「在屋內繪畫」,「發型師」和「播放木管樂器」。總的來說,數據集包含20個類別和410個個人活動,涵蓋比其他數據集更廣泛的活動,而其系統數據收集旨在實現公平的活動覆蓋。數據集包含24; 920個視頻片段,每個片段長度至少為41幀。整個數據集包含超過1M幀。每個視頻片段都有一個關鍵幀,其中至少包含一個人體,其中有足夠的身體可見部分和帶注釋的身體關節。總共有40個; 522個注釋人。此外,對於關鍵幀的子集,可以使用更豐富的標簽,包括全3D軀乾和頭部方向以及關節和身體部位的遮擋標簽。

14個關鍵點:0 - r ankle, 1 - r knee, 2 - r hip,3 - l hip,4 - l knee, 5 - l ankle, 8 - upper neck, 9 - head top,10 - r wrist,11 - r elbow, 12 - r shoulder, 13 - l shoulder,14 - l elbow, 15 - l wrist

不帶mask標注,帶有head的bbox標注

PoseTrack is a large-scale benchmark for human pose estimation and tracking in image sequences. It provides a publicly available training and validation set as well as an evaluation server for benchmarking on a held-out test set (www.posetrack.net).

PoseTrack是圖像序列中人體姿態估計和跟蹤的大規模基準。 它提供了一個公開的培訓和驗證集以及一個評估伺服器,用於對保留的測試集(www.posetrack.net)進行基準測試。

In the PoseTrack benchmark each person is labeled with a head bounding box and positions of the body joints. We omit annotations of people in dense crowds and in some cases also choose to skip annotating people in upright standing poses. This is done to focus annotation efforts on the relevant people in the scene. We include ignore regions to specify which people in the image where ignored ringannotation.

在PoseTrack基準測試中, 每個人都標有頭部邊界框和身體關節的位置 。 我們 在密集的人群中省略了人們的注釋,並且在某些情況下還選擇跳過以直立姿勢對人進行注釋。 這樣做是為了將注釋工作集中在場景中的相關人員上。 我們 包括忽略區域來指定圖像中哪些人在注釋期間被忽略。

Each sequence included in the PoseTrack benchmark correspond to about 5 seconds of video. The number of frames in each sequence might vary as different videos were recorded with different number of frames per second. For the **training** sequences we provide annotations for 30 consecutive frames centered in the middle of the sequence. For the **validation and test ** sequences we annotate 30 consecutive frames and in addition annotate every 4-th frame of the sequence. The rationale for that is to evaluate both smoothness of the estimated body trajectories as well as ability to generate consistent tracks over longer temporal span. Note, that even though we do not label every frame in the provided sequences we still expect the unlabeled frames to be useful for achieving better performance on the labeled frames.

PoseTrack基準測試中包含的 每個序列對應於大約5秒的視頻。 每個序列中的幀數可能會有所不同,因為不同的視頻以每秒不同的幀數記錄。 對於**訓練**序列,我們 提供了以序列中間為中心的30個連續幀的注釋 。 對於**驗證和測試**序列,我們注釋30個連續幀,並且另外注釋序列的每第4個幀。 其基本原理是評估估計的身體軌跡的平滑度以及在較長的時間跨度上產生一致的軌跡的能力。 請注意,即使我們沒有在提供的序列中標記每一幀,我們仍然期望未標記的幀對於在標記幀上實現更好的性能是有用的。

The PoseTrack 2018 submission file format is based on the Microsoft COCO dataset annotation format. We decided for this step to 1) maintain compatibility to a commonly used format and commonly used tools while 2) allowing for sufficient flexibility for the different challenges. These are the 2D tracking challenge, the 3D tracking challenge as well as the dense 2D tracking challenge.

PoseTrack 2018提交文件格式基於Microsoft COCO數據集注釋格式 。 我們決定這一步驟1)保持與常用格式和常用工具的兼容性,同時2)為不同的挑戰提供足夠的靈活性。 這些是2D跟蹤挑戰,3D跟蹤挑戰以及密集的2D跟蹤挑戰。

Furthermore, we require submissions in a zipped version of either one big .json file or one .json file per sequence to 1) be flexible w.r.t. tools for each sequence (e.g., easy visualization for a single sequence independent of others and 2) to avoid problems with file size and processing.

此外,我們要求在每個序列的一個大的.json文件或一個.json文件的壓縮版本中提交1)靈活的w.r.t. 每個序列的工具(例如,單個序列的簡單可視化,獨立於其他序列和2),以避免文件大小和處理的問題。

The MS COCO file format is a nested structure of dictionaries and lists. For evaluation, we only need a subsetof the standard fields, however a few additional fields are required for the evaluation protocol (e.g., a confidence value for every estimated body landmark). In the following we describe the minimal, but required set of fields for a submission. Additional fields may be present, but are ignored by the evaluation script.

MS COCO文件格式是字典和列表的嵌套結構。 為了評估,我們僅需要標准欄位的子集,但是評估協議需要一些額外的欄位(例如,每個估計的身體標志的置信度值)。 在下文中,我們描述了提交的最小但必需的欄位集。 可能存在其他欄位,但評估腳本會忽略這些欄位。

At top level, each .json file stores a dictionary with three elements:

* images

* annotations

* categories

it is a list of described images in this file. The list must contain the information for all images referenced by a person description in the file. Each list element is a dictionary and must contain only two fields: `file_name` and `id` (unique int). The file name must refer to the original posetrack image as extracted from the test set, e.g., `images/test/023736_mpii_test/000000.jpg`.

它是此文件中描述的圖像列表。 該列表必須包含文件中人員描述所引用的所有圖像的信息。 每個列表元素都是一個字典,只能包含兩個欄位:`file_name`和`id`(unique int)。 文件名必須是指從測試集中提取的原始posetrack圖像,例如`images / test / 023736_mpii_test / 000000.jpg`。

This is another list of dictionaries. Each item of the list describes one detected person and is itself a dictionary. It must have at least the following fields:

* `image_id` (int, an image with a corresponding id must be in `images`),

* `track_id` (int, the track this person is performing; unique per frame),`

* `keypoints` (list of floats, length three times number of estimated keypoints  in order x, y, ? for every point. The third value per keypoint is only there for COCO format consistency and not used.),

* `scores` (list of float, length number of estimated keypoints; each value between 0. and 1. providing a prediction confidence for each keypoint),

這是另一個詞典列表。 列表中的每個項目描述一個檢測到的人並且本身是字典。 它必須至少包含以下欄位:

*`image_id`(int,具有相應id的圖像必須在`images`中),

*`track_id`(int,此人正在執行的追蹤;每幀唯一),

`*`keypoints`(浮點數列表, 長度是每個點x,y,?的估計關鍵點數量的三倍 。每個關鍵點的第三個值僅用於COCO格式的一致性而未使用。),

*`得分`(浮點列表,估計關鍵點的長度數;每個值介於0和1之間,為每個關鍵點提供預測置信度),

Human3.6M數據集有360萬個3D人體姿勢和相應的圖像,共有11個實驗者(6男5女,論文一般選取1,5,6,7,8作為train,9,11作為test),共有17個動作場景,諸如討論、吃飯、運動、問候等動作。該數據由4個數字攝像機,1個時間感測器,10個運動攝像機捕獲。

由Max Planck Institute for Informatics製作,詳情可見Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision論文

論文地址:https://arxiv.org/abs/1705.08421

1,單人姿態估計的重要論文

2014----Articulated Pose Estimation by a Graphical Model with ImageDependent Pairwise Relations

2014----DeepPose_Human Pose Estimation via Deep Neural Networks

2014----Joint Training of a Convolutional Network and a Graphical Model forHuman Pose Estimation

2014----Learning Human Pose Estimation Features with Convolutional Networks

2014----MoDeep_ A Deep Learning Framework Using Motion Features for HumanPose Estimation

2015----Efficient Object Localization Using Convolutional Networks

2015----Human Pose Estimation with Iterative Error

2015----Pose-based CNN Features for Action Recognition

2016----Advancing Hand Gesture Recognition with High Resolution ElectricalImpedance Tomography

2016----Chained Predictions Using Convolutional Neural Networks

2016----CPM----Convolutional Pose Machines

2016----CVPR-2016----End-to-End Learning of Deformable Mixture of Parts andDeep Convolutional Neural Networks for Human Pose Estimation

2016----Deep Learning of Local RGB-D Patches for 3D Object Detection and 6DPose Estimation

2016----PAFs----Realtime Multi-Person 2D Pose Estimation using PartAffinity Fields (openpose)

2016----Stacked hourglass----StackedHourglass Networks for Human Pose Estimation

2016----Structured Feature Learning for Pose Estimation

2017----Adversarial PoseNet_ A Structure-aware Convolutional Network forHuman pose estimation (alphapose)

2017----CVPR2017 oral----Realtime Multi-Person 2D Pose Estimation usingPart Affinity Fields

2017----Learning Feature Pyramids for Human Pose Estimation

2017----Multi-Context_Attention_for_Human_Pose_Estimation

2017----Self Adversarial Training for Human Pose Estimation

2,多人姿態估計的重要論文

2016----AssociativeEmbedding_End-to-End Learning for Joint Detection and Grouping

2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation

2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation_poster

2016----DeeperCut----DeeperCut A Deeper, Stronger, and Faster Multi-PersonPose Estimation Model

2017----G-RMI----Towards Accurate Multi-person Pose Estimation in the Wild

2017----RMPE_ Regional Multi-PersonPose Estimation

2018----Cascaded Pyramid Network for Multi-Person Pose Estimation

「級聯金字塔網路用於多人姿態估計」

2018----DensePose: Dense Human Pose Estimation in the Wild

」密集人體:野外人體姿勢估計「(精讀,DensePose有待於進一步研究)

2018---3D Human Pose Estimation in the Wild by Adversarial Learning

「對抗性學習在野外的人體姿態估計」

I. 目前常用的手寫字體(數字,字母,漢字)數據集有哪些

1 cifar10資料庫

60000張32*32 彩色圖片 共10類

50000張訓練

10000張測試

下載cifar10資料庫

這是binary格式的,所以我們要把它轉換成leveldb格式。

2 在../caffe-windows/examples/cifar10文件夾中有一個 convert_cifar_data.cpp

將他include到MainCaller.cpp中。如下:

編譯....我是一次就通過了 ,在bin文件夾里出現convert_cifar_data.exe。然後 就可以進行格式轉換。binary→leveldb

可以在bin文件夾下新建一個input文件夾。將cifar10.binary文件放在input文件夾中,這樣轉換時就不用寫路徑了。

cmd進入bin文件夾

執行後,在output文件夾下有cifar_train_leveldb和cifar_test_leveldb兩個文件夾。裡面是轉化好的leveldb格伏差式數據。

當然,也可以寫一個bat文件處理,方便以後再次使用。

3 下面我們要求數據圖像的均值

編譯../../tools/comput_image_mean.cpp

編譯成功後。接下來求mean

cmd進入bin。

執行後,在bin文件夾下出現一個mean.binaryproto文件,這就是所需的均值文件。

4 訓練cifar網路

在.../examples/cifar10文件夾里搜盯已經有網路的配置文件,我們只需要將cifar_train_leveldb和cifar_test_leveldb兩個文件夾還有mean.binaryproto文件拷到cifar0文件夾下。

修改cifar10_quick_train.prototxt中的source: "cifar-train-leveldb" mean_file: "mean.binaryproto" 和cifar10_quick_test.prototxt中的source: "cifar-test-leveldb"
mean_file: "mean.binaryproto"就可以了,

後面再訓練就類似於MNIST的訓練。寫一個train_quick.bat,內容如下:

[plain] view plain
..\\..\\bin\\MainCaller.exe ..\\..\\bin\\train_net.exe
SET GLOG_logtostderr=1
"../../bin/train_net.exe"世廳和 cifar10_quick_solver.prototxt
pause

閱讀全文

與手繪圖像數據集有哪些相關的資料

熱點內容
手機儲存路徑找不到文件 瀏覽:908
debian升級軟體 瀏覽:732
昆明做什麼網站比較好 瀏覽:480
法甲去哪個app看 瀏覽:680
小米手機刪除錄音文件在哪裡 瀏覽:257
word字體高寬比例 瀏覽:539
app怎麼查看流量用在什麼網站 瀏覽:684
為什麼sns文件找不到 瀏覽:671
解壓cad提示文件破損 瀏覽:249
如何對圖片加密文件名 瀏覽:410
數據管理庫系統軟體有哪些 瀏覽:861
蘋果7如何打開軟體網路連接 瀏覽:831
手機圖片加入文件管理 瀏覽:718
pp助手210歷史版本 瀏覽:259
攝像頭都有哪些app 瀏覽:303
macos如何刪除文件 瀏覽:150
大廠用什麼語言編程 瀏覽:714
萬戶網路應對大並發用戶訪問解決方案 瀏覽:515
日常生活中常見的數據有哪些 瀏覽:19
無線網路如何設置固定ip 瀏覽:789

友情鏈接