這個是IPFS應用生態圖。各行業各都在布局IPFS了。
• IPFS是協議 定義了基於內容定址的文件傳輸協議,並結合了來自Kademlia、BitTorrent、 Git等想法來協調內容傳輸。在這個網路協議下,訪問文件或數據的依據,是一 串串與文件匹配的唯一的哈希值。
• IPFS是文件系統 有文件夾、文件和基於FUSE的可掛載文件系統。雖然在此協議下檢索文件是依 據哈希值而非IP,但具體文件依然存儲在以樹狀層級文件夾系統為基礎的文件 系統。
• IPFS是互聯網 文件可以通過HTTP網關來訪問,例如https://ipfs.io; 瀏覽器通過擴展插件或直接使用區塊鏈瀏覽器來使用ipfs://域; 哈希定址保證了內容的真實性。
• IPFS是P2P(點對點通訊) 支持世界范圍點對點文件傳輸,具有完全分散的架構,沒有中心點故障。掠過 所有中間節點的端對端直達傳輸。
• IPFS是CDN 在本地庫中添加一個文件,立即對世界可用,並擁有對緩存友好的內容哈希地 址和BitTorrent一樣的帶寬分發。訪問此網路下的文件就像訪問本地文件一樣迅 速方便。
• IPFS是雲服務 基於分布式存儲結構,集合全節點存儲能力,以供存儲檢索需求。
2. 嗨,大家好!向大家請教個問題:怎麼採用分布式文件系統實現資源共享。謝謝了!
DFS(Distributed File System,分布式文件系統),可以將分布在多個伺服器或客戶機上的共享資源列表整合在一個DFS根目錄中,這樣用戶無需知道或指定文件的實際物理位置就可以對它們進行訪問,這無疑將簡化資源共享的操作步驟。
創建DFS根目錄
依次單擊「開始→管理工具→分布式文件系統」,打開「分布式文件系統」控制台。然後單擊「操作→新建 DFS根目錄」命令,打開「新建根目錄向導」對話框。接著單擊「下一步」按鈕,在打開的「根目錄類型」對話框中點選「獨立的根目錄」單選框並單擊「下一步」按鈕。在「主伺服器」對話框中鍵入一個正確的伺服器名稱(本例鍵入的是本機名稱chhuian,也可以單擊「瀏覽」按鈕查找伺服器),單擊「下一步」按鈕。在「根目錄名稱」對話框的「根目錄名稱」編輯框中鍵入一個已經共享出來的文件夾名稱,在「注釋」編輯框中鍵入一些描述性的語言(如「通過此根目錄可以訪問網路中的共享資源」),單擊「下一步」按鈕(如圖)。
如果鍵入的共享文件夾不存在,則在打開的「根目錄共享」對話框中會提示您指定共享不存在。這時可以單擊「瀏覽」按鈕,在打開的「瀏覽文件夾」對話框中指定創建共享文件夾的位置,單擊「新建文件夾」按鈕,命名為「DFS根目錄」。依次單擊「確定→下一步→完成」按鈕結束創建(如圖)。
小提示
為了保持根目錄的整潔性,建議您事先建立一個空白文件夾並設置為共享(如「DFS根目錄」)。然後在「根目錄名稱」編輯框中鍵入新建的共享文件夾名。重復上述步驟可以創建多個DFS根目錄。
添加DFS鏈接
前面我們已經成功創建了DFS的根目錄,然而現在這個根目錄裡面並沒有任何共享資源。那麼網路上其他機器的共享資源如何歸於DFS根目錄的旗下呢?這正是DFS可愛的地方。
打開「分布式文件系統」控制台,右擊控制台樹中的「\\chhuian\DFS根目錄」目錄,執行「新建鏈接」命令,打開「新建鏈接」對話框(如圖3)。在「鏈接名稱」編輯框中鍵入一個邏輯名稱(如「個人公文包」),然後單擊「瀏覽」按鈕,從「網上鄰居」中的共享文件夾列表中選中一個共享文件夾,然後依次單擊「確定」按鈕(如圖4)。重復上述步驟將整個網路中所有的共享文件夾與根目錄建立鏈接(如圖)。
訪問共享資源
將網路中所有可以共享的資源與DFS根目錄建立鏈接後,我們就可以在任意一台電腦上通過UNC路徑或「網上鄰居」訪問這些資源了。在任意一個Windows窗口的地址欄中鍵入Server的DFS根目錄,如<\\chhuian\DFS根目錄>,即可通過左窗格的目錄樹和右窗格中的資源列表訪問網路中所有的共享資源,而我們根本不必關心所訪問的資源到底來自網路上的哪台機器(如圖)。
小提示
本文以Windows Server 2003為平台加以介紹的,DFS服務同樣適用於基於Windows 2000 Server平台的網路環境,其設置方法與本文所述基本相同。
3. HDFS分布式文件系統具有哪些優點
HDFS分布式文件系統具有以下優點:
支持超大文件
支持超大文件。超大文件在這里指的是幾百M,幾百GB,甚至幾TB大小的文件。一般來說hadoop的文件系統會存儲TB級別或者PB級別的數據。所以在企業的應用中,數據節點有可能有上千個。
檢測和快速應對硬體故障
在集群的環境中,硬體故障是常見的問題。因為有上千台伺服器連接在一起,這樣會導致高故障率。因此故障檢測和自動恢復是hdfs文件系統的一個設計目標。
流式數據訪問
Hdfs的數據處理規模比較大,應用一次需要訪問大量的數據,同時這些應用一般都是批量處理,而不是用戶互動式處理。應用程序能以流的形式訪問數據集。主要的是數據的吞吐量,而不是訪問速度。
簡化的一致性模型
大部分hdfs操作文件時,需要一次寫入,多次讀取。在hdfs中,一個文件一旦經過創建、寫入、關閉後,一般就不需要修改了。這樣簡單的一致性模型,有利於提高吞吐量。
缺點
低延遲數據訪問
低延遲數據。如和用戶進行交互的應用,需要數據在毫秒或秒的范圍內得到響應。由於hadoop針對高數據吞吐量做了優化,犧牲了獲取數據的延遲,所以對於低延遲來說,不適合用hadoop來做。
大量的小文件
Hdfs支持超大的文件,是通過數據分布在數據節點,數據的元數據保存在名位元組點上。名位元組點的內存大小,決定了hdfs文件系統可保存的文件數量。雖然現在的系統內存都比較大,但大量的小文件還是會影響名位元組點的性能。
多用戶寫入文件、修改文件
Hdfs的文件只能有一次寫入,不支持寫入,也不支持修改。只有這樣數據的吞吐量才能大。
不支持超強的事務
沒有像關系型資料庫那樣,對事務有強有力的支持。
4. 可以靈活擴容的分布式文件存儲軟體有嗎
XSKY 星辰天合的XEDP平台擴展彈性就很高的,在我們使用中發現,它可以實現從單資源池數台到數百台的不停機水平擴展。
5. 小文件讀寫的分布式文件系統哪些
分布式文件系統、集群文件系統、並行文件系統,這三種概念很容易混淆,實際中大家也經常不加區分地使用。總是有人問起這三者的區別和聯系,其實它們之間在概念上的確有交叉重疊的地方,但是也存在顯著不同之處。 分布式文件系統 自然地,「分布式」是重點,它是相對與本地文件系統而言的。分布式文件系統通常指C/S架構或網路文件系統,用戶數據沒有直接連接到本地主機,而是存儲在遠程存儲伺服器上。NFS/CIFS是最為常見的分布式文件系統,這就是我們說的NAS系統。分布式文件系統中,存儲伺服器的節點數可能是1個(如傳統NAS),也可以有多個(如集群NAS)。對於單個節點的分布式文件系統來說,存在單點故障和性能瓶頸問題。除了NAS以外,典型的分布式文件系統還有AFS,以及下面將要介紹的集群文件系統(如Lustre, GlusterFS, PVFS2等)。 集群文件系統 「集群」主要分為高性能集群HPC(High Performance Cluster)、高可用集群HAC(High Availablity Cluster)和負載均衡集群LBC(Load Balancing Cluster)。集群文件系統是指協同多個節點提供高性能、高可用或負載均衡的文件系統,它是分布式文件系統的一個子集,消除了單點故障和性能瓶問題。對於客戶端來說集群是透明的,它看到是一個單一的全局命名空間,用戶文件訪問請求被分散到所有集群上進行處理。此外,可擴展性(包括Scale-Up和Scale-Out)、可靠性、易管理等也是集群文件系統追求的目標。在元數據管理方面,可以採用專用的伺服器,也可以採用伺服器集群,或者採用完全對等分布的無專用元數據伺服器架構。目前典型的集群文件系統有SONAS, ISILON, IBRIX, NetAPP-GX, Lustre, PVFS2, GlusterFS, Google File System, LoongStore, CZSS等。 並行文件系統 這種文件系統能夠支持並行應用,比如MPI。在並行文件系統環境下,所有客戶端可以在同一時間並發讀寫同一個文件。並發讀,大部分文件系統都能夠實現。並發寫實現起來要復雜許多,既要保證數據一致性,又要最大限度提高並行性,因此在鎖機制方面需要特別設計,如細粒度的位元組鎖。通常SAN共享文件系統都是並行文件系統,如GPFS、StorNext、GFS、BWFS,集群文件系統大多也是並行文件系統,如Lustre, Panasas等。 如何區分? 區分這三者的重點是「分布式」、「集群」、「並行」三個前綴關鍵字。簡單來說,非本地直連的、通過網路連接的,這種為分布式文件系統;分布式文件系統中,伺服器節點由多個組成的,這種為集群文件系統;支持並行應用(如MPI)的,這種為並行文件系統。在上面所舉的例子中也可以看出,這三個概念之間具有重疊之處,比如Lustre,它既是分布式文件系統,也是集群和並行文件系統。但是,它們也有不同之處。集群文件系統是分布式文件系統,但反之則不成立,比如NAS、AFS。SAN文件系統是並行文件系統,但可能不是集群文件系統,如StorNext。GFS、HDFS之類,它們是集群文件系統,但可能不是並行文件系統。實際中,三者概念搞理清後,分析清楚文件系統的特徵,應該還是容易正確地為其劃分類別的。
6. 當前主流分布式文件系統有哪些各有什麼優缺點
目前幾個主流的分布式文件系統除GPFS外,還有PVFS、Lustre、PanFS、GoogleFS等。
1.PVFS(Parallel Virtual File System)項目是Clemson大學為了運行Linux集群而創建的一個開源項目,目前PVFS還存在以下不足:
1)單一管理節點:只有一個管理節點來管理元數據,當集群系統達到一定的規模之後,管理節點將可能出現過度繁忙的情況,這時管理節點將成為系統瓶頸;
2)對數據的存儲缺乏容錯機制:當某一I/O節點無法工作時,數據將出現不可用的情況;
3)靜態配置:對PVFS的配置只能在啟動前進行,一旦系統運行則不可再更改原先的配置。
2.Lustre文件系統是一個基於對象存儲的分布式文件系統,此項目於1999年在Carnegie Mellon University啟動,Lustre也是一個開源項目。它只有兩個元數據管理節點,同PVFS類似,當系統達到一定的規模之後,管理節點會成為Lustre系統中的瓶頸。
3.PanFS(Panasas File System)是Panasas公司用於管理自己的集群存儲系統的分布式文件系統。
4.GoogleFS(Google File System)是Google公司為了滿足公司內部的數據處理需要而設計的一套分布式文件系統。
5.相對其它的文件系統,GPFS的主要優點有以下三點:
1)使用分布式鎖管理和大數據塊策略支持更大規模的集群系統,文件系統的令牌管理器為塊、inode、屬性和目錄項建立細粒度的鎖,第一個獲得鎖的客戶將負責維護相應共享對象的一致性管理,這減少了元數據伺服器的負擔;
2)擁有多個元數據伺服器,元數據也是分布式,使得元數據的管理不再是系統瓶頸;
3)令牌管理以位元組作為鎖的最小單位,也就是說除非兩個請求訪問的是同一文件的同一位元組數據,對於數據的訪問請求永遠不會沖突.
7. 分布式文件系統的簡介
計算機通過文件系統管理、存儲數據,而信息爆炸時代中人們可以獲取的數據成指數倍的增長,單純通過增加硬碟個數來擴展計算機文件系統的存儲容量的方式,在容量大小、容量增長速度、數據備份、數據安全等方面的表現都差強人意。分布式文件系統可以有效解決數據的存儲和管理難題:將固定於某個地點的某個文件系統,擴展到任意多個地點/多個文件系統,眾多的節點組成一個文件系統網路。每個節點可以分布在不同的地點,通過網路進行節點間的通信和數據傳輸。人們在使用分布式文件系統時,無需關心數據是存儲在哪個節點上、或者是從哪個節點從獲取的,只需要像使用本地文件系統一樣管理和存儲文件系統中的數據。