moosefs分布式文件系统_可以灵活扩容的分布式文件存储软件有吗

① 基于mogileFS搭建分布式文件系统--海量小文件的存储利器

1.简介

分布式文件系统（Distributed File System）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外，对等特性允许一些系统扮演客户机和服务器的双重角色。例如，用户可以“发表”一个允许其他客户机访问的目录，一旦被访问，这个目录对客户机来说就像使用本地驱动器一样。

当下我们处在一个互联网飞速发展的信息社会，在海量并发连接的驱动下每天所产生的数据量必然以几何方式增长，随着信息连接方式日益多样化，数据存储的结构也随着发生了变化。在这样的压力下使得人们不得不重新审视大量数据的存储所带来的挑战，例如：数据采集、数据存储、数据搜索、数据共享、数据传输、数据分析、数据可视化等一系列问题。

传统存储在面对海量数据存储表现出的力不从心已经是不争的事实，例如：纵向扩展受阵列空间限制、横向扩展受交换设备限制、节点受文件系统限制。

然而分布式存储的出现在一定程度上有效的缓解了这一问题，之所以称之为缓解是因为分布式存储在面对海量数据存储时也并非十全十美毫无压力，依然存在的难点与挑战例如：节点间通信、数据存储、数据空间平衡、容错、文件系统支持等一系列问题仍处在不断摸索和完善中。

2.分布式文件系统的一些解决方案

Google Filesystem适合存储海量大个文件，元数据存储与内存中

HDFS（Hadoop Filesystem）GFS的山寨版，适合存储大量大个文件

TFS（Taobao Filesystem）淘宝的文件系统，在名称节点上将元数据存储与关系数据库中，文件数量不在受限于名称节点的内容空间，可以存储海量小文件LustreOracle开发的企业级分布式系统，较重量级MooseFS基于FUSE的格式，可以进行挂载使用MogileFS

擅长存储海量的小数据，元数据存储与关系型数据库中

1.简介

MogileFS是一个开源的分布式文件系统，用于组建分布式文件集群，由LiveJournal旗下DangaInteractive公司开发，Danga团队开发了包括 Memcached、MogileFS、Perlbal等不错的开源项目：(注：Perlbal是一个强大的Perl写的反向代理服务器)。MogileFS是一个开源的分布式文件系统。

目前使用 MogileFS 的公司非常多,比如国外的一些公司,日本前几名的公司基本都在使用这个.

国内所知道的使用 MogileFS 的公司有图片托管网站 yupoo又拍,digg, 土豆, 豆瓣,1 号店, 大众点评,搜狗,安居客等等网站.基本很多网站容量，图片都超过 30T 以上。

2.MogileFS特性

1) 应用层提供服务，不需要使用核心组件

2）无单点失败，主要有三个组件组成，分为tracker（跟踪节点）、mogstore（存储节点）、database（数据库节点）

3）自动复制文件，复制文件的最小单位不是文件，而是class

4）传输中立，无特殊协议，可以通过NFS或HTTP实现通信

5）简单的命名空间：没有目录，直接存在与存储空间上，通过域来实现

6）不用共享任何数据

3.MogileFS的组成

1）Tracker--跟踪器，调度器

MogileFS的核心，是一个调度器，mogilefsd进程就是trackers进程程序,trackers的主要职责有：删除数据、复制数据、监控、查询等等.这个是基于事件的( event-based ) 父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed), 包括将请求负载平衡到多个"query workers"中,然后让 mogilefs的子进程去处理.

mogadm,mogtool的所有操作都要跟trackers打交道,Client的一些操作也需要定义好trackers,因此最好同时运行多个trackers来做负载均衡.trackers也可以只运行在一台机器上，使用负载均衡时可以使用搞一些简单的负载均衡解决方案，如haproxy，lvs，nginx等，

tarcker的配置文件为/etc/mogilefs/mogilefsd.conf，监听在TCP的7001端口

2）Database--数据库部分

主要用来存储mogilefs的元数据，所有的元数据都存储在数据库中，因此，这个数据相当重要，如果数据库挂掉，所有的数据都不能用于访问，因此，建议应该对数据库做高可用

3）mogstored--存储节点

数据存储的位置，通常是一个HTTP（webDAV）服务器，用来做数据的创建、删除、获取，任何 WebDAV 服务器都可以, 不过推荐使用 mogstored . mogilefsd可以配置到两个机器上使用不同端口… mogstored 来进行所有的 DAV 操作和流量,IO监测, 并且你自己选择的HTTP服务器(默认为 perlbal)用来做 GET 操作给客户端提供文件.

典型的应用是一个挂载点有一个大容量的SATA磁盘. 只要配置完配置文件后mogstored程序的启动将会使本机成为一个存储节点.当然还需要mogadm这个工具增加这台机器到Cluster中.

配置文件为/etc/mogilefs/mogstored.conf，监听在TCP的7500端口

4.基本工作流程

应用程序请求打开一个文件 (通过RPC 通知到 tracker, 找到一个可用的机器). 做一个 “create_open” 请求.

tracker 做一些负载均衡(load balancing)处理，决定应该去哪儿，然后给应用程序一些可能用的位置。

应用程序写到其中的一个位置去 (如果写失败，他会重新尝试并写到另外一个位置去）.

应用程序 (client) 通过”create_close” 告诉tracker文件写到哪里去了.

tracker 将该名称和域命的名空间关联 (通过数据库来做的)

tracker, 在后台, 开始复制文件，知道他满足该文件类别设定的复制规则

然后,应用程序通过 “get_paths” 请求 domain+key (key == “filename”) 文件, tracker基于每一位置的I/O繁忙情况回复(在内部经过 database/memcache/etc 等的一些抉择处理), 该文件可用的完整 URLs地址列表.

应用程序然后按顺序尝试这些URL地址. (tracker’持续监测主机和设备的状态，因此不会返回死连接,默认情况下他对返回列表中的第一个元素做双重检查，除非你不要他这么做..)

1.拓扑图

说明：1.用户通过URL访问前端的nginx

2.nginx根据特定的挑选算法，挑选出后端一台tracker来响应nginx请求

3.tracker通过查找database数据库，获取到要访问的URL的值，并返回给nginx

4.nginx通过返回的值及某种挑选算法挑选一台mogstored发起请求

5.mogstored将结果返回给nginx

6.nginx构建响应报文返回给客户端

2.ip规划

角色运行软件ip地址反向代理nginx192.168.1.201存储节点与调度节点1

mogilefs192.168.1.202存储节点与调度节点2

mogilefs192.168.1.203数据库节点

MariaDB192.168.1.204

3.数据库的安装操作并为授权

关于数据库的编译安装，请参照本人相关博文http://wangfeng7399.blog.51cto.com/3518031/1393146，本处将不再累赘，本处使用的为yum源的安装方式安装mysql

4.安装mogilefs. 安装mogilefs，可以使用yum安装，也可以使用编译安装，本处通过yum安装

5.初始化数据库

可以看到在数据库中创建了一些表

6.修改配置文件，启动服务

7.配置mogilefs

添加存储主机

添加存储设备

添加域

添加class

8.配置192.168.1.203的mogilefs 。切记不要初始化数据库，配置应该与192.168.1.202一样

9.尝试上传数据，获取数据，客户端读取数据

上传数据，在任何一个节点上传都可以

获取数据

客户端查看数据

我们可以通过任何一个节点查看到数据

要想nginx能够实现对后端trucker的反向代理，必须结合第三方模块来实现

1.编译安装nginx

2.准备启动脚本

3.nginx与mofilefs互联

查看效果

5.配置后端truckers的集群

查看效果

大功告成了，后续思路，前段的nginx和数据库都存在单点故障，可以实现高可用集群

② 分布式存储有哪些

问题一：当前主流分布式文件系统有哪些?各有什么优缺点目前几个主流的分布式文件系统除GPFS外，还有PVFS、Lustre、PanFS、GoogleFS等。
1.PVFS(Parallel Virtual File System)项目是Clemson大学为了运行linux集群而创建的一个开源项目,目前PVFS还存在以下不足：
1）单一管理节点:只有一个管理节点来管理元数据，当集群系统达到一定的规模之后，管理节点将可能出现过度繁忙的情况，这时管理节点将成为系统瓶颈;
2）对数据的存储缺乏容错机制:当某一I/O节点无法工作时，数据将出现不可用的情况;
3）静态配置:对PVFS的配置只能在启动前进行，一旦系统运行则不可再更改原先的配置。
2.Lustre文件系统是一个基于对象存储的分布式文件系统，此项目于1999年在Carnegie Mellon University启动，Lustre也是一个开源项目。它只有两个元数据管理节点,同PVFS类似,当系统达到一定的规模之后，管理节点会成为Lustre系统中的瓶颈。
3.PanFS(Panasas File System)是Panasas公司用于管理自己的集群存储系统的分布式文件系统。
4.GoogleFS(Google File System)是Google公司为了满足公司内部的数据处理需要而设计的一套分布式文件系统。
5.相对其它的文件系统，GPFS的主要优点有以下三点：
1)使用分布式锁管理和大数据块策略支持更大规模的集群系统,文件系统的令牌管理器为块、inode、属性和目录项建立细粒度的锁，第一个获得锁的客户将负责维护相应共享对象的一致性管理，这减少了元数据服务器的负担;
2)拥有多个元数据服务器,元数据也是分布式,使得元数据的管理不再是系统瓶颈;
3)令牌管理以字节作为锁的最小单位,也就是说除非两个请求访问的是同一文件的同一字节数据,对于数据的访问请求永远不会冲突.

问题二：分布式存储是什么？选择什么样的分布式存储更好？分布式存储系统，是将数据分散存储在多 *** 立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。
联想超融合ThinkCloud AIO超融合云一体机是联想针对企业级用户推出的核心产品。ThinkCloud AIO超融合云一体机实现了对云管理平台、计算、网络和存储系统的无缝集成，构建了云计算基础设施即服务的一站式解决方案，为用户提供了一个高度简化的一站式基础设施云平台。这不仅使得业务部署上线从周缩短到天，而且与企业应用软件、中间件及数据库软件完全解耦，能够有效提升企业IT基础设施运维管理的效率和关键应用的性能

问题三：什么是分布式存储系统？就是将数据分散存储在多 *** 立的设备上

问题四：什么是分布式数据存储定义：
分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。分布式数据库的基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上，以获取更大的存储容量和更高的并发访问量。近年来，随着数据量的高速增长，分布式数据库技术也得到了快速的发展，传统的关系型数据库开始从集中式模型向分布式架构发展，基于关系型的分布式数据库在保留了传统数据库的数据模型和基本特征下，从集中式存储走向分布式存储，从集中式计算走向分布式计算。
特点：
1.高可扩展性：分布式数据库必须具有高可扩展性，能够动态地增添存储节点以实现存储容量的线性扩展。
2 高并发性：分布式数据库必须及时响应大规模用户的读/写请求，能对海量数据进行随机读/写。
3. 高可用性：分布式数据库必须提供容错机制，能够实现对数据的冗余备份，保证数据和服务的高度可靠性。

问题五：分布式文件系统有哪些主要的类别？分布式存储在大数据、云计算、虚拟化场景都有勇武之地，在大部分场景还至关重要。munity.emc/message/655951 下面简要介绍*nix平台下分布式文件系统的发展历史：
1、单机文件系统
用于操作系统和应用程序的本地存储。
2、网络文件系统（简称：NAS）
基于现有以太网架构，实现不同服务器之间传统文件系统数据共享。
3、集群文件系统
在共享存储基础上，通过集群锁，实现不同服务器能够共用一个传统文件系统。

4、分布式文件系统
在传统文件系统上，通过额外模块实现数据跨服务器分布，并且自身集成raid保护功能，可以保证多台服务器同时访问、修改同一个文件系统。性能优越，扩展性很好，成本低廉。

问题六：分布式文件系统和分布式数据库有什么不同分布式文件系统（dfs）和分布式数据库都支持存入，取出和删除。但是分布式文件系统比较暴力，可以当做key/value的存取。分布式数据库涉及精炼的数据，传统的分布式关系型数据库会定义数据元组的schema，存入取出删除的粒度较小。
分布式文件系统现在比较出名的有GFS（未开源），HDFS（Hadoop distributed file system）。分布式数据库现在出名的有Hbase，oceanbase。其中Hbase是基于HDFS，而oceanbase是自己内部实现的分布式文件系统，在此也可以说分布式数据库以分布式文件系统做基础存储。

问题七：分布式存储有哪些华为的fusionstorage属于分布式您好，很高兴能帮助您，首先，FusionDrive其实是一块1TB或3TB机械硬盘跟一块128GB三星830固态硬盘的组合。我们都知道，很多超极本同样采用了混合型硬盘，但是固态硬盘部分的容量大都只有8GB到32GB之间，这个区间无法作为系统盘来使用，只能作

问题八：linux下常用的分布式文件系统有哪些这他妈不是腾讯今年的笔试题么
NFS（tldp/HOWTO/NFS-HOWTO/index）
网络文件系统是FreeBSD支持的文件系统中的一种，也被称为NFS。
NFS允许一个系统在网络上与它人共享目录和文件。通过使用NFS，用户和程序可以象访问本地文件一样访问远端系统上的文件。它的好处是：
1、本地工作站使用更少的磁盘空间，因为通常的数据可以存放在一台机器上而且可以通过网络访问到。
2、用户不必在每个网络上机器里面都有一个home目录。home目录可以被放在NFS服务器上并且在网络上处处可用。
3、诸如软驱、CDROM、和ZIP之类的存储设备可以在网络上面被别的机器使用。可以减少整个网络上的可移动介质设备的数量。
开发语言c/c++,可跨平台运行。
OpenAFS（openafs）
OpenAFS是一套开放源代码的分布式文件系统，允许系统之间通过局域网和广域网来分享档案和资源。OpenAFS是围绕一组叫做cell的文件服务器组织的，每个服务器的标识通常是隐藏在文件系统中，从AFS客户机登陆的用户将分辨不出他们在那个服务器上运行，因为从用户的角度上看，他们想在有识别的Unix文件系统语义的单个系统上运行。
文件系统内容通常都是跨cell复制，一便一个硬盘的失效不会损害OpenAFS客户机上的运行。OpenAFS需要高达1GB的大容量客户机缓存，以允许访问经常使用的文件。它是一个十分安全的基于kerbero的系统，它使用访问控制列表(ACL）以便可以进行细粒度的访问，这不是基于通常的Linux和Unix安全模型。开发协议IBM Public，运行在linux下。
MooseFs（derf.homelinux）
Moose File System是一个具备容错功能的网路分布式文件统，它将数据分布在网络中的不同服务器上，MooseFs通过FUSE使之看起来就是一个Unix的文件系统。但有一点问题，它还是不能解决单点故障的问题。开发语言perl,可跨平台操作。
pNFS（pnfs）
网络文件系统(Network FileSystem,NFS)是大多数局域网(LAN）的重要的组成部分。但NFS不适用于高性能计算中苛刻的输入书橱密集型程序，至少以前是这样。NFS标准的罪行修改纳入了Parallel NFS(pNFS），它是文件共享的并行实现，将传输速率提高了几个数量级。
开发语言c/c++,运行在linu下。
googleFs
据说是一个比较不错的一个可扩展分布式文件系统，用于大型的，分布式的，对大量数据进行访问的应用。它运行于廉价的普通硬件上，但可以提供容错功能，它可以给大量的用户提供性能较高的服务。google自己开发的。

问题九：分布式存储都有哪些，并阐述其基本实现原理神州云科 DCN NCS DFS2000（简称DFS2000）系列是面向大数据的存储系统，采用分布式架构，真正的分布式、全对称群集体系结构，将模块化存储节点与数据和存储管理软件相结合，跨节点的客户端连接负载均衡，自动平衡容量和性能，优化集群资源，3-144节点无缝扩展，容量、性能岁节点增加而线性增长，在 60 秒钟内添加一个节点以扩展性能和容量。

问题十：linux 分布式系统都有哪些？常见的分布式文件系统有，GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。
GFS（Google File System）
--------------------------------------
Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。。尽管Google公布了该系统的一些技术细节，但Google并没有将该系统的软件部分作为开源软件发布。
下面分布式文件系统都是类 GFS的产品。
HDFS
--------------------------------------
Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch，后者是一个开源的网络搜索引擎，本身也是Luene项目的一部分。Aapche Hadoop架构是MapRece算法的一种开源应用，是Google开创其帝国的重要基石。
Ceph
---------------------------------------
是加州大学圣克鲁兹分校的Sage weil攻读博士时开发的分布式文件系统。并使用Ceph完成了他的论文。
说 ceph 性能最高，C++编写的代码，支持Fuse，并且没有单点故障依赖，于是下载安装，由于 ceph 使用 btrfs 文件系统，而btrfs 文件系统需要 Linux 2.6.34 以上的内核才支持。
可是ceph太不成熟了，它基于的btrfs本身就不成熟，它的官方网站上也明确指出不要把ceph用在生产环境中。
Lustre
---------------------------------------
Lustre是一个大规模的、安全可靠的，具备高可用性的集群文件系统，它是由SUN公司开发和维护的。
该项目主要的目的就是开发下一代的集群文件系统，可以支持超过10000个节点，数以PB的数据量存储系统。
目前Lustre已经运用在一些领域，例如HP SFS产品等。

③ NFS 深入配置

1.1 NFS配置参数权限

参数名称
参数用途

rw
read-write，表示可读写权限

ro
read-only，表示只读权限

sync
请求或写入数据时，数据同步写入到硬盘才完成

async
异步写到远程缓冲区

all_squash
不管客户端什么用户，到服务端都会被压缩成匿名用户

anonuid
匿名用户的UID

anongid
匿名用户的GID

在配置文件内设置共享目录时所给予的权限：
[root@nfs01 ~]$ cat /etc/exports
/data 172.16.1.0/24(rw,sync) 10.0.0.0/24(ro)

配置好NFS服务后，/var/lib/nfs/etab文件中可以看到的配置参数以及默认自带的参数：
[root@nfs01 ~]$ cat /var/lib/nfs/etab
/data
172.16.1.0/24(rw,sync,wdelay,hide,nocrossmnt,secure,root_squash,
no_all_squash,no_subtree_check,secure_locks,acl,no_pnfs,anonuid=65534,
anongid=65534,sec=sys,rw,secure,root_squash,no_all_squash

1.1.1 更改NFS默认用户
1.1.1.1 nfs01服务端NFS、以及所有客户端：
[root@nfs01 ~] id www
uid=1111(www) gid=1111(www) 组=1111(www)

1.1.1.2 服务端NFS特殊配置
配置文件增加如下内容：
[root@nfs01 ~]$ tail -2 /etc/exports
/data 172.16.1.0/24(rw,sync,all_squash,anonuid=1111,anongid=1111)
/data1 10.0.0.0/24(ro)

共享目录更改用户和用户组：
[root@nfs01 ~] ls -ld /data
drwxr-xr-x 2 www www 70 4月 18 10:05 /data

1.1.1.3 服务端NFS重启
[root@nfs01 ~]$ systemctl reload nfs

1.1.1.4 每个客户端挂载
[root@web01 ~] df -h
文件系统容量已用可用已用% 挂载点
172.16.1.31:/data 19G 1.8G 18G 10% /data

新创建文件验证用户名：
[root@web01 /data]# touch new_web01.txt
[root@web01 /data]# ls -l
总用量 0
-rw-r--r-- 1 www www 0 4月 18 11:01 new_web01.txt
-rw-r--r-- 1 www www 0 4月 17 11:59 oldboy.txt
-rw-r--r-- 1 www www 0 4月 17 12:30 oldgirl.txt

1.2 NFS服务重点知识梳理
当多个NFS客户端访问服务器端读写文件时，需要具有以下几个权限：

NFS服务器/etc/exports设置需要开放许可写入的权限，即服务器端的共享权限
NFS服务器实际要共享的NFS目录权限具有可写入w的权限，即服务器端本地目录的安全权限
每台机器都对应存在和NFS默认配置UID的相同UID的用户

下表列出了常用的重点NFS服务文件或命令。

NFS常用路径
说明

/etc/exports
NFS服务主配置文件，配置NFS具体共享服务的地点，默认内容为空

/var/lib/nfs/etab
NFS配置文件的完整参数设定的文件

/proc/mounts
客户端的挂载参数

1.3 NFS客户端挂载深入
1.3.1 mount -o 参数选项及系统默认设置

参数
参数意义
系统默认值

suid/nosuid
当挂载的文件系统上有任何SUID的程序时，只要使用nosuid就能够取消设置SUID的功能
suid

rw/ro
可以指定文件系统是只读（ro）或可读写（rw）
rw

dev/nodev
是否可以保留装置文件的特殊功能
dev

exec/noexec
是否具有执行文件的权限
exec

user/nouser
是否允许用户拥有文件的挂载与卸载功能
nouser

auto/noauto
auto指的是“mount -a”时会不会被挂载的项目，如果不需要这个分区随时被挂载，可以设置为noauto
auto

1.3.2 mount -o 参数详细说明

参数选项
说明

async
涉及文件系统I/O的操作都是异步处理，即不会同步写到磁盘，能提高性能，但会降低数据安全。

sync
有I/O操作时，都会同步处理I/O，会降低性能，但数据比较安全。

atime
在每一次数据访问时，会更新访问文件的时间戳，是默认选项，在高并发的情况下，可以通过添加noatime来取消默认项。

ro
以只读的方式挂载一个文件系统

rw
以可读写的方式挂载一个文件系统

auto
能够被自动挂载通过-a选项

noauto
不会自动挂载文件系统

defaults
这是fstab里的默认值，包括rw、suid、dev、exec、auto、nouser、async

exec
允许文件系统执行二进制文件，取消这个参数，可以提升系统安全性。

noexec
在挂载的文件系统中不允许执行任何二进制程序，进仅对二进制程序有效。

noatime
访问文件时不更新文件的时间戳，高并发情况下，一般使用该参数

nodiratime
不更新文件系统上的directory inode时间戳，高并发环境，推荐显式应用该选项，可以提高系统I/O性能。

nosuid
不允许set-user-identifier or set-group-identifier位生效。

suid
允许set-user-identifier or set-group-identifier位生效。

nouser
禁止一个普通用户挂载该文件系统，这是默认挂载时的默认选项。

remount
尝试重新挂载一个已经挂载了的文件系统，这通常被用来改变一个文件系统的挂载标志，从而使得一个只读文件系统变的可写，这个动作不会改变设备或者挂载点。当系统故障时进人single或rescue模式修复系统时，会发现根文件系统经常会变成只读文件系统，不允许修改，此时该命令就派上用场了。具体命令为：mount -o remount,rw /,表示将根文件系统重新挂载使得可写。single或rescue模式修复系统时这个命令十分重要。

dirsync
目录更新时同步写人磁盘。

1.3.3 企业生产场景NFS共享存储优化

硬件：使用ssd/sas磁盘，可以买多块，制作成raid10。
NFS服务器端配置：

/data 10.0.0.0/24(rw,sync,all_squash,anonuid=65534,anongid=65534)

NFS客户端挂载优化配置命令：

mount -t nfs -o nosuid,noexec,nodev,noatime,nodiratime,rsize=131072,
wsize=131072 172.16.1.31:/data /mnt <===兼顾安全性能

对NFS服务的所有服务器内核进行优化，执行命令如下：

cat >>/etc/sysctl.conf <<EOF
net.core.wmen_default = 8388608
net.core.rmen_default = 8388608
net.core.wmen_max = 16777216
net.core.rmen_max = 16777216
EOF

执行sysctl -p 生效

大型网站NFS网络文件系统的替代软件为分布式文件系统，如：Moosefs（mfs）、GlusterFS、FastDFS。

1.4 NFS系统应用的优缺点
1.4.1 优点

简单，容易上手，容易掌握。
NFS文件系统内数据是在文件系统之上的，即数据是能看得见的。
部署快速维护简单方便，且可控，满足需求就是最好的。
可靠，从软件层面上看，数据可靠性高，经久耐用。
服务非常稳定。

1.4.2 缺点（局限）

存在单点故障，如果NFS服务端宕机了，所有客户端都不能访问共享目录。
在大数据高并发的场合，NFS效率、性能有限。
客户端认证是基于IP和主机名的，权限要根据ID识别，安全性一般。
NFS数据是明文的，NFS本身不对数据完整性进行验证。
多台客户机挂载一个NFS服务器时，连接管理维护麻烦。

1.4.3 解决性能问题的方法

使用CDN加速以及自己搭建文件缓存服务（squid、nginx、varnish）。
把多个目录分配到不同的NFS服务器上。
弃用NFS（即读写分离）。

使用分布式文件系统。

④ 怎么在集群上安装moosefs

怎么在集群上安装moosefs
Google了一下，流行的开源分布式文件系统有很多，介绍如下：

mogileFS：Key-Value型元文件系统，不支持FUSE，应用程序访问它时需要API，主要用在web领域处理海量小图片，效率相比mooseFS高很多。
fastDFS：国人在mogileFS的基础上进行改进的key-value型文件系统，同样不支持FUSE，提供比mogileFS更好的性能。
mooseFS：支持FUSE，相对比较轻量级，对master服务器有单点依赖，用perl编写，性能相对较差，国内用的人比较多
glusterFS：支持FUSE，比mooseFS庞大
ceph：支持FUSE，客户端已经进入了linux-2.6.34内核，也就是说可以像ext3/rasierFS一样，选择ceph为文件系统。彻底的分布式，没有单点依赖，用C编写，性能较好。基于不成熟的btrfs，其本身也非常不成熟。
没有实现windows平台的moosefs客户端，
如果需要在windows平台访问，可以通过Cygwin安装linux平台的包实现。

⑤ 可以灵活扩容的分布式文件存储软件有吗

XSKY 星辰天合的XEDP平台扩展弹性就很高的，在我们使用中发现，它可以实现从单资源池数台到数百台的不停机水平扩展。

⑥ MooseFS和Hadoop两个分布式文件系统各有什么优缺点

首先，说一下这两个分布式文件系统的相同之处：1.这两个文件系统都是类似GoogleFS的实现方式，即一个MasterServer和多个ChunkServer构成的存储集群；2.这两个文件系统都存在MasterServer的单点问题（个人认为主从备份并不能从根本上解决这个问题，该问题的解决之道应该是类似 Ceph 多元数据服务器方式，这方面也是我研究生阶段的研究点之一）；3.这两个文件系统追加写模式，也就是说，两者都更加适合“一次写多次读”的模式，如果涉及到数据的修改，那么这个问题就相对比较麻烦了（更好的办法可以参考Sorrento这个文件系统）；4.由于海量元数据的因素，对待海量小文件都相对比较乏力（更好地解决办法可以参考Facebook的Haystack）；5.两者都支持在线扩容。
我们再来看看这两个分布式文件系统的差异：1.HDFS由Java实现，MooseFS由C++实现；2.HDFS不符合posix语义，MooseFS是完全符合posix语义的，原因在于MooseFS是通过Fuse来通过客户端接口的（Fuse目前已经是标准内核的一部分了），现有使用本地文件系统的程序可以直接平滑迁移到MooseFS上，无需任何修改，但是MooseFS也付出了相应地开销：使用HDFS编写程序时直接使用库（如libhdfs）就可以跟Master或者ChunkServer通信，请求传输更为高效，而MooseFS需要通过标准posix接口将请求发送到内核，再通过Fuse将请求截获发送到用户态，然后才能和Master或者ChunkServer通信；3.MooseFS提供了快照功能，HDFS目前还没有看到这个方面的实际开发行动；4.MooseFS针对小文件和随机I/O进行了一些优化；

⑦ 七天七文件系统之moosefs

选分布式文件系统就像选一辆车，功能相近（高可用、高性能、高可扩展性），但是总有不一样的地方。

作为老牌的开源的软件定义存储，项目始于2008年，来自欧洲的波兰华沙。目的是为了解决30W每秒的大数据处理作业。使用C语言开发，目前版本为3.0。设计理念和其他分布式文件系统大同小异。

－高可用（High Availability），为数据提供副本，为元数据采用日志加元数据备份的方式保证数据不丢失。

－低开销的数据安全能力（Low-cost data safety）在使用冗余的情况下可以节省55%的空间（这点倒是很有意思）。

－可扩展性（Scalability）可以扩展到16EB，最大存储20亿个文件。

－高性能（High performance）能做到数据的并发读写。

mfsmaster 负责存储整个文件系统的元数据。一般元数据会就近存在本地以raid1和raid1+0组成的磁盘。在设计上该服务只是一个单线程，因此需要配备主频更高的处理核心，而对核心数的要求则相对较低。这里可能存在单点的性能瓶颈。

mfschunkserver负责存储文件系统的数据，由一组服务器组成。一般使用JBOD上面做xfs文件系统。在设计的时候数据服务能够发现底层磁盘出现的问题，将数据复制到其他地方，并将该磁盘设置成损坏。moosefs是不建议底层磁盘采用raid方式，因为它检测不出raid盘坏，出现了问题。（在使用beegfs底层用raid时就有类似的问题，只有在IO的时候才发现磁盘组有问题，甚是痛苦）

chunkserver的状态有三种normal/internal rebalance/overloaded。这点和beegfs很像也是三种状态。三种状态对应的是所使用磁盘的状态，normal代表磁盘正常，internal rebalance一般在新的节点加入时出现，之后chunkserver之间会发生数据平衡。overloaded代表此时磁盘负载过重，并会向mfsmaster发出警告消息。

在区分chunkserver时moosefs引入了 label 的概念，给不同的服务器设置label，并将文件和目录设置不同的label表达式，达到控制数据流向目的。

mfsmetalogger 负责作为元数据服务器的备份，定期获取元数据服务的changelog（也可以理解为journal）和元数据，在mfsmaster出现问题的时候负责接管元数据服务。

mfsmount负责做客户端工作，同mfsmaster获得元数据，同mfschunkserver获得数据。数据块的最大为64MB。

内部的文件完整性检查使用hash算法的方式。

架构设计上lizardfs作为moosefs的一个分支基本是一致的。和HDFS也很神似。

支持节点加入之后的数据均衡，和节点损坏之后的自动恢复，自动15分钟内1TB的恢复能力。

能够为不同的文件以及目录选择数据存储的节点。

提供缓存存储。它是一个提升性能的手段，使得存储资源可以合理利用。

接口方面，文件提供的接口兼容 POSIX接口，提供原生的客户端 FUSE和Windows （提供原生客户端的目的可以考虑功能，但主要是性能方面的要求）。

数据保护方面，底层存储提供的数据保护，支持纠删码和默认为 2的数据副本。

访问控制方面支持，原生的Unix权限和访控列表（ACL）。

支持快照，快照是一些备份机制的基础。

回收站功能，防止数据被误删。

提供基于目录的配额。

IO由多线程并发执行。

目前提供两个版本普通版和专业版。普通版使用（GPLv2）许可，专业版面向的是企业用户提供了其他的一些特性（windows客户端、元数据高可用、以及纠删码），这些特性旨在提高系统的稳定性和可靠性。目前现在很多分布式厂商也采用类似的玩法，不如beegfs开源了自己的版本，但在如windows客户端等一些功能上采用商用的许可证。

宣传比较多的为大数据提供存储。多分布在欧洲。

官方网站：https://moosefs.com

⑧ 互联网如何海量存储数据

目前存储海量数据的技术主要包括NoSQL、分布式文件系统、和传统关系型数据库。随着互联网行业不断的发展，产生的数据量越来越多，并且这些数据的特点是半结构化和非结构化，数据很可能是不精确的，易变的。这样传统关系型数据库就无法发挥它的优势。因此，目前互联网行业偏向于使用NoSQL和分布式文件系统来存储海量数据。

下面介绍下常用的NoSQL和分布式文件系统。
NoSQL
互联网行业常用的NoSQL有：HBase、MongoDB、Couchbase、LevelDB。

HBase是Apache Hadoop的子项目,理论依据为Google论文 Bigtable: A Distributed Storage System for Structured Data开发的。HBase适合存储半结构化或非结构化的数据。HBase的数据模型是稀疏的、分布式的、持久稳固的多维map。HBase也有行和列的概念，这是与RDBMS相同的地方，但却又不同。HBase底层采用HDFS作为文件系统，具有高可靠性、高性能。

MongoDB是一种支持高性能数据存储的开源文档型数据库。支持嵌入式数据模型以减少对数据库系统的I/O、利用索引实现快速查询，并且嵌入式文档和集合也支持索引，它复制能力被称作复制集（replica set），提供了自动的故障迁移和数据冗余。MongoDB的分片策略将数据分布在服务器集群上。

Couchbase这种NoSQL有三个重要的组件：Couchbase服务器、Couchbase Gateway、Couchbase Lite。Couchbase服务器，支持横向扩展，面向文档的数据库，支持键值操作，类似于SQL查询和内置的全文搜索;Couchbase Gateway提供了用于RESTful和流式访问数据的应用层API。Couchbase Lite是一款面向移动设备和“边缘”系统的嵌入式数据库。Couchbase支持千万级海量数据存储
分布式文件系统
如果针对单个大文件，譬如超过100MB的文件，使用NoSQL存储就不适当了。使用分布式文件系统的优势在于，分布式文件系统隔离底层数据存储和分布的细节，展示给用户的是一个统一的逻辑视图。常用的分布式文件系统有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。

相比过去打电话、发短信、用彩铃的“老三样”，移动互联网的发展使得人们可以随时随地通过刷微博、看视频、微信聊天、浏览网页、地图导航、网上购物、外卖订餐等，这些业务的海量数据都构建在大规模网络云资源池之上。当14亿中国人把衣食住行搬上移动互联网的同时，也给网络云资源池带来巨大业务挑战。

首先，用户需求动态变化，传统业务流量主要是端到端模式，较为稳定；而互联网流量易受热点内容牵引，数据流量流向复杂和规模多变：比如双十一购物狂潮，电商平台订单创建峰值达到58.3万笔，要求通信网络提供高并发支持；又如优酷春节期间有超过23亿人次上网刷剧、抖音拜年短视频增长超10倍，需要通信网络能够灵活扩充带宽。面对用户动态多变的需求，通信网络需要具备快速洞察和响应用户需求的能力，提供高效、弹性、智能的数据服务。

“随着通信网络管道十倍百倍加粗、节点数从千万级逐渐跃升至百亿千亿级，如何‘接得住、存得下’海量数据，成为网络云资源池建设面临的巨大考验”，李辉表示。一直以来，作为新数据存储首倡者和引领者，浪潮存储携手通信行业用户，不断探索提速通信网络云基础设施的各种姿势。

早在2018年，浪潮存储就参与了通信行业基础设施建设，四年内累计交付约5000套存储产品，涵盖全闪存储、高端存储、分布式存储等明星产品。其中在网络云建设中，浪潮存储已连续两年两次中标全球最大的NFV网络云项目，其中在网络云二期建设中，浪潮存储提供数千节点，为上层网元、应用提供高效数据服务。在最新的NFV三期项目中，浪潮存储也已中标。

能够与通信用户在网络云建设中多次握手，背后是浪潮存储的持续技术投入与创新。浪潮存储6年内投入超30亿研发经费，开发了业界首个“多合一”极简架构的浪潮并行融合存储系统。此存储系统能够统筹管理数千个节点，实现性能、容量线性扩展；同时基于浪潮iTurbo智能加速引擎的智能IO均衡、智能资源调度、智能元数据管理等功能，与自研NVMe SSD闪存盘进行系统级别联调优化，让百万级IO均衡落盘且路径更短，将存储系统性能发挥到极致。

“为了确保全球最大规模的网络云正常上线运行，我们联合用户对存储集群展开了长达数月的魔鬼测试”，浪潮存储工程师表示。网络云的IO以虚拟机数据和上层应用数据为主，浪潮按照每个存储集群支持15000台虚机进行配置，分别对单卷随机读写、顺序写、混合读写以及全系统随机读写的IO、带宽、时延等指标进行了360无死角测试，达到了通信用户提出的单卷、系统性能不低于4万和12万IOPS、时延小于3ms的要求，产品成熟度得到了验证。

以通信行业为例，2020年全国移动互联网接入流量1656亿GB，相当于中国14亿人每人消耗118GB数据；其中春节期间，移动互联网更是创下7天消耗36亿GB数据流量的记录，还“捎带”打了548亿分钟电话、发送212亿条短信……海量实时数据洪流，在网络云资源池(NFV)支撑下收放自如，其中分布式存储平台发挥了作用。如此样板工程，其巨大示范及拉动作用不言而喻。

导航:首页 > 文件目录 > moosefs分布式文件系统

moosefs分布式文件系统

与moosefs分布式文件系统相关的资料

友情链接