A. 目前国内有公司在使用开源的ceph分布式存储系统吗
有,我知道的使用ceph的公司主要有元核云、XSky、杉岩数据等,其他的华为云、深信服等公司也有分布式存储,不过不知道是不是基于ceph的。
B. 分布式存储排名前十名有哪些
一、 Ceph
Ceph最早起源于Sage就读博士期间的工作、成果于2004年发表,并随后贡献给开源社区。经过多年的发展之后,已得到众多云计算和存储厂商的支持,成为应用最广泛的开源分布式存储平台。
二、 GFS
GFS是google的分布式文件存储系统,是专为存储海量搜索数据而设计的,2003年提出,是闭源的分布式文件系统。适用于大量的顺序读取和顺序追加,如大文件的读写。注重大文件的持续稳定带宽,而不是单次读写的延迟。
三、 HDFS
HDFS(Hadoop Distributed File System),是一个适合运行在通用硬件(commodity hardware)上的分布式文件系统,是Hadoop的核心子项目,是基于流数据模式访问和处理超大文件的需求而开发的。该系统仿效了谷歌文件系统(GFS),是GFS的一个简化和开源版本。
C. 有没有用Java写的轻量级开源的分布式存储系统
以下内容源于分布式内存文件系统:Tachyon 14年9月的文章
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率。同时可以减少内存冗余,GC时间等。
<img src="https://pic3.mg.com/_b.png" data-rawwidth="810" data-rawheight="311" class="origin_image zh-lightbox-thumb" width="810" data-original="https://pic3.mg.com/_r.png">
Tachyon架构
Tachyon的架构是传统的Master—slave架构,这里和Hadoop类似,TachyonMaster里WorkflowManager是 Master进程,因为是为了防止单点问题,通过Zookeeper做了HA,可以部署多台Standby Master。Slave是由Worker Daemon和Ramdisk构成。这里个人理解只有Worker Daemon是基于JVM的,Ramdisk是一个off heap memory。Master和Worker直接的通讯协议是Thrift。
下图来自Tachyon的作者Haoyuan Li:
<img src="https://pic4.mg.com/_b.png" data-rawwidth="854" data-rawheight="571" class="origin_image zh-lightbox-thumb" width="854" data-original="https://pic4.mg.com/_r.png">
三、Fault Tolerant
Tachyon是一个分布式文件存储系统,但是如果Tachyon里的容错机制是怎么样的呢?
Tachyon使用血统这个我们在Spark里的RDD里已经很熟悉了,这里也有血统这一概念。会使用血统,通过异步的向Tachyon的底层文件系统做Checkpoint。
当我们向Tachyon里面写入文件的时候,Tachyon会在后台异步的把这个文件给checkpoint到它的底层存储,比如HDFS,S3.. etc...
这里用到了一个Edge的算法,来决定checkpoint的顺序。
比较好的策略是每次当前一个checkpoint完成之后,就会checkpoint一个最新生成的文件。当然想Hadoop,Hive这样的中间文件,需要删除的,是不需要checkpoint的。
下图来自Tachyon的作者Haoyuan Li:
<img src="https://pic1.mg.com/_b.png" data-rawwidth="822" data-rawheight="609" class="origin_image zh-lightbox-thumb" width="822" data-original="https://pic1.mg.com/_r.png">
关于重新计算时,资源的分配策略:
目前Tachyon支持2种资源分配策略:
1、优先级的资源分配策略
2、公平调度的分配策略
<img src="https://pic2.mg.com/_b.png" data-rawwidth="940" data-rawheight="621" class="origin_image zh-lightbox-thumb" width="940" data-original="https://pic2.mg.com/_r.png">
四、总结
Tachyon是一个基于内存的分布式文件系统,通常位于分布式存储系统和计算框架直接,可以在不同框架内共享内存,同时可以减少内存冗余和基于Jvm内存计算框架的GC时间。
Tachyon也有类似RDD的血统概念,input文件和output文件都是会有血统关系,这样来达到容错。并且Tachyon也利用血统关系,异步的做checkpoint,文件丢失情况下,也能利用两种资源分配策略来优先计算丢失掉的资源。
D. 如何建立单位内部云存储服务器
企业搭建云存储服务器的流程为:服务器搭建环境测试、下载管理系统软件、激活、后台设置好相应配置,引导企业员工下载等系列流程。
亿万克是研祥高科技控股集团旗下全资子公司。研祥集团作为中国企业500强,持续运营30年。研祥集团全球49个分支机构,三个国家级创新平台,一直致力于技术创新引领行业发展,拥有超1100项授权专利,超1300项非专利核心技术。此系列性能稳定高效、智能环境感知、绿色节能、配置灵活等优势,拥有卓越而优异的整机性能输出,在足量的整机性能与经济实惠之间实现优良的平衡,为数据中心提供实用的高性能、低成本、高密度的解决方案,适用于企业虚拟化、IT核心业务、分布式存储、电信通讯及其他复杂工作负载等宽口径业务用途。【感兴趣请点击此处,了解一下。 】
E. 有没有用Java写的轻量级开源的分布式存储系统
1、jmeter的架构和loadrunner原理一样,都是通过中间代理,监控和收集并发客户端发出的指令,把他们生成脚本,再发送到应用服务器,再监控服务器反馈结果的一个过程;
2、分布式中间代理功能在jmeter中也有,这个分页式代理是指可设置多台代理在不同PC中,通过远程进行控制,即通过使用多台机器运行的谓的agant来分担load generator自身的压力,并借引来获取更大的并发用户数,loadrunner也有此功能;
3、jmeter安装简单,只需要解压jmeter文件包到C盘上就可以了,不用安装,要是你想执行调试测试脚本,前提是:装上jdk和netbean插件,而loadrunner安装包有1G多,在一台P3.0,1G内存的PC上安装要一个多小时,要是装过旧的盗版还不能再装新版,解决办法倒是有,但麻烦且花时间;
4、Jmeter没有IP欺骗功能,IP欺骗是指在一台PC上多个IP地址分配给并发用户,这个功能对于模拟较真实的用户环境来说,是较有用,loadrunner有此功能;
5、jmeter也提供了一个利用本地proxy server(代理服务器)来录制生成测试脚本的功能,但是这个功能并不好用,测试对象的个别参数要手工增加上去,还得附带装个IE代理,如 GoogleToolbarDownloader这些插件来捕捉参数,但是有一个工具badbody,利用这个工具可以录制操作,然后选择将脚本保存为jmeter脚本,然后利用jmeter可以打开并修改脚本;
6、Jmeter的报表较少,对于要分析测试性能不足作为依据。如要知道数据库服务器或应用程序服务的cpu,money等参数,还得在相关服务器上另外写脚本记录服务器的性能;
7、jmeter做性能测试,主要是通过增加线程的数目,或者是设置循环次数来增加并发用户,而loadrunner可以通过在场景中选择要设置什么样的场景,然后选择虚拟用户数;
8、jmeter可以通过逻辑控制器实现复杂的测试行为,相当于loadrunner中的测试场景;
9、jmeter可以做web程序的功能测试,利用jmeter中的样本,可以做灰盒测试,loadrunner主要用来做性能测试;
10、jmeter是开源的,但是使用的人较少,网络上相关资料不全面,需要自己去揣摩,而loadrunner是商业软件,如果是正版本,有技术支持,同时,网络上的资料相当多;
11、Jmeter的脚本修改,主要是针对jmeter中各个部件的熟悉程序,已经相关的一些协议的掌握情况,而不依赖于编程,而loadrunner除了复杂的场景设置外,还需要掌握函数,修改脚本。
F. 如何搭建私有云存储
虚拟化技术在企业私有云IT基础架构中仍然占据重要地位,同时,为了进一步提升应用效率,越来越多的生产环境也正在逐步变革,从以虚拟机为中心的架构向以容器和微服务为中心的云原生架构过渡,在这个过程中,存储如何有效支撑各种云主机应用与微服务应用,对于企业的私有云数据中心提出了新的挑战。
企业面临的问题
存储设施七国八制,硬件锁定缺少弹性
多种云平台对于存储的要求各不相同,块/文件/对象存储对应不同类型的应用,对外提供不同的服务接口,一种存储设备无法满足多种类型的云平台存储需求,而且传统存储在扩展性方面不能满足云时代大规模云平台对存储在线弹性扩容的需求,在可维护性方面则面临硬件架构绑定、运维复杂、难以维保等问题,而且这些问题会随着存储设备种类和数量的增多进一步放大。
业务调度变更频繁,资源不能共享
随着开发测试虚拟机以及容器、微服务平台在企业私有云平台的上线,大型企业的应用快速迭代、频繁发布对存储系统的支撑提出了严峻挑战,不同业务的数据保存在不同厂商的存储设备中,数据流动性差,不仅导致存储空间及性能资源浪费严重,数据灾备方案也很难统一化。
开源产品难以维护,不能实现企业级产品化
基于开源虚拟化技术的云平台如OpenStack为众多客户提供了快速构建私有云基础设施的能力,但是存储部分却不一样,开源的存储系统如Ceph虽然可以小规模部署试用, 但在大规模商用时会遇到很多问题:与硬件和企业级应用生态融合程度不高,严重依赖人工开发运维,在性能和服务质量方面不能满足核心业务的需求
杉岩私有云存储解决方案
杉岩私有云存储解决方案充分发挥了杉岩统一存储平台(USP)的云适配、开放等优势,支持各种复杂的应用负载,可灵活支撑私有云的虚拟化平台,如VMware、Citrix、OpenStack等虚拟化和云平台,以及通过Kubernetes软件一致性认证的所有容器云平台,如:Rancher、Openshift、Kubernetes等。
通过杉岩统一存储平台,用户可快速构建能够兼容所有主流虚拟化平台与容器微服务平台的统一存储资源池,面对各种虚拟机和微服务需求,池化的存储平台为大规模云环境提供了可靠的存储基础架构支撑,帮助用户从纷繁复杂的基础架构运维工作中解放出来,更关注于私有云上运行的业务本身。
客户价值
资源整合,链接企业信息孤岛
单资源池提供块、文件、对象多种存储服务,支持虚拟化平台和数据库应用;强大的存储资源生命周期管理能力,跨云平台在线迁移数据,实现数据共享和提高资源利用率;存储卷QoS等级和性能优先级在线调整,可根据企业资源和业务需求合理配置资源。
开放兼容,适配多种私有云平台
通过VMware VAAI和Citrix Ready认证,针对主流虚拟化平台优化I/O性能,大幅提升虚拟机访问的性能。通过OpenStack Cinder认证,可提供块和对象存储基础架构支撑支持容器平台CSI接口认证,为Kubernetes生态的容器应用提供块和文件存储服务。
智能管理,解决规模化运维难题
向导式安装部署和自助扩容配置,极大提升易用性和可维护性,管理自动化降低运维成本;针对大规模集群优化的可靠性管理,检测和修复硬盘软错误的专利技术,节约用户硬件投资。存储视角的管理功能,可视化展示主机、容器与存储的映射关系和性能监控协助管理员快速定位和解决问题。
G. 企业文件存储系统
我总结一下市面上常见的文档管理功能有:
1、历史版本管理:每次修改都会自动添内加一个历史版容本,所以看到的永远是最新版本,也可以回滚至某个历史版本。
2、签入签出管理:要编辑一个文档必须先签出,同一时间只能被一个用户签出,避免了多人同时修改产生混乱的问题。
3、权限控制:可以基于每个文档或者某一类文档进行权限控制。
4、文档模板管理:可以自定义模板并保存在系统中。下次新建的时候可以选择合适的模板。
我们对比了天翎、致远、泛微这三个产品,各有各的优势,又有一些不得不存在的小缺陷,天翎基本符合要求,有本地部署和云部署,但是有点贵;致远只能云部署,泛微页面精美,但是操作不够流畅,三家厂商都可以免费体验,这些都是我个人的使用感,试用过后才能知道哪个适合。
H. 对象存储系统底层基于什么系统来存取数据
记得在一篇介绍对象存储的文章开头这样写道“那些没有为数据库或文件系统写过代码的上了年纪的程序员应该不太可能会读这篇文章。毕竟,一般商业应用程序访问其他数据类型的模式已经存在超过 40年了。” 言下之意,对象存储代表了新时代下的新型数据结构类型,但是对象存储的出现也与存储发展的历史密不可分。在Web2.0、云和数字内容爆发的时代,类似数字视频和移动网络之类事物的增长,产生了极大量的非结构化数据。存储厂商也推出了新的基于对象的存储系统,从而来提供更加简单的管理和具有更佳扩展性的元数据格式。相比传统存储,对象存储的关键优势在于其简单性。由于对象存储不依赖于LUNs和卷,因此新的存储容量可以通过简单配置加入到运行系统中,实现横向扩展( scale-out)。 对象存储与Hadoop 云存储 目前,对象存储的规模部署则由云服务所引领,如亚马逊 S3、Facebook。现在,无论成熟厂商还是新兴厂商的对象存储解决方案都已达到相当的成熟度,因而IT部门开始考虑如何在自己企业中实现对象存储。除了面向对象的存储,还有基于Hadoop的云存储。中国惠普云计算事业部高级产品经理吕洪在近期的视频访谈中提到:“对于那些要求访问控制的应用,对象存储系统是个不错的选择,而用云进行大数据分析的则要考虑Hadoop。” 对象存储系统可以在一个持久稳固且高度可用的系统中存储任意的对象,且独立于虚拟机实例之外。应用和用户可以在对象存储中使用简单的API访问数据;这些通常都基于REST架构,但是也有面向编程语言的界面。 同时,需要在云端进行大数据分析的用户则可以考虑Hadoop云存储,比如AWS提供了弹性Map Rece (EMR)。云存储选择适用于广泛的需求,但是要针对你的需求找到正确的存储类型,也意味着要找到延迟、易用性、数据完整性和成本之间的合适的平衡点。 对象存储数据迁移和访问 企业对存储的诉求有一定的延续性,但其访问的介质不外乎是主机、PC、移动端以及应用,针对不同的访问介质来看,面向对象存储的解决方案也有所不同。比如微信,我们可以在微信中上传和访问照片、视频等内容,这是一种面向对象数据的访问和存储方式;然而如果应用软件不支持HTTP下REST API的方式,需要以传统文件服务器协议的方式访问,则需要在面向存储对象前面加一个网关进行协议的转换。 没有了文件存储系统中的NFS或CIFS来给应用提供数据,面向对象的存储系统需要替换掉位于磁盘上的原始数据块和应用可以理解的文件之间的这个抽象层。现在的面向对象的系统使用类似REST标准的API或者私有的API来告诉应用如何存储和读取对象标识。 总体而言,对于面向对象的存储的操作的本质并不会改变。吕洪介绍:“比如我们熟悉的开源对象存储系统OpenStack Swift。基本上就是POST,GET ,PUT和 DELETE操作,如果你需要上传大量的数据,则需要编写一个脚本就可以实现。” 惠普的对象存储创新 OpenStack Swift是一种开源的对象存储系统,以一种既满足了存储数据服务等级要求且经济的方式实现。从高可用性以及安全稳定的角度上看,目前开源Swift并不如传统厂商做的好,但是却可以通过标准的服务器,集合Swift搭建出一个能用且经济的方案。 但是传统厂商有自己的优势,从对象存储的设计结构来看分为三层,底层硬件基础架构用来承载数据,在此之上则是面向对象的管理软件,也就是系统层,最顶层为接口层,也就是用户通过何种方式来存取数据。吕洪表示:“在这三个层次上面惠普的解决方案都有涉及。” 众所周知,惠普一直以来都在基于OpenStack进行持续研发,推出更加符合企业级用户要求的解决方案。此外,惠普实验室中也在基于ProLiant x86服务器,力求为swift寻找到一种更经济的承载方式。惠普基于OpenStack Swift构建的Helion Content Depot则是第一款集成化的完整对象存储解决方案,针对横向扩展的对象存储,提供当今企业存储系统所需的高度可扩展性、易管理性、恢复能力和安全性。 吕洪提到:“预期不久的将来,惠普则会正式推出专门针对大数据的面相对象存储的服务器阿波罗4510。”据了解,阿波罗4510的一个机柜中可以提供5.4PB的容量,这是在目前整个行业中,单机柜容量最大的存储解决方案。 除此之外,惠普还提供了面相对象存储的数据加密工作,一部分确保用户的数据在传输过程中是加密的,另一方面也首创硬件的加密,确保对象存储数据的安全性。
I. Ceph为什么越来越火国内使用ceph较为成功的存储厂商有哪些
Ceph是当前非常流行的开源分布式存储系统,具有高扩展性、高性能、高可靠性等优点,同时提供块存储服务(rbd)、对象存储服务(rgw)以及文件系统存储服务(cephfs)。目前也是OpenStack的主流后端存储,随着OpenStack在云计算领域的广泛使用,ceph也变得更加炙手可热。国内目前使用ceph搭建分布式存储系统较为成功的企业有x-sky,深圳元核云,上海UCloud等三家企业。
J. 有没有用Java写的轻量级开源的分布式存储系统
一个轻量级分布式KV存储系统。 如果用K记录文件路径和文件名,用V记录文件内容,就是一个轻量级分布式小文件系统。至于大文件,几乎一定是HDFS这种有元数据服务中心(NameNode)架构的。