大数据项目组角色分工_做一个大数据项目一个团队一般如何分工的

Ⅰ 创建大数据项目的五大步骤

创建大数据项目的五大步骤
企业需要积极的提升他们的数据管理能力。这并非意味着他们应该制定繁琐的流程和监督机制。明智的企业会配合他们的数据活动的生命周期制定灵活的流程和功能：根据业务需求启动更轻更严格、更强大的功能，并根据需求的增加来提升质量或精度。
一些企业正在利用新兴技术来应对新的数据源，但大多数企业仍然面临着需要努力管理好他们已经掌握或者应当掌握的数据信息的困境，而当他们试图部署大数据功能时，发现自己还需要面对和处理新的以及当下实时的数据。
为了能够实现持久成功的大数据项目，企业需要把重点放在如下五个主要领域。
1、确立明确的角色分工和职责范围。
对于您企业环境中的所有的数据信息，您需要对于这些数据信息所涉及的关键利益相关者、决策者有一个清晰的了解和把控。当数据信息在企业的系统传输过程中及其整个生命周期中，角色分工将发生变化，而企业需要对这些变化有一个很好的理解。当企业开始部署大数据项目之后，务必要明确识别相关数据的关键利益相关者，并做好这些数据信息的完善和迭代工作。
2、加强企业的数据治理和数据管理功能。
确保您企业的进程足够强大，能够满足和支持大数据用户和大数据技术的需求。进程可以是灵活的，并应充分考虑到业务部门和事务部门的需求，这些部门均伴有不同程度的严谨性和监督要求。
确保您企业的参考信息架构已经更新到包括大数据。这样做会给未来的项目打好最好的使用大数据技术和适当的信息管理能力的基础。
确保您企业的元数据管理功能足够强大，能够包括并关联所有的基本元数据组件。随着时间的推移，进行有序的分类，满足业务规范。
一旦您开始在您企业的生产部门推广您的解决方案时，您会希望他们长期持续的使用该解决方案，所以对架构功能的定义并监督其发挥的作用是至关重要的。确保您企业的治理流程包括IT控制的角色，以帮助企业的利益相关者们进行引导项目，以最佳地利用这些数据信息。其还应该包括您企业的安全和法务团队。根据我们的经验，使用现有的监督机制能够达到最佳的工作状态，只要企业实施了大数据应用，并专注于快速在进程中处理应用程序，而不是阻碍进程的通过。
3、了解环境中的数据的目的和要求的精度水平，并相应地调整您企业的期望值和流程。
无论其是一个POC，或一个已经进入主流业务流程的项目，请务必确保您对于期望利用这些数据来执行什么任务，及其质量和精度处于何种级别有一个非常清晰的了解。这种方法将使得企业的项目能够寻找到正确的数据来源和利益相关者，以更好地评估这些数据信息的价值和影响，进而让您决定如何最好地管理这些数据信息。更高的质量和精度则要求更强大的数据管理和监督能力。
随着您企业大数据项目的日趋成熟，考虑建立一套按照数据质量或精确度分类的办法，这将使得数据用户得以更好的了解他们所使用的是什么，并相应地调整自己的期望值。例如，您可以使用白色、蓝色或金色来分别代表原始数据、清理过的数据，经过验证可以有针对性的支持分析和使用的数据。有些企业甚至进一步完善了这一分类方法：将数据从1到5进行分类，其中1是原始数据，而5是便于理解，经过整理的、有组织的数据。
4、将对非结构化的内容的管理纳入到您企业的数据管理能力。
非结构化数据一直是企业业务运营的一部分，但既然现在我们已经有了更好的技术来探索，分析和这些非结构化的内容，进而帮助改善业务流程和工业务洞察，所以我们最终将其正式纳入我们的数据管理是非常重要的。大多数企业目前都被困在了这一步骤。
数据库中基本的、非结构化的数据是以评论的形式或者自由的形式存在的，其至少是数据库的一部分，应该被纳入到数据管理。但挖掘这些数据信息则是非常难的。
数字数据存储在传统的结构化数据库和业务流程外，很少有许多的治理范围分组和数据管理的实现，除了当其被看作是一个技术问题时。一般来说，除了严格遵守相关的安全政策，今天的企业尚未对其进行真正有效的管理。当您的企业开始大跨步实现了大数据项目之后，您会发现这一类型的数据信息迅速进入了您需要管理的范畴，其输出会影响您企业的商业智能解决方案或者甚至是您企业的业务活动。积极的考虑将这些数据纳入到您企业的数据管理功能的范围，并明确企业的所有权，并记录好这些数据信息的诸如如何使用、信息来源等等资料。
不要采取“容易的轻松路线”，单纯依靠大数据技术是您企业唯一正式的非结构化数据管理的过程。随着时间的推移，企业将收集越来越多的非结构化数据，请务必搞清楚哪些数据是好的，哪些是坏的，他们分别来自何处，以及其使用是否一致，将变得越来越重要，甚至在其生命周期使用这个数据都是至关重要的。
要保持这种清晰，您可以使用大数据和其他工具，以了解您企业所收集的数据信息，确定其有怎样的价值，需要怎样的管理，这是至关重要的。大多数进入您企业的大数据系统的非结构化数据都已经经过一些监控了，但通常是作为一个BLOB（binarylargeobject）二进制大对象和非结构化的形式进行的。随着您的企业不断的在您的业务流程中“发掘”出这一类型的数据，其变得更加精确和有价值。其可能还具有额外的特点，符合安全，隐私或法律和法规的元素要求。最终，这些数据块可以成为新的数据元素或添加到现有的数据，但您必须有元数据对其进行描述和管理，以便尽可能最有效地利用这些数据。
5、正式在生产环境运行之前进行测试。
如果您的企业做的是一次性的分析或完整的一次性的试点，这可能并不适用于您的企业，但对大多数企业来说，他们最初的大数据工作将迅速发展，他们找到一个可持续利用他们已经挖掘出的极具价值的信息的需求。这意味着需要在您的沙箱环境中进行测试，然后才正式的在您的生产环境运。

Ⅱ 大数据挖掘中的三种角色

大数据挖掘中的三种角色_数据分析师考试

我对数据挖掘和机器学习是新手，从去年7月份在Amazon才开始接触，而且还是因为工作需要被动接触的，以前都没有接触过，做的是需求预测机器学习相关的。后来，到了淘宝后，自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作，有一些浅薄的心得。不管怎么样，欢迎指教和讨论。

另外，注明一下，这篇文章的标题模仿了一个美剧《权力的游戏：冰与火之歌》。在数据的世界里，我们看到了很多很牛，很强大也很有趣的案例。但是，数据就像一个王座一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。

数据挖掘中的三种角色

在Amazon里从事机器学习的工作时，我注意到了Amazon玩数据的三种角色。

Data Analyzer：数据分析员。这类人的人主要是分析数据的，从数据中找到一些规则，并且为了数据模型的找不同场景的Training Data。另外，这些人也是把一些脏数据洗干净的的人。

Research Scientist：研究科学家。这种角色主要是根据不同的需求来建立数据模型的。他们把自己戏称为不近人间烟火的奇异性物种，就像《生活大爆炸》里的那个Sheldon一样。这些人基本上玩的是数据上的科学

Software Developer：软件开发工程师。主要是把Scientist建立的数据模型给实现出来，交给Data Analyzer去玩。这些人通常更懂的各种机器学习的算法。

我相信其它公司的做数据挖掘或是机器学习的也就这三种工作，或者说这三种人，对于我来说，

最有技术含量的是Scientist，因为数据建模和抽取最有意义的向量，以及选取不同的方法都是这类人来决定的。这类人，我觉得在国内是找不到的。

最苦逼，也最累，但也最重要的是Data Analyzer，他们的活也是这三个角色中最最最重要的（注意：我用了三个最）。因为，无论你的模型你的算法再怎么牛，在一堆烂数据上也只能干出一堆垃圾的活来。正所谓：Garbage In, Garbage Out！但是这个活是最脏最累的活，也是让人最容易退缩的活。

最没技术含量的是Software Developer。现在国内很多玩数据的都以为算法最重要，并且，很多技术人员都在研究机器学习的算法。错了，最重要的是上面两个人，一个是苦逼地洗数据的Data Analyzer，另一个是真正懂得数据建模的Scientist！而像什么K-Means，K Nearest Neighbor，或是别的什么贝叶斯、回归、决策树、随机森林等这些玩法，都很成熟了，而且又不是人工智能，说白了，这些算法在机器学习和数据挖掘中，似乎就像Quick Sort之类的算法在软件设计中基本没什么技术含量。当然，我不是说算法不重要，我只想说这些算法在整个数据处理中是最不重要的。

数据的质量

目前所流行的Buzz Word——大数据是相当误导人的。在我眼中，数据不分大小，只分好坏。

在处理数据的过程中，我第一个感受最大的就是数据质量。下面我分几个案例来说明：

案例一：数据的标准

在Amazon里，所有的商品都有一个唯一的ID，叫ASIN——Amazon Single Identify Number，这个ID是用来标识商品的唯一性的（来自于条形码）。也就是说，无论是你把商品描述成什么样，只要ASIN一样，这就是完完全全一模一样的商品。

这样，就不像淘宝一样，当你搜索一个iPhone，你会出现一堆各种各样的iPhone，有的叫“超值iPhone”，有的叫“苹果iPhone”，有的叫“智能手机iPhone”，有的叫“iPhone白色/黑色”……，这些同一个商品不同的描述是商家为了吸引用户。但是带来的问题有两点：

1）用户体验不好。以商品为中心的业务模型，对于消费者来说，体验明显好于以商家为中心的业务模型。

2）只要你不能正确读懂（识别）数据，你后面的什么算法，什么模型统统没用。

所以，只要你玩数据，你就会发现，如果数据的标准没有建立起来，干什么都没用。数据标准是数据质量的第一道关卡，没这个玩意，你就什么也别玩了。所谓数据的标准，为数据做唯一标识只是其中最最基础的一步，数据的标准还单单只是这个，更重要的是把数据的标准抽象成数学向量，没有数学向量，后面也无法挖掘。

所以，你会看到，洗数据的大量的工作就是在把杂乱无章的数据归并聚合，这就是在建立数据标准。这里面绝对少不了人肉的工作。无非就是：

聪明的人在数据产生之前就定义好标准，并在数据产生之时就在干数据清洗的工作。

一般的人是在数据产生并大量堆积之后，才来干这个事。

另外，说一下Amazon的ASIN，这个事从十多年前就开始了，我在Amazon的内网里看到的资料并没有说为什么搞了个这样一个ID，我倒觉得这并不是因为Amazon因为玩数据发现必需建议个商品ID，也许因为Amazon的业务模型就是设计成以“商品为中心”的。今天，这个ASIN依然有很多很多的问题，ASIN一样不能完全保证商品就是一样的，ASIN不一样也不代表商品不一样，不过90%以上的商品是保证的。Amazon有专门的团队Category Team，里面有很多业务人员天天都在拼命地在对ASIN的数据进行更正。

案例二：数据的准确

用户地址是我从事过数据分析的另一个事情。我还记得当时看到那数以亿计的用户地址的数据的那种兴奋。但是随后我就兴奋不起来了。因为地址是用户自己填写的，这里面有很多的坑，都不是很容易做的。

第一个是假/错地址，因为有的商家作弊或是用户做测试。所以地址是错的，

比如，直接就输入“该地址不存在”，“13243234asdfasdi”之类的。这类的地址是可以被我的程序识别出来的。

还有很难被我的程序所识别出来的。比如：“宇宙路地球小区”之类的。但这类地址可以被人识别出来。

还有连人都识别不出来的，比如：“北京市东四环中路23号南航大厦5楼540室”，这个地址根本不存在。

第二个是真地址，但是因为用户写的不标准，所以很难处理，比如：

缩写：“建国门外大街”和“建外大街”，“中国工商银行”和“工行”……

错别字：“潮阳门”，“通慧河”……

颠倒：“东四环中路朝阳公园”和“朝阳公园（靠东四环）”……

别名：有的人写的是开发商的小区名“东恒国际”，有的则是写行政的地名“八里庄东里”……

这样的例子多得不能再多了。可见数据如果不准确，会增加你处理的难度。有个比喻非常好，玩数据的就像是在挖金矿一样，如果含金量高，那么，挖掘的难度就小，也就容易出效果，如果含金量低，那么挖掘的难度就大，效果就差。

上面，我给了两个案例，旨在说明——

1）数据没有大小之分，只有含金量大的数据和垃圾量大的数据之分。

2）数据清洗是一件多么重要的工作，这也是一件人肉工作量很大的工作。

所以，这个工作最好是在数据产生的时候就一点一滴的完成。

有一个观点：如果数据准确度在60%的时候，你干出来的事，一定会被用户骂！如果数据准确度在80%左右，那么用户会说，还不错！只有数据准确度到了90%的时候，用户才会觉得真牛B。但是从数据准确度从80%到90%要付出的成本要比60%到80%的付出大得多得多。大多数据的数据挖掘团队都会止步于70%这个地方。因为，再往后，这就是一件相当累的活。

数据的业务场景

我不知道有多少数据挖掘团队真正意识到了业务场景和数据挖掘的重要关系？我们需要知道，根本不可能做出能够满足所有业务的数据挖掘和分析模型。

推荐音乐视频，和电子商务中的推荐商品的场景完全不一样。电商中，只要你买了一个东西没有退货，那么，有很大的概率我可以相信你是喜欢这个东西的，然后，对于音乐和视频，你完全不能通过用户听了这首歌或是看了这个视频就武断地觉得用户是喜欢这首歌和这个视频的，所以，我们可以看到，推荐算法在不同的业务场景下的实现难度也完全不一样。

说到推荐算法，你是不是和我一样，有时候会对推荐有一种感觉——推荐就是一种按不同维度的排序的算法。我个人以为，就提一下推荐这个东西在某些业务场景下是比较Tricky的，比如，推荐有两种（不是按用户关系和按物品关系这两种），

一种是共性化推荐，结果就是推荐了流行的东西，这也许是好的，但这也许会是用户已知的东西，比如，到了北京，我想找个饭馆，你总是给我推荐烤鸭，我想去个地方，你总是给我推荐天安门故宫天坛（因为大多数人来北京就是吃烤鸭，就是去天安门的），这些我不都知道了嘛，还要你来推荐？另外，共性化的东西通常是可以被水军刷的。

另一种是一种是个性化推荐，这个需要分析用户的个体喜好，好的就是总是给我我喜欢的，不好的就是也许我的口味会随我的年龄和环境所改变，而且，总是推荐符合用户口味的，不能帮用户发掘新鲜点。比如，我喜欢吃辣的，你总是给我推荐川菜和湘菜，时间长了我也会觉得烦的。

推荐有时并不是民主投票，而是专业用户或资深玩家的建议；推荐有时并不是推荐流行的，而是推荐新鲜而我不知道的。你可以看到，不同的业务场景，不同的产品形态下的玩法可能完全不一样，

另外，就算是对于同一个电子商务来说，书、手机和服装的业务形态完全不一样。我之前在Amazon做Demand Forecasting（用户需求预测）——通过历史数据来预测用户未来的需求。

对于书、手机、家电这些东西，在Amazon里叫Hard Line的产品，你可以认为是“标品”（但也不一定），预测是比较准的，甚至可以预测到相关的产品属性的需求。

但是地于服装这样的叫Soft Line的产品，Amazon干了十多年都没有办法预测得很好，因为这类东西受到的干扰因素太多了，比如：用户的对颜色款式的喜好，穿上去合不合身，爱人朋友喜不喜欢……这类的东西太容易变了，买得人多了反而会卖不好，所以根本没法预测好，更别Stock/Vender Manager提出来的“预测某品牌的某种颜色的衣服或鞋子”。

对于需求的预测，我发现，长期在这个行业中打拼的人的预测是最准的，什么机器学习都是浮云。机器学习只有在你要面对的是成千上万种不同商品和品类的时候才会有意义。

数据挖掘不是人工智能，而且差得还太远。不要觉得数据挖掘什么事都能干，找到一个合适的业务场景和产品形态，比什么都重要。

数据的分析结果

我看到很多的玩大数据的，基本上干的是数据统计的事，从多个不同的维度来统计数据的表现。最简单最常见的统计就是像网站统计这样的事。比如：PV是多少，UV是多少，来路是哪里，浏览器、操作系统、地理、搜索引擎的分布，等等，等等。

唠叨一句，千万不要以为，你一天有十几个T的日志就是数据了，也不要以为你会用Hadoop/MapRece分析一下日志，这就是数据挖掘了，说得难听一点，你在做的只不过是一个统计的工作。那几个T的Raw Data，基本上来说没什么意义，只能叫日志，连数据都算不上，只有你统计出来的这些数据才是有点意义的，才能叫数据。

当一个用户在面对着自己网店的数据的时候，比如：每千人有5个人下单，有65%的访客是男的，18-24岁的人群有30%，等等。甚至你给出了，你打败了40%同类型商家的这样的数据。作为一个商户，面对这些数据时，大多数人的表现是完全不知道自己能干什么？是把网站改得更男性一点，还是让年轻人更喜欢一点？完全不知道所措。

只要你去看一看，你会发现，好些好些的数据分析出来的结果，看上去似乎不错，但是其实完全不知道下一步该干什么？

所以，我觉得，数据分析的结果并不仅仅只是把数据呈现出来，而更应该关注的是通过这些数据后面可以干什么？如果看了数据分析的结果后并不知道可以干什么，那么这个数据分析是失败的。

总结

综上所述，下面是我觉得数据挖掘或机器学习最重要的东西：

1）数据的质量。分为数据的标准和数据的准确。数据中的杂音要尽量地排除掉。为了数据的质量，大量人肉的工作少不了。

2）数据的业务场景。我们不可能做所有场景下的来，所以，业务场景和产品形态很重要，我个人感觉业务场景越窄越好。

3）数据的分析结果，要让人能看得懂，知道接下来要干什么，而不是为了数据而数据。

搞数据挖掘的人很多，但成功的案例却不多（相比起大量的尝试来说），就目前而言，我似乎觉得目前的数据挖掘的技术是一种过渡技术，还在摸索阶段。另外，好些数据挖掘的团队搞得业务不业务，技术不技术的，为其中的技术人员感到惋惜……

不好意思，我只给出了问题，没有建议，这也说明数据分析中有很多的机会……

最后，还要提的一个是“数据中的个人隐私问题”，这似乎就像那些有悖伦理的黑魔法一样，你要成功就得把自己变得黑暗。是的，数据就像一个王座一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。

以上是小编为大家分享的关于大数据挖掘中的三种角色的相关内容，更多信息可以关注环球青藤分享更多干货

Ⅲ 大数据架构师岗位的主要职责概述

大数据架构师岗位的主要职责概述篇1

职责：

1、负责大数据平台及BI系统框架设计、规划、技术选型，架构设计并完成系统基础服务的开发;

2、负责海量埋点规则、SDK标准化、埋点数据采集、处理及存储，业务数据分布存储、流式/实时计算等应用层架构搭建及核心代码实现;

3、开发大数据平台的核心代码，项目敏捷开发流程管理，完成系统调试、集成与实施，对每个项目周期技术难题的解决，保证大数据产品的上线运行;

4、负责大数据平台的架构优化，代码评审，并根据业务需求持续优化数据架构，保证产品的可靠性、稳定性;

5、指导开发人员完成数据模型规划建设，分析模型构建及分析呈现，分享技术经验;

6、有效制定各种突发性研发技术故障的应对预案，有清晰的隐患意识;

7、深入研究大数据相关技术和产品，跟进业界先进技术;

任职要求

1、统计学、应用数学或计算机相关专业大学本科以上学历;

2、熟悉互联网移动端埋点方法(点击和浏览等行为埋点)，无埋点方案等，有埋点SDK独立开发经验者优选;

3、熟悉Hadoop，MR/MapRece，Hdfs，Hbase，Redis，Storm，Python，zookeeper，kafka，flinkHadoop，hive，mahout，flume，ElasticSearch，KafkaPython等，具备实际项目设计及开发经验;

4、熟悉数据采集、数据清洗、分析和建模工作相关技术细节及流程

5、熟悉Liunx/Unix操作系统，能熟练使用shell/perl等脚本语言，熟练掌握java/python/go/C++中一种或多种编程语言

6、具备一定的算法能力，了解机器学习/深度学习算法工具使用，有主流大数据计算组件开发和使用经验者优先

7、熟悉大数据可视化工具Tableau/echarts

8、具有较强的执行力，高度的责任感、很强的学习、沟通能力，能够在高压下高效工作;

大数据架构师岗位的主要职责概述篇2

职责：

根据大数据业务需求，设计大数据方案及架构，实现相关功能;

搭建和维护大数据集群，保证集群规模持续、稳定、高效平稳运行;

负责大数据业务的设计和指导具体开发工作;

负责公司产品研发过程中的数据及存储设计;

针对数据分析工作，能够完成和指导负责业务数据建模。

职位要求：

计算机、自动化或相关专业(如统计学、数学)本科以上学历，3年以上大数据处理相关工作经验;

精通大数据主流框架(如Hadoop、hive、Spark等);

熟悉MySQL、NoSQL(MongoDB、Redis)等主流数据库，以及rabbit MQ等队列技术;

熟悉hadoop/spark生态的原理、特性且有实战开发经验;

熟悉常用的数据挖掘算法优先。

大数据架构师岗位的主要职责概述篇3

职责：

1、大数据平台架构规划与设计;

2、负责大数据平台技术框架的选型与技术难点攻关;

3、能够独立进行行业大数据应用的整体技术框架、业务框架和系统架构设计和调优等工作，根据系统的业务需求，能够指导开发团队完成实施工作;

4、负责数据基础架构和数据处理体系的升级和优化，不断提升系统的稳定性和效率，为相关的业务提供大数据底层平台的支持和保证;

5、培养和建立大数据团队，对团队进行技术指导。

任职要求：

1、计算机相关专业的背景专业一类院校毕业本科、硕士学位，8年(硕士5年)以上工作经验(至少拥有3年以上大数据项目或产品架构经验);

2、精通Java，J2EE相关技术，精通常见开源框架的架构，精通关系数据库系统(Oracle MySQL等)和noSQL数据存储系统的原理和架构;

3、精通SQL和Maprece、Spark处理方法;

4、精通大数据系统架构，熟悉业界数据仓库建模方法及新的建模方法的发展，有DW，BI架构体系的专项建设经验;

5、对大数据体系有深入认识，熟悉Kafka、Hadoop、Hive、HBase、Spark、Storm、greenplum、ES、Redis等大数据技术，并能设计相关数据模型;

6、很强的学习、分析和解决问题能力，可以迅速掌握业务逻辑并转化为技术方案，能独立撰写项目解决方案、项目技术文档;

7、具有较强的内外沟通能力，良好的团队意识和协作精神;

8、机器学习技术、数据挖掘、人工智能经验丰富者优先考虑;

9、具有能源电力行业工作经验者优先。

大数据架构师岗位的主要职责概述篇4

职责：

1.参与公司数据平台系统规划和架构工作，主导系统的架构设计和项目实施，确保项目质量和关键性能指标达成;

2.统筹和推进制造工厂内部数据系统的构建，搭建不同来源数据之间的逻辑关系，能够为公司运营诊断、运营效率提升提供数据支持;

3.负责数据系统需求对接、各信息化系统数据对接、软件供应商管理工作

5.根据现状制定总体的数据治理方案及数据体系建立，包括数据采集、接入、分类、开发标准和规范，制定全链路数据治理方案;深入挖掘公司数据业务，超强的数据业务感知力，挖掘数据价值，推动数据变现场景的落地，为决策及业务赋能;

6.定义不同的数据应用场景，推动公司的数据可视化工作，提升公司数据分析效率和数据价值转化。

任职要求：

1.本科以上学历，8年以上软件行业从业经验，5年以上大数据架构设计经验，熟悉BI平台、大数据系统相关技术架构及技术标准;

2.熟悉数据仓库、熟悉数据集市，了解数据挖掘、数据抽取、数据清洗、数据建模相关技术;

3.熟悉大数据相关技术：Hadoop、Hive、Hbase、Storm、Flink、Spark、Kafka、RabbitMQ;

4.熟悉制造企业信息化系统及相关数据库技术;

5.具备大数据平台、计算存储平台、可视化开发平台经验，具有制造企业大数据系统项目开发或实施经验优先;

6.对数据敏感，具备优秀的业务需求分析和报告展示能力，具备制造企业数据分析和数据洞察、大数据系统的架构设计能力，了解主流的报表工具或新兴的前端报表工具;

7.有较强的沟通和组织协调能力，具备结果导向思维，有相关项目管理经验优先。

大数据架构师岗位的.主要职责概述篇5

职责：

1.负责产品级业务系统架构(如业务数据对象识别，数据实体、数据属性分析，数据标准、端到端数据流等)的设计与优化。协助推动跨领域重大数据问题的分析、定位、解决方案设计，从架构设计上保障系统高性能、高可用性、高安全性、高时效性、分布式扩展性，并对系统质量负责。

2.负责云数据平台的架构设计和数据处理体系的优化，推动云数据平台建设和持续升级，并制定云数据平台调用约束和规范。

3.结合行业应用的需求负责数据流各环节上的方案选型，主导云数据平台建设，参与核心代码编写、审查;数据的统计逻辑回归算法、实时交互分析;数据可视化方案等等的选型、部署、集成融合等等。

4.对云数据平台的关注业内技术动态，持续推动平台技术架构升级，以满足公司不同阶段的数据需求。

任职要求：

1.熟悉云计算基础平台，包括linux(Ubuntu/CentOS)和KVM、OpenStack/K8S等基础环境，熟悉控制、计算、存储和网络;

2.掌握大型分布式系统的技术栈，如：CDN、负载均衡、服务化/异步化、分布式缓存、NoSQL、数据库垂直及水平扩容;熟悉大数据应用端到端的相关高性能产品。

3.精通Java，Python，Shell编程语言，精通SQL、NoSQL等数据库增删改查的操作优化;

4.PB级别实战数据平台和生产环境的实施、开发和管理经验;

5.熟悉Docker等容器的编排封装，熟悉微服务的开发和日常调度;

6.计算机、软件、电子信息及通信等相关专业本科以上学历，5年以上软件工程开发经验，2年以上大数据架构师工作经验。

大数据架构师岗位的主要职责概述篇6

职责描述：

1、负责集团大数据资产库的技术架构、核心设计方案，并推动落地；

2、带领大数据技术团队实现各项数据接入、数据挖掘分析及数据可视化；

3、新技术预研，解决团队技术难题。

任职要求：

1、在技术领域有5年以上相关经验，3年以上的架构设计或产品经理经验；

2、具有2年以上大数据产品和数据分析相关项目经验；

3、精通大数据分布式系统（hadoop、spark、hive等）的架构原理、技术设计；精通linux系统；精通一门主流编程语言，java优先。

大数据架构师岗位的主要职责概述篇7

岗位职责：

1、基于公司大数据基础和数据资产积累，负责大数据应用整体技术架构的设计、优化，建设大数据能力开放平台；负责大数据应用产品的架构设计、技术把控工作。

2、负责制定大数据应用系统的数据安全管控体系和数据使用规范。

3、作为大数据技术方案到产品实现的技术负责人，负责关键技术点攻坚工作，负责内部技术推广、培训及知识转移工作。

4、负责大数据系统研发项目任务规划、整体进度、风险把控，有效协同团队成员并组织跨团队技术协作，保证项目质量与进度。

5、负责提升产品技术团队的技术影响力，针对新人、普通开发人员进行有效辅导，帮助其快速成长。

任职资格：

1、计算机、数学或相关专业本科以上学历，5—20xx年工作经验，具有大型系统的技术架构应用架构数据架构相关的实践工作经验。

2、有分布式系统分析及架构设计经验，熟悉基于计算集群的软件系统架构和实施经验。

3、掌握Hadoop/Spark/Storm生态圈的主流技术及产品，深入了解Hadoop/Spark/Storm生态圈产品的工作原理及应用场景。

4、掌握Mysql/Oracle等常用关系型数据库，能够对SQL进行优化。

5、熟悉分布式系统基础设施中常用的技术，如缓存（Varnish、Memcache、Redis）、消息中间件（Rabbit MQ、Active MQ、Kafka、NSQ）等；有实践经验者优先。

6、熟悉Linux，Java基础扎实，至少3—5年以上Java应用开发经验，熟悉常用的设计模式和开源框架。

大数据架构师岗位的主要职责概述篇8

岗位职责：

1、负责公司大数据平台架构的技术选型和技术难点攻关工作；

2、依据行业数据现状和客户需求，完成行业大数据的特定技术方案设计与撰写；

3、负责研究跟进大数据架构领域新兴技术并在公司内部进行分享；

4、参与公司大数据项目的技术交流、解决方案定制以及项目的招投标工作；

5、参与公司大数据项目前期的架构设计工作；

任职要求：

1、计算机及相关专业本科以上，5年以上数据类项目（数据仓库、商务智能）实施经验，至少2年以上大数据架构设计和开发经验，至少主导过一个大数据平台项目架构设计；

2、精通大数据生态圈的技术，包括但不限于MapRece、Spark、Hadoop、Kafka、Mongodb、Redis、Flume、Storm、Hbase、Hive，具备数据统计查询性能优化能力。熟悉星环大数据产品线及有过产品项目实施经验者优先；

3、优秀的方案撰写能力，思路清晰，逻辑思维强，能够根据业务需求设计合理的解决方案；

4、精通ORACLE、DB2、mySql等主流关系型数据库，熟悉数据仓库建设思路和数据分层架构思想；

5。熟练掌握java、R、python等1—2门数据挖掘开发语言；

6。熟悉云服务平台及微服务相关架构思想和技术路线，熟悉阿里云或腾讯云产品者优先；

7、有烟草或制造行业大数据解决方案售前经验者优先；

8、能适应售前支持和项目实施需要的短期出差；

大数据架构师岗位的主要职责概述篇9

岗位职责：

1、负责相关开源系统/组件的性能、稳定性、可靠性等方面的深度优化；

2、负责解决项目上线后生产环境的各种实际问题，保障大数据平台在生产上的安全、平稳运行；

3、推动优化跨部门的业务流程，参与业务部门的技术方案设计、评审、指导；

4、负责技术团队人员培训、人员成长指导。

5、应项目要求本月办公地址在锦江区金石路316号新希望中鼎国际办公，月底项目结束后在总部公司办公

任职要求：

1、熟悉linux、JVM底层原理，能作为技术担当，解决核心技术问题；

2、3年以上大数据平台项目架构或开发经验，对大数据生态技术体系有全面了解，如Yarn、Spark、HBase、Hive、Elasticsearch、Kafka、PrestoDB、Phoenix等；

3、掌握git、maven、gradle、junit等工具和实践，注重文档管理、注重工程规范优先；

4、熟悉Java后台开发体系，具备微服务架构的项目实施经验，有Dubbo/Spring cloud微服务架构设计经验优先；

5、性格开朗、善于沟通，有极强的技术敏感性和自我驱动学习能力，注重团队意识。

大数据架构师岗位的主要职责概述篇10

职责描述：

1、负责大数据平台框架的规划设计、搭建、优化和运维；

2、负责架构持续优化及系统关键模块的设计开发，协助团队解决开发过程中的技术难题；

3、负责大数据相关新技术的调研，关注大数据技术发展趋势、研究开源技术、将新技术应用到大数据平台，推动数据平台发展；

4、负责数据平台开发规范制定，数据建模及核心框架开发。

任职要求：

1、计算机、数学等专业本科及以上学历；

2、具有5年及以上大数据相关工作经验；

3、具有扎实的大数据和数据仓库的理论功底，负责过大数据平台或数据仓库设计；

4、基于hadoop的大数据体系有深入认识，具备相关产品（hadoop、hive、hbase、spark、storm、 flume、kafka、es等）项目应用研发经验，有hadoop集群搭建和管理经验；

5、熟悉传统数据仓库数据建模，etl架构和开发流程，使用过kettle、talend、informatic等至少一种工具；

6、自驱力强、优秀的团队意识和沟通能力，对新技术有好奇心，学习能力和主动性强，有钻研精神，充满激情，乐于接受挑战；

Ⅳ 做一个大数据项目一个团队一般如何分工的

今年我们项目组刚好入手一个教育大数据的项目，我们是研究一些教育大数据，从中挖掘出一些跟教育相关的因果关系一达到对这些数据进分析、处理,并从中挖掘出有价值的信息进行改善教育模式、提升教育质量的目的。我们项目组当时分组情况如下：信息采集组、数据清洗组、数据融合组、数据挖掘组、数据可视化组。

根据每组的名称很好理解，信息采集组主要是通过网络爬虫来采集数据，当然还可以根据业务需求，通过不同的方式来采集数据；数据清洗组主要就是把一些无效的脏数据找出来剔除或者替换，任务量其实很大，因为爬来的数据脏数据量很大，这个组的工作周期一般很长，任务也很重；数据融合组主要就是把爬来的课程信息把相似的归类，有上下级关系的就按照子类父类的关系列好，这一组的工作非常不好完成，目前我们做的融合效果不算好，想融合好算是一个难点。数据挖掘组就是拿到可用的数据之后通过数据挖掘算法，去研究之前设定好的影响因子之间的因果关系，主要的分类算法有决策树、贝叶斯分类、基于规则的分类、神经网络、持向量机、懒惰学习算法中的K-最近邻分类和基于案例的推理等算法；数据可视化组顾名思义就是把数据挖掘组的成果可视化展示，这样可以直观的看到数据之间的关系，并利用数据分析和开发工具发现其中未知信息的处理过程。

Ⅳ IT项目管理中开发项目时都有哪些角色

1、产品经理。

2、项目经理。

3、软件架构师。

4、软件工程师。

5、UI设计师。

7、测试工程师(质量小组)。

8、实施工程师。

不同规模的软件开发团队，需要的人员组成结构是不同的。小型软件开发团队：软件开发人员、软件设计人员。其中具体包括编程人员、美工人员、创意人员等。

大型软件开发团队：软件开发人员、软件设计人员、市场研究人员、客服人员、推广人员等。其中技术人员具体包括编程人员、美工、创意人员等。

(5)大数据项目组角色分工扩展阅读：

项目管理理论是指“在项目活动中运用专门的知识、技能、工具和方法，使项目能够实现或超过项目干系人的需要和期望”的理论。

项目管理包括整体、范围、时间、成本、质量、人力资源、沟通等方面的管理。

一个项目的开发过程中每一位角色都发挥着至关重要的力量，一个团队中的各个角色的默契配合，才能使这个项目快速、保质保量的完成。

参考资料：IT项目管理_网络

Ⅵ 大数据数仓项目架构

云上数据仓库解决方案： https://www.aliyun.com/solution/datavexpo/datawarehouse

离线数仓架构

离线数仓特点
基于Serverless的云上数据仓库解决方案

架构特点

实时数仓架构

[图片上传失败...(image-ec3d9a-1629814266849)]

实时数仓架构特点
秒级延迟，实时构建数据仓库，架构简单，传统数仓平滑升级

架构特点

数据仓库的输入数据源和输出系统分别是什么？

输入系统：埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。

输出系统：报表系统、用户画像系统、推荐系统

1）Apache：运维麻烦，组件间兼容性需要自己调研。（一般大厂使用，技术实力雄厚，有专业的运维人员）

2）CDH：国内使用最多的版本，但 CM不开源，但其实对中、小公司使用来说没有影响（建议使用）10000美金一个节点 CDP

3）HDP：开源，可以进行二次开发，但是没有CDH稳定，国内使用较少

服务器使用物理机还是云主机？

1）机器成本考虑：

（1）物理机：以128G内存，20核物理CPU，40线程，8THDD和2TSSD硬盘，单台报价4W出头，惠普品牌。一般物理机寿命5年左右。

（2）云主机，以阿里云为例，差不多相同配置，每年5W

2）运维成本考虑：

（1）物理机：需要有专业的运维人员（1万*13个月）、电费（商业用户）、安装空调

（2）云主机：很多运维工作都由阿里云已经完成，运维相对较轻松

3）企业选择

（1）金融有钱公司和阿里没有直接冲突的公司选择阿里云（上海）

（2）中小公司、为了融资上市，选择阿里云，拉倒融资后买物理机。

（3）有长期打算，资金比较足，选择物理机。

根据数据规模大家集群

属于 研发部 /技术部/数据部，我们属于 大数据组 ，其他还有后端项目组，前端组、测试组、UI组等。其他的还有产品部、运营部、人事部、财务部、行政部等。

大数据开发工程师=>大数据组组长=》项目经理=>部门经理=》技术总监

职级就分初级，中级，高级。晋升规则不一定，看公司效益和职位空缺。

京东：T1、T2应届生；T3 14k左右 T4 18K左右 T5 24k-28k左右

阿里：p5、p6、p7、p8

小型公司（3人左右）：组长1人，剩余组员无明确分工，并且可能兼顾javaEE和前端。

中小型公司（3~6人左右）：组长1人，离线2人左右，实时1人左右（离线一般多于实时），组长兼顾和javaEE、前端。

中型公司（5 10人左右）：组长1人，离线3 5人左右（离线处理、数仓），实时2人左右，组长和技术大牛兼顾和javaEE、前端。

中大型公司（10 20人左右）：组长1人，离线5 10人（离线处理、数仓），实时5人左右，JavaEE1人左右（负责对接JavaEE业务），前端1人（有或者没有人单独负责前端）。（发展比较良好的中大型公司可能大数据部门已经细化拆分，分成多个大数据组，分别负责不同业务）

上面只是参考配置，因为公司之间差异很大，例如ofo大数据部门只有5个人左右，因此根据所选公司规模确定一个合理范围，在面试前必须将这个人员配置考虑清楚，回答时要非常确定。

IOS多少人安卓多少人前端多少人 JavaEE多少人测试多少人

（IOS、安卓） 1-2个人前端1-3个人； JavaEE一般是大数据的1-1.5倍，测试：有的有，有的没有。1个左右。产品经理1个、产品助理1-2个，运营1-3个

公司划分：

0-50 小公司

50-500 中等

500-1000 大公司

1000以上大厂领军的存在

转自： https://blog.csdn.net/msjhw_com/article/details/116003357

Ⅶ 一个完整的大数据开发部门需要什么人人员构成是怎么样的

大数据开发通常需要编程技能，根据我3年多的编程经验，编程技能将带来更好的版开发。大数据开权发一般有数据仓库开发、数据分析、数据开发三大类，每一类都需要不同的技能。但他们都有很多共同点。一般技能: 除了基本的 sql 能力，包括使用传统数据库如 mysql 和 oracle，以及分布式数据库如 hive 和 hbase 的能力，其他的，如 maprece 和 spark，会更好。可以使用聚类，聚类除了问题具有一定的解聚类问题的能力。数据仓库开发: 能够编号仓库建模、维表、事实表、主题表、星型模型、雪花型模型等，熟悉业务、全局视图，建立数据仓库。数据开发: 数据开发有离线开发和实时开发，这种后端开发比较偏向于 java 按需开发，加上程序的日常维护。数据分析: 这需要很强的 sql 技能，如果你能在数据分析中使用 python 会更好。要掌握像 sqoop 和 kettle 这样的常用 etl 工具，请使用报告系统。当然，如果你想学习，你可以学得更深入。毕竟，在通常的发展过程中，特别是小公司的分工不明确，这些技能或多或少都是我们需要掌握的。一个人可以成为几个人，就像一个全能工程师。

Ⅷ 大数据中的职业和工作角色-综合指南1

大数据中的职业和工作角色-综合指南1
本文章将介绍大数据的职业和工作角色，帮助您了解大数据的需求，大数据的市场趋势，从新手到经验丰富的专业人士聘请大数据专业人士的各种公司，以及大数据中的不同档案，以便在像Hadoop开发人员，Hadoop管理员，Hadoop架构师，Hadoop测试人员和大数据分析师，以及他们在不同大数据配置文件中所需的角色和职责，技能和经验。

2.大数据职业和工作角色简介
每秒都会生成大量数据，如果每天都收集到这些数据，则会导致每天生成2.5个数据字节的数据。
这些数据的90％是在过去两年中产生的，这导致了数据的巨大爆炸。您可以想象，从成立之日到最近2年，数据生成仅占全球可用数据总量的10％。因此，数据生成是随时间呈指数而非线性的。
因此，我们已经看到了各种数据来源以及每天产生的数据量，我们可以得出结论，这些数据正在以每年40％的复合率增长。如果我们计算到2020年将产生的总数据，那么大约45 ZB将显示大数据的增长情况，并将成为未来几年中要求最苛刻的技术。这将为大数据专业人士提供一个非常光明的未来。
MarketsandMarkets的一项研究估计，到2017年底，Hadoop和大数据分析市场预计将达到139亿美元。
Hadoop工作不仅由IT公司提供，而且所有类型的公司都在招聘高薪Hadoop候选人，包括金融公司，零售组织，银行，医疗保健组织等.Hadoop开发人员工作和Hadoop管理工作对初创公司的需求很大正在将Hadoop直接构建到他们的业务计划中。EMC公司，苹果公司，Facebook，谷歌公司，甲骨文公司，Hortonworks公司，IBM公司，微软公司，思科公司等公司在印度的几乎所有城市都有多个Hadoop职位，包括Hadoop开发人员，Hadoop测试人员，Hadoop架构师和Hadoop管理员。大多数需求在班加罗尔，浦那，孟买，海德拉巴，钦奈，新德里和NCR。
被问到的最常见的问题之一是“Hadoop中可用的各种工作是什么”。以下是各种Hadoop作业说明的简要概述。
3. Hadoop开发人员
Hadoop开发人员的工作职责是根据系统设计编写程序，并且必须对编码和编程有相当的了解。Hadoop开发人员的任务类似于软件开发人员，但在大数据领域。Hadoop开发人员的工作还包括理解并致力于提出问题解决方案，设计和架构以及强大的文档编制技能。
Hadoop开发人员的角色和职责
定义工作流程
管理和查看Hadoop日志文件
通过Zookeeper进行集群协调服务
通过调度程序管理Hadoop作业
支持在Hadoop集群上运行的MapRece程序
Hadoop开发人员所需的技能：
编写Pig Latin Scripts和HiveQL的专业知识
经验证的工作流程/调度程序，如Oozie
能够处理Flume和Sqoop 等数据加载工具
Hadoop开发人员配置文件所需的经验
从行业专家那里学习Hadoop
0-5岁
Hadoop开发人员简历必须融合上述技能，由在印度和国外招聘Hadoop开发人员的公司选择并获得大量Hadoop开发人员薪水。有关Cloudera的Hadoop开发人员认证的更多详细信息，请访问Cloudera认证课程的详细信息。
4. Hadoop架构师
Hadoop架构师的工作职责是设计系统应该如何工作，然后管理Hadoop解决方案的整个生命周期。他必须具备在Cloudera，HortonWorks和MapR等流行的Hadoop分发平台上工作的主题专业知识和交付经验。
Hadoop Architect角色和职责
设计技术架构和应用程序定制
进行必要的需求分析
进行拟议解决方案设计的部署
Hadoop Architect需要的技能
深入了解Hadoop架构和HDFS，包括YARN
Hive, Pig
Java MapRece
HBase的
Hadoop架构师配置文件所需的经验
8年以上
Hadoop架构师简历必须融合上述技能，以便在印度和国外招聘Hadoop架构师的公司选择。
5. Hadoop管理员
Hadoop管理作业职责与系统管理员作业类似。Hadoop管理员角色和职责包括设置Hadoop集群，备份，恢复和维护。Hadoop管理员需要熟悉硬件系统和Hadoop架构。
Hadoop管理员角色和职责：
HDFS维护和支持
Hadoop集群规划和筛选
跟踪所有连接和安全问题
设置新的Hadoop用户
Hadoop管理员所需的技能：
深入了解Hbase
亲身体验Oozie，HCatalog，Hive
Linux环境中强大的脚本编写技巧
Hadoop管理员个人资料所需的经验
0-5岁
Hadoop管理员简历必须融合上述技能，以便在印度和国外招聘Hadoop管理员的公司选择。
6. Hadoop测试人员
Hadoop测试人员的工作职责是确保所设计的流程与组织所需的流程保持同步。他的主要职责是在Hadoop应用程序中查找和修复错误。
Hadoop Tester角色和职责
主要职责包括在程序中进行故障排除和查找缺陷，并将其报告给Hadoop开发人员以采取纠正措施
报告Hadoop / Pig / Hive组件中的所有正面和负面测试用例
Hadoop Tester所需的技能
测试JUnit，MRUnit框架的知识
了解Java以测试MapRece作业
亲手了解Hive, Pig
Hadoop测试人员配置文件所需的经验
0-5岁
Hadoop测试员简历必须结合上述技能，由在印度和国外招聘Hadoop测试人员的公司选择。
7. Hadoop分析师
Hadoop分析师的工作职责是分析大量数据，并提出公司可以用来改进的见解。
Hadoop分析师的角色和责任
使用脚本语言从可用数据中开发新见解
根据不同的假设进行A / B测试，以影响不同的关键绩效指标
Hadoop Analyst所需的技能
亲手了解Hive, Pig
深入了解Flume知识和SQL命令
希望这些能给大家一个清楚的认知观，

导航:首页 > 网络数据 > 大数据项目组角色分工

大数据项目组角色分工

大数据架构师岗位的主要职责概述篇1

大数据架构师岗位的主要职责概述篇2

大数据架构师岗位的主要职责概述篇3

大数据架构师岗位的主要职责概述篇4

大数据架构师岗位的.主要职责概述篇5

大数据架构师岗位的主要职责概述篇6

大数据架构师岗位的主要职责概述篇7

大数据架构师岗位的主要职责概述篇8

大数据架构师岗位的主要职责概述篇9

大数据架构师岗位的主要职责概述篇10

与大数据项目组角色分工相关的资料

友情链接

导航:首页 > 网络数据 > 大数据项目组角色分工

大数据项目组角色分工

大数据架构师岗位的主要职责概述 篇1

大数据架构师岗位的主要职责概述 篇2

大数据架构师岗位的主要职责概述 篇3

大数据架构师岗位的主要职责概述 篇4

大数据架构师岗位的.主要职责概述 篇5

大数据架构师岗位的主要职责概述 篇6

大数据架构师岗位的主要职责概述 篇7

大数据架构师岗位的主要职责概述 篇8

大数据架构师岗位的主要职责概述 篇9

大数据架构师岗位的主要职责概述 篇10

与大数据项目组角色分工相关的资料

友情链接

大数据架构师岗位的主要职责概述篇1

大数据架构师岗位的主要职责概述篇2

大数据架构师岗位的主要职责概述篇3

大数据架构师岗位的主要职责概述篇4

大数据架构师岗位的.主要职责概述篇5

大数据架构师岗位的主要职责概述篇6

大数据架构师岗位的主要职责概述篇7

大数据架构师岗位的主要职责概述篇8

大数据架构师岗位的主要职责概述篇9

大数据架构师岗位的主要职责概述篇10