A. 大数据技术在金融行业中的典型应用
大数据技术在金融行业中的典型应用
近年来,我国金融科技快速发展,在多个领域已经走在世界前列。大数据、人工智能、云计算、移动互联网等技术与金融业务深度融合,大大推动了我国金融业转型升级,助力金融更好地服务实体经济,有效促进了金融业整体发展。在这一发展过程中,又以大数据技术发展最为成熟、应用最为广泛。从发展特点和趋势来看,“金融云”快速建设落地奠定了金融大数据的应用基础,金融数据与其他跨领域数据的融合应用不断强化,人工智能正在成为金融大数据应用的新方向,金融行业数据的整合、共享和开放正在成为趋势,给金融行业带来了新的发展机遇和巨大的发展动力。
大数据在金融行业的典型应用场景
大数据涉及的行业过于广泛,除金融外,还包括政治、教育、传媒、医学、商业、工农业、互联网等多个方面,各行业对大数据的定义目前尚未统一。大数据的特点可归纳为“4V”。第一,数据体量大(Volume),海量性也许是与大数据最相关的特征。第二,数据类型繁多(Variety),大数据既包括以事务为代表的传统结构化数据,还包括以网页为代表的半结构化数据和以视频、语音信息为代表的非结构化数据。第三,价值密度低(Value),大数据的体量巨大,但数据中的价值密度却很低。比如几个小时甚至几天的监控视频中,有价值的线索或许只有几秒钟。第四,处理速度快(Velocity),大数据要求快速处理,时效性强,要进行实时或准实时的处理。
金融行业一直较为重视大数据技术的发展。相比常规商业分析手段,大数据可以使业务决策具有前瞻性,让企业战略的制定过程更加理性化,实现生产资源优化分配,依据市场变化迅速调整业务策略,提高用户体验以及资金周转率,降低库存积压的风险,从而获取更高的利润。
当前,大数据在金融行业典型的应用场景有以下几个方面:
在银行业的应用主要表现在两个方面:一是信贷风险评估。以往银行对企业客户的违约风险评估多基于过往的信贷数据和交易数据等静态数据,内外部数据资源整合后的大数据可提供前瞻性预测。二是供应链金融。利用大数据技术,银行可以根据企业之间的投资、控股、借贷、担保及股东和法人之间的关系,形成企业之间的关系图谱,利于企业分析及风险控制。
在证券行业的应用主要表现为:一是股市行情预测。大数据可以有效拓宽证券企业量化投资数据维度,帮助企业更精准地了解市场行情,通过构建更多元的量化因子,投研模型会更加完善。二是股价预测。大数据技术通过收集并分析社交网络如微博、朋友圈、专业论坛等渠道上的结构化和非结构化数据,形成市场主观判断因素和投资者情绪打分,从而量化股价中人为因素的变化预期。三是智能投资顾问。智能投资顾问业务提供线上投资顾问服务,其基于客户的风险偏好、交易行为等个性化数据,依靠大数据量化模型,为客户提供低门槛、低费率的个性化财富管理方案。
在互联网金融行业的应用,一是精准营销。大数据通过用户多维度画像,对客户偏好进行分类筛选,从而达到精准营销的目的。二是消费信贷。基于大数据的自动评分模型、自动审批系统和催收系统可降低消费信贷业务违约风险。
金融大数据的典型案例分析
为实时接收电子渠道交易数据,整合银行内系统业务数据。中国交通银行通过规则欲实现快速建模、实时告警与在线智能监控报表等功能,以达到实时接收官网业务数据,整合客户信息、设备画像、位置信息、官网交易日志、浏览记录等数据的目的。
该系统通过为交通银行卡中心构建反作弊模型、实时计算、实时决策系统,帮助拥有海量历史数据,日均增长超过两千万条日志流水的银行卡中心,形成电子渠道实时反欺诈交易监控能力。利用分布式实时数据采集技术和实时决策引擎,帮助信用卡中心高效整合多系统业务数据,处理海量高并发线上行为数据,识别恶意用户和欺诈行为,并实时预警和处置;通过引入机器学习框架,对少量数据进行分析、挖掘构建并周期性更新反欺诈规则和反欺诈模型。
系统上线后,该银行迅速监控电子渠道产生的虚假账号、伪装账号、异常登录、频繁登录等新型风险和欺诈行为;系统稳定运行,日均处理逾两千万条日志流水、实时识别出近万笔风险行为并进行预警。数据接入、计算报警、案件调查的整体处理时间从数小时降低至秒级,监测时效提升近3000倍,上线3个月已帮助卡中心挽回数百万元的风险损失。
网络的搜索技术正在全面注入网络金融。网络金融使用的梯度增强决策树算法可以分析大数据高维特点,在知识分析、汇总、聚合、提炼等多个方面有其独到之处,其深度学习能力利用数据挖掘算法能够较好地解决大数据价值密度低等问题。网络“磐石”系统基于每日100亿次搜索行为,通过200多个维度为8.6亿账号精确画像,高效划分人群,能够为银行、互联网金融机构提供身份识别、反欺诈、信息检验、信用分级等服务。该系统累计为网络内部信贷业务拦截数十万欺诈用户,拦截数十亿不良资产、减少数百万人力成本,累计合作近500家社会金融机构,帮助其提升了整体风险防控水平。
金融大数据应用面临的挑战及对策
大数据技术为金融行业带来了裂变式的创新活力,其应用潜力有目共睹,但在数据应用管理、业务场景融合、标准统一、顶层设计等方面存在的瓶颈也有待突破。
一是数据资产管理水平仍待提高。主要体现在数据质量不高、获取方式单一、数据系统分散等方面。
二是应用技术和业务探索仍需突破。主要体现在金融机构原有的数据系统架构相对复杂,涉及的系统平台和供应商较多,实现大数据应用的技术改造难度很大。同时,金融行业的大数据分析应用模型仍处于起步阶段,成熟案例和解决方案仍相对较少,需要投入大量的时间和成本进行调研和试错。系统误判率相对较高。
三是行业标准和安全规范仍待完善。金融大数据缺乏统一的存储管理标准和互通共享平台,对个人隐私的保护上还未形成可信的安全机制。
四是顶层设计和扶持政策还需强化。体现在金融机构间的数据壁垒较为明显,各自为战问题突出,缺乏有效的整合协同。同时,行业应用缺乏整体性规划,分散、临时、应激等特点突出,信息价值开发仍有较大潜力。
以上问题,一方面需要国家出台促进金融大数据发展的产业规划和扶持政策,同时,也需要行业分阶段推动金融数据开放、共享和统一平台建设,强化行业标准和安全规范。只有这样,大数据技术才能在金融行业中稳步应用发展,不断推动金融行业的发展提升。
B. 怎么在大数据上下载上证指数的季度数据
共享一个可以下载上证指数(000001)股票历史数据的工具。
亲测可以下载500+个主流指数的历史数据,历史数据是从指数建立那天一直到今天的所有历史交易数据,还是很全的。数据下载是很方便的,在公主号里进行1、2两个步骤就可以了,就能收到数据。【提供企业级股票历史行情数据库、每天行情数据更新服务,个人用户获取股票历史行情数据一直免费】
C. 茅台二级市场大数据在哪里看
茅台二级市场大数据在茅台实陆芦时行情价格APP。根据查询相关资料显示茅台实时行情价格APP是国内领早液带先的专埋瞎业飞天茅台实时行情价格查询平台,是经销商、回收商普遍使用的系统。
D. 可以利用大数据炒股吗
大数据可以用于股票交易,所谓大数据,就是一个新的分析概念,利用新的系统、新的工具、新的模型来挖掘大量动态的、可持续的数据,从而获得具有洞察力和新价值的东西。大数据已经在一些金融工具中有所体现,大数据会将股票之前的数据全都发布出来,股民可以根据这只股票之前的数据来进行对比。
其实大数据只能说是个趋势,我们可以通过打数据让投资者能够有一个参考性,但不能够过度依赖大数据,毕竟着只是数据,这些数据是死的,而股市却是千变万化的,我们不能过度的依赖大数据得出的分析与结论,大数据也只是作为一个参考数据。世事无绝对,更何况是股票,可能上一秒还是盈利的状态,但是下一秒就已经处于亏损了,不少人也因为炒股倾家荡产,所以这边还是要提醒大家一下,谨慎行事,不要盲目跟风。
E. 大数据的发展前景怎么样呢,现在行情怎么样
谢谢邀请!
关于大数据的发展前景我们可以从以下四个点来正隐分析:
1.从最近两年国家的大数据战略就可以看出,大数据产业的发展一片光明。
2.目前大数据从业人员全国只有46万,而人才缺口大100万,未来2-3年人才缺口将逐渐扩大。
3.2019年大数据行业月薪平均19.7k排所有行业榜首,而且远远超出第二、第三名6-7K。
4.大数据厅改与AI、云计算,以及其他行业的对接愈扮清判加紧密,未来将创造出更多的就业岗位。
相信通过以上几个点你能够对大数据的行情有个大致的了解,希望我的回答对你有所帮助,望采纳,谢谢!
F. 半导体行业大数据分析有哪些
目前半导体行业没有统一公认的大数据分析平台,因为半导体的制程复杂,各个节点的数据都是分散和不公开的,因此没有统一的大数据分析蠢明平台,虽然制程阶段没有大数据分析平台,但是在监控半导体市场行情动态方面,芯查查有推出一款元器件供应链波动监控带唯告系统,可以作为分析半导体行业动态行情的平台参考山冲。
G. 清明节后股市怎么走+大数据告诉你
清明节,又称踏青节,是二十四节气之一,这一时节万物“吐故纳新”。今年的A股也万象更新,迎来暖春行情。
A股暖春行情
近期A股凌厉的走势恐怕很多人都没有想到,现在反过来看,这一波行情的转折恰好在央行降准和春节两个节点。
1月4日晚央行宣布降准,释放出巨额流动性,当时被市场解读为利好,不过整个1月沪指仅呈现低位小幅反弹走势,而且当时正是上市公司密集发布业绩预告之时,因计提商誉减值引发了上市公司业绩爆雷潮,对市场走势形成较为负面的影响。
春节后A股似乎一下子完成从熊市到牛市的转换,主要股指快速上行,仅十余个交易日沪指就突破了3000点整数关,本周站上3200点再创反弹新高,数据宝统计显示,春节之后沪指累计上涨了24%,深成指也突破万点大关,累计上涨35.6%,中小板指、创业板指分别上涨33%、40%。市值方面,最新A股总市值达59万亿元,与春节前最后一个交易日相比,A股总市值增加了13.4万亿元,相比去年末市值增加了15.6万亿元。
个股方面,春节以来99%的个股(未统计期间上市新股)呈现上涨态势,涨幅翻倍的有79只,其中大智慧、顺灏股份、科蓝软件等期间涨幅超过200%;涨幅在50%~100%的有近700只,涨幅在20%~50%的有2300多只。
各路资金蜂拥入市 股民跑步进场
A股行情转暖,不少机构对行情的看法也从“反弹市”变成“牛市来了”。各路资金入市加速。统计显示,北上资金延续春节前净买入态势,春节后累计净买入636亿元,今年以来累计净买入近1300亿,相当于去年全年净买入的四成多。
杠杆资金也是在春节后迅速增加。数据显示,深沪两融余额在春节前最后一个交易日创出7169.51亿元的阶段新低,到底有多低呢?往前追溯这是上一轮牛市之后最低点,也即是两融余额从两万亿的高位降下来之后的最低点,春节后两融余额连续攀升,最新值为9452亿元,这一轮加速上行的行情两融余额总计增加了近2300亿元。基金发行也热度提升,比例配售重新出现。
行情向好,股民入市加速。目前由于公布的相关数据不多我们仅能从已知道的一些公开数据中看出蛛丝马迹。深交所最新公布的数据显示,3月份深市新增开户数近300万,环比激增一倍,交易户数也增加三成多,总之一句话,人气回来了,这也可以从A股的每日成交额进行印证。
历年清明后大盘走势
市场交投活跃、股指连创新高的情况下,对于后续行情,小编虽不好说,却发现了历年清明前后市场短期走势的一个大概率事件。统计显示,2008年以来历年清明前后市场大概率走好。2008年-2018年这11年的表现中,清明节前一日有8次上涨,3次下跌,清明节后有10次上涨、1次下跌,昨日市场的走势出现了大概率的上涨,清明节后会不会依然如此呢?进一步统计,过去11年中不仅清明节后首日大概率上涨,节后五日沪指上涨的也有9次,下跌的仅2次。
H. 持仓大数据你还知道怎么用吗
NO.1 多空持仓人数比
指标定义: 该指标展示某一时间内持有对应币种合约多仓总人数与空仓总人数的比值情况。统计数据包含本周、次周与季度交割合约以及永续合约的情况总和。(多空方向以该用户此币种净头寸方向计算)
用法:
1、多空持仓人数比与行情呈负相关性,当行情下跌,多空持仓人数比仍然增长,或者当行情含码增长,多空持仓人数比仍然减少时,行情大概率还会延续之前走势。
2、当多空持仓人数较高或较低时,大概率行情会出现插针现象。
3、当行情在高位,多空持仓人数比明显增长时,行情大概率会发生反转,但行情在高位,多空持仓人数比是适中(接近1:1的比例)情况时,则大概率会延续上涨行情。
对应BTC 9月12日到今天的K线走势图,我们可以看出持仓比也是从高位往下走。
NO.2 多空精英趋向指标
指标定义: 该指标反映持仓的精英操盘手账户排名头数百个净持仓(净头寸)的多空比例。(只运用有持仓的账号来计算持仓比例;一个用户就当一票,不理会具体的持仓量多少。)
N0.3 精英多空平均持仓比例
指标定义: 该指标反映持仓经验操盘手账号排名头数百名动用保证金账号资金的平均实时状况。有别于精英趋向指标,持仓比不是利用投票模式进行分析,而是利用每个持仓账号的资金利用的平均值来计算的。
这个指标虽然也有滞后性,当行情开始上涨下跌后,多空平均持仓比例才开始变化,没有办法判断行情什么时候开始以及什么时候反转,但是对于行情开山老源始之后的是否会接着延续,则有明确的指导,可以较为提前的判断。
用法:
当行情已经下跌一段时间后开始横盘时,如果多头的持仓比例一直在升高(30%以上),并维持高位,且数据没有明显有下降的情况出现,则之后的行情大概率会延续之前的走势,直到数据从高位下降到一个适中水平为止。反之亦然。
多空分歧严重的时候,往往会朝着反的方向走。哪边持仓多,爆哪边。
NO.4 持仓总量及交易量
指标定义: 持仓总量:对应时刻该币种的交割与永续合约的多空持仓量总和。交易量:单位时间内该币种交割和永续合约的成交总量。
用法:
1、当行情处于低位,总持仓量不断增加,而交易量整体较小,且没有放大的话,之后的行情大概率会上涨。
2、当行情处于高位,总持仓量屡创新高,交易量放大行情却处于横盘或者阴跌的状态,之后的行情大概率会大幅下跌。
3、当交易量上涨,而同一时间持仓量下降,说明有大量单子被平仓或者爆仓。
下图我们可以看出,在 9月26号出现了天量的持仓量,这一天也是 BTC从9000刀破位的时候,这就是上面第二条讲的一种情况,如果是低位的话,就是看涨的行情。
NO.5 合约基差
指标定义: 该指标展示同一时刻现货指数价格与合约价格及其差值的变化情况。其中某一时刻基差=合约价格-现逗态货指数价格。
期货合约基差=现货价格-期货价格 期货合约基差是指被对冲资产的现货价格与用于对冲的期货合约的价格之差。由于期货价格和现货价格都是波动的,在期货合同的有效期内,基差也是波动的。基差的不确定性被称为基差风险,降低基差风险实现套期保值关键是选择匹配度高的对冲期货合约。
用法:1. 当基差为很大正数时,说明投资者普遍看涨,做多情绪较高。
2.当基差为负数且数值很大时,说明投资者普遍看跌,做空情绪较高。
NO.6 主动买入/卖出情况
指标定义: 主动买入量:展示单位时间内,主动性买盘的成交量(taker吃挂单买入),即资金流入量。主动卖出量:展示单位时间内,主动性卖盘的成交量(taker吃挂单卖出),即资金流出量。
用法:1.当买入成交量持续大于卖出成交量,后市看涨。反之亦然!
通过以上的持仓大数据我们可以分析出当前市场的多空情绪,可以合理的避免不必要的损失。 我在10月19号就在微信群里发了当天的持仓截图,多空比列悬殊过大,而一般这种持仓比例一般都是哪边多哪边爆仓,2/8定律就是这样,亏钱的肯定是大多数人,赚钱的只能是少部分人。
I. 大数据是什么
作者:李丽
链接:https://www.hu.com/question/23896161/answer/28624675
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。
研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。 大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。
二、大数据分析
从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
1、可视化分析
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了
2、数据挖掘算法
大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
3、预测性分析能力
大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
4、数据质量和数据管理
大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
三、大数据技术
1、数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
2、数据存取:关系数据库、NOSQL、SQL等。
3、基础架构:云存储、分布式文件存储等。
4、数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
6、数据挖掘:分类
(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or
association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text,
Web ,图形图像,视频,音频等)
7、模型预测:预测模型、机器学习、建模仿真。
8、结果呈现:云计算、标签云、关系图等。
四、大数据特点
要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
1、
数据体量巨大。从TB级别,跃升到PB级别。
2、
数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
3、
价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
4、
处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
五、大数据处理
大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
大数据处理之四:挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理
六、大数据应用与案例分析
大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是关于各行各业,不同的组织机构在大数据方面的应用的案例,在此申明,以下案例均来源于网络,本文仅作引用,并在此基础上作简单的梳理和分类。
大数据应用案例之:医疗行业
[1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
[2] 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
[3] 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。
大数据应用案例之:能源行业
[1] 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
[2] 维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
大数据应用案例之:通信行业
[1] XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。
[2] 电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。
[3] 中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
[4] NTT docomo把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。
J. 大数据告诉你A股的秘密规律
大数据告诉你A股的秘密规律
1、收盘前上涨概率较高
统计数据表明,2009年1月至2015年9月期间,对比指数每五分钟的涨跌幅发现,午盘收盘前和全天收盘前,市场呈现较高概率的上涨,上涨概率高达60.3%和79.1%。
尾盘耐灶上涨现象与市场交易机制有较大关系,例如尾盘机构集中建仓、以及大宗交易的影响。但综合而言,对该现象的产生,目前尚没有完美的解释。
2、周一上涨概率大
统计每周的交易时间发现,周一上涨的概率和幅度最大。分段统计后发现,牛市期间,股市在周一上涨的幅度较大,而熊市中这种现象不明显。
“周一更容易上涨现象”在美国等成熟市场则并不明显,这很可能是由于成熟市场投资者情绪化不明显造成的。
周一出现极端涨跌幅的概率较高,这也与市场预期有关。例如投资者未预期到的周末市场数据和突发事件出现,或者预期落空带来的市场波动散启,在我国以散户为主的市场中,这种市场情绪波动更大。
统计月度数据发现,我国资本市场的上半月效应明显。而这种现象,与SHIBOR短端利率上半月较低的统计规律遥相呼应。
3、四月份要卖
“Sell In may and goaway”是一句广为流传的股市谚语,指的是股市在经过5月份后,市场就开始疲软,投资者在5月就可以获利了结。
通过随机测算上证综指的投资收益率:在每年任意时间买入指数,在之后任意时间卖出获利。发现年初买入、四月卖出获得正收益的概率最大。同时对比美国标普500指数,此期间交易带来的正收益概率也是最大的。
同时,美国的长期投资价值凸显,从年度随机投资收益的分布来看,均显示最长时间的持股,投资收益最高。对比标普500的指数的长期走势,发现标普500指数的价值是通过时间来检验的,持有时间越长,收益越高。
如果从月度涨跌幅的角度去看市场,上证综指和标普500指数均在上半年取得比较好的正收益,上涨的概率较高,而进入6月份后,市场的回报率和上涨概率均下行。
4、牛市波动增强
用两种方法来表示股票市场的波动,日内分钟收益率的标准差和开盘收盘价格波幅。
从日内分钟数据的标准差来看,在上证综指的阶段性顶点时,市场的波动显著增强,而这种现象在市场趋势性上涨的尾端更为明显。
从开盘收盘价格的波幅来看,波动带来的规律并不如上一种方式明显。
但对开盘收盘的价格进行了策略化处理后,回测其效果即:高开买进、低开卖出的双向操作。
回测结果显示,这样的策略长期表现要好于指数,但其效果存在失效期。用同样的方法测试了沪深300股指期货主力合约,策略失效同样存在,其长期效果尚可,年化回报率为12.2%。
5、春节前后上涨概率大
每当长假来临,持币过节还是持股过节的问题,都会备受投资者关注。
研究结果表明,在节前五个交易日,节后七个交易日里,上证综指表现较好。在迄今为止的22个春节前后,上证综指上涨次数为18次,上涨概率高达81.81%,涨跌幅的中值为3.19%,均值为3.72%。春节效应比十一效应更加明显,持续时间更长、平均上涨幅度更大。
在十一长假之前的三个交易日和假日之后的两个交易日,上证综指表现较好。在16次十一长假前后,上证综指有11次上涨,上涨概率为68.75%,指数涨跌幅的中值为1.87%,均值为1.05%。由此可见,在十一假日前后,指数上涨的概率较大,十一效应在A股市场中较为明显。
整体而言,我国的假期效应明显,尤其是春节效应,其持续时间和涨幅都比较高。
统计标普500指数的圣诞节效应,发现同样存在节日效应,尤其是在圣诞节之后,市场表现相对较好。
6、均线系统仍有效
技术分析在我国股票市场应用依然较为广泛,而技术分析的有效性,也是广大投资者争论不休的事情。
回昌掘扮测结果显示,在多数发展比较完善的资本市场,例如美国,日本、英国、法国,均线系统下的技术分析已经失效,而新兴市场国家和地区依然有效,而且德国DAX30指数有效性也较强。
值得一提的是,双均线系统的有效期,比单均线有效期要长久一些,或许这暗示着技术分析也要进行不断的演化,以适应市场的发展。
7、7倍PE肯定见底
资本市场有其自身规律,也有着估值的上下限。“树不会长到天上去”,脱离资本市场规律的事情不可能长久。
8、低价股收益率最高
对比A股的不同市场风格指数发现,在A股中,低估值个股,包括低市盈率和低市净率指数,长期走势均好于中、高估值品种,且其长期收益率要高于上证综指。在资本市场的长线低估值走势较好。
9、新股上市第一年收益欠佳
由于我国资本市场的结构和上市制度,导致上市公司在上市前报表的盈利能力较高,而一旦上市,其整体盈利能力开始下滑。
统计前五年上市公司的RoE分布表明,随着上市时间的延长,低盈利能力的公司开始增加,收益率的众数开始向较低的RoE水平倾斜。
对比上市公司不同年限的投资价值,上市第一年的投资收益并不好,其后明显好转。
10、金融板块行情独立
从行业的月度收益率出发,寻找行业之间的联动性。
数据显示,金融行业与其他行业的相关性最小,而在每个月上涨前五名的行业中,银行业出现的次数最多。