『壹』 大数据在金融行业的应用与挑战
大数据在金融行业的应用与挑战
A 具有四大基本特征
金融业基本是全世界各个行业中最依赖于数据的,而且最容易实现数据的变现。全球最大的金融数据公司Bloomberg在1981年成立时“大数据”概念还没有出现。Bloomberg的最初产品是投资市场系统(IMS),主要向各类投资者提供实时数据、财务分析等。
随着信息时代降临,1983年估值仅1亿美元的Bloomberg以30%股份的代价换取美林3000万美元投资,先后推出Bloomberg Terminal、News、Radio、TV等各类产品。1996年Bloomberg身价已达20亿美元,并以2亿美元从美林回购了10%的股份。2004年Bloomberg在纽约曼哈顿中心建成246米摩天高楼。到2008年次贷危机,美林面临崩盘,其剩余20%的Bloomberg股份成为救命稻草。Bloomberg趁美林之危赎回所有股份,估值跃升至225亿美元。2016年Bloomberg全球布局192个办公室,拥有1.5万名员工,年收入约100亿美元,估值约1000亿美元,超过同年市值为650亿美元的华尔街标杆高盛。
大数据概念形成于2000年前后,最初被定义为海量数据的集合。2011年,美国麦肯锡公司在《大数据的下一个前沿:创新、竞争和生产力》报告中最早提出:大数据指大小超出典型数据库软件工具收集、存储、管理和分析能力的数据集。
具体来说,大数据具有四大基本特征:
一是数据体量大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。
二是数据类别大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据。
三是处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
四是数据的真实性高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,信息的真实性和安全性显得极其重要。
而相比其他行业,金融数据逻辑关系紧密,安全性、稳定性和实时性要求更高,通常包含以下关键技术:数据分析,包括数据挖掘、机器学习、人工智能等,主要用于客户信用、聚类、特征、营销、产品关联分析等;数据管理,包括关系型和非关系型数据、融合集成、数据抽取、数据清洗和转换等;数据使用,包括分布式计算、内存计算、云计算、流处理、任务配置等;数据展示,包括可视化、历史流及空间信息流展示等,主要应用于对金融产品健康度、产品发展趋势、客户价值变化、反洗钱反欺诈等监控和预警。
B 重塑金融行业竞争新格局
“互联网+”之后,随着世界正快速兴起“大数据+”,金融行业悄然出现以下变化:
大数据特征从传统数据的“3个V”增加到“5个V”。在数量(Volume)、速度(Velocity)、种类(Variety)基础上,进一步完善了价值(Value)和真实性(Veracity),真实性包括数据的可信性、来源和信誉、有效性和可审计性等。
金融业按经营产品分类变为按运营模式分类。传统金融业按经营产品划分为银行、证券、期货、保险、基金五类,随着大数据产业兴起和混业经营的发展,现代金融业按运营模式划分为存贷款类、投资类、保险类三大类别。
大数据市场从垄断演变为充分市场竞争。全球大数据市场企业数量迅速增多,产品和服务的差异增大,技术门槛逐步降低,市场竞争日益激烈。行业解决方案、计算分析服务、存储服务、数据库服务和大数据应用成为市场份额排名最靠前的五大细分市场。
大数据形成新的经济增长点。Wikibon数据显示,2016年,全球大数据硬件、软件和服务整体市场增长22%达到281亿美元,预计到2027年,全球在大数据硬件、软件和服务上的整体开支的复合年增长率为12%,将达到大约970亿美元。
数据和IT技术替代“重复性”业务岗位。数据服务公司Eurekahedge通过追踪23家对冲基金,发现5位对冲基金经理薪金总额为10亿美元甚至更高。过去10年,靠数学模型分析金融市场的物理学家和数学家“宽客”一直是对冲基金的宠儿,其实大数据+人工智能更精于此道。高盛的纽约股票现金交易部门2000年有600名交易员而如今只剩两人,其任务全由机器包办,专家称10年后高盛员工肯定比今天还要少。
美国大数据发展走在全球前列。美国政府宣称:“数据是一项有价值的国家资本,应对公众开放,而不是将其禁锢在政府体制内。”作为大数据的策源地和创新引领者,美国大数据发展一直走在全球最前列。自20世纪以来,美国先后出台系列法规,对数据的收集、发布、使用和管理等做出具体的规定。2009年,美国政府推出Data.gov政府数据开放平台,方便应用领域的开发者利用平台开发应用程序,满足公共需求或创新创业。2010年,美国国会通过更新法案,进一步提高了数据采集精度和上报频度。2012年3月,奥巴马政府推出《大数据研究与开发计划》,大数据迎来新一轮高速发展。
英国是欧洲金融中心,大数据成为其领先科技之一。2013年,英国投资1.89亿英镑发展大数据。2015年,新增7300万英镑,创建了“英国数据银行”data.gov.uk网站。2016年,伦敦举办了超过22000场科技活动,同年,英国数字科技投资逾68亿英镑,而收入则超过1700亿英镑。另外,英国统计局利用政府资源开展“虚拟人口普查”,仅此一项每年节省5亿英镑经费。
C 打造高效金融监管体系
大数据用已发生的总体行为模式和关联逻辑预测未来,决策未来,作为现代数字科技的核心,其灵魂就是——预测。
侦测、打击逃税、洗钱与金融诈骗
全球每年因欺诈造成的经济损失约3.7万亿美元,企业因欺诈受损通常为年营收额的5%。全球最大软件公司之一美国SAS公司与税务、海关等政府部门和全球各国银行、保险、医疗保健等机构合作,有效应对日益复杂化的金融犯罪行为。如在发放许可之前,通过预先的数据分析检测客户是否有过行受贿、欺诈等前科,再确定是否发放借贷或海关通关。SAS开发的系统已被国际公认为统计分析的标准软件,在各领域广泛应用。英国政府利用大数据检测行为模式检索出200亿英镑的逃税与诈骗,追回了数十亿美元损失。被福布斯评为美国最佳银行的德克萨斯资本银行(TCBank),不断投资大数据技术,反金融犯罪系统与银行发展同步,近3年资产从90亿美元增至210亿美元。荷兰第三大人寿保险公司CZ依靠大数据对骗保和虚假索赔行为进行侦测,在支付赔偿金之前先期阻断,有效减少了欺诈发生后的司法补救。
大数据风控建立客户信用评分、监测对照体系
美国注册舞弊审核师协会(ACFE)统计发现,缺乏反欺诈控制的企业会遭受高额损失。美国主流个人信用评分工具FICO能自动将借款人的历史资料与数据库中全体借款人总体信用习惯相比较,预测借款人行为趋势,评估其与各类不良借款人之间的相似度。美国SAS公司则通过集中浏览和分析评估客户银行账户的基本信息、历史行为模式、正在发生行为模式(如转账)等,结合智能规则引擎(如搜索到该客户从新出现的国家为特有用户转账,或在新位置在线交易等),进行实时反欺诈分析。
美国一家互联网信用评估机构通过分析客户在Facebook、Twitter等社交平台留下的信息,对银行的信贷和投保申请客户进行风险评估,并将结果出售给银行、保险公司等,成为多家金融机构的合作伙伴。
D 数据整合困难
应用经济指标预测系统分析市场走势
IBM使用大数据信息技术成功开发了“经济指标预测系统”,该系统基于单体数据进行提炼整合,通过搜索、统计、分析新闻中出现的“新订单”等与股价指标有关的单词来预测走势,然后结合其他相关经济数据、历史数据分析其与股价的关系,从而得出行情预测结果。
追踪社交媒体上的海量信息评估行情变化
当今搜索引擎、社交网络和智能手机上的微博、微信、论坛、新闻评论、电商平台等每天生成几百亿甚至千亿条文本、音像、视频、数据等,涵盖厂商动态、个人情绪、行业资讯、产品体验、商品浏览和成交记录、价格走势等,蕴含巨大财富价值。
2011年5月,规模为4000万美元的英国对冲基金DC Markets,通过大数据分析Twitter的信息内容来感知市场情绪指导投资,首月盈利并以1.85%的收益率一举战胜其他对冲基金仅0.76%的平均收益率。
美国佩斯大学一位博士则利用大数据追踪星巴克、可口可乐和耐克公司在社交媒体的围观程度对比其股价,证明Facebook、Twitter和 Youtube上的粉丝数与股价密切相关。
提供广泛的投资选择和交易切换
日本个人投资理财产品Money Design在应用程序Theo中使用算法+人工智能,最低门槛924美元,用户只需回答风险承受水平、退休计划等9个问题,就可使用35种不同货币对65个国家的1.19万只股票进行交易和切换,年度管理费仅1%。Money Design还能根据用户投资目标自动平衡其账户金额,预计2020年将超过2万亿美元投资该类产品。
利用云端数据库为客户提供记账服务
日本财富管理工具商Money Forward提供云基础记账服务,可管理工资、收付款、寄送发票账单、针对性推送理财新项目等,其软件系统连接并整合了2580家各类金融机构的各类型帐户,运用大数据分析的智能仪表盘显示用户当前财富状况,还能分析用户以往的数据以预测未来的金融轨迹。目前其已拥有50万商家和350万个体用户,并与市值2.5万亿美元的山口金融集团联合开发新一款APP。
为客户定制差异化产品和营销方案
金融机构迫切需要掌握更多用户信息,继而构建用户360度立体画像,从而对细分客户进行精准营销、实时营销、智慧营销。
一些海外银行围绕客户“人生大事”,分析推算出大致生活节点,有效激发其对高价值金融产品的购买意愿。如一家澳大利亚银行通过大数据分析发现,家中即将诞生婴儿的客户对寿险产品的潜在需求最大,于是通过银行卡数据监控准妈妈开始购买保胎药品和婴儿相关产品等现象,识别出即将添丁的家庭,精准推出定制化金融产品套餐,受到了客户的积极响应,相比传统的短信群发模式大幅提高了成功率。
催生并支撑人工智能交易
“量化投资之王”西蒙斯被公认为是最能赚钱的基金经理人,自1988年创立文艺复兴科技公司的旗舰产品——大奖章基金以来,其凭借不断更新完善的大数据分析系统,20年中创造出35%的年均净回报率,比索罗斯同期高10%,比股神巴菲特同期高18%,成为有史以来最成功的对冲基金,并于1993年基金规模达2.7亿美元时停止接受新投资。在美国《Alpha》杂志每年公布的对冲基金经理排行榜上,西蒙斯2005年、2006年分别以15亿美元、17亿美元净收入稳居全球之冠,2007年以13亿美元位列第五,2008年再以25亿美元重返榜首。
推动金融产品和服务创新
E 面临三大挑战
目前,全球各行业数据量的增长速度惊人,在我国尤其集中在金融、交通、电信、制造业等重点行业,信息化的不断深入正在进一步催生更多新的海量数据。
据统计,2015年中国的数据总量达到1700EB以上,同比增长90%,预计到2020年这一数值将超过8000EB。以银行业为例,每创收100万元,银行业平均产生130GB的数据,数据强度高踞各行业之首。但在金融企业内部数据处于割裂状态,业务条线、职能部门、渠道部门、风险部门等各个分支机构往往是数据的真正拥有者,缺乏顺畅的共享机制,导致海量数据往往处于分散和“睡眠”状态,虽然金融行业拥有的数据量“富可敌国”,但真正利用时却“捉襟见肘”。
数据安全暗藏隐患
大数据本质是开放与共享,但如何界定、保护个人隐私权却成为法律难题。大数据存储、处理、传输、共享过程中也存在多种风险,不仅需要技术手段保护,还需相关法律法规规范和金融机构自律。多项实际案例表明,即使无害的数据大量囤积也会滋生各种隐患。安全保护对象不仅包括大数据自身,也包含通过大数据分析得出的知识和结论。在线市场平台英国Handshake.uk.com就尝试允许用户协商个人数据被品牌分享所得的报酬。
人才梯队建设任重道远
人才是大数据之本。与信息技术其他细分领域人才相比,大数据发展对人才的复合型能力要求更高,需要掌握计算机软件技术,并具备数学、统计学等方面知识以及应用领域的专业知识。
『贰』 什么是金融大数据分析
金融大数据分析是指使用大数据技术来收集、整理、分析金融数据的过程。这些数据可以来自各种来源,包括市场信息、交易记录、客户信息等。金融大数据分析的目的是帮助金融机构更好地理解市场趋势和客户需求,提升决策效率并降低风险。
『叁』 是怎么从大数据上对人们的情绪进行分析的
是怎么从大数据上对人们的情绪进行分析的,这个的话就是通过数据的显示,逐步的进行分析。
『肆』 大数据技术在金融行业有哪些应用前景
具体来说,比如说实时欺诈检测,大数据征信,社交媒体的舆情分析等等。就个人经验来说,用机器学习去检测用户的信用记录,监管贷款的风险,增强风险控制等方面都很有可行性。其他因为不太了解金融这里指的是什么,如果说指商业,bus之类的,那应用前景简直太多了。最后听说一个CS PhD学长,被我认识的一个长辈忽悠去金融领域做量化交易模型,写了一个模型一个小时赚数十万,现在已经移民英国。大数据的意义是什么。有一个观点,就是如果我能掌握这个世界上每一个粒子的状态,我能够预测未来。其实万事万物都是有迹可循的,只不过影响因素太多,人类的认知能力有限,所以就要提炼特征,提取主要的影响因素。
『伍』 如何用大数据炒股
我们如今生活在一个数据爆炸的世界里。网络每天响应超过60亿次的搜索请求,日处理数据超过100PB,相当于6000多座中国国家图书馆的书籍信息量总和。新浪微博每天都会发布上亿条微博。在荒无人烟的郊外,暗藏着无数大公司的信息存储中心,24小时夜以继日地运转着。
克托·迈尔-舍恩伯格在《大数据时代》一书中认为,大数据的核心就是预测,即只要数据丰富到一定程度,就可预测事情发生的可能性。例如,“从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性”,或者通过一个人穿过马路的速度,预测车子何时应该减速从而让他及时穿过马路。
那么,如果把这种预测能力应用在股票投资上,又会如何?
目前,美国已经有许多对冲基金采用大数据技术进行投资,并且收获甚丰。中国的中证广发网络百发100指数基金(下称百发100),上线四个多月以来已上涨68%。
和传统量化投资类似,大数据投资也是依靠模型,但模型里的数据变量几何倍地增加了,在原有的金融结构化数据基础上,增加了社交言论、地理信息、卫星监测等非结构化数据,并且将这些非结构化数据进行量化,从而让模型可以吸收。
由于大数据模型对成本要求极高,业内人士认为,大数据将成为共享平台化的服务,数据和技术相当于食材和锅,基金经理和分析师可以通过平台制作自己的策略。
量化非结构数据
不要小看大数据的本领,正是这项刚刚兴起的技术已经创造了无数“未卜先知”的奇迹。
2014年,网络用大数据技术预测命中了全国18卷中12卷高考作文题目,被网友称为“神预测”。网络公司人士表示,在这个大数据池中,包含互联网积累的用户数据、历年的命题数据以及教育机构对出题方向作出的判断。
在2014年巴西世界杯比赛中,Google亦通过大数据技术成功预测了16强和8强名单。
从当年英格兰报社的信鸽、费城股票交易所的信号灯到报纸电话,再到如今的互联网、云计算、大数据,前沿技术迅速在投资领域落地。在股票策略中,大数据日益崭露头角。
做股票投资策略,需要的大数据可以分为结构化数据和非结构化数据。结构化数据,简单说就是“一堆数字”,通常包括传统量化分析中常用的CPI、PMI、市值、交易量等专业信息;非结构化数据就是社交文字、地理位置、用户行为等“还没有进行量化的信息”。
量化非结构化就是用深度模型替代简单线性模型的过程,其中所涉及的技术包括自然语言处理、语音识别、图像识别等。
金融大数据平台-通联数据CEO王政表示,通联数据采用的非结构化数据可以分为三类:第一类和人相关,包括社交言论、消费、去过的地点等;第二类与物相关,如通过正在行驶的船只和货车判断物联网情况;第三类则是卫星监测的环境信息,包括汽车流、港口装载量、新的建筑开工等情况。
卫星监测信息在美国已被投入使用,2014年Google斥资5亿美元收购了卫星公司Skybox,从而可以获得实施卫星监测信息。
结构化和非结构化数据也常常相互转化。“结构化和非结构化数据可以形象理解成把所有数据装在一个篮子里,根据应用策略不同相互转化。例如,在搜索频率调查中,用户搜索就是结构化数据;在金融策略分析中,用户搜索就是非结构化数据。”网络公司人士表示。
华尔街拿着丰厚薪水的分析师们还不知道,自己的雇主已经将大量资本投向了取代自己的机器。
2014年11月23日,高盛向Kensho公司投资1500万美元,以支持该公司的大数据平台建设。该平台很像iPhone里的Siri,可以快速整合海量数据进行分析,并且回答投资者提出的各种金融问题,例如“下月有飓风,将对美国建材板块造成什么影响?”
在Kensho处理的信息中,有80%是“非结构化”数据,例如政策文件、自然事件、地理环境、科技创新等。这类信息通常是电脑和模型难以消化的。因此,Kensho的CEO Daniel Nadler认为,华尔街过去是基于20%的信息做出100%的决策。
既然说到高盛,顺便提一下,这家华尔街老牌投行如今对大数据可谓青睐有加。除了Kensho,高盛还和Fortress信贷集团在两年前投资了8000万美元给小额融资平台On Deck Capital。这家公司的核心竞争力也是大数据,它利用大数据对中小企业进行分析,从而选出值得投资的企业并以很快的速度为之提供短期贷款。
捕捉市场情绪
上述诸多非结构化数据,归根结底是为了获得一个信息:市场情绪。
在采访中,2013年诺贝尔经济学奖得主罗伯特•席勒的观点被无数采访对象引述。可以说,大数据策略投资的创业者们无一不是席勒的信奉者。
席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中,主要参考三个变量:投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应(市场情绪)。他认为,市场本身带有主观判断因素,投资者情绪会影响投资行为,而投资行为直接影响资产价格。
然而,在大数据技术诞生之前,市场情绪始终无法进行量化。
回顾人类股票投资发展史,其实就是将影响股价的因子不断量化的过程。
上世纪70年代以前,股票投资是一种定性的分析,没有数据应用,而是一门主观的艺术。随着电脑的普及,很多人开始研究驱动股价变化的规律,把传统基本面研究方法用模型代替,市盈率、市净率的概念诞生,量化投资由此兴起。
量化投资技术的兴起也带动了一批华尔街大鳄的诞生。例如,巴克莱全球投资者(BGI)在上世纪70年代就以其超越同行的电脑模型成为全球最大的基金管理公司;进入80年代,另一家基金公司文艺复兴(Renaissance)年均回报率在扣除管理费和投资收益分成等费用后仍高达34%,堪称当时最佳的对冲基金,之后十多年该基金资产亦十分稳定。
“从主观判断到量化投资,是从艺术转为科学的过程。”王政表示,上世纪70年代以前一个基本面研究员只能关注20只到50只股票,覆盖面很有限。有了量化模型就可以覆盖所有股票,这就是一个大的飞跃。此外,随着计算机处理能力的发展,信息的用量也有一个飞跃变化。过去看三个指标就够了,现在看的指标越来越多,做出的预测越来越准确。
随着21世纪的到来,量化投资又遇到了新的瓶颈,就是同质化竞争。各家机构的量化模型越来越趋同,导致投资结果同涨同跌。“能否在看到报表数据之前,用更大的数据寻找规律?”这是大数据策略创业者们试图解决的问题。
于是,量化投资的多米诺骨牌终于触碰到了席勒理论的第三层变量——市场情绪。
计算机通过分析新闻、研究报告、社交信息、搜索行为等,借助自然语言处理方法,提取有用的信息;而借助机器学习智能分析,过去量化投资只能覆盖几十个策略,大数据投资则可以覆盖成千上万个策略。
基于互联网搜索数据和社交行为的经济预测研究,已逐渐成为一个新的学术热点,并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上,研究发现搜索数据可有效预测未来股市活跃度(以交易量指标衡量)及股价走势的变化。
海外就有学术研究指出,公司的名称或者相关关键词的搜索量,与该公司的股票交易量正相关。德国科学家Tobias Preis就进行了如此研究:Tobias利用谷歌搜索引擎和谷歌趋势(Google Trends),以美国标普500指数的500只股票为其样本,以2004年至2010年为观察区间,发现谷歌趋势数据的公司名称搜索量和对应股票的交易量,在每周一次的时间尺度上有高度关联性。也就是说,当某个公司名称在谷歌的搜索量活动增加时,无论股票的价格是上涨或者下跌,股票成交量与搜索量增加;反之亦然,搜索量下降,股票成交量下降。以标普500指数的样本股为基础,依据上述策略构建的模拟投资组合在六年的时间内获得了高达329%的累计收益。
在美国市场上,还有多家私募对冲基金利用Twitter和Facebook的社交数据作为反映投资者情绪和市场趋势的因子,构建对冲投资策略。利用互联网大数据进行投资策略和工具的开发已经成为世界金融投资领域的新热点。
保罗·霍丁管理的对冲基金Derwent成立于2011年5月,注册在开曼群岛,初始规模约为4000万美元, 2013年投资收益高达23.77%。该基金的投资标的包括流动性较好的股票及股票指数产品。
通联数据董事长肖风在《投资革命》中写道,Derwent的投资策略是通过实时跟踪Twitter用户的情绪,以此感知市场参与者的“贪婪与恐惧”,从而判断市场涨跌来获利。
在Derwent的网页上可以看到这样一句话:“用实时的社交媒体解码暗藏的交易机会。”保罗·霍丁在基金宣传册中表示:“多年以来,投资者已经普遍接受一种观点,即恐惧和贪婪是金融市场的驱动力。但是以前人们没有技术或数据来对人类情感进行量化。这是第四维。Derwent就是要通过即时关注Twitter中的公众情绪,指导投资。”
另一家位于美国加州的对冲基金MarketPsych与汤普森·路透合作提供了分布在119个国家不低于18864项独立指数,比如每分钟更新的心情状态(包括乐观、忧郁、快乐、害怕、生气,甚至还包括创新、诉讼及冲突情况等),而这些指数都是通过分析Twitter的数据文本,作为股市投资的信号。
此类基金还在不断涌现。金融危机后,几个台湾年轻人在波士顿组建了一家名为FlyBerry的对冲基金,口号是“Modeling the World(把世界建模)”。它的投资理念全部依托大数据技术,通过监测市场舆论和行为,对投资做出秒速判断。
关于社交媒体信息的量化应用,在股票投资之外的领域也很常见:Twitter自己也十分注重信息的开发挖掘,它与DataSift和Gnip两家公司达成了一项出售数据访问权限的协议,销售人们的想法、情绪和沟通数据,从而作为顾客的反馈意见汇总后对商业营销活动的效果进行判断。从事类似工作的公司还有DMetics,它通过对人们的购物行为进行分析,寻找影响消费者最终选择的细微原因。
回到股票世界,利用社交媒体信息做投资的公司还有StockTwits。打开这家网站,首先映入眼帘的宣传语是“看看投资者和交易员此刻正如何讨论你的股票”。正如其名,这家网站相当于“股票界的Twitter”,主要面向分析师、媒体和投资者。它通过机器和人工相结合的手段,将关于股票和市场的信息整理为140字以内的短消息供用户参考。
此外,StockTwits还整合了社交功能,并作为插件可以嵌入Twitter、Facebook和LinkedIn等主要社交平台,让人们可以轻易分享投资信息。
另一家公司Market Prophit也很有趣。这家网站的宣传语是“从社交媒体噪音中提炼市场信号”。和StockTwits相比,Market Prophit更加注重大数据的应用。它采用了先进的语义分析法,可以将Twitter里的金融对话量化为“-1(极度看空)”到“1(极度看多)”之间的投资建议。网站还根据语义量化,每天公布前十名和后十名的股票热度榜单。网站还设计了“热度地图”功能,根据投资者情绪和意见,按照不同板块,将板块内的个股按照颜色深浅进行标注,谁涨谁跌一目了然。
中国原创大数据指数
尽管大数据策略投资在美国貌似炙手可热,但事实上,其应用尚仅限于中小型对冲基金和创业平台公司。大数据策略投资第一次被大规模应用,应归于中国的百发100。
网络金融中心相关负责人表示,与欧美等成熟资本市场主要由理性机构投资者构成相比,东亚尤其是中国的股票类证券投资市场仍以散户为主,因此市场受投资者情绪和宏观政策性因素影响很大。而个人投资者行为可以更多地反映在互联网用户行为大数据上,从而为有效地预测市场情绪和趋势提供了可能。这也就是中国国内公募基金在应用互联网大数据投资方面比海外市场并不落后、甚至领先的原因。
百发100指数由网络、中证指数公司、广发基金联合研发推出,于2014年7月8日正式对市场发布,实盘运行以来一路上涨,涨幅超过60%。跟踪该指数的指数基金规模上限为30亿份,2014年9月17日正式获批,10月20日发行时一度创下26小时疯卖18亿份的“神话”。
外界都知道百发100是依托大数据的指数基金,但其背后的细节鲜为人知。
百发100数据层面的分析分为两个层面,即数据工厂的数据归集和数据处理系统的数据分析。其中数据工厂负责大数据的收集分析,例如将来源于互联网的非结构化数据进行指标化、产品化等数据量化过程;数据处理系统,可以在数据工厂递交的大数据中寻找相互统计关联,提取有效信息,最终应用于策略投资。
“其实百发100是在传统量化投资技术上融合了基于互联网大数据的市场走势和投资情绪判断。”业内人士概括道。
和传统量化投资类似,百发100对样本股的甄选要考虑财务因子、基本面因子和动量因子,包括净资产收益率(ROE)、资产收益率(ROA)、每股收益增长率(EPS)、流动负债比率、企业价值倍数(EV/EBITDA)、净利润同比增长率、股权集中度、自由流通市值以及最近一个月的个股价格收益率和波动率等。
此外,市场走势和投资情绪是在传统量化策略基础上的创新产物,也是百发100的核心竞争力。接近网络的人士称,市场情绪因子对百发100基金起决定性作用。
网络金融中心相关负责人是罗伯特•席勒观点的支持者。他认为,投资者行为和情绪对资产价格、市场走势有着巨大的影响。因此“通过互联网用户行为大数据反映的投资市场情绪、宏观经济预期和走势,成为百发100指数模型引入大数据因子的重点”。
传统量化投资主要着眼点在于对专业化金融市场基本面和交易数据的应用。但在网络金融中心相关业务负责人看来,无论是来源于专业金融市场的结构化数据,还是来源于互联网的非结构化数据,都是可以利用的数据资源。因此,前文所述的市场情绪数据,包括来源于互联网的用户行为、搜索量、市场舆情、宏观基本面预期等等,都被网络“变废为宝”,从而通过互联网找到投资者参与特征,选出投资者关注度较高的股票。
“与同期沪深300指数的表现相较,百发100更能在股票市场振荡时期、行业轮动剧烈时期、基本面不明朗时期抓住市场热点、了解投资者情绪、抗击投资波动风险。”网络金融中心相关负责人表示。
百发100选取的100只样本股更换频率是一个月,调整时间为每月第三周的周五。
业内人士指出,百发100指数的月收益率与中证100、沪深300、中证500的相关性依次提升,说明其投资风格偏向中小盘。
但事实并非如此。从样本股的构成来说,以某一期样本股为例,样本股总市值6700亿元,占A股市值4.7%。样本股的构成上,中小板21只,创业板4只,其余75只样本股均为大盘股。由此可见,百发100还是偏向大盘为主、反映主流市场走势。
样本股每个月的改变比例都不同,最极端的时候曾经有60%进行了换仓。用大数据预测热点变化,市场热点往往更迭很快;但同时也要考虑交易成本。两方面考虑,网络最后测算认为一个月换一次仓位为最佳。
样本股对百发100而言是核心机密——据说“全世界只有基金经理和指数编制机构负责人两个人知道”——都是由机器决定后,基金经理分配给不同的交易员建仓买入。基金经理也没有改变样本股的权利。
展望未来,网络金融中心相关负责人踌躇满志,“百发100指数及基金的推出,只是我们的开端和尝试,未来将形成多样化、系列投资产品。”
除了百发100,目前市场上打着大数据旗帜的基金还有2014年9月推出的南方-新浪I100和I300指数基金。
南方-新浪I100和I300是由南方基金、新浪财经和深圳证券信息公司三方联合编制的。和百发100类似,也是按照财务因子和市场情绪因子进行模型打分,按照分值将前100和前300名股票构成样本股。推出至今,这两个指数基金分别上涨了10%左右。
正如百发100的市场情绪因子来自网络,南方-新浪I100和I300的市场情绪因子全部来自新浪平台。其中包括用户在新浪财经对行情的访问热度、对股票的搜索热度;用户在新浪财经对股票相关新闻的浏览热度;股票相关微博的多空分析数据等。
此外,阿里巴巴旗下的天弘基金也有意在大数据策略上做文章。据了解,天弘基金将和阿里巴巴合作,推出大数据基金产品,最早将于2015年初问世。
天弘基金机构产品部总经理刘燕曾对媒体表示,“在传统的调研上,大数据将贡献于基础资产的研究,而以往过度依赖线下研究报告。大数据将视野拓展至了线上的数据分析,给基金经理选股带来新的逻辑。”
在BAT三巨头中,腾讯其实是最早推出指数基金的。腾讯与中证指数公司、济安金信公司合作开发的“中证腾安价值100指数”早在2013年5月就发布了,号称是国内第一家由互联网媒体与专业机构编制发布的A股指数。不过,业内人士表示,有关指数并没有真正应用大数据技术。虽然腾讯旗下的微信是目前最热的社交平台,蕴藏了大量的社交数据,但腾讯未来怎么开发,目前还并不清晰。
大数据投资平台化
中欧商学院副教授陈威如在其《平台战略》一书中提到,21世纪将成为一道分水岭,人类商业行为将全面普及平台模式,大数据金融也不例外。
然而,由于大数据模型对成本要求极高,就好比不可能每家公司都搭建自己的云计算系统一样,让每家机构自己建设大数据模型,从数据来源和处理技术方面看都是不现实的。业内人士认为,大数据未来必将成为平台化的服务。
目前,阿里、网络等企业都表示下一步方向是平台化。
蚂蚁金服所致力搭建的平台,一方面包括招财宝一类的金融产品平台,另一方面包括云计算、大数据服务平台。蚂蚁金服人士说,“我们很清楚自己的优势不是金融,而是包括电商、云计算、大数据等技术。蚂蚁金服希望用这些技术搭建一个基础平台,把这些能力开放出去,供金融机构使用。”
网络亦是如此。接近网络的人士称,未来是否向平台化发展,目前还在讨论中,但可以确定的是,“网络不是金融机构,目的不是发产品,百发100的意义在于打造影响力,而非经济效益。”
当BAT还在摸索前行时,已有嗅觉灵敏者抢占了先机,那就是通联数据。
通联数据股份公司(DataYes)由曾任博时基金副董事长肖风带队创建、万向集团投资成立,总部位于上海,公司愿景是“让投资更容易,用金融服务云平台提升投资管理效率和投研能力”。该平台7月上线公测,目前已拥有130多家机构客户,逾万名个人投资者。
通联数据目前有四个主要平台,分别是通联智能投资研究平台、通联金融大数据服务平台、通联多资产投资管理平台和金融移动办公平台。
通联智能投资研究平台包括雅典娜-智能事件研究、策略研究、智能研报三款产品,可以对基于自然语言的智能事件进行策略分析,实时跟踪市场热点,捕捉市场情绪。可以说,和百发100类似,其核心技术在于将互联网非结构化数据的量化使用。
通联金融大数据服务平台更侧重于专业金融数据的分析整理。它可以提供公司基本面数据、国内外主要证券、期货交易所的行情数据、公司公告数据、公关经济、行业动态的结构化数据、金融新闻和舆情的非结构化数据等。
假如将上述两个平台比作“收割机”,通联多资产投资管理平台就是“厨房”。在这个“厨房”里,可以进行全球跨资产的投资组合管理方案、订单管理方案、资产证券化定价分析方案等。
通联数据可以按照主题热点或者自定义关键字进行分析,构建知识图谱,将相关的新闻和股票提取做成简洁的分析框架。例如用户对特斯拉感兴趣,就可以通过主题热点看到和特斯拉相关的公司,并判断这个概念是否值得投资。“过去这个搜集过程要花费几天时间,现在只需要几分钟就可以完成。”王政表示。
“通联数据就好比一家餐馆,我们把所有原料搜集来、清洗好、准备好,同时准备了一个锅,也就是大数据存储平台。研究员和基金经理像厨师一样,用原料、工具去‘烹制’自己的策略。”王政形容道。
大数据在平台上扮演的角色,就是寻找关联关系。人类总是习惯首先构建因果关系,继而去倒推和佐证。机器学习则不然,它可以在海量数据中查获超越人类想象的关联关系。正如维克托`迈尔-舍恩伯格在《大数据时代》中所提到的,社会需要放弃它对因果关系的渴求,而仅需关注相互关系。
例如,美国超市沃尔玛通过大数据分析,发现飓风用品和蛋挞摆在一起可以提高销量,并由此创造了颇大的经济效益。如果没有大数据技术,谁能将这毫无关联的两件商品联系在一起?
通联数据通过机器学习,也能找到传统量化策略无法发现的市场联系。其中包括各家公司之间的资本关系、产品关系、竞争关系、上下游关系,也包括人与人之间的关系,例如管理团队和其他公司有没有关联,是否牵扯合作等。
未来量化研究员是否将成为一个被淘汰的职业?目前研究员的主要工作就是收集整理数据,变成投资决策,而之后这个工作将更多由机器完成。
“当初医疗科技发展时,人们也认为医生会被淘汰,但其实并不会。同理,研究员也会一直存在,但他们会更注重深入分析和调研,初级的数据搜集可以交给机器完成。”王政表示。
但当未来大数据平台并广泛应用后,是否会迅速挤压套利空间?这也是一个问题。回答根据网上资料整理
『陆』 大数据可以应用在哪些方面
可以应用在云计算方面。
大数据具体的应用:
1、洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
2、google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
3、统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。
4、麻省理工学院利用手机定位数据和交通数据建立城市规划。
5、梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
6、医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
7、及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
8、为成千上万的快递车辆规划实时交通路线,躲避拥堵。
9、分析所有SKU,以利润最大化为目标来定价和清理库存。
10、根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
大数据的用处:
1、与云计算的深度结合。大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。
自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
2、科学理论的突破。随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
网络--大数据
『柒』 大数据时代来临,银行怎么办
大数据概念的兴起似乎还是昨天的事,但托这个高速发展时代的福,我们已经可以看到很多成熟的大数据应用工具了。在很短的时间内,我们就能在茫茫的数据海洋中精确定位、分析,并拿到自己想要的结果。当然,这些技术的进步并非由银行推动,大型零售商、网上商城和各种门类的技术公司才是大数据的主导者,只不过,经过他们的探索之后,大数据也为银行打开了一扇精确营销的大门。从长远来看,银行如能充分利用大数据的优势,可以在市场细分、客户服务、客户研究、产品研发、产品测试等等方面取得重大进步,并在某种程度上彻底改变银行服务客户、销售产品的方式和渠道。 当然,这一切的前提是银行能找对切入大数据时代的方法和工具。对于银行来说,以正确的数量模型和分析方式来契合银行目前的业务需求,是合理利用大数据,达成更多经济回报的关键。其他行业的经验已经证明,大数据固然好,但如果不能对数据进行有效筛选和正确利用,最后只会赔了夫人又折兵。尤其银行是一个比较特殊且敏感的行业,在全局层面彻底进行所谓大数据革命是不实际的,正确的做法是从小的具体业务和关键节点入手,以能被银行现有管理架构和外部监管机制接受的方式,逐步将大数据纳入银行的经营体系中来。 举例来说,当前银行业普遍在为两件事头疼:留住客户、满足客户的期待。对于这两个难题,大数据机制下的情绪分析和行为预测可以发挥意想不到的作用。 分析客户情绪 传统的客户意见收集及调查方式往往以一个组别为单位,通过对于部分群体客户的调查和研究,银行可以得到客户方方面面的情况。随着时代的进步,这样的方式在获得客户金融消费的最新趋势、挖掘客户隐藏的需求等方面已不太管用。最为致命的一点是,这样的客户信息、数据收集方式往往耗时较长,花费更多,但最终得出的结果又往往无法应对客户实时产生的需求变化。 所谓情绪分析,是指收集客户在包括社交网络在内的网络平台上的言论和活动,不仅包括他自己的部分,还包括他最近关联到的其他好友,由此得到的数据,经过一套科学设计过的计算、分析系统,得出某个具体客户近期的情绪走向,为预测客户行动、帮助银行指定具体的应对措施提供帮助。 在这里,“情绪”并不简单代表客户的情感变化,还包括客户的态度立场、情感倾向等等。这在以往的调查分析工具中,是极难把握的东西,但在这个自媒体时代,这样的信息散布在网络上,极易获取、分析。而且抓取、分析这些数据的方法已经相当成熟,从宅在家里的技术男,到正经严肃的学院派,大家都在推出这样的工具。银行只需要选择一个比较稳定的技术供应商,并将结果实时反馈、整合到自己的系统中来,就能在第一时间确定客户对于银行的产品、服务、定价或政策调整的反应,并采取合适的方式应对。如果客户的反应对银行有利,银行可以及时介入,对客户的情绪加以引导,以实现更好的服务和销售;如果客户对银行表露出不太好的情感,银行也能及时发觉并积极处理,进一步提升客户的服务体验。 下面举出几个银行必须及时关注的客户表态例子: “XXX银行在小微业务上的确很好用,但缺乏合适的当天到账服务就太那啥了!” “XX银行的网上查阅账户余额功能的确设计得不错,但客户服务的一些细节真的有待改善。” 以普通人的角度,这不过是两句简单的客户意见表达而已。但在情绪分析工具的帮助下,通过对于“好用”、“缺乏”、“改善”等关键词汇的识别与统计,以及对于上下文意思的了解,就可以形成一张完整的客户情绪变化表,将更多的客户情绪变化汇集到一起,就可以形成一份颇具价值的报告(所谓舆情监控就是这类报告的简单形态)。通过这些报告,银行可以知道自己在客户心中真实的反馈,并知道客户最需要银行在哪些方面做出改变。也就是说,银行可以得知客户的“心愿单”,并将此纳入自己的产品、服务革新计划当中,逐一予以满足。 对于银行来说,客户情绪分析最有用的一点是帮助银行更有效率地回馈客户。我们都组织过各种客户回馈活动,但又不知究竟应当挑选哪些客户进行回馈、哪些客户经过我们的维护可以促成更多的交易——大部分时候,银行只是完成既定的任务,将礼品派送出去就完事,以为这样就能在激烈的竞争中留住自己的目标客户。而现在,银行可以在客户情绪分析工具的帮助下更有选择的进行类似的活动。例如,近期要做一个针对产品的活动,就以产品为关键词,对当前的客户情绪进行研判,得出主流客户群体对于我们产品的态度,再依照态度的不同来选择不同的活动策略和活动力度。这样不仅能帮银行节约成本、提高效率,最为重要的是,这也是维持现有客户忠诚度,并尽可能多地吸收目标客户的有效方式。 当然,批评者会说,目前虽然有大量的客户情绪分析工具,但这些工具的可行性与分析结果的真实性一直都存在疑问。已经有一些银行依照这些工具的帮助进行了一些实验,效果并未如想象中理想。那么,银行应当怎么应对这种尚处在完善过程当中的新兴事物呢?我们的态度很明确:虽然这还是一个有待完善的工具,但大数据的整体趋势是不容置疑的。当银行等到一切都齐备完善到不会出错时,其实就已经落后于时代的脚步了。要想成为行业的领军者,就必须承受创新可能带来的负面效应。 预测客户行为 比分析客户情绪更大的挑战是预测客户行为。关于大数据如何应用于预测客户行为最早最著名的例子,来自美国第二大超市塔吉特百货。明尼苏达州一家塔吉特门店曾被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。 对于银行来说,正确地预计消费者的需求,并及时组织好可匹配的产品与服务响应客户的需求还是一件比较难完成的任务。这需要大量历史数据的储存与分析,还需要有应对各种行为可能的预测机制(不同的行为意味着不同的算法),才能实现塔吉特百货那样“料事如神”的效果。令人头疼的是,零售银行所需的数据关联性与零售商业的数据存在着一定的差异,因此需要针对银行产品和服务的特点进行重新设计。只要银行能解决这样的问题,并把分析的结果实时、具象的体现在前端营销人员的电脑、手机里,就能帮银行解决很多眼下头疼的问题。在全局层面上,这样的预测机制也能帮银行少走很多弯路,避免不必要的资源浪费。 银行可以根据客户以往的消费记录,尤其是与金融产品直接相关的消费记录,以及目前所持有的银行产品的使用情况建立数据收集模型,通过一定时间的数据收集和分析之后,便能为银行下一步的产品策划与营销提供翔实的数据参考。在此基础上,诸如交叉销售、深度挖潜、提升单个客户贡献度、保持客户忠诚度等等业绩或营销目标都能更轻松的完成。当你知道客户的情绪变化,还知道客户可能的购买需求,只要你能以合适的方式将客户所需要的东西及时递上,客户自然会乐意接受。 以合适的方式来发挥大数据的效用非常重要。大数据可能带来的一个负面效应就是客户隐私的被侵犯,前面提到的塔吉特百货就是一个例子。在这个事件之后,塔吉特百货调整了自己寄送优惠广告的方式:当发现某位客户可能怀孕之后,塔吉特百货还是会寄送一份包含孕妇所需产品的小册子到她手上,只不过通过视觉排版、其他品类产品交叉排列等等方式,在不引发客户那种“被窥视”的反感的前提下,实现了产品的精准推荐。最终,在大数据的帮助下,2002年到2010年间,塔吉特百货的销售额从440亿美元增长到了670亿美元。 值得一提的是,大数据应用还能帮助银行实现有效的风控。国外已经有一些金融机构利用大数据来帮助金融产品交易、信用卡消费等方面的风控。尤其是在信用卡、无抵押贷款等产品上,通过大数据建立的模型,银行能准确的知晓某个客户的生活和消费情况,从而选择是不是要发放卡片/贷款给他,或者要不要给他提升额度、延迟还款期。一旦某个客户出现异常行为,银行也能在最短的时间内知晓,并采取相应的措施防止风险案件的发生。 总之,虽然还不够完善,但大数据拥有无可限量的未来。
『捌』 大数据分析与金融有哪些结合点
在银行业的应用主要表现在两个方面:一是信贷风险评估。以往银行对企业客户的违约风险评估多基于过往的信贷数据和交易数据等静态数据,内外部数据资源整合后的大数据可提供前瞻性预测。二是供应链金融。
利用大数据技术,银行可以根据企业之间的投资、控股、借贷、担保及股东和法人之间的关系,形成企业之间的关系图谱,利于企业分析及风险控制。
在证券行业的应用主要表现为:一是股市行情预测。大数据可以有效拓宽证券企业量化投资数据维度,帮助企业更精准地了解市场行情,通过构建更多元的量化因子,投研模型会更加完善。
二是股价预测。大数据技术通过收集并分析社交网络如微博、朋友圈、专业论坛等渠道上的结构化和非结构化数据,形成市场主观判断因素和投资者情绪打分,从而量化股价中人为因素的变化预期。三是智能投资顾问。
智能投资顾问业务提供线上投资顾问服务,其基于客户的风险偏好、交易行为等个性化数据,依靠大数据量化模型,为客户提供低门槛、低费率的个性化财富管理方案。
在互联网金融行业的应用,一是精准营销。大数据通过用户多维度画像,对客户偏好进行分类筛选,从而达到精准营销的目的。二是消费信贷。基于大数据的自动评分模型、自动审批系统和催收系统可降低消费信贷业务违约风险。
『玖』 如何用大数据分析金融数据
任何数据分析的前提是首先要理解业务模型,从你的金融数据是怎么产内生的,包括哪些容指标哪些数据,你的分析是要为什么业务服务的,也就是你的目的。比如你分析金融数据的目的是要找出最有价值的金融产品,还是最有价值的客户,还是寻找最有效的成本节约途径等
在弄清楚你的分析目的,和理解清楚你的业务模式等之后,再考虑你需要采用哪些数据,采用什么方法来进行分析,这才涉及到如何进行具体的分析过程。
从整个大数据分析来看,前期的业务理解和数据整理大概要耗费一大半的精力和时间,弄清楚前期,后期的分析则会很快。