量化分析如何体现在数据上

2024-05-09 17:46

1. 量化分析如何体现在数据上

利用计算机技术采用一定的数学模型(或者是机器学习模型)去实践投资理念,投资策略的过程。随着计算机科技的发展,将已有的价值投资/趋势投资和计算机技术相融合,产生量化投资(量化分析)。
量化分析可以帮助我们更加方便和直观地衡量风险和收益,但需要强调指出的是,美国华尔街顶级量化金融大师、哥伦比亚大学著名教授伊曼纽尔·德曼,在《数学建模如何诱骗了华尔街》一文中,毫无忌讳地承认。
我们根本不可能(通过数理分析方法)发明出一个能够预测股票价格将会如何变化的模型;如果我们相信人类行为可完全遵守数学法则,从而把有着诸多限制的模型与理论相混淆的话,其结果肯定会是一场灾难。

简介
量化投资技术几乎覆盖了投资的全过程,包括量化选股、量化择时、股指期货套利、商品期货套利、统计套利、算法交易,资产配置,风险控制等。
量化分析法将对通过定性风险分析排出优先顺序的风险进行量化分析。尽管有经验的风险经理有时在风险识别之后直接进行定量分析,但定量风险分析一般在定性风险分析之后进行。定量风险分析一般应当在确定风险应对计划时再次进行,以确定项目总风险是否已经减少到满意。

量化分析如何体现在数据上

2. 数据分析前的量化工作

(图片来自:pixabay.com)如果讲到数据分析前有哪些事是需要我们做的,那么有几个关键词:数据采集、特征提取、数据标准化、数据清洗和数据预处理,这些是常规数据分析前的工作。
那么再来看一下常规数据分析的流程,首先我们会有个需求,中间通过一些阶段,到达数据预处理。通常做数据分析的人员是从这一步开始,拿到数据开始预处理以及数据分析、建模、结果可视化或者是产品的输出。今天我想跟大家分享的是,中间通过的这些阶段,有了需求之后,到数据采集这个阶段,中间还需要利用数据分析方法做的事,包括数据采集中一部分量化的事情,也就是采集前,我们需要量化好后,才能做采集。
首先,需求理解与沟通
我们拿到了需求,这个需求可能是从客户那沟通来的,也可能是领导给我们讲的一句话,讲的过程当中,不同的人,沟通表达的复杂程度完全不同,有些人条理非常清楚、需求罗列,有的人讲的天花乱坠,最后说我的需求就这样,你们自己看着办,非常的发散和开放。
那么这个时候,他的主题可能总结就一句话,我们第一步就是要细化研究类工作。我给大家举个例子:我们早上都在食堂吃过早餐,吃鸡蛋的时候大家可能发现,有的鸡蛋壳容易剥,甚至直接吹就能吹下来,有的鸡蛋壳非常难剥,如果领导问你,利用数据分析,说一下这个问题,你会从哪里入手。
拿到这样一个生活场景里非常小的问题:熟鸡蛋为什么有些难剥有些容易剥?如果你拿到这个问题,你的第一反应是不是,我要数据。然后领导就说你可以回去了。这个数据,是要我们自己设计实现去收集的。
我们常规的数据分析的人员习惯别人提供整理好的数据进行分析,但数据怎么收集,收集哪些数据,通常也是数据分析的工作。
再看第二个例子:基本每一年,媒体都会发布这样的消息,高考后的家庭,离婚率会增加,民政局就很想辟谣这个事情,如果让我们来做,我们可以怎么做。
看第三个例子:很长时间在知乎上特别火的帖子,男女之间有没有纯洁的友谊。
拿到这个需求,作为数据分析人员,第一步,拆解多个子话题(子需求),子需求的拆解并不是凭空想象的,听到这个话题的时候,有多个结论,比如说,知乎上就有几个点赞率非常高的结论,第一个就是,男女之间有纯洁的友谊,越丑越纯;还有人说,等到结婚后就有纯洁的友谊了。因为我们研究的精力有限,我们需要把大的话题拆分成多个,从多个中先选一到两个进行研究。所以我们拆分:是不是所有的男女之间都有纯洁的友谊,还是有些人有、有些人没有;越丑越纯——友谊跟颜值有没有关系,有什么关系,颜值在其中起到多大作用;结婚(更年期)之后才纯洁——友谊跟年龄有没有关系;纯洁的纯度有多高;纯洁的纯度会不会有变化。这些都是经过细化后的子研究内容,然后再去选取内容,收集数据。
第二步,有了研究内容后,我们需要对概念进行操作化。
可能大家没有听说过这些,但我们肯定听过另外一个名词——抽象化或者叫做概念化,把抽象化的过程反过来,叫做操作化。
以鸡蛋难剥这个事情为例,可以操作化拆成两个,鸡蛋的完整度和剥壳的时间,鸡蛋的完整度是测量剥完鸡蛋后还剩下多少。通过概念操作化,我们实现了把宏观概念转化成可测量的微观概念,有了微观概念,下一步,如何测量。剥壳时间直接用表就可以测,那么完整度怎么测呢?剥完之后,鸡蛋的表面可能是坑坑洼洼的,也可能掉了一半等等情况,概念操作化有一套严谨的方法论。抽象化的过程往往不同人做出来的结果是不一样的,重复性比较差,但是操作化,不同人来做,往往重复性非常高,因为遵循了一套理论——概念界定、概念分类、设计自然指标。
经过操作化之后,我们要设计指标以及测量工具。
再来说男女之间纯洁友谊的话题,我们界定一个指标叫做友谊的纯洁度,这个指标也不是一两句话就可以把握的,所以我们要设计一个专门的测量工具。有人可能会说,我做数据分析的,这些推给产品经理做就可以了,通常也确实这么做的,但是掌握数据分析方法分析出来的数据和没有掌握方法出来的数据,往往有很大不同,有着可以落地和不可以落地的差别。
有了测量工具后,接下来需要检验:有效度、难易程度(针对不同人群)、信度、敏感度。
可以利用数据分析方法:项目分析、探索性因子分析、验证性因子分析,聚类分析、IRT等等对测量工具进行验证。如果测量工具无效的话,那么后续都不会有效,所以测量工具的非常重要,这些验证需要两年或者更久的时间,最终得到精简有效的测量工具。当然现在已经有一些成熟的测量工具验证量表了,同样,这些量表在心理学中应用非常广泛。
那么,测量工具检验完,是不是就开始数据收集呢?不是的。
下一步需要进行理论模型设计
在做大数据的时候,包括数据挖掘等相关分析,方法都是涉及一个输入层一个输出层,这是个常规的模型,但是在实际问题中,很多模型都不是这样的,比如贝叶斯模型,我们研究人员肯定不会设计出这些东西,可能贝叶斯、马尔科夫这些都没有听说过,只有懂数据分析方法的人,了解这些方法,根据我们的业务,涉及多少关系,关系是单向还是双向的,等等,这样的图首先是懂数据分析方法的研究人员设计出来,接下来才会进入到数据收集阶段。
数据收集可以在网上爬虫、直接从数据库导入数据、线下采集等途径。
这里还要提及抽样方法,抽样的方法有很多种,通过不同理论模型选取不同的抽样方法。举一个案例:北方到冬天会有暖气,采暖就会产生空气污染,那么暖气对人的寿命会不会产生影响呢?
我们如何用数据分析的方法验证这个事情,数据我们要怎么取呢?我们常规的思路是在北方和南方各找一些人,看看暖气对寿命会不会产生影响。
但是这里涉及因果关系的验证,因果关系在关系中有三个前提,第一个是,两个事件必须相关;第二个是,原因事件必须发生在结果事件之前;第三个就是,需要控制住干扰因素。
这个案例,有学者在常规方法基础上提出改进和创新,叫做断点回归。他不是在北方和南方去抽,他在中国的南北分界线的地方抽取,我们知道,寿命跟很多因素有关系,选择淮河两岸的人员,可以有效保证他们生活的环境等因素大致相同,然后他得到结论,有暖气会让人的寿命减少5.5年。上不上一本对未来发展有没有影响,影响有多大?学者选取某省一本线的曲线,上下加减5分,在这个10分带中,人的未来发展差别。同样,这个案例也是利用断点回归的方法。在现实其他场景中,人们一般会考虑多个因素,那么涉及多个因素的所有人群是不是都要包含呢?其实不是,日本统计学家发明一种正交设计方法,挑取特定的覆盖特征数据进行采集。
接下来,数据二次抽样。
吉野家在做各种促销活动,有次对营销平台进行改进,实验组,把展示图片换成性感女模特的照片,配上宣传文稿;对照组就用普通的图片配上文字。得到促销结果令人十分意外,实验组促销比对照组要低得多,找原因,利用二次抽样,二次抽样的方法有PSM模型,这个方法使对照组和实验组数据一一匹配,可以有效解决样本选择性偏差。
上边就是数据分析前,需要大家做的各种量化工作。

3. 量化数据分析基本来源

量化数据分析基本来源 
量化数据分析来源基本上可以分为五类:基础数据平台、特色数据平台、量化平台、研究报告平台和综合平台,上图再稍加解释。
第一类是基础数据平台,指的是诸如我们用的券商软件、通达信、大智慧、好买/天天基金平台、东财网站等,它们提供行情、财报、资讯等基础信息,这是大部分投资者都会接触到的平台。
第二类是特色数据平台,比如集思录主打各种低风险投资,提供了各种特色数据;此类平台比如理性人、九斗等;东财网站也有不少特色数据。喜欢量化分析、理性投资、价值投资的朋友中很多都会用到这些平台。
第三类是量化平台,果仁、优矿、聚宽、米筐等,这类平台自己购买专业数据,做清洗加工、接口封装提供给用户,用户用这些数据编写策略并回测验证。这里汇集了一大波量化分析爱好者。
第四类是研究报告平台,这些券商发布的金工、策略、宏观、固收、行业、公司研究等方面的报告很多有价值,当然水的报告也很多。对量化分析爱好者而言,往往喜欢金工部门的报告,数据最多,论证严谨。可以从慧博、券商相关部门官网公众号等获取这些报告,重点关注得过新财富大奖的优秀团队的报告。
第五类是综合类平台,最专业的当然是Wind了,没列彭博是因为都没见过长啥样。追随者是Choice、IFinD。这些平台的特点是无所不包,数据大而全,上面提的它都有,上面没有的数据它也有。要不然机构都在用呢,当然这些金融终端个个收费不菲。
这些平台当然也可以归结到工具类,最给力的当然是Wind了,最好带上量化接口,不过能拥有它那是阿甘的梦想,现在用不起啊。
估值数据结果基于上一交易日行情数据进行计算,与上一交易日的计算结果相比,全市场估值略有下降,历史百分位虽然几乎是60%,但这是好久好久以来第一次出现在60%以下,毫无疑问,市场行情和不断发布的三季报导致了估值的下降。

量化数据分析基本来源

4. 量化分析的介绍

量化分析就是将一些不具体,模糊的因素用具体的数据来表示,从而达到分析比较的目的。

5. 什么是量化分析

量化分析还作为一种分析方法,通过定性风险分析排出优先顺序的风险进行量化分析。量化分析已经遍布于我们生活中各个方面,多用于金融、经济等领域。通过这种方法,它可以帮助我们更加方便和直观地衡量风险和收益,例如在股市上量化分析,就表现在各种趋势图。

什么是量化分析

6. 量化分析是什么?

量化分析就是将一些不具体,模糊的因素用具体的数据来表示,从而达到分析比较的目的。人类对于股市波动规律的认知,是一个极具挑战性的世界级难题。
量化投资技术几乎覆盖了投资的全过程,包括量化选股、量化择时、股指期货套利、商品期货套利、统计套利、算法交易,资产配置,风险控制等。

虽然量化分析可以帮助我们更加方便和直观地衡量风险和收益,但需要强调指出的是,美国华尔街顶级量化金融大师、哥伦比亚大学著名教授伊曼纽尔·德曼,在《数学建模如何诱骗了华尔街》一文中,毫无忌讳地承认。
我们根本不可能(通过数理分析方法)发明出一个能够预测股票价格将会如何变化的模型;如果我们相信人类行为可完全遵守数学法则,从而把有着诸多限制的模型与理论相混淆的话,其结果肯定会是一场灾难。

7. 什么是量化分析?

量化分析就是分析数据化 混沌理论 :“相对论消除了关于绝对空间和时间的幻想;量子力学则消除了关于可控测量过程的牛顿式的梦;而混沌则消除了拉普拉斯关于决定论式可预测的幻想。” 一点就是未来无法确定。如果你某一天确定了,那是你撞上了。 第二事物的发展是通过自我相似的秩序来实现的。看见云彩,知道他是云彩,看见一座山,就知道是一座山,凭什么?就是自我相似。这是混沌理论两个基本的概念。 混沌理论还有一个是发展人格,他有三个原则,: 1、能量永远会遵循阻力最小的途径 2、始终存在着通常不可见的根本结构,这个结构决定阻力最小的途径。 3、这种始终存在而通常不可见的根本结构,不仅可以被发现,而且可以被改变。 一、混沌理论(Chaos theory)是一种兼具质性思考与量化分析的方法,用以探讨动态系统中(如:人口移动、化学反应、气象变化、社会行为等)无法用单一的数据关系,而必须用整体、连续的数据关系才能加以解释及预测之行为。 二、混沌一词原指宇宙未形成之前的混乱状态,我国及古希腊哲学家对于宇宙之源起即持混沌论,主张宇宙是由混沌之初逐渐形成现今有条不紊的世界。在井然有序的宇宙中,西方自然科学家经过长期的探讨,逐一发现众多自然界中的规律,如大家耳熟能详的地心引力、杠杆原理、相对论等。这些自然规律都能用单一的数学公式加以描述,并可以依据此公式准确预测物体的行径。 三、近半世纪以来,科学家发现许多自然现象即使可化为单纯的数学公式,但是其行径却无法加以预测。如气象学家Edward Lorenz发现,简单的热对流现象居然能引起令人无法想象的气象变化,产生所谓的「蝴蝶效应」,亦即某地下大雪,经追根究底却发现是受到几个月前远在异地的蝴蝶拍打翅膀产生气流所造成的。一九六○年代,美国数学家Stephen Smale 发现,某些物体的行径经过某种规则性的变化之后,随后的发展并无一定的轨迹可寻,呈现失序的混沌状态。 四、混沌现象起因于物体不断以某种规则复制 前一阶段的运动状态,而产生无法预测的随机效果。所谓「差之毫厘,失之千里」正是此一现象的最佳批注。具体而言,混沌现象发生于易变动的物体或系统,该物体在行动之初极为单纯,但经过一定规则的连续变动之后,却产生始料所未及的后果,也就是混沌状态。但是此种混沌状态不同于一般杂乱无章的的混乱状况,此一混沌现象经过长期及完整分析之后,可以从中理出某种规则出来。混沌现象虽然最先用于解释自然界,但是在人文及社会领域中因为事物之间相互牵引,混沌现象尤为多见。如股票市场的起伏、人生的平坦曲折、教育的复杂过程。 五、混沌理论在教育行政、课程与教学、教育研究、教育测验等方面已经有些许应用的例子。由于教育的对象是人,人是随时变动起伏的个体,而教育的过程基本上依循一定的准则,并历经长期的互动,因此,相当符合混沌理论的架构。也因此,依据混沌理论,教育系统容易产生无法预期的结果。此一结果可能是正面的,也有可能是负面的。不论是正面或是负面的,重要的是,教育的成效或教育的研究除了短期的观察之外,更应该累积长期数据,从中分析出可能的脉络出来,以增加教育效果的可预测性,并运用其扩大教育效果。

什么是量化分析?

8. 数据分析模型解决什么的量化分析问题

您好,很高兴为您解答[鲜花]。、RFM模型RFM 分析是美国数据库营销研究所提出的一种简单实用的客户分析方法,发现客户数据中有三个神奇的要素:最近一次消费时间(R):客户距离最近的一次采购时间的间隔。最近一段时间内消费频次(F):指客户在限定的期间内所购买的次数。最近一段时间内消费金额(M):客户的消费能力,通常以客户单次的平均消费金额作为衡量指标。这三个要素构成了数分析最好的指标,RFM 分析也就是通过这个三个关键指标对客户进行观察和分类,针对不同的特的客户进行相应的营销策略,如下图所示:【摘要】
数据分析模型解决什么的量化分析问题【提问】
您好,很高兴为您解答[鲜花]。、RFM模型RFM 分析是美国数据库营销研究所提出的一种简单实用的客户分析方法,发现客户数据中有三个神奇的要素:最近一次消费时间(R):客户距离最近的一次采购时间的间隔。最近一段时间内消费频次(F):指客户在限定的期间内所购买的次数。最近一段时间内消费金额(M):客户的消费能力,通常以客户单次的平均消费金额作为衡量指标。这三个要素构成了数分析最好的指标,RFM 分析也就是通过这个三个关键指标对客户进行观察和分类,针对不同的特的客户进行相应的营销策略,如下图所示:【回答】
【回答】
最新文章
热门文章
推荐阅读