我们使用cookie,但是你可以在隐私设置中关闭它们。否则,你同意我们使用cookie。接受cookie并不意味着我们正在收集个人资料。学习更多在我们的隐私政策

2023年课程CFA项目我水平定量方法

组织、可视化和描述数据

下载完整的阅读(PDF)

提供给成员

介绍

数据一直是一个关键的输入证券分析和投资管理,但加速度在可用性和数据的数量也在推动投资行业的快速发展。随着大数据的兴起和机器学习技术,投资实践者拥抱一个时代大容量、高速度,和各种各样的数据。这复习阅读邀请你去探索和利用这些丰富的信息为您的投资策略。

虽然这个数据丰富的环境为投资者提供了潜在的巨大的机会,将数据转化为有用的信息并不是那么简单。组织、清洗和分析数据是至关重要的发展成功的投资策略;否则,我们最终得到的“垃圾和垃圾”和失败的投资。人们常说,分析师80%的时间花在发现,组织、清洁、和分析数据,而只有20%的她/他的时间被模型发展。所以,拥有一个正常组织的重要性,洁净,充分分析数据集不能被过分强调。这个基本要求,执行一个适当的数据分析可以检测中重要的关系数据,发现底层结构,识别异常值,提取潜在有价值的见解。利用可视化工具和量化方法,像那些覆盖在这个阅读、总结和理解数据的第一步是将输入到一个投资策略至关重要。

这个阅读提供了一个基础理解重要概念不可或缺的一部分投资从业人员所需的分析工具,从初级分析师高级投资组合经理。这些基本概念为更复杂的工具,将发展为主题展开定量方法和积分获得能力的投资管理技术和资产类别,提出了在CFA课程。

第2部分将介绍核心数据类型,包括连续和离散的数值数据,名义和顺序分类数据,结构化和非结构化数据。组织数据到数组和数据表和总结数据的频率分布和应急表是在第三节讨论。第四部分介绍了数据可视化的重要课题总结使用一系列的图表和图形,探索,并更好地理解数据。第五节介绍了集中趋势的关键措施,包括一些变异意味着特别有用的投资。分位数和他们的投资申请第六节的重点。第7节中讨论了色散的关键措施。数据的形状distributions-specifically、偏态和kurtosis-are覆盖部分8和9,分别。10节提供了一个图形介绍两个变量之间的协方差和相关性。阅读与总结总结。

学习成果

成员应该能够:

  1. 识别和比较数据类型;

  2. 描述数据是如何组织的定量分析;

  3. 解释相关的频率和分布;

  4. 解释一个列联表;

  5. 描述数据的方式可能是可视化和评估使用特定的可视化;

  6. 描述如何可视化类型之间的选择;

  7. 计算和解释集中趋势测量;

  8. 中选择替代的定义意味着解决投资问题;

  9. 计算分位数和解释相关的可视化;

  10. 计算和解释色散的措施;

  11. 计算和解释目标不利偏差;

  12. 解读偏态;

  13. 解释峰态;

  14. 解释两个变量之间的相关性。

总结

在这个阅读中,我们提出了工具和技术对组织、可视化和描述数据,允许我们将原始数据转换成有用的信息进行投资分析。

  • 数据可以被定义为一组数字,字符,文字,和文本以及图像、音频和视频原始或组织格式来表示事实或信息。

  • 从统计的角度来看,可分为数值数据和分类数据。数值数据(也称为定量数据)值,测量或计算量表示为一个数字。分类数据(也称为定性数据)值描述的质量或特征的一组观察,通常只需要有限数量的值是相互排斥的。

  • 数字数据可以进一步分为两种类型:连续和离散数据。连续数据可以测量,可以承担任何数值指定范围的值。离散数据而导致的数值计算过程,因此是有限的有限数量的值。

  • 分类数据可以进一步分为两种类型:额定数据和顺序数据。标称数据分类值不适合被组织为逻辑顺序,而顺序数据逻辑上是定值,可以命令或排名。

  • 根据他们如何收集,数据可以分为三种类型:横断面,时间序列和面板。时间序列数据是一个观察单位的观察序列在特定变量收集通常随着时间的推移,在离散和等距的间隔时间。横截面数据的列表一个特定变量的观察从多个观测单位在一个给定的时间点。面板数据的时间序列和横截面数据,由观察时间在一个或多个变量为多个观察单位。

  • 基于数据是否在一个高度有组织的形式,可以分为结构化和非结构化类型。结构化数据是高度组织在一个预定义的方式,通常与重复模式。非结构化数据不遵循任何传统组织形式;他们通常选择数据,因为他们通常收集非传统来源。

  • 原始数据通常是组织成一个一维数组或一个二维矩形数组(也称为一个数据表)进行定量分析。

  • 频率分布是一个列表显示的数据构造通过计算变量的观测不同值或团体或通过计算一个数值变量的值为一组数值下令垃圾箱。频率分布允许我们评估数据是如何分布。

  • 本的相对频率的观察(间隔或桶)观测的数量在本除以总数量的观察。累积相对频率堆积(增加)的相对频率随着我们从第一本到最后,这样就给的分数低于上限的观察每一个垃圾箱。

  • 列联表是一个表格格式显示两个或两个以上的分类变量的频率分布。列联表的一个应用程序是为评估分类模型的性能(使用混淆矩阵)。应急表的另一个应用程序是调查之间的潜在联系进行卡方检验两个分类变量的独立性。

  • 可视化表示的数据在一个图形或图形格式的目的是增加理解和获取洞察数据。

  • 直方图是一个条形图的数据分组到一个频率分布。频率多边形是获得的频率分布的图形绘制直线连续加入中点酒吧代表类的频率。

  • 条形图是用来情节分类数据的频率分布,每个酒吧代表不同的类别和酒吧的高度(或长度)与相应类别的频率成正比。分组条形图或堆叠柱形图可以同时存在多个分类变量的频率分布。

  • 一种非常直观的图形工具来显示分类数据。它由一组颜色的矩形代表不同的组,并且每个矩形的面积成正比的值对应的组。额外维度的分类数据可以显示嵌套的矩形。

  • 一个词云是代表文本数据的视觉装置,每个不同的字的大小是成正比的频率似乎在给定的文本。

  • 折线图是一种图形用于可视化要求经常观察和显示数据的变化。泡沫折线图是一种特殊类型的折线图,使用不同大小的泡沫作为数据点代表一个额外维度的数据。

  • 散点图是一种图形可视化联合两个数值变量的变化。它是由画点来表示两个变量的值绘制相应的轴。散点图矩阵组织之间的散点图双变量为一个矩阵格式检查所有成对超过两个变量之间的关系在一个视觉相结合。

  • 热点图是一种图形,组织和总结数据以表格格式,使用颜色光谱代表它。它通常用于显示频率分布或可视化的不同变量之间的相关程度。

  • 中重要的考虑因素在选择图表类型(即数据可视化的目的。,无论是探索/呈现分布或关系或进行比较)。

  • 人口是定义为一个指定的组的所有成员。一个示例是人口的一个子集。

  • 一个参数是任何描述性的人口。样本统计(统计,简称)是一个数量计算或用来描述样本。

  • 样本statistics-such集中趋势的指标,分散的措施,偏态,和kurtosis-help投资分析,特别是在概率表述的回报。

  • 集中趋势测量指定数据集中地点和包括的意思是,中位数和模式(即。最频繁发生的值)。

  • 算术平均是观察之和除以观察的数量。它是最常用的集中趋势。

  • 中位数的值是中间项(或两个中间项的值的均值)当物品在一组分为升序或降序排序。中位数不受极端值的影响,是最有用的倾斜分布。

  • 模式是最经常观测值和是唯一的可以用名义数据的集中趋势。一个分布可能是单峰(模式),双峰(两种模式),三峰(三种模式),或有更多的模式。

  • 一个投资组合的回报是一个加权平均数返回从个人资产回报率计算,重量适用于每个资产的收益是投资组合的一部分投资于资产。

  • 几何平均数, X ¯ G 一组观测X1,X2、…Xn,是 X ¯ G = X 1 X 2 X 3 X n n ,X≥0= 1,2,…n。几何的意思是特别重要的在报道复合增长率为时间序列数据。几何平均数总是不到一个算术平均只要有差异的观察。

  • 调和平均数, X ¯ H 是一种加权平均数,观察体重的大小成反比。

  • Quantiles-such中位数、四分位数、昆泰十分位数,和percentiles-are位置参数分布划分为半,季度,第五,趋近,百分位,和分别。

  • 盒须图演示了四分位范围(“盒子”)以及一个范围以外的框,是基于四分位范围,显示的“胡须”。

  • 色散等范围内,平均绝对偏差(疯狂),方差,标准差,下行目标偏差,variation-describe系数在算术平均结果的可变性。

  • 范围的区别是数据集的最大值和最小值。只有有限的范围从只有两个观察有用,因为它使用信息。

  • 疯狂的一个示例是观测的绝对偏差的平均值, = 1 n | X X ¯ | n ,在那里 X ¯ 样本均值和吗n是观察样品的数量。

  • 方差的平方偏差的平均值,标准差是方差的正平方根。在计算样本方差(年代2)和样本标准差(年代),平均平方偏差计算使用除数等于- 1的样本大小。

  • semideviation目标不利偏差,或目标,衡量的风险低于给定的目标。它的平方根计算平均平方偏离目标,但它只包含以下这些观察目标(B),或 所有 X B n ( X B ) 2 n 1

  • 简历,变异系数的标准差的比值是一组的观察他们的平均值。通过观测中表达变化的大小相对于他们的平均大小,简历允许分散在不同的数据集的直接比较。反映出修正,简历是一个无标度测量(即。,它没有度量单位)。

  • 倾斜或偏态描述一个分布是不对称的程度对其的意思。返回与正偏态分布有频繁的小损失和一些极端收益相对于正态分布。返回与负偏态分布有频繁的小收益和一些极端损失相对于正态分布。零偏态表明对称分布的回报。

  • 峰度衡量的总重尾分布相对于其他的分布。与胖尾分布比正态分布称为厚尾(尖峰的);比正态分布分布与细尾巴被称为瘦尾(低峰态)。过度峰度峰度- 3,因为3是正态分布的峰度值。

  • 相关系数是一种技术统计能够衡量两个变量之间的关系。协方差的比例是两个变量的标准差的产物。积极的两个变量相关系数表明,倾向于一起行动,而负的系数表示两个变量往往沿着相反的方向移动。相关性并不意味着因果关系,只需协会。问题出现在评估相关包括异常值的存在和伪相关。