我们使用cookie,但是你可以在隐私设置中关闭它们。否则,你同意我们使用cookie。接受cookie并不意味着我们正在收集个人资料。学习更多在我们的隐私政策

2023年课程CFA项目II级定量方法

大数据项目

下载完整的阅读(PDF)

提供给成员

介绍

大数据(也称为替代数据)包含数据由金融市场(如股票和债券价格),企业(例如,公司财务、生产卷),政府(例如,经济和贸易数据),个人(例如,信用卡购买,社会媒体的文章),传感器(例如,卫星图像、交通模式),和物联网,物联网,(即。,网络可以传输数据的相互关联的数字设备之间没有人机交互)。大数据的名副其实的爆炸发生在过去十年左右的时间,特别是在非结构化数据来自社会媒体(如帖子、微博、博客),电子邮件和文本通信、网络流量、在线新闻网站、电子图像,以及其他电子信息来源。指数增长的前景大数据继续。

投资管理公司越来越多地使用大数据在他们的投资过程中,他们努力发现信号嵌入到这些数据,可以为他们提供一个信息优势。他们寻求扩大与大量的非结构化数据结构化数据开发改进的预测资产价格趋势,检测异常,等等。一个典型的例子包括基金经理使用金融文本数据(即10 - k报告预测股市的人气。,正面或负面),它可以被用作一个更全面的预测模型的输入,包括企业财务数据。

与结构化数据(数字和值),可以方便地组织成数据表由电脑、阅读和分析非结构化数据通常需要特定的方法被机器使用前的准备和细化(即。、电脑)和有用的投资专业人士。考虑到数量、种类和速度可用的大数据,重要的是对投资组合经理和投资分析师有一个基本的了解如何转化为结构化数据合适的非结构化数据作为输入到机器学习(ML)方法(事实上,对于任何类型的建模方法),可以改善他们的财务预测。

本阅读描述中的步骤使用大数据,结构化和非结构化,在金融预测。概念和方法演示了在一个实际的大数据项目的案例研究。项目使用基于文本的数据来源于金融单据来训练一个毫升模型分类文本到各自的积极或消极情绪类股票,然后预测情绪。

第二节的阅读涉及大数据的关键特征的描述。第三节概述的步骤在执行一个金融预测使用大数据项目。然后我们描述部分4 - 6数据准备和角力的关键方面,数据探索和模型训练使用结构化数据和非结构化数据(文本)。在第7节中,我们将这些碎片拼凑起来,覆盖一个实际的大数据项目的执行。总结8节总结了阅读。

学习成果

成员应该能够:

  • 州和解释项目在数据分析步骤;
  • 描述目标、步骤、准备和争吵的例子数据;

  • 描述目标、方法和数据的例子勘查;

  • 在模型描述目标、步骤和技术培训;

  • 描述准备、争论和探索基于文本的数据对财务预测;

  • 描述的方法提取,选择从文本数据和工程特性;

  • 评估适合的机器学习算法。

总结

在这个阅读中,我们已经讨论了在大数据项目中主要步骤涉及机器学习的发展(ML) models-namely,那些结合文本与结构化大数据输入。

  • 大数据定义数据与体积、速度不同,可能降低veracity-has各种潜力巨大fintech应用程序,包括几个相关的投资管理。

  • 传统ML模式构建的主要步骤是概念化的问题,数据收集、数据准备和角力、数据探索和模型训练。

  • 文本毫升模型构建,第一个四个步骤有所不同与传统模式中使用:文本问题公式化,文本内容管理、文本准备和争吵,和文本探索通常是必要的。

  • 结构化数据,数据准备和争吵导致数据清理和数据预处理。数据清理通常涉及解决不完全错误,无效错误,错误错误、不一致错误,不均匀性错误,重复错误。

  • 结构化数据的预处理一般包括执行以下转换:提取、聚合、过滤、选择和转换。

  • 准备和角力文本(非结构化)数据包括一组text-specific清洗和预处理任务。文本清洗通常涉及删除以下:html标记,标点符号,数字,白色的空间。

  • 文本预处理执行规范化要求包括以下:小写,去除停止词,阻止,词元化,创建bag-of-words(鞠躬),字格,弓和字格和组织成一个文档项矩阵(DTM)。

  • 数据探索包括探索性数据分析、特征选择和特征工程。而直方图、箱形图和散点图是常见的技术探索结构化数据,云词是一种有效的方式来获得一个高级的复合文本内容的照片。这些可视化工具帮助团队中分享知识(业务主题专家,宽客、技术专家等)来得到最优解。

  • 特征选择方法用于文本数据包括词的频率,文档频率、卡方检验和互信息度量。特性为文本数据工程包括将数字转换为标记,创建- gram和使用命名实体识别和词类工程师新特性变量。

  • 模型的训练步骤(方法选择、绩效评估和模型调优)经常做结构化与非结构化数据项目并无多大差别。

  • 模型选择是由以下因素:项目涉及的数据是否带安全标签的数据时(监督学习)或无标号数据(无监督学习);数据的类型(数值、连续或分类;文本数据;图像数据;语音数据;等);和数据集的大小。

  • 使用混淆矩阵模型性能评估涉及到误差分析,确定接收机工作特性,计算均方根误差。

  • 为每个模型进行误差分析,创建了一个混淆矩阵;真正的阳性(TPs),真正的底片(TNs),假阳性(FPs),和假阴性(fn)确定。然后,以下性能指标计算:准确性、F1得分,精度和召回。准确性和F1的分数越高,模型的性能就越好。

  • 接受者操作特征(ROC)进行分析,ROC曲线和曲线下面积(AUC)各种模型计算和比较。越凸ROC曲线和AUC越高,模型的性能就越好。

  • 模型调优涉及管理之间的权衡模型偏差错误,与underfitting有关,和模型误差方差,过度拟合。样本的拟合曲线(训练样本)误差和样本外(交叉验证示例)误差在x轴上的轴和模型的复杂性是有用的管理偏差与方差错误交易。

  • 在真实的大数据项目涉及文本数据分析分类和预测金融文本为特定股票的情绪,文本数据转换为结构化数据填充DTM,然后用作ML算法的输入。

  • 获得任期频率(TF)在句子层面和TF-IDF,两者都可以输入到DTM,下面的频率的措施应该被用来创建一个词频率措施表:TotalWordsInSentence;TotalWordCount;TermFrequency(收集水平);WordCountInSentence;SentenceCountWithWord;文档频率;和逆文档频率。