数据挖掘需要学什么内容(徐克达)

ccutu 大学专业课程 09-18 825 0

数据挖掘是指通过算法从大量数据中搜索隐藏信息的过程。数据挖掘通常与计算机科学相关，通过统计学、在线分析处理、信息检索、机器学习、专家系统(依靠以往的经验规则)和模式识别来实现上述目标。

数据挖掘需要学习什么

数据挖掘涉及的内容非常广泛，包括机器学习、数据挖掘、人工智能等，但其实这些知识大多是相通的。《实用机器学习》这本书是我看过的启蒙书里非常好的一本书。什么都有，理论和实践都很难，能很快对各种知识有个大概的了解。但是，如果你想在这个行业长期发展，你需要学习更多的知识，比如回归模型。你不仅要知道最小二乘法，还要思考如何清理数据，哪些数据需要清理，如何规范数据，数据是否过多，是否降维或降维，使用哪个回归模型，达到什么样的精度水平，是否考虑拟合或欠拟合，是否进行交叉验证，如果回归模型不适用，有什么替代方案。

数据挖掘步骤

(1)定义问题。在开始知识发现之前，第一个也是最重要的要求是理解数据和业务问题。需要对目标有一个明确的定义，就是决定自己想做什么。例如，如果你想提高电子邮件的利用率，你想做的可能是“提高用户利用率”或者“提高一次性用户使用的价值”。为解决这两个问题而建立的模型几乎完全不同，所以必须做出决定。

(2)建立数据挖掘数据库。建立数据挖掘数据库包括以下步骤:数据收集、数据描述、选择、数据质量评估和数据清理、合并与集成、元数据构建、数据挖掘数据库加载和数据挖掘数据库维护。

(3)数据分析。分析的目的是找出对预测输出影响最大的数据字段，并决定是否有必要定义导出字段。如果数据集包含数百个字段，浏览和分析这些数据会非常耗时和疲劳。这时候你需要选择一个界面好、功能强大的工具软件来帮你完成这些事情。

(4)准备资料。这是建立模型前数据准备的最后一步。这一步可以分为四个部分:选择变量、选择记录、创建新变量和转换变量。

(5)建立模型。建模是一个迭代的过程。需要仔细检查不同的模型，以确定哪个模型对业务问题最有用。首先用一部分数据建立模型，然后用剩下的数据对得到的模型进行检验和验证。有时会有第三个数据集，称为验证集，因为测试集可能会受到模型特性的影响，所以需要一个独立的数据集来验证模型的准确性。数据挖掘模型的训练和测试需要将数据分成至少两部分，一部分用于模型训练，另一部分用于模型测试。

(6)评价模型。模型建立后，一定要对结果进行评价，说明模型的价值。从测试集中获得的准确性仅对用于构建模型的数据有意义。在实际应用中，有必要进一步了解错误的类型和相关成本。经验证明，有效的模型不一定是正确的模型。造成这种情况的直接原因是模型建立中隐含的各种假设，所以直接在现实世界中测试模型很重要。先小范围应用，获取测试数据，满足后再大范围扩展。

(7)实施。模型建立并验证后，主要有两种使用方式。首先是为分析师提供参考；另一种是将这个模型应用于不同的数据集。

知识点

教育分类

数据挖掘需要学什么内容(徐克达)

数据挖掘需要学习什么

数据挖掘步骤