【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )



I . 预测建模 与 描述建模



1 . 预测建模 :


① 目的 : 根据现有的数据集的 若干 ( 1 个或多个 ) 属性值 ( 特征值 / 变量 ) , 预测其它属性值 ;

② 示例 : 分类 ;


2 . 描述建模 :


① 目的 : 根据现有数据集的 属性值 ( 特征值 / 变量 ) , 对数据样本进行概括 ;

② 示例 : 聚类 ;



II . 预测模型 与 函数映射



1 . 预测模型 :


① 模型形式 : 使用已知的变量 ( 属性值 / 特征值 ) 表达 未知变量的函数 ;

② 已知变量 : 当前数据集中的样本 , 已知的属性的属性值 ;

③ 未知变量 : 将要预测的属性值 , 这个属性值未知 ;

④ 函数映射 : 预测模型 建模的过程 , 可以看做一个函数映射的建立过程 ;


2 . 预测模型 与 函数映射 :


① 函数映射 : 预测模型的函数映射形式如下

Y = f ( X ; θ ) Y=f (X ; \theta) Y=f(X;θ)

② 函数形式 : f f f 是预测模型 的 函数映射 的 函数形式 ;

③ 未知参数 : θ \theta θ 代表未知的参数 , 每个已知变量前都有一个未知参数 ;

④ 已知参数 : X X X 表示当前数据集样本的已知参数 , 又叫输入变量 , 是矩阵形式的 , 如有 14 个样本 , 每个样本有 5 个属性 , 那么该矩阵是一个 14 行 , 5 列的矩阵 ; 该值的本质是 5 维的 向量 ;

⑤ 预测结果 : Y Y Y 表示预测结果 , 又叫响应变量 ; 该值的本质是 标量 ;



III . 预测模型的分类 ( 分类 | 回归 )



1 . 预测模型分类 : 预测模型分为两类 : 分类回归 ;


Y = f ( X ; θ ) Y=f (X ; \theta) Y=f(X;θ)

① 分类 : 如果 Y Y Y 值是离散值 , 是范畴型变量 , 那么这个 预测模型 叫做 分类 ; 从向量 X X X 到标量 Y Y Y 映射的过程是 回归 ;

② 回归 : 如果 Y Y Y 值是连续值 , 是数值型变量 , 那么这个 预测模型 叫做 回归 ; 从向量 X X X 到标量 Y Y Y 映射的过程是 分类 ;


2 . 函数逼近 :


① 分类和回归本质 : P P P 维向量 X X X 到 标量 Y Y Y 的映射 , 可以看做是 函数逼近问题 ;

P P P 说明 : 是数据集样本已知属性的个数 , 如 : 之前 14 个样本 , 已知 年龄 , 是否是学生 , 收入 , 信用等级 , 4 个属性 , 此处 P = 4 P=4 P=4 ;



IV . 预测建模 测试集



1 . 预测建模相关数据集 : 预测建模中用到 3 类数据集 , 训练集 , 测试集 , 新数据 ;


2 . 训练集 : 训练集中 , 每个样本都由一对 ( X , Y ) (X , Y) (X,Y) 组成 , 其中 X X X 是向量 , 其代表已知的若干属性值组成的向量 , Y Y Y 代表标量 , 在训练集中也是已知的 ;


3 . 训练集数据示例 : 之前 14 个样本 , 已知 年龄 , 是否是学生 , 收入 , 信用等级 , 4 个属性值 , 组成向量 X X X , 是否购买商品 , 是 Y Y Y 代表的变量 , 这样组成了一对 ( X , Y ) (X, Y) (X,Y) 值 ; 训练集中有 14 对 ( X , Y ) (X,Y) (X,Y) 值 ;


4 . 预测建模本质 : 根据 n n n 对训练集样本 ( X , Y ) (X , Y) (X,Y) 拟合出 Y = f ( X ; θ ) Y=f (X ; \theta) Y=f(X;θ) 函数映射模型 ;


5 . Y = f ( X ; θ ) Y=f (X ; \theta) Y=f(X;θ) 模型作用 : 给定 X X X 向量的值 , 和 θ \theta θ 参数 , 可以预测出 Y Y Y 值 ;



V . 预测建模 拟合过程



预测模型的拟合过程 :


① 预测模型 : Y = f ( X ; θ ) Y=f (X ; \theta) Y=f(X;θ)

② 拟合过程 : 需要完成两个工作 , 首先要确定模型 f f f 结构 , 然后确定参数 θ \theta θ 值 ;

③ 模型 f f f 确定 : 确定 需要确定模型 f f f 结构 , 即函数的格式 , 线性模型 , 还是二次函数 , n n n 次函数 等其它形式 ; 先找到使用的模型 ;

④ 参数 θ \theta θ 确定 : 这是数据挖掘算法的核心部分 ;

⑤ 评分函数 : 评分函数值达到最大 ( 最小 ) 确定参数 θ \theta θ 值 ; 如 似然函数 ( 评分函数值越大越好 ) , 误差平方和 ( 评分函数值越小越好 ) ;

⑥ 优化过程 : 搜索确定参数值 θ \theta θ 的过程是优化过程 ;


预测模型拟合过程 , 需要确定 模型结构参数 , 确定参数时 , 需要确定 评分函数 , 和 搜索优化算法 ;



VI . 预测模型结构确定



1 . 预测模型结构 : 预测模型结构是 Y = f ( X ; θ ) Y=f (X ; \theta) Y=f(X;θ) 函数映射形式 , 模型建立时 , 不知道该映射的 结构形式 和 参数值 , 首先要确定其函数的结构形式 ;


① 模型基础 : 预测模型中的 回归模型 和 分类模型 都基于 数学 和 统计学 建立的 ;

② 模型可互用 : 分类模型结构 也可以用于 回归模型 , 反之也适用 ;



VII . 基于分类的判别模型



分类模型 分为两种 , 判别模型 和 概率模型 ;


1 . 判别模型 :

① 输入向量 : X X X , 是一个向量 ; X X X 是数据集样本的某些已知属性值组成的向量 ;

② 响应变量 : Y Y Y , 是一个标量 ; Y Y Y 取值是某个属性类别的单个取值 ; 假设该属性类别的属性的取值可以是 { C 1 , C 2 , ⋯   , C 3 } \{C_1 , C_2 , \cdots , C_3\} {C1,C2,,C3} ;


2 . X X X向量维数为 1 时 :


① 数据集样本 : 数据集中的样本已知属性是 2 个 , 一个是已知的输入向量 X X X , 一个是未知的 , 需要预测的响应变量 Y Y Y ;

② 判别模型 : 此时模型是二维坐标系中的 分段直线 ; 某个 X X X 1 维向量 ( 1 个数值 ) 对应某个 Y Y Y 值 ;

③ 决策区域 ( 线段 ) : X X X 向量的唯一值 , 位于某两个数值范围内 , Y Y Y 取值为 C i ( 0 ≤ i ≤ m ) C_i ( 0 \leq i \leq m ) Ci(0im) ;


3 . X X X向量维数为 2 时 :


① 数据集样本 : 数据集中的样本已知属性是 3 个 , 一个是已知的输入向量 X X X ( 有两个属性值 ) , 一个是未知的 , 需要预测的响应变量 Y Y Y ;

② 判别模型 : 此时模型是三维空间中的 分段曲面 ; 某个 X X X 2 维向量 ( 2 个数值 ) 对应某个 Y Y Y 值 ;

③ 决策区域 ( 平面 ) : X X X 向量的两个属性值 X 1 X_1 X1 X 2 X_2 X2 构成的点 , 位于某个平面时 , 其 Y Y Y 值取值为 C i ( 0 ≤ i ≤ m ) C_i ( 0 \leq i \leq m ) Ci(0im) ;


4 . 决策区域 : 未知属性 的 取值为某个属性值 C i C_i Ci 的所有区域 , 联合在一起 , 称为 C i C_i Ci 取值的决策区域 ;


① 决策预测机制 : 输入变量 X X X 向量 , 符合 C i C_i Ci 决策区域要求 , 那么最终被预测的属性值 Y Y Y 标量 , 就会被预测成 C i C_i Ci 值 ;

② 判别模型分类本质 : 在判别模型中的分类任务 , 就是确定各个被预测的取值 C i C_i Ci 的 决策区域 是什么 , 即 这些 决策区域的 边界是什么 ;



VIII . 基于分类的概率模型



分类模型 分为两种 , 判别模型 和 概率模型 ;


1 . 概率模型 :


① 未知属性类别取值 : 未知属性的每个取值类别为 C i C_i Ci ,

② 参数 : θ i \theta_i θi 是函数参数 , 该参数反应 C i C_i Ci 的类型特征 ;

③ 概率模型函数 : 其函数模型为 分部 或 密度函数 ρ ( X ∣ C i , θ i ) \rho ( X | C_i , \theta_i ) ρ(XCi,θi) ;


2 . θ i \theta_i θi 参数说明 :


① 连续取值 ( X X X 向量中的数值取值 ) : 输入变量 X X X 向量代表的属性值的取值是连续的值 ( 如 : 实数 , 自然数 等 ) ;

② 取值分布 ( X X X 向量中的数值取值 ) : 每个已知的属性值的模型结构都是 多元正态分布 ;

θ i \theta_i θi 表示每个属性类别取值的 均值 和 方差特征 ;

④ 与决策区域对应 : 均值相当于决策区域的中心点位置 , 方差相当于决策区域范围大小 ;


3 . 举例说明 :


① 决策区域距离大 : 这些决策区域离得很远 , 各个取值的均值也很远 ;

② 决策区域范围小 : 决策范围也很小 , 相应的方差也很小 ;

③ 分类容易且准确 : 那么最终可以很好的将数据集进行准确的分类 ;



IX . 预测模型的评分函数



1 . 分类模型 : 常用 误分类率 作为评分函数 ;


2 . 回归模型 : 常用 误差平方和 作为评分函数 ;



X . 基于回归的预测模型



1 . 基于回归的预测模型 : 线性回归模型 , 非线性回归模型 , 分段线性模型 ;


2 . 线性回归模型 : 二维空间 直线 , 三维空间 平面 , 四维空间 超平面 ;


① 预测模型结构为 : Y = a 0 + a 1 X 1 + a 2 X 2 + ⋯ + a p X p Y = a_0 + a_1X_1 + a_2X_2 + \cdots + a_pX_p Y=a0+a1X1+a2X2++apXp

② 预测值与实际值分布 : 模型的预测值 , 与实际观察的值 , 可能存在不一致 , 实际的值可能在模型预测值的周围分布 ;


3 . 非线性回归模型 : 预测模型结构为 Y = a 0 + a 1 X 1 + a 2 X 2 2 + ⋯ + a p X p 3 Y = a_0 + a_1X_1 + a_2X_2^2 + \cdots + a_pX_p^3 Y=a0+a1X1+a2X22++apXp3


4 . 分段线性模型 : 将简单的模型 , 分段组合起来构成复杂的模型 ;


① 局部线性函数 : 输入向量 X X X 与 相应变量 Y Y Y 是局部的线性函数 ;

② 分段函数 : 该分段线性模型 , 在不同区域内 , 有不同的函数形式 ;

©️2020 CSDN 皮肤主题: 创作都市 设计师:CSDN官方博客 返回首页