ROC曲线与AUC值

机器学习分类问题中,混淆矩阵(非监督学习中称匹配矩阵match matrix)用于表征算法的性能。如下表所示 […] 由此可得出: […] 二分类通常是通过选定阈值对结果进行分类。比如概率选取阈值为0.5,大于0.5的为正样本,小于则为负样本。如果阈值增大,那么假阳性率降低,同时真阳性也会降低;反之阈值减小,虽然真阳性率为增加,但是假阳性率也会增加。阈值的选取在一定程度 …

线性判别分析LDA

线性判别分析(liner discriminant analysis, LDA)一种常用的数据降维方法,目的是在保持分类的前体下把数据投影至低维空间以降低计算复杂度。

主成分分析

通常高通量数据中含有很多变量,主成分分析是一种数据降维方法,利用正交变换把原始的可能相关的变量转换为一组正交新变量, 提取数据中重要的特征,去除不重要的特征(噪声)。方差越大,表示的特征信息越多,的选择方差最大的方向,去除方差较小的方向。

矩阵分解

对于方阵\(A\)和非零向量\(x\), 如果\(Ax = \lambda x\),表征矩阵\(A\)乘以向量\(x\)后不改变向量的值,\(x\)称为特征向量,\(\lambda\)为特征值。特征向量可以看成是构成矩阵的一组基(向量空间),特征值表示这组基的伸缩倍数。 也就是说\((A - \lambda I)x = 0\), 矩阵\(A - \lambda I\)必须是奇异矩阵, …