5G手机又将带来哪些变化?
在本文中,我们将介绍如何使用特征提取对表格数据进行数据准备。 特征提取为表格数据的数据准备提供了另一种方法,其中所有数据转换都并行应用于原始输入数据,并组合在一起以创建一个大型数据集。 如何使用特征提取方法进行数据准备,以提高标准分类数据集的基准性能。。 如何将特征选择添加到特征提取建模管道中,以进一步提升标准数据集上的建模性能。 本文分为三个部分: 一、特征提取技术的数据准备 二、数据集和性能基准
三、特征提取方法进行数据准备 特征提取技术的数据准备 数据准备可能具有挑战性。 最常用和遵循的方法是分析数据集,检查算法的要求,并转换原始数据以最好地满足算法的期望。 这可能是有效的,但也很慢,并且可能需要数据分析和机器学习算法方面的专业知识。 另一种方法是将输入变量的准备视为建模管道的超参数,并在选择算法和算法配置时对其进行调优。 尽管它在计算上可能会很昂贵,但它也可能是暴露不直观的解决方案并且只需要很少的专业知识的有效方法。 在这两种数据准备方法之间寻求合适的方法是将输入数据的转换视为特征工程或特征提取过程。这涉及对原始数据应用一套通用或常用的数据准备技术,然后将所有特征聚合在一起以创建一个大型数据集,然后根据该数据拟合并评估模型。 该方法的原理将每种数据准备技术都视为一种转换,可以从原始数据中提取显著特征,以呈现给学习算法。理想情况下,此类转换可解开复杂的关系和复合输入变量,进而允许使用更简单的建模算法,例如线性机器学习技术。 由于缺乏更好的名称,我们将其称为“ 特征工程方法 ”或“ 特征提取方法 ”,用于为预测建模项目配置数据准备。 它允许在选择数据准备方法时使用数据分析和算法专业知识,并可以找到不直观的解决方案,但计算成本却低得多。 输入特征数量的排除也可以通过使用特征选择技术来明确解决,这些特征选择技术尝试对所提取的大量特征的重要性或价值进行排序,并仅选择与预测目标最相关的一小部分变量。 我们可以通过一个可行的示例探索这种数据准备方法。 在深入研究示例之前,让我们首先选择一个标准数据集并制定性能基准。 数据集和性能基准 我们将首先选择一个标准的机器学习数据集,并为此数据集建立性能基准。这将为探索数据准备的特征提取方法提供背景。 葡萄酒分类数据集 我们将使用葡萄酒分类数据集。 该数据集具有13个输入变量,这些变量描述了葡萄酒样品的化学成分,并要求将葡萄酒分类为三种类型之一。
该示例加载数据集并将其拆分为输入和输出列,然后汇总数据数组。 (编辑:阿坝站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |