两项大数据国际标准即将正式发布
通过运行示例评估模型性能,并报告均值和标准差分类准确性。 考虑到学习算法的随机性,评估程序以及机器之间的精度差异,您的结果可能会有所不同。尝试运行该示例几次。 在这种情况下,我们可以看到,对原始输入数据进行的逻辑回归模型拟合获得了约95.3%的平均分类精度,为性能提供了基准。 接下来,让我们探讨使用基于特征提取的数据准备方法是否可以提高性能。 特征提取方法进行数据准备 第一步是选择一套通用且常用的数据准备技术。 在这种情况下,假设输入变量是数字,我们将使用一系列转换来更改输入变量的比例,例如MinMaxScaler,StandardScaler和RobustScaler,以及使用转换来链接输入变量的分布,例如QuantileTransformer和KBinsDiscretizer。最后,我们还将使用转换来消除输入变量(例如PCA和TruncatedSVD)之间的线性相关性。 FeatureUnion类可用于定义要执行的转换列表,这些转换的结果将被聚合在一起。这将创建一个具有大量列的新数据集。
列数的估计将是13个输入变量乘以五次转换或65次再加上PCA和SVD维数降低方法的14列输出,从而得出总共约79个特征。 通过运行示例,我们可以看到数据集已正确加载,并且有179行数据,其中包含13个输入变量和一个目标变量。 接下来,让我们在该数据集上评估一个模型,并建立性能基准。 基准模型性能 通过评估原始输入数据的模型,我们可以为葡萄酒分类任务建立性能基准。 在这种情况下,我们将评估逻辑回归模型。
首先,如scikit-learn库所期望的,我们可以通过确保输入变量是数字并且目标变量是标签编码来执行最少的数据准备。 当有多个异常的时候,可以使用管道表示符“|”隔开。 30、什么是 static 块? static 块是由 Java ClassLoader 将类加载到内存中时执行的代码块。通常用于初始化类的静态变量或者创建静态资源。 31、什么是接口? 接口是 Java 编程语言中的一个核心概念,不仅在 JDK 源码中使用很多,还在 Java 设计模式、框架和工具中使用很多。接口提供了一种在 Java 中实现抽象的方法,用于定义子类的行为约定。 关于接口更详细的内容,可以参照我之前写了另外一篇文章: 可能是把 Java 接口讲得最通俗的一篇文章
鸣谢 (编辑:阿坝站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |