3、数据的初步探索
这是你研究影响结果/预测/目标的所有特征的步骤。如果你有一个庞大的数据库,在这个步骤中对它进行抽样,使分析更易于管理。
应遵循的步骤:
-
使用 jupyter notebooks,因为它们提供了一个简单直观的界面来研究数据。
-
确定目标变量
-
识别特征类型(分类、数字、文本等)
-
分析特征之间的相关性。
-
添加一些数据可视化,以便于解释每个特性对目标变量的影响。
-
记录发现。
4、探索性数据分析以便准备数据
接下来,我们将通过定义数据转换、清理、特征选择/工程和缩放功能来执行上一步的发现。
-
编写函数来转换数据并自动处理即将到来的数据批处理过程。
-
编写清除数据的函数(输入缺失值并处理异常值)
-
编写函数来选择和设计功能-删除冗余功能、功能的格式转换和其他数学转换。
-
特征缩放-标准化功能。
5、开发基准模型,然后探索其他模型以便筛选出最佳模型
创建一个非常基本的模型,作为其他复杂机器学习模型的基准。主要步骤包括:
-
使用默认参数训练一些常用的机器学习模型,如naivebayes、线性回归、SVM等。
-
测量并比较每个模型与基线和所有其他模型的性能。
-
对每个模型采用N倍交叉验证,并计算N个折叠上性能指标的平均值和标准差。
-
研究对目标影响最大的特征。
-
在预测误差的同时分析模型的类型。
-
以不同的方式设计功能。
-
重复上述步骤几次(反复试验),以确保我们使用了正确格式的正确功能。
-
根据模型的表现情况,筛选出最优模型。
6、微调入选模型并检查整体方法
这将是我们接近最终解决方案的关键步骤之一。 主要步骤应包括:
-
使用交叉验证进行超参数调整。
-
使用诸如随机搜索或网格搜索之类的自动调整方法,为我们的最佳模型找出最佳配置。
-
测试整体方法,例如投票分类器等。
-
用尽可能多的数据测试模型。
-
最终确定后,请使用我们在一开始就保留的看不见的测试样本来检查过拟合或欠拟合。
7、记录代码并传达你的解决方案
沟通的过程是多方面的。 我们需要牢记所有现有和潜在的利益相关者。 因此,主要步骤包括:
-
记录代码以及整个项目的方法和过程。
-
创建仪表板,例如voila或具有自我解释的可视化效果的演示文稿。
-
写博客/报告,记录您如何分析功能,测试不同的转换等。记录你的学习成功(失败的方法和有效的技术)
-
总结主要结果和未来的应用范围(如有)
8、在开发环境中部署监视器模型--Monitor!
如果你的项目需要在实时数据上进行测试和部署,则应创建一个Web应用程序或 REST API,在所有平台(Web,Android,iOS)上使用。 主要步骤(会因项目而异)包括:
-
将最终训练好的模型保存到h5或pickle文件中。
-
使用Web服务为模型服务,你可以使用Flask开发这些Web服务。
-
连接输入数据源并设置ETL管道。
-
使用Pipenv,Docker / Kubernetes管理依赖项(基于扩展要求)
-
你可以使用AWS,Azure或Google Cloud Platform部署服务。
-
监控实时数据的性能,或仅供人们使用你的模型和数据。
注意:可以根据项目的复杂性来调整清单。

(编辑:阿坝站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|