数据挖掘的10大算法我用大白话讲清楚了，小白一看就懂

发布时间：2021-06-04 20:51:38 所属栏目：大数据来源：互联网

导读：一个优秀的数据分析师，除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外，还需要掌握一些数据挖掘的思想，帮助我们挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距之一。数据挖掘的10大算法我用大白话讲清楚了，

一个优秀的数据分析师，除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外，还需要掌握一些数据挖掘的思想，帮助我们挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距之一。

数据挖掘的10大算法我用大白话讲清楚了，新手一看就懂

数据挖掘主要分为分类算法，聚类算法和关联规则三大类，这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂，今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理，帮助大家快速理解。

算法分类

连接分析：PageRank

关联分析：Apriori

分类算法：C4.5，朴素贝叶斯，SVM，KNN，Adaboost，CART

聚类算法：K-Means，EM

一、PageRank

当一篇论文被引用的次数越多，证明这篇论文的影响力越大。

一个网页的入口越多，入链越优质，网页的质量越高。

原理

网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和

一个网页的影响力：所有入链的页面的加权影响力之和。

一个网页对其他网页的影响力贡献为：自身影响力/出链数量。

用户并不都是按照跳转链接的方式来上网，还有其他的方式，比如直接输入网址访问。

所以需要设定阻尼因子，代表了用户按照跳转链接来上网的概率。

比喻说明

1、微博

一个人的微博粉丝数不一定等于他的实际影响力，还需要看粉丝的质量如何。

如果是僵尸粉没什么用，但如果是很多大V或者明星关注，影响力很高。

2、店铺的经营

顾客比较多的店铺质量比较好，但是要看看顾客是不是托。

3、兴趣

在感兴趣的人或事身上投入了相对多的时间，对其相关的人事物也会投入一定的时间。那个人或事，被关注的越多，它的影响力/受众也就越大。

关于阻尼因子

1、通过你的邻居的影响力来评判你的影响力，但是如果不能通过邻居来访问你，并不代表你没有影响力，因为可以直接访问你，所以引入阻尼因子的概念。

2、海洋除了有河流流经，还有雨水，但是下雨是随机的。

3、提出阻尼系数，还是为了解决某些网站明明存在大量出链（入链），但是影响力却非常大的情形。

出链例子：hao123导航网页，出链极多入链极少。

入链例子：百度谷歌等搜索引擎，入链极多出链极少。

（编辑：阿坝站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

元宇宙在艺术领域的探	HDFS 为什么在大数据领
数据映射优秀实践类型	Spark SQL 字段血缘在