数据挖掘的10大算法我用大白话讲清楚了,小白一看就懂
发布时间:2021-06-04 20:51:38 所属栏目:大数据 来源:互联网
导读:一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。 数据挖掘的10大算法我用大白话讲清楚了,
一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。
数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂
数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。
算法分类
连接分析:PageRank
关联分析:Apriori
分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART
聚类算法:K-Means,EM
一、PageRank
当一篇论文被引用的次数越多,证明这篇论文的影响力越大。
一个网页的入口越多,入链越优质,网页的质量越高。
原理
网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和
一个网页的影响力:所有入链的页面的加权影响力之和。
一个网页对其他网页的影响力贡献为:自身影响力/出链数量。
用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。
所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。
比喻说明
1、微博
一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何。
如果是僵尸粉没什么用,但如果是很多大V或者明星关注,影响力很高。
2、店铺的经营
顾客比较多的店铺质量比较好,但是要看看顾客是不是托。
3、兴趣
在感兴趣的人或事身上投入了相对多的时间,对其相关的人事物也会投入一定的时间。那个人或事,被关注的越多,它的影响力/受众也就越大。
关于阻尼因子
1、通过你的邻居的影响力来评判你的影响力,但是如果不能通过邻居来访问你,并不代表你没有影响力,因为可以直接访问你,所以引入阻尼因子的概念。
2、海洋除了有河流流经,还有雨水,但是下雨是随机的。
3、提出阻尼系数,还是为了解决某些网站明明存在大量出链(入链),但是影响力却非常大的情形。
出链例子:hao123导航网页,出链极多入链极少。
入链例子:百度谷歌等搜索引擎,入链极多出链极少。
![]() (编辑:阿坝站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |