加入收藏 | 设为首页 | 会员中心 | 我要投稿 阿坝站长网 (https://www.0837zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

边缘计算作为云计算的补充

发布时间:2021-02-20 12:33:03 所属栏目:外闻 来源:互联网
导读:你该了解的 先打住,我们有必要先理解一些概念: 1. TF-IDF 机器学习的一大困境是算法计算数字,而自然语言主要由文本组成,因此需要将文本转换为数字,这个过程被称为文本向量化。它是机器学习的重要组成部分,有助于进行文本分析。向量化算法会产生不同的

你该了解的

先打住,我们有必要先理解一些概念:

1. TF-IDF

机器学习的一大困境是算法计算数字,而自然语言主要由文本组成,因此需要将文本转换为数字,这个过程被称为文本向量化。它是机器学习的重要组成部分,有助于进行文本分析。向量化算法会产生不同的结果,所以你需要仔细选择。

TF-IDF是一种统计度量,用于确定文档中放置在一组文档中的单词的相关性。使用TF-IDF Vectorizer可以将文本转换为特征向量。它是通过以下两个指标相乘计算的:

  • 术语频率是指一个单词在文档中出现的次数。
  • 逆文档频率是一个单词在一组文档中出现的次数。

2. 被动攻击算法(Passive Aggressive Classifier)

被动攻击算法是在线学习算法,用于从大量的数据中进行学习。例如,系统每天24小时从Twitter上收集推文,你希望根据这些数据进行预测。

然而,由于内存限制这是不可行的,你不能在内存中存储这么多数据。被动攻击算法从这些例子中学习,并在使用后立即丢弃它们,而不是将它们存储在内存中。这些算法被称为被动的是因为它们是温顺的,直到分类结果保持正确。一旦他们发现了错误的计算就会变得咄咄逼人,更新、调整模型。

3. 混淆矩阵(Confusion matrix)

在机器学习分类中,如果输出应该生成两个或两个以上的类,则用于性能度量。有四种可能的结果:

  • 真阳性——做出了积极的预测,结果证明是正确的。
  • 真阴性——预测是负数,结果证明是真的。
  • 假阳性——预测是肯定的,但结果却是错误的。
  • 假阴性——预测结果是错误的。

难题

假设你已经用Python构建了一个web抓取应用程序,它收集了来自社交媒体网络的所有新闻链接。你该如何知道这些网站上的信息是真实事件呢?

1. 解决方案

用Python构建一个系统,可以识别新闻链接是否真实,先用sklearn为数据集创建TF-IDF Vectorizer。TF-IDF的目的是将文本转换为特征向量,这能让你使用它们作为估计器的输入。

2. 先决条件

打开命令行,下载并安装Numpy。Numpy是numericalpython的缩写,它为大量的多维数组和、阵及几个有用的数学函数提供支持。运行以下命令:



(编辑:阿坝站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读