加入收藏 | 设为首页 | 会员中心 | 我要投稿 阿坝站长网 (https://www.0837zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

怎么现在的4G手机开始被限速了?

发布时间:2021-02-11 10:45:22 所属栏目:动态 来源:互联网
导读:为了拿到数据,我只好也学着去请求这些数据接口,不过因为这些网站都有API网关,会检查请求的Token或者Authorization之类的认证字段,再加上我不知道他们的接口参数格式,导致我经常拿不到数据。 到了最近两年,我拿到的网页HTML越来越简单了,在浏览器中丰

为了拿到数据,我只好也学着去请求这些数据接口,不过因为这些网站都有API网关,会检查请求的Token或者Authorization之类的认证字段,再加上我不知道他们的接口参数格式,导致我经常拿不到数据。

到了最近两年,我拿到的网页HTML越来越简单了,在浏览器中丰富多彩的页面,一查看源代码竟然只有简单几行,真是见了鬼了!

终于有一天,一个前辈告诉我,现在流行单页应用SPA了,页面全都是在前端动态生成的,拿到的HTML根本没有价值。

这简直欺人太甚了!

一不做二不休,我决定弄一个真正的浏览器进来,这个内嵌的浏览器没有界面,专门为我服务,嵌入到我的程序中,让他去真正的渲染网页,渲染完成后我再去取数据!

这是真正意义上模拟人类去访问网站了,再也不用模拟繁琐的数据接口访问,也不用担心单页应用,前端渲染就前端渲染,我再也不怕了!

验证码

到后来,不知道是谁发明的,网站们纷纷用上了一种叫验证码的技术,给我们出了难题。

开始的验证码还算比较简单,一般都是些简单的数字、英文字符做了些变形,就像这样
 

这个user-agent是HTTP协议中表示客户端名字的字段,那个时候我刚刚入行,没什么经验,不懂得伪装,很容易就被发现。

为了能够继续爬数据,我只好改头换面,伪装成了浏览器的名字,圈子里有的兄弟还伪装成了搜索引擎爬虫的名字,我可不像他们那样没下线。

这一招管用了没多久,这些网站就升级了策略,通过我们的行为来识别是不是真的浏览器。我们毕竟是程序,那速度比人类点击快多了,网站一旦发现我们短时间内发起了很多请求,那就掐断连接。

我只好降低爬取的频率,避免被拉入黑名单。

有些网站更狠,在网页里面插入一些假的图片,只有几个像素那种,人类的眼睛是看不见的,但是我们不知道啊,对我来说都是标签,我一访问就中计了!立刻被拉入黑名单。

没有办法,摊上这种事,我只好想办法换个IP再去爬,真是难顶。

听说圈子里有些大佬用上了分布式技术,组团去爬,很多个IP地址,其中一个或者几个封了也不用怕,我真是很羡慕。

前后端分离

在我的职业生涯中,遇到过一些奇怪的网站,明明网页中有数据,但是我一访问拿到的HTML中啥也没有,一度让我很郁闷。

后来才知道,原来他们用上了一个叫前后端分离开发的技术,数据不再从服务器渲染到HTML网页中,而是浏览器通过单独的API接口拿到后再动态加载出来,难怪我拿到的只是一个空壳子。
 

注意any实际上忽略了第一个被拒绝的承诺,因为还有其他的承诺正在解决,这就是race和any的主要区别。

ECMAScript2021的新特征不多,但已经被接受的功能笔者看来非常好!使用WeakRef和FinalizationRegistry时要小心哦,它们的功能非常有趣,但它们在不同的运行情况下处理的结果或行为可能会不一样。

你最喜欢哪个新功能?对于这个版本,你最期待的又是什么呢?

(编辑:阿坝站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读