反作弊

什么是互联网作弊

互联网作弊是一种很普遍的行为,就我们所最熟悉的来说,有电商和O2O的刷单刷信誉行为、广告作弊等,具体分类如下图:

广告作弊与反作弊

背景

互联网广告成为主流

数字营销(互联网广告)分两类

品牌广告

以品牌宣传为主,多以千次曝光的形式计费,广告主追求的是长期的品牌溢价;

效果广告

多以单次点击或单次行为的形式计费,更关注短期转化和收益。

投放方式

CPA、CPC、CPM每千人成本、CPP每购买成本等

现象-数据作弊

平均每天识别出高达 28% 的虚假流量。的确,中国的数字营销生态环境也正遭受着虚假流量的侵蚀。

作弊类型

曝光作弊

可能把广告展现在一些完全没有商业价值的垃圾流量上。

点击作弊

利用机器、人工或诱导用户点击,例如把广告换成一个美女图片,吸引完全不符合广告意图的点击。另外,竞争对手还可能进行恶意点击。

转化作弊

在注册、激活、下单等不同场景下通过自动化程序的模拟真人行为。

如何鉴别广告作弊

初级作弊辨别

发现数据异常点。例如:

异常峰值,出现峰值时转化数据并没有增长,出现峰值时到站跳出率增长,投放的媒体属性和点击的地域属性不符。

中级作弊辨别

真人点击和机器模拟点击。例如:


点击请求的Headers异常。

点击行为分析:机器点击具有一定的连续性,可以通过判断同IP同设备的连续点击同IP段的大量点击同IP连续点击间隔时间等进行判断

转化作弊辨别

例如:

行为频率、次数异常

注册者的URL访问轨迹:机器只访问注册URL频繁注册

注册者是否查看了页面上的静态资源:机器注册在访问时只关心网页上的文字

不同账号同密码注册

注册者从到站到注册间的时间间隔:真人在注册前会有较长时间的浏览过程,而机器行为则直奔主题

如何反作弊

目的:无限压缩作弊行为在正常商业行为中的比例,而非绝对根除。

最好的实现方法在于让作弊成本剧增。

思路:

砌墙(不断的加限制条件);

拆台(使作弊行为的获利大幅度减少)

①排重:添加监测链接,通过Cookie、设备号或IP排重,如大量出现218.175.11.x这种相同C段的IP号。

②频度控制、SDK加密防护、人工介入监控

③点击有效期:限制点击的有效期,在有效期内,后续转化归属相应平台,如超时则不予计算。

④异常数据黑名单:对点击记录超过一定范围标记为黑名单,长期过滤。

⑤归因时间差监控:归因时间差即指从点击到下载激活的时间。一般作弊时,伪造点击与激活是并存的,所以往往在时间逻辑上是错误的。

⑥增加行为操作的复杂度,但可能伤害用户

SEO反作弊——以百度为例

SEO来自于Search Engine Optimization缩写,译为“搜索引擎优化”。

具体来说,就是通过站内优化比如网站结构调整、内容建设、代码优化等,以及站外优化比如网站站外推广、品牌建设等,使网站满足搜索引擎收录排名需求,在搜索引擎中提高关键词排名,从而吸引精准用户进入网站,获得免费流量,产生直接销售或品牌推广。


百度怎么反作弊?

①绿萝算法:2013年2月上线的搜索引擎反作弊算法,主要打击超链中介、出卖链接、购买链接等超链作弊行为。通过综合外链内容的相关性、A及B网站页面内容品质、更新频率、违规历史记录、总权重值,从而判断外链的权重传递是否有效。

②石榴算法:针对低质量网站的进一步打击的升级版,将重点整顿含有大量妨碍用户正常浏览的恶劣广告的页面,尤其以弹出大量低质弹窗广告、混淆页面主体内容的垃圾广告页面为代表。

电商反作弊——以淘宝为例

淘宝搜索反作弊系统不仅监控卖家行为,同时也监控买家行为,并且通过对买家ID的行为监控可倒推反证卖家作弊。而且,该算法还可以作为推荐算法使用。

反作弊手段大致划分为以下3种:

信任传播模型、不信任传播模型和异常发现模型。

信任传播模型

下图展示了信任传播模型的示意图。所谓信任传播模型。基本思路如下:在海量的宝贝网页数据中,通过一定的技术手段或者人工半人工手段,从中筛选出部分完全值得信任的店铺或者宝贝页面,也就是肯定不会作弊的店铺、宝贝和ID(可以理解为白名单),算法以这些白名单内的页面作为出发点,赋予白名单内的页面节点较高的信任度分值,其他宝贝、买家、卖家是否作弊,要根据其和白名单内节点店铺或宝贝的成交关系来确定。白名单内节点通过成交关系将信任度分值向外扩散传播,如果某个节点最后得到的信任度分值高于一定阀值,则认为没有问题,而低于这一阀值的宝贝网页、买家或卖家则会被认为是作弊或有作弊嫌疑


不信任传播模型

下图展示了不信任传播模型的整体框架示意图。从大的技术框架上来讲,其和信任传播模型是相似的,最大的区别在于:初始的页面子集合不是值得信任的店铺或宝贝页面节点,而是确认存在作弊行为的页面或ID集合,即不值得信任的集合(可以理解为黑名单)。赋予黑名单内页面节点不信任分值,通过成交关系将这种不信任关系传播出去,如果最后页面节点的不信任分值大于设定的阀值,则会被认为是作弊网页或有作弊嫌疑。

同样,很多算法可以归入这一模型框架,只是在具体实施细节方面有差异,整体思路基本一致。

异常发现模型

异常发现模型也是一个高度抽象化的算法框架模型。其基本假设认为:作弊店铺、卖家和买家必然存在有异于正常的特征,这种特征有可能是内容方面的,也有可能是成交关系方面的,而制定具体算法的流程往往是先找到一些作弊的集合,分析出其异常特征有哪些,然后利用这些异常特征来识别作弊行为。
      具体来说,这个框架模型又可细分为两种子模型,这两种子模型在如何判断异常方面有不同的考虑角度。一种考虑角度比较直观,即直接从作弊行为包含的独特特征来构建算法;另外一种角度则认为不正常的网页或ID即为作弊行为,也就是说,是通过统计等手段分析正常的店铺、宝贝和ID应该具备哪些特征,如果不具备这些正常的特征,则被认为是作弊。下面两图体现了这两种不同的思路。

尽管反作弊算法五花八门,但是不论采取哪种具体算法,其实都包含了一些基本假设,以上的三种模型就是经常被反作弊算法使用的基本假设,很多算法的基本思路都是从这些基本假设出发来构造的。



互联网广告常见作弊行为

1.广告CTR异常

主要指虚拟点击或恶意点击,即Click/PV过高比例,或者起伏很大。

2.广告访问IP分布异常

通过Log日志发现某几个IP产生大量的点击或者曝光数。

3.URL,访问者指纹信息(浏览器,操作系统等)异常

例如大量的点击或者曝光数,都来自于同一版本的浏览器或操作系统,或者占比过高;或者点击或曝光的访问者信息中带有Robot/Spider等标识信息。

4.广告点击没有对应的曝光请求

如果广告同时监测了曝光和点击,广告的点击IP/MZID前都应该出现对应广告的曝光,且绝大多数都应该出现在同时段的曝光日志中。

5.广告来源异常

点击或者曝光的Referer可以标记点击或曝光的来源页面,如果大量来源集中在某一页面,且不是广告所在的Web页面,可能存在媒体在其他流量大的地方(如BBS)设置隐藏页面来充当曝光和点击。

6.广告访问时间分布异常/规律

某些IP/MZID每分钟定时出现在点击/曝光日志中,或者连续点击/曝光的发生时间的间隔过于规律。

移动流量作弊形式的主要形式

1.刷广告数据

刷广告曝光和广告的点击。如今的Android手机,不比当年的Windows XP时代好。在用户毫不知情的情况下,预装或者下载了乱七八糟的应用的情况比比皆是,被各种流氓软件留些后门已是常态,顺理成章地为黑色产业链做贡献。移动广告的销售更加的程序化,按CPM与CPC的销售是主流。在这样的大环境下,按CPM与CPC购买的流量质量风险如何?可想而知。

来个小段子休息下,前几年某知名视频公司离职员工来到我司后,我们线下聊天,他告诉我说,在Android机下,你如果安装了某视频软件,那么你的手机就是个肉鸡,想干什么都行,我听完后,不禁菊花一紧。为何如此欺凌我等屌丝,Android机招你还是惹你了?从那我就发誓,努力赚钱,买苹果,最后苹果没买成,倒是吃了不少苹果…

所以,不要怪Android流量广告主不喜欢,主要是耍流氓比比皆是,Android已是赤裸相见,广告主喜欢iOS的朦胧美也是有情可原的。

2.刷下载,激活与留存数据

除了积分墙这种APP广告主自发的刷下载行为之外,不少广告主还是花了大价钱在不同的广告平台、应用市场上做转化效果推广的。

既然KPI是下载量、激活量,那当然有非常多的办法去冲KPI。即使要求高的留存,也难不倒这帮“专业”刷客。

现在刷客团队非常“规范透明”,据某“知名专业刷客团队带头大哥”透漏:PV 10000个0.3元(其中随机携带点击,真TM专业),实现App下载成本在0.2~0.8元,设备激活大概0.3~1元,设备激活+留存,一般需要1~1.5元。一块五你买不了吃亏,一块五你买不了上当,童叟无欺。