U-Time网易严选:你关注过羊毛党吗?用户增长的另一面
最新资讯 • 品牌活动U-Time
9416
2018-12-5
摘要:
上至BAT,下到互联网初创公司,都面临羊毛党的威胁


产品总价值=活跃用户规模╳单个用户价值异常用户损失 

你知道吗,在你关注用户增长的同时,有一些黑产也在关注你。

在友盟+2018U-TimeAI·超级用户增长引擎”冬季巡回现场,网易风控算法专家周冬敏分享了用户增长的另一面,黑产/羊毛党的产业链运作模式,以及网易严选如何通过人机识别、异常群体识别、Graph算法框架等风控算法,识别和处理羊毛党。希望周冬敏的分享,能让大家更多关注和行动起来,降低异常用户损失。

以下为演讲精选:

大家好,我是周冬敏,网易风控算法专家。刚才我同事李琪提到产品总价值=活跃用户的规模*单个用户的价值异常用户损失,我接下来就从风控角度,分享异常用户损失这部分。(网易严选李琪分享文章, 深度干货| 网易严选的高段位数据运营法则,可在友盟+官网、友盟全域数据公众号中获取)

用户增长背后的灰产

黑色产业链中影响最广是羊毛党。羊毛党往往手握重兵,掌握包括移动设备、手机账号等资源,在大家看起来非常小的利益点,比如优惠券、红包等经过羊毛党就会形成一大笔财富,他们掠夺这部分财富,让我们精心设计的营销活动毁于一旦。

羊毛党有多严重?举两个例子,《2015数据安全报告》指出优步中国订单中40%为虚假交易,优步回应称不到10%,我认为这是客观偏保守的数据,20亿市场补贴有10%,那就是将近2亿美金。

某直播平台被羊毛党包围并被薅羊毛上百万,直接就倒闭了。上到BAT下到互联网初创公司,都面临羊毛党的威胁,他们应对这种风险的能力偏弱,意识也偏弱。

更可怕的是,互联网发展到今天,黑色产业链经过几轮迭代,变成十分成熟的商业运作模式。它复杂、隐秘、高效,由众多背景的黑灰产业组合而成。

上游是基础性环节,承担挖掘、制作生产和服务职责,包括图形验证码平台,手机验证码平台及软件代理工具,还有账号注册需要的身份信息就是社工库。

中游是账号生产和销售,比如盗号团伙、垃圾号注册团伙、洗号团伙、账号交易平台。

下游就是利益套现,往往是用一批经过从上中游得到的账号进行抢利,在一些场景比如秒杀/红包、0元购、优惠券做资金归集,最终实现套现。

如何识别异常账号

追根溯源,黑产的根本目的是为了获取大量资金,所以他们一定会追求投资回报率,最大限度利用资源。比如一个账号、一个手机、一个设备,都需要投入费用。因此,他们所有行为都没有产生复杂的关联,普通账户往往是在操作地域、时间、账户关系上呈现离散、关联系数的结构特征,而羊毛党往往呈现出聚集性风险,所以我们需要加强识别的手段。刚才友盟+同学也分享了,在用户拉新阶段、APP推广阶段,也有大量的羊毛党(虚假用户),友盟+也是通过AI算法和数据能力,将虚假用户、机器用户识别出来,还原渠道真实流量。

在上图中,左上角是风险业务全链路,从注册登录一直到售后维权,业务的全链路就是风险的全链路,我们会根据不同的风险类型寻找重点的业务抓手,比如账户、登录和后续登陆、修改信息是需要重点防控。

防控获得数据的类型分为两种:

第一种是利用前台采集到的数据。

通过采集页面点击行为、鼠标行为做人机识别,基于风险产品比如NC验证码、身份验证手段进行风险消化。 

第二种是基于业务数据做异常群组识别。

后端业务数据往往更加复杂、个性化。通过对后端业务数据的梳理,我们尝试构建风险图谱。图谱构建方法根据业务会有不同,在实践中,我们进行的尝试大体将其分为三块:

1)历史上账户存在的媒介关联。历史关系媒介包括例如用户-设备指纹、用户-手机关联等。

2)风险主体属性关联。比如通过账号模式、来源、渠道一样或者相似来构建这种关联。

3)基于事件行为的关联。我们正在探索同一类账户,在同一个异常的时间点,做了同一件事情,我们也会把它构建在网络里,构成风险图谱。

 有了风险图谱,接着通过图算法对风险进行识别。比如图聚类、或者当前比较流行的图表示学习模型(network embedding)把图蕴含的信息进行表达输出,最后对输出的异常群组进行交易阻断、风险消化。

严选的风控案例 

订单环节刷单识别与部署

下图是目前严选已部署的刷单识别模型,分为4个环节。前两个环节分别是离线用户媒介关系构建、实时用户关系构建。

当订单事件触发,我们会对近期的订单关系graph进行一次聚类操作。紧接着聚类过程,我们对异常群组的结果进行可视化展示、提供群组分析的相关模块、对风险进行人工确认交互。这些模块主要是辅助群组风险进行应用落地。实时图聚类处于对资源的考虑,可以数秒钟(比如10秒)触发一次。

最后进入风险处置,根据前面的结果进行交易阻断或落到名单库里进行下一次的风险预测。

下面展示两个异常群组,下边这个图是我们根据近两天的订单聚出来的第一个群组,节点上显示全部是0元单,注册时间是当月,关联原因是因为节点之间存在历史的媒介关联,72小时的IP关联,72小时的地址关联。


首先是离线关系构建,是我们从历史用户媒介关联的最底层数据里解析出用户-媒介关联,进而形成用户间的关系投影。接着是实时关系构建。通过实时事件的接入,构建短期实时关系网络,这个关联着重聚焦在72小时内产生的订单之间账户属性、账户行为关联。最终这些关系类型叠加形成一个风险网络图谱。

图中节点代表的一些订单,在手机、IP、地址方面,都绕过风控规则行为,比如一个手机就下两单,刚好不满足我们风控抓取的阈值;比如一个IP只下五六单就把我们策略略过了;地址写的非常乱,其实都是同一个地址,当然这部分我们用文本识别模型加以识别。如果用单点识别方法,这些订单都会通过,但是我们用了这套图聚类算法,通过手机号、IP、地址的规则防控,风险最终通过网络聚合并展现出来。

如果我们把这个群组里的订单,放到历史数据里去看,得到更加全面的结果,红色大点表示我们刚提到的异常群组A。可以看到这个异常群组是处于一个更大的历史网络里。

就像友盟+同学所分享的,基于AI和全域数据能力,我们不仅可以更加深度的分析用户行为、预测用户价值,更可以构建风控体系,让用户行为数据增值增厚,最终实现高质量的用户增长。以上就是我的分享。

本届U-Time巡回还在继续,近20位数据运营大咖,正在奉上超级用户运营三部曲:AI增长双引擎、头部App价值增长实践、生命周期运营培训,不仅革新理念,更赋能App价值持续增长。110日深圳站、115日广州站,火热报名中,欢迎下载嘉宾演讲资料


关注我们
  • 友盟全域数据 前沿的行业数据新风向
  • 友盟数据服务 报告/干货/App/Web数据查询