数据尽职调查之在线教育行业数据作弊审查

来源:原数据 作者:黑岩 时间:2019.10.21

自2006年新东方教育集团赴美上市以后,教育行业开始成为资本市场的宠儿,多家培训机构陆续赴美上市。2010年后,互联网+概念兴起,在线教育也从2014年开始成为风投关注的重点领域。原因无他:重视教育是国人传统,人口结构从年轻化转向中年化,二胎政策开始实行,以及“不让孩子输在起跑线上”的理念在家长群体中风行。因此,大部分投资机构都把在线教育视为现金流行业,市场潜力巨大。

由于在线教育的模式可以打破时空限制,解决各地区师资力量分配不均的矛盾,多家产业资本和风险投资机构近几年进入,导致市场竞争进入了白热化阶段,大部分在线教育企业持续烧钱,获客成本增加,以至于为了获得1元的收入,不得不付出2元的成本。众所周知,教育是“百年树人”的中长期行业。当“润物细无声”的教育行业特征和天生逐利的资本发生矛盾,为了提高估值拿到更多的投资,以满足持续扩张的烧钱模式需要,数据造假或作弊似乎成了通向成功的“捷径”和将企业起死回生的“药方”。

相比以低成本就能依靠脚本语言实现作弊的网络视频行业和广告行业不同,教育产品吸引投资者的“卖点”是用户数据,包括新增用户和活跃用户。而这些用户的判断标准是以能否签订合同和付费为定义的。换言之,教育产品的“门槛”是动辄上万的订单,因此,原数据团队判断该类公司是否数据造假,除了依靠技术和算法模型以外,历史积存数据分析以及端对端流程分析也非常必要。

在线教育公司常见的数据作弊来欺骗投资者的行为主要是用户数据造假。比如媒体报道的2018年DD公司英语刷单数据造假,HF教育公司用户数据造假等等。此类事件近几年多次发生并被媒体曝光,对行业声誉和用户信任度造成恶劣影响,长此以往势必影响整个行业生态健康发展。为维护国民发展之基础,最后政府部门将不得不对整个行业进行整顿,可能导致行业萧条或者活性大为减少。

因此,由独立第三方数据尽职调查公司进行数据甄别、审查和打假是对投资者保护和降低业内风险的有效手段。作为中国第一家独立的互联网数据尽职调查团队,原数据列举了教育产业的部分数据作弊手段和甄别方法:线上教育的服务器数据甄别,通过聚类和神经网络等用户特征分析对造假用户进行甄别,用户留存率和持续活跃程度甄别,以及从签约、教学到课程结束的流程跟踪。


1. 线上教育的服务器数据甄别

服务器数据包括IP地址、终端设备、终端版本操作系统和终端wifi使用情况等四类数据分析。          

• IP地址和设备号异常:作弊的连接数据通常有IP地址频繁更换所在地理位置,以及设备号频繁重置IDFA的特征;

• 终端设备:根据在线教育用户的特征分析,用户所使用的终端设备价位通常以中高端为主。如果新增用户或者启动APP的用户所使用的终端以低端设备为主,很有可能这些连接设备的用户为刷量的虚假客户。

• 终端操作系统版本:为了更好的在线教育视频体验,真实的用户所用的终端操作系统版本通常比刷量的操作系统版本更新和更适配。这项特征可以通过用户特征发现和验证。

• 终端wifi使用情况:真实的用户通常会使用wifi来下载和启动App参加网络课程。因此,如果wifi下面使用App的情况少于80%,则刷量的虚假用户数据风险较大。而对于普通App(所需流量较少),wifi下面的使用率在60%-70%之间。下图是普通App在正常情况下wifi和数据漫游服务使用的比率。


2. 聚类和神经网络对用户特征进行甄别

我们可以运用K-means++对用户特征字段进行聚类分析(Clutering)。根据Lemma 1、Lemma 2和Lemma 3定理,确定聚类中任意一点和中心点的距离最小化,该中心点的SSE是该聚类里面所有点的平均值,而且寻找中心点的过程是有限的。

Lemma 1:

以用户注册使用时间、登陆终端、终端wifi使用情况、APP使用时间、留存情况、在线活跃程度、在线活跃时间、持续活跃天数、合同是否续签等等数据从被调查公司数据库中提取,导入系统进行分析。


然后运用卷积神经网络(Conventional Neural Network)对用户特征进行分析和预测。卷积神经网络是深度学习算法的一种,是近年来广泛运用的模式识别和用户画像等领域的一种高效识别算法,其结构图可以通过下面的例子简单说明。

比如对于一个24*24的二维图像,通过两层简单神经元卷积面(2S和3S),以及两个复杂神经元卷积面(2C和3C),对特征进行多次提取,最后生成10个单一神经元。这些特征检测层通过训练数据进行学习,从而产生稳定的特征,并能对新的物体(object)进行精确的识别。


通过以算法和深度学习对用户特征进行提取,能监测用户数据作弊行为,并能较快较准地对用户数据进行分析,甄别和区分真实用户数据和作弊用户数据。


3. 用户留存率和持续活跃程度分析

留存率是判断用户质量的通用指标。在线教育行业,真实用户的留存率在7日至30日以内不能过低,具体数值可以参考行业的平均标准。

除此之外,还可以通过课余论坛、与老师的互动以及合同续签等指标对用户的持续活跃程度进行检测和分析。以此排除由于刷量带来的短期账户和“僵尸”账户。


4. 端对端的流程跟踪

在充分了解在线教育行业运营流程的基础上,对用户按照注册序列号进行从登录、试听课程、签订合同、正式注册、挑选课程、参加课程、课余互动、课后回访以及合同到期或者续签等流程进行跟踪和分析。如果出现大量未走完流程中途退出的用户量,则极有可能为通过刷量带来的虚假客户。这些数据审查和分析工作都是数据尽职调查的工作范围。


“不忘初心,方得始终”。教育的初心是以育人为目的,而育人,不同于机器语言,是不能简单地通过资本投入或者粗暴的营销获客来快速增长。通过数据舞弊以欺骗投资者,将使整个行业竞争恶化以及使资源无法得到有效配置。更由于教育行业自古以来在中华文化中特殊的地位,将对行业声誉和地位产生负面的社会影响,违背了普世的社会价值观。

原数据,作为中国首家独立第三方互联网数据尽职调查机构,以求真求实的宗旨和科学的数据挖掘与分析手段,对包括在线教育行业在内的互联网数据进行审查,甄别其作假行为,减少投资者的错误投资,为维护教育行业声誉和提高资源于在线教育行业的配置效率做出自己的努力。(原数据黑岩)