欢迎您光临本公司官方网站!
全国服务热线:13713845237

行业新闻

主页 > 行业信息 > 行业新闻 >

利用机器学习方法建模对诈骗案件进行研判和处置

2020-10-28 13:59来源:本站 作者:admin点击:

  近年来,通信信息诈骗造成的损失逐年递增,且诈骗形式和剧本层出不穷。通信信息诈骗已形成了一条非常完整的犯罪产业链。根据有关机构测算,通信信息诈骗从业者达上百万人,年产业规模已经高达千亿元。目前通信信息诈骗案例集中呈现出了一些新的特征•。

  一是诈骗模式事件链化、精准化。犯罪分子往往利用社会工程学设置诈骗场景脚本•,利用不断升级的诈骗手法、运营商的业务规则和流程漏洞,通过诈骗事件链设置将受害人一步步引入圈套,让人防不胜防。

  二是诈骗渠道和手段多样化、专业化,随着科技手段的进步,作案手段已从最原始的发短信、打电话等发展到扫描恶意二维码植入木马病毒、钓鱼诈骗等恶意网站等多种渠道联合作案的新型犯罪手段。

  随着5G技术的发展,通信将变得更加便捷,数据源变得更多样化,数据量也会呈现激增的趋势。采用传统的社会治理手段和识别规则难以适应•,相关部门和企业防范打击经验不足,防不胜防。

  随着互联网和5G的发展,运营商采集的数据源更丰富,产生的数据量呈指数上升。电信诈骗作案方式也层出不穷,从冒充亲友类的“猜猜我是谁”的常见诈骗方式,到结合了匿名网站、钓鱼网站和垃圾邮件等多种黑产手段的新型诈骗方式。因此,通信信息诈骗案件更难检测和预防,也对通信信息诈骗治理工作提出了更高要求,即须能够利用大数据技术,在短时间内处理海量通信数据,并能利用机器学习方法建模,及时对诈骗案件进行研判和处置。

  (1)语音分析:分析陌生电话语音内容,使用自然语言处理提取行为特征••,但造成侵犯用户通话隐私和影响用户感知等不良影响。

  (2)阈值匹配:从主叫号码字段匹配及其呼叫频率阈值,再用投诉样本数据对其验证,易造成具有字段特征的普通用户号码被误判,亦难以识别出不具有号码字段特征的诈骗电话,且投诉样本数量少,只有少量诈骗电线)聚类计算:计算诈骗电话簇和主叫号码簇相似度,并与已确认的诈骗电话特征指标值进行匹配,但易造成广告营销等电话与诈骗电话较为相似,从而误判的情况。且通信信息诈骗形式多变,活跃期短,因而无法得到有效管控•。

  在5G背景下,由于数据流的数量和速度呈指数上升,识别和防止诈骗的数据处理的复杂程度也随之增大。

  引擎必须能够从多个通道中提取信令数据,且支持多种数据格式。在时效性方面:为了更及时有效地识别诈骗行为,需要在秒级别内自动应用数千个内置机器学习规则。

  据库需要实时分析数千个属性,以做到实时智能和复杂事件处理,例如用户行为、地理位置•、设备信息和交易类型等。使用内置机器学习算法,将这些属性与正确的行为进行比较,并在事件中识别和阻断、提醒。基于上述问题,本文提出了一种治理通信信息诈骗的方法,可利用大数据中的Hadoop组件,实现5G时代下从信令中提取疑似码号的通信特征,而后利用

  算法,通过对海量黑白样本的学习,建立一套诈骗案件识别模型,能够对通讯信息诈骗进行快速研判和处置。2 系统技术架构

  整体系统技术架构如图1所示。系统主要包含诈骗电话识别•、受害程度判定规则及易感人群识别等三大模块。利用信令数据中异常主叫行为及事件链来识别诈骗号码,利用通话相似行为来识别通信信息诈骗受害人,并结合业务运营支撑系统(BOSS)数据中用户历史通话数据•、身份数据和消费数据来对易感程度进行分级•。

  在诈骗电话识别算法中主要涉及到信令数据中的若干字段,提取用户的通话异常行为,并筛选该通话异常行为前后的通话行为,对与该用户有过通话的主叫号码和被叫号码进行

  ,作为疑似诈骗电话集合。从信令数据、BOSS数据中提取疑似诈骗电话的全部通话特征,依据CART决策树和异常点检测识别规则对是否为诈骗电话进行判别•。若判别为诈骗电话•,则筛选出与诈骗电话有过通话行为的所有号码,根据通话行为特征判别上述用户受害程度。

  最后根据深度受害人用户通话和消费行为,对易感人群进行画像,从而实现对其他用户的易感程度分级。

  该模块用于精准识别诈骗电话。对于被网络爬虫标记且具有异常通信特征的用户,采用CART决策树模型进行识别•。而对于活跃期短或新出现的诈骗电话,利用用户异常主叫及其前后通话行为事件链模型进行识别。

  由于大量已标记的诈骗/骚扰电话样本获取困难。因此采用网络爬虫的方式,将所有样本号码提交到360、百度等网站•,利用这些网站自有的黑名单库对样本号码进行检测•,爬取被各种手机助手标记的疑似诈骗/骚扰号码信息。将这些可疑号码信息导入数据库用于模型训练。

  (2)当360和百度对同一号码标记,得到的结果不相同时,对该号码在行为特征上进行分析,选择行为特征逻辑上与标记结果比较符合的作为最终标记结果。如号码1822553****,在百度上标记为骚扰电线上标记为正常号码,从数据库中分析此号码通信行为特征可知,该号码在一天内主叫通线••、被叫通线、联系人/通线等,不太符合正常手机用户的通信行为,因此将该号码标记为骚扰电线 特征选择及特征统计分析

  考虑到诈骗/骚扰电话、响一声电话、呼死你电话在通信行为上与正常电话之间必然存在某些区别,而且这些电话多为主叫,因此选取以下通信行为特征(包括主叫通话次数、主叫外地通话次数、主叫率、主叫联系人个数、主叫外地联系人个数•、主叫外地联系地个数、主叫通话频率、主叫通话时长、被叫通话次数、回拨率、活动基站数、联系人/通话次数比例等)进行统计分析。

  对某一天某个省的信令数据进行统计分析,以下通过表格的方式对4种号码类型的各项通信特征的统计值进行具体展现,如表1所示•。

  从特征统计分析表和两两特征关联分析图可知,正常号码、诈骗电话、响一声、呼死你在某些特征上具有显著区别。具体如表2所示。

  (1)诈骗/骚扰电话、响一声•、呼死你在主叫通话次数、主叫率•、主叫通话频率都大大高于正常号码,而在回拨率上大大低于正常号码•。

  (2)响一声、呼死你相对于诈骗/骚扰电话主叫通话次数更多,主叫外地联系人个数较少,通话频率更高,联系人/通线)响一声相对于呼死你、诈骗/骚扰电话在主叫通话时长上有显著区别。

  将主叫通话次数、主叫率、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、回拨率、联系人/通线个特征作为CART决策树的输入变量,决策树深度为5,样本量为100万。目标类型中0代表正常号码、1代表诈骗/骚扰电线代表呼死你。

  通过决策树得到的决策规则后•,对预测数据采用该规则进行预测,得出疑似诈骗/骚扰电线 基于XGBoost三分类模型

  由于诈骗号码和广告号码没有明确的界限•,需对于CART决策树结果中诈骗、广告、普通用户(类型1和类型2的号码)进行进一步识别•,即三分类模型。其中诈骗即网络标记为诈骗、骚扰或被用户举报的,广告即网络标记为中介或广告推销等。

  三分类标签化处理情况如下:设label0-1代表互联网标签无标记的号码•,label1-1代表互联网标签标记为“骚扰” 或 “诈骗”的号码,label2-1代表互联网标签标记为“外卖•” 或 “中介”或 “广告” 或 “购物”的号码,label1-2代表第三方数据标记为关停或加黑的号码•。

  黑白名单划分逻辑如下:白名单(0)代表label0-1号码 + 联系人数小于20的非label1号码,黑名单(1)代表label1-1 号码+ label1-2号码,灰名单(2)代表label2-1号码。

  从用户角度而言,大部分用户接到诈骗电话后可短时间内识别,不会有后续通话行为•。而无法短时间内识别诈骗电话的用户,则会与诈骗号码及其他号码有交互行为•,且通话时间较长。因此可从用户异常主叫行为角度入手,通话挖掘用户异常通话行为,定位疑似诈骗电话•,再通过诈骗电话识别规则,对诈骗电话进行精准识别。用户异常行为主要有以下几种。

  当发生上述异常行为时,记录下陌生电话,并标记为疑似诈骗电话。通过查询疑似诈骗电话的信令•、BOSS数据,匹配该疑似诈骗电话的通话行为和消费行为等,如表4所示•。

  对于上述已被识别规则判定为诈骗电话的号码,对被诈骗电话呼叫过的用户进行细分。由于用户对诈骗电话的识别能力具有差异性,部分用户在可以立即判断并挂掉,此类情况受骗可能性较小。而部分用户会在接到诈骗电线等号码进行确认,也存在部分用户一天内被多次骚扰的情况,因此需要对多种受害人后续行为场景进行分级•,如受害程度判定规则模块所示。

  受害人发起主叫的对象分为亲密人、诈骗电线)亲密人指在若干天通话记录中,符合亲密人判定规则的联系人。其中亲密人判定规则是指同一归属地••,且30内与受害人通线次的号码。受害人接到诈骗电话后,若拨给自己的亲密人,则认为其在一定程度上相信了诈骗电话,需再次向亲友核实,故将其放入2级深度受害人数据库。

  (3)公共电线等客服电话。受害人接到诈骗电线等官方电话进行核实或求助,则认为其收到诈骗可能性较小,故将其放入1级深度受害人数据库。

  (4)陌生号码指除了亲密人、诈骗电话和公共电话之外的号码,可能是联系不频繁的亲密人或未标记的诈骗电话•,存在一定被骗可能,故将其放入2级深度受害人数据库。

  若受害人在接到骚扰电话后未发起主叫,则考察该受害人是否被频繁骚扰•,若在此记录前已被多次骚扰•,则将其放入2级深度受害人数据库。若为初次骚扰,则将其放入1级深度受害人数据库。

  1级深度受害人:与诈骗骚扰电话通话时长较短,且受害人未发起主叫也未被多次骚扰。或受害人发起主叫,主叫对象为110、95550等公共电话•,能够及时中止诈骗•。

  2级深度受害人:与诈骗骚扰电话通话时长较短,且受害人主叫对象为亲密联系人或陌生电话,存在被骗可能。或受害人在短期内遭到了陌生电线级深度受害人•:与诈骗骚扰电线

  该模型根据用户通话和消费行为,对易感人群进行画像和分类。将诈骗电话识别模块已有的诈骗号码数据,将该类诈骗号码联系过的用户进行聚合,得出所有被叫用户的通话类型,将受害人识别模块和受害程度判定模块获得的1/2/3级受害人,分别标记为1/2/3级易感人群,而没有遭受任何诈骗电话侵害的用户标记为潜在易感人群。具体输入变量和输出目标类型如表5所示。

  基于上述1/2/3类深度受害人和潜在受害人的社交信息、行为信息特征数据,及4类易感人群类别,作为样本数据集合,利用机器学习中的kNN算法,获得易感程度分级规则•。当输入没有标签的新用户数据后,将新数据的每个特征值与样本集中数据对应的特征值进行比较,然后算法提取样本集中特征最相似的数据的分类标签,具体实现步骤如下。

  步骤2:通过Map函数计算测试数据的节点到训练样本节点之间的距离•,其中距离计算方法采用上述Mahalanobis距离公式。按照距离递增次序排序,排序的结果作为Map的输出结果作为Reduce函数的输入量。

  本文设计了一种对通信信息诈骗行为进行识别和对深度受害人进行防控双重防护的方法•。该方法结合可获知的可疑样本采用机器学习算法来识别诈骗电话,同时能够根据用户与陌生电话的通话行为•,匹配异常通话行为模式,并根据疑似诈骗号码匹配出更多潜在受害人,及时介入并对用户进行提示告警。最后从用户角度•,对通信信息诈骗易感程度进行分级。

  为了能够更有效地使用论文中的方法来防止5G电话诈骗,下一步需要不断提升本方法识别精度和识别的覆盖能力,以及应对5G电话诈骗新衍生场景的能力•。

  8月12日•,在BCS2020北京网络安全大会的零信任安全论坛上,各行业资深专家齐聚一堂•,以“零信任之....

  据悉,《办法》的出台将有利于海南省发挥自贸港政策优势、测试环境优势、5G全覆盖优势、新能源汽车全域推..••..

  大多数围绕人工智能(AI)的讨论都集中在自动车辆、聊天机器人、数字孪生技术、机器人技术以及使用基于人....

  此外,在电池方面,从市场应用来看•,燃料电池无人机比较适合用于采矿、农业、测量和监测、安全和应急服务等..•..

  全球领先的物联网无线通信解决方案与无线通信模组提供商,宣布搭载其 FG150 (W)/FM150(W....

  据Light Reading报道,在过去几个月里,德国电信这家欧洲最大的电信运营商一直表现得仿佛德国.•.•..

  当然,运营商之间“5G”的含义并不相同。Verizon的ultra wideband网络使用了速度显•.•..•.

  6G关键技术实现突破,太赫兹无线G以CDMA(码分多址)作为技术基础,使用1880MHz-2145MHz频段,由于频率规划简单•、系.•...

  从2000年智能家居在中国落地算起,智能家居已经走过了近二十个年头,这二十年•,智能家居的发展经历了开....

  国内的智能家居起源于2000年,其发展已经四个发展阶段:萌芽期/智能小区期、开创期、徘徊期、融合演变.•.••..

  雷军在公开信中称,十年来,智能手机始终是小米最重要的核心业务。在可预见的未来,智能手机依然是最强大的....

  在材料方面,除了硅基,第三代宽禁带半导体是这几年的热门技术,我国除了在硅基方面进行追赶外,在第三代半..••..

  到目前为止,只有高通拥有足够的规模和专业技术为移动电话提供成功的系统级调制解调器到天线解决方案。 有....

  这家被美国视为安全威胁的中国厂商,通过销售在同一平台上支持2G•、3G和4G的“Single RAN”....

  随着5G移动通信的发展•,无线通信的使用频段向高频扩展。5G基站容量大、频点高,国内5G频段主要集中在•....

  由中国电信福州分公司与福州苏宁广场联合打造的福建省首家5G+MEC智慧商业综合体亮相榕城。合作双方依....

  彼时,微软的Windows Mobile以及Palm、诺基亚的不同手机平台上都有一定规模的应用程序商....

  集成学习方法是一类先进的机器学习方法,这类方法训练多个学习器并将它们结合起来解决一个问题,在实践中获.••...

  什么是5G生活?智能手机之后的下一个万物互联时代是什么样子的?不同的科技企业有不同的预测与看法,但已.••...

  据《国防新闻》获得的一份内部备忘录显示,由特朗普政府发布的,且已于8月13日生效的“禁止承包商使用华....

  华为自建工厂造非美技术的45nm芯片生产线日,一则关于“华为自建工厂造芯”的新闻如同一颗炸弹,瞬间引爆了媒体圈和半导体产业链•。虽然华为..•..

  早在2017年,美国便进行了小规模的5G商用•,仅比韩国晚几个小时,成为全球第二个提供5G商用服务的国....

  近日,在电子行业举办的产业链对接大会上,知名分析师对媒体表示,2019年,中国市场年规模达到2000....

  通过使用Achronix Speedster7t FPGA中的机器学习加速器MLP72,开发人员可以..•.•.

  加拿大反垄断机构加拿大竞争局(CCB)宣布,已对亚马逊展开反垄断调查,以评估其市场行为是否损害了消费.•...

  日前,联发科发布了全新的 800GbE(双端口 400GbE) MACsec retimer PHY....

  随着 5G 的全面发展,海信通信与紫光展锐实现了合作的全面战略升级,借助双方在 5G 技术及设备终端....

  大普通信董事长陈宝华在会上表示,时钟是标准、根本,是万物之始,大普通信始于晶振,在时钟产品领域具有极....

  8月14日,第四届全球未来网络发展峰会在南京隆重开幕,中国联通副总经理买彦州发表了题为《创新合作••,让.•...

  随着数字化时代的到来,新一代信息技术的快速发展,用户对网络具有大带宽需求、低时延高可靠需求和大连接需.•...

  据讯石了解,领先于业界的自动化改造推动了三优光电产品的品质升级,让更多客户选择三优光电•。公司 850.•...

  2020 年,随着新基建定义进一步明确•,一方面以 5G 和数据中心等为代表的新基建正在扩大投资与加速....

  辛国斌指出,我国5G发展呈现加速态势,基站建设进度超过预期•,7月底累计终端连接数实现8800万,越来•.••..•.

  从观测星象定位、到四大发明之一的指南针、到开启大航海时代的重要工具六分仪、再到如今被广泛应用的卫....

  中国移动13日发布2020年中期业绩,2020年上半年,中国移动努力克服疫情影响,经营业绩整体保持平....

  从行业用户的需求出发,紫光股份旗下新华三集团在8月13日举办了“小网关 大融合-- 新华三ICT..•..

  5G时代,将开启真正万物互联的智能世界,物联网行业将迎来大爆发。其中,处于上游标准化芯片与下游高度碎•....

  近日,广州移动携手中兴通讯率先在越秀区完成5G站点 AAPC(Automatic Antenna P....

  2020年中国通信网络运维服务高级研讨会在京召开•。本次大会由中国通信企业协会通信网络运营专业委员会主.••...

  14日,2020全球人工智能产品应用博览会在苏州开幕。会上,中国工程院院士李兰娟发表主旨演讲,阐述了...••.

  新冠病毒(COVID-19)危机清楚地表明了一件事:社会需要非常需要互联网。在大流行期间,互联网对于...•.

  近日,国内知名数据研究机构艾瑞咨询发布《2020年中国基础云服务行业发展洞察》报告,报告显示2019...•.

  在今天召开的•“2020全球人工智能产品应用博览会上”,中国工程院院士李兰娟表示,AI将从四方面推动医....

  几十年来的发展普及,让初创公司和创业者已经养成了将人工智能和机器学习融入几乎每一个项目的习惯。大家利..•..

  据彭博社报道•,中国供应商华为和中兴通讯将被排除在印度的5G网络建设计划之外。知情人士说,印度将实施于....

  近日,广州移动携手中兴通讯率先在越秀区完成5G站点 AAPC(Automatic Antenna P...•.

  近日,中兴通讯携手中国联通、腾讯在广东实现业内首个基于APP应用级的5G SA端到端网络切片•,构建包....

  今年以来,全球智能手机出货量继续下滑。据 IDC 数据显示,2020 年二季度,全球智能手机市场总出•....

  是德科技副总裁兼无线测试事业部总经理 Kailash Narayanan 表示:••“是德科技非常高兴为•....

  有些时候我们需要保存一些办公文档的截屏,一张图在屏幕不能完全展示•,就需要滚动截屏截取长图。传统的滚动....

  俄政府称测试期间普通用户感觉不到任何变化。俄方表示测试旨在确保俄网络在任何情况下都能无间断运行,甚至....

  简单来说,这就是要用地面测控站追踪到卫星,与卫星进行“对话”。通过“天地对话”获取卫星当前的工作状态..•..

  慕尼黑上海电子展在国家会展中心(上海)隆重举办。全球知名的电子元器件和解决方案厂商村田制作所(以下简....

  华为公司董事••、首席信息官陶景文表示,随着 5G、AI、物联网等技术的发展,加上 5G 基站建设、大数...•.

  现在在做一个项目,准确地说就是买一个基于安装智能手机或IOS的APP;功能是:通过手机开启远程摄像头实现现场监控...

  互联网已经成为我们主要的发展方向,这也是我们最近关注的热点之一•。传统制造正在逐渐被智能化制造取代,因为智能产品...

  vr消防火灾逃生 根据用户特点和灾害强弱程度的分析,交互式的vr培训平台可以针对特定用户和组织做出独特的处理。...

99真人