互联网金融数据抓取与风控 -

Rod_johnson

浏览: 72428 次
性别:
来自: 上海

最近访客更多访客>>

caolinlin

sisimu

a418040445

luoyifan

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (36)

社区版块

存档分类

互联网金融数据抓取与风控

金融互联网

互联网金融要充分利用互联网上技术高效的获取用户的数据，对海量的数据进行分析，达到对客户精准的授信，杜绝恶意高危用户，降低违约率，实现风险控制。

风控主要分为两个阶段，数据抓取和数据挖掘。下面就我了解互联网的数据抓取的几个方面整理如下：

1、设备识别：

设备识别就是对用户使用的设备的精确识别，设备的定义包括电脑、手机、平板，用来上网的设备，通过设备识别可以做到反欺诈，账号关联等；比如同一设备上有不同的账号登录操作，就可以认为这两个账号是有关联的，如果其中一个发生逾期，其他的账号也是高危用户。再比如同一个设备上出现大量的账号登录则可以推断这些账号是高风险欺诈用户。

设备识别的方式分为客户端和网页两种形式，客户端如手机app可以获取手机的唯一编码（苹果手机好像不行），网页的形式主要是通过页面js脚本和后端tcp数据包解析方式。国内设备识别反欺诈的服务商我了解的有“同盾”和“通付盾”。

正常的用户行为，比如每天登录的次数，常用的登录地，每周的交易金额，习惯的购物时间等都有一个基本固定的范围，而异常的用户行为和正常的用户行为会有明显的差别。通过计算每一个用户的这些行为指标，和正常的指标值进行比较，就可以发现可疑的情况。

2、定向数据抓取：

定向数据抓取就是对互联网开放的有价值的数据进行定向提取，比如法院公布的赖账人，

P2p网站公布的黑名单用户，定向抓取通过分析网页结构，抓取并解析获取数据，作为欺诈证据库。

Java可以用httpclient获取页面jsoup.xpath解析页面，python scrapy爬虫框架。对于有些页面需要执行js异步加载的可以试试Java的htmlunit 它可以模拟浏览器执行脚本。

最近还发现一个爬虫框架不错

pyspider（http://docs.pyspider.org/en/latest/），它是一个服务的形式，可以在上边配置定时任务抓取网页地址信息。

3、模拟登录：

模拟登录就是在用户和真实的网站之间设置个代理网站，用户填写的账号密码，提交到代理网站，代理网站后台再去模拟登录真实的网站，代理网站可以获取需要登录才能查看的信息，这个是比较复杂的，很多网站尤其是大型电商网站都有反欺诈反机器人模拟登录的策略，很多页面也都有加密脚本执行，比如当网站监测到用户的行为比如输入账号密码的速度（敲击键盘的数据）以及鼠标移动的轨迹，还有用户登录的设备和ip不是用户正常的情况都会增加反机器验证手段。登录的成功率不高不稳定。

模拟登录我了解的技术方式Selenium2。Selenium支持多种语言用于web自动化测试，可以用语言脚本驱动浏览器自动操作网页

（参考：http://www.cnblogs.com/dingmy/p/3438084.html）

最后提一些自己的认识，互联网金融重要的是风控，互联网面向的是海量的互联网用户，因此不能用传统线下的方式获取用户信息这样效率低成本高，现在阿里和腾讯等互联网公司多年积累了大量的用户行为数据，他们基于自己的用户群可以准确高效的授信风控，比如通过对用户以往的消费行为可以了解用户的消费能力爱好给用户画像，这属于熟人授信，而互联网金融一方面要积累自己的用户数据，一方面还要对陌生人授信，这就需要获取用户的大量数据，比如通过获取用户登录网站的时间，通过数据分析聚类哪些时间段上网的用户还款率高，哪些时间段低；同时通过多个维度获取的数据对用户信息的真实性验证，比如用户提供了自己的居住地址，我们可以通过app获取用户的经纬度，如果和地址基本吻合就认为信息真实，数据获取的方式用很多，如何能做到灵活可配置高效的获取数据框架并且通过数据挖掘机器学习实现自动化风控引擎，风控引擎高效自动化。我认为风控引擎(爬虫框架+规则引擎)一定和互联网搜索引擎一样会给互联网金融带来巨大的飞跃。

分享到：