MyException - 我的异常网
当前位置:我的异常网» 互联网 » 规则引擎在数据分析中的功用

规则引擎在数据分析中的功用

www.MyException.Cn  网友分享于:2013-11-16  浏览:0次
规则引擎在数据分析中的作用

点击有惊喜

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

 

前言:规则引擎通过将业务规则和开发者的技术决策分离实现了动态管理和修改业务规则而又不影响软件系统的需求。以下通过实例对基于SQL 查询、自定义规则等一系列场景来说明规则引擎在数据分析中的应用。

在现代的企业级项目开发中商业决策逻辑或业务规则往往是硬编码嵌入在系统各处代码中的。但是外部市场业务规则是随时可能发生变化的这样开发人员必须时刻准备修改、更新系统,降低了效率。在这种背景下规则引擎应运而生,它通过将业务规则和开发者的技术决策分离实现了动态管理和修改业务规则而又不影响软件系统的需求。规则引擎具有广泛的应用领域同样也适用于数据分析和清洗。

 

假设我们有以下所示的一个表结构:

字段名

字段类型

说明

Name

Varchar50

姓名

Sex

Int

性别(1:男,0:女)

Department

Varchar50

部门

Salary

Int

工资

 

我们可能需要判断工资(Salary)字段不超过5000,按照此规则对该表中的数据进行清洗分析。

 

在数据分析中数据通常存储在如上所示的数据库表中,并且数据量也是比较大的。不可能一次性地导入到内存中供规则引擎使用。因此我们将通过规则引擎来分批读取并导入数据到内存中。

 

通过规则引擎进行数据分析将遵从以下所示的结构步骤:

1:需分析的数据

2:数据读取

3:将数据写入内存

4:规则库

5:规则引擎

6:分析结果

工作原理:

首先从需要分析的数据库中按照批次读取数据,然后将读取的数据放入内存中,再按照规则对内存中的数据进行过滤分析,当内存中的数据分析完成后,清空内存中的数据,再读取下一批数据进来进行新一轮的分析,知道所有的数据处理完毕为止。

 

规则库

用于判断工资的业务内容我们用旗正规则引擎提供的自然语言来进行表示,从而构成规则库,如下图所示:

fded9d90291559a22134b9e56c139c5fedd49e38

上面的例子中,我们主要做的工作就是不停的判断人员的工资情况,大于5000就发出警告信息,并把该条数据提取出来,存放其他指定的地方。

 

下面我们再用一个实际的例子来做一个规则引擎的示例,说明如何用旗正规则引擎来表示数据分析中的业务规则

在车管所电子档案系统中存在如下所示的数据表:PF_Table,用于记录档案图片的基本信息,我们对该表进行数据分析,忽略数据的完整性和有效性,我们只看有多少数据违反了以下说明的业务规则

 

fNo(指标)

paNo(页号)

Path(存放路径)

caNo(文件)

baNo(业务)

0217233

1

\2008032403\0217233\1.jpg

406101

2008032403

0217233

2

\2008032403\0217233\2.jpg

406102

2008032403

0217233

3

\2008032403\0217233\3.jpg

406105

2008032403

0217233

4

\2008032403\0217233\4.jpg

406108

2008032401

 

业务规则

1path由三部分组成:业务类型,指标档案,页号。

业务类型:必须与baNo一致

指标档案:必须与fNo一致

页号:必须与paNo一致

我们可以把旗正规则引擎对数据的分析简单概括为3个步骤

1:规则引擎从数据库中读取数据,并将读取的数据加载到内存中

2:取出内存中的数据进行分析,校验,处理

3:返回结果数据,将脏数据存储到指定的地方或者输出其他的文件和信息

 

第一步:取出数据

这个过程主要是通过规则引擎从数据库中读取数据,并把数据存放到内存中,旗正规则引擎规则引擎提供一个独特的功能,就是允许规则引擎直接访问数据库,而不需要其他任何外部程序代码来协助。过程和传统的编码方式一样,编写SQL查询语句,然后执行查询,将结果存入内存。

对一个数据库进行分析的过程中,数据量肯定是巨大的,所以在编写SQL语句读取数据这个环节,我们要做一个说明:它可能需要DBA或者是专业的数据库操作人员来完成,这个和规则引擎没有关系,规则引擎只负责执行查询,以及后续动作。

在这里我仅用一个简单的查询语句来说明旗正规则引擎提供的这个功能:

select top(10) * fromPF_Table

这表示我只读取PF_Table数据表的前10条数据来进行处理

c8bf7bb5cef1147777372807691795d01086894c

 

通过规则引擎对象库中添加test.dbs数据库连接对象,然后通过该连接就可以直接访问数据库,编写查询,插入,删除,更新等语句

SQL语句编写完成后,我们就可以在规则中执行该语句

33966f961b047f4c98edee5db185143833f5fe88

 

在规则包中添加一条规则,然后将复制的执行SQL的方法粘贴到规则的那么

c8bf7bb5cef1147777372807691795d01086894c

 

这样,当规则运行的时候就会执行该查询,同时会把查询得到的数据放入到内存中,在这里我们定义了内存表这个规则对象,可以直观的看到内存中的数据

第二步:数据分析处理

数据加载到内存中以后,我们需要取出来用配置好的规则来进行分析过滤

因为path3部分组成,每个部分都有对应的规则,所以我们先把这3部分按照特定的字符来分开,然后看第一部分是否与业务类型一致,第二部分是否与指标档案,第三部分的数字是否与页号一致,如果任何一个不一致,那么该条数据是错误的数据

d621d6da71f9a88f8aaa0142402b7c7526bd6384

 

点击有惊喜

文章评论

10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
 程序员的样子
程序员的样子
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
鲜为人知的编程真相
鲜为人知的编程真相
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
为什么程序员都是夜猫子
为什么程序员都是夜猫子
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
总结2014中国互联网十大段子
总结2014中国互联网十大段子
我的丈夫是个程序员
我的丈夫是个程序员
程序员眼里IE浏览器是什么样的
程序员眼里IE浏览器是什么样的
程序员和编码员之间的区别
程序员和编码员之间的区别
科技史上最臭名昭著的13大罪犯
科技史上最臭名昭著的13大罪犯
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
代码女神横空出世
代码女神横空出世
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
老程序员的下场
老程序员的下场
那些性感的让人尖叫的程序员
那些性感的让人尖叫的程序员
每天工作4小时的程序员
每天工作4小时的程序员
程序员必看的十大电影
程序员必看的十大电影
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
Java程序员必看电影
Java程序员必看电影
一个程序员的时间管理
一个程序员的时间管理
漫画:程序员的工作
漫画:程序员的工作
程序员都该阅读的书
程序员都该阅读的书
10个调试和排错的小建议
10个调试和排错的小建议
程序员的鄙视链
程序员的鄙视链
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
我是如何打败拖延症的
我是如何打败拖延症的
程序员应该关注的一些事儿
程序员应该关注的一些事儿
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
2013年美国开发者薪资调查报告
2013年美国开发者薪资调查报告
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
中美印日四国程序员比较
中美印日四国程序员比较
如何成为一名黑客
如何成为一名黑客
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
2013年中国软件开发者薪资调查报告
2013年中国软件开发者薪资调查报告
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有