陈纯:大数据的实时智能处理

发布时间:2018年09月01日阅读:1902来源:
点击分享至

陈纯

 

浙江大学计算机科学与技术学院教授,博士生导师,中国工程院院士,计算机应用专家,主要研究方向为大数据智能计算、计算机图形图像处理、计算机视觉、人工智能等。

 

2018年8月30日,在由浙江省创业投资协会主办,如山资本承办的“智汇数据·智胜未来”的大数据论坛上,浙江大学教授、中国工程院院士陈纯教授做了 “大数据实时智能处理——技术、平台及应用”的主题演讲,可谓精彩纷呈,为此,我们特别整理报道,与大家共享:

 

从时间的角度来看,大数据可分为两种,一种是批式大数据,又称历史大数据,一种是流式大数据,又称实时数据。举个例子来讲,如果我们把数据当成水库的话,水库里面存在的水就是批式大数据,正流进来的水是流式大数据。

 

一开场,陈纯教授就用水库这个通俗易懂的例子,把晦涩难懂的专业术语清晰明了地阐释给了大家。

 

数据价值与时间息息相关。根据存在时间的长短可称为热数据、温数据和冷数据,简言之,“热数据”就是实时数据,经过了一定时间的数据是“温数据”,而经过更长时间以后的数据可称之为“冷数据”。

 

数据越热,越有价值,而流处理技术也就越来越重要!

 

在互联网/移动互联网、物联网等应用场景中,个性化服务、用户体验提升、智能分析、事中决策等复杂的业务需求对大数据处理技术提出了更高的要求。为了满足这些需求,大数据处理系统必须在毫秒级甚至微秒级的时间内返回处理结果。

 

 

因此,迫切需要研发具有快速、高效且自主可控特点的流式大数据(批式+流式) 实时处理软件系统。

 

“流立方”流式大数据实时处理主要提供基于时间窗口漂移的动态数据快速处理技术,支持计数、求和、平均、最大、最小、方差、标准差、协方差、K阶中心矩、递增/递减、最大连续递增/递减、唯一性判别、事件序列识别等多种分布式统计计算模型。

 

流立方大数据实时处理主要面临四大挑战:

 

1、基于分布式内存的并行计算;

 

2、海量历史数据高性能分析(高速度、高复杂度) ;

 

3、 流数据(实时+历史)复杂逻辑增量计算;

 

4、基于流的事件序列识别 (复杂事件处理CEP)。

 

“流立方”流式大数据实时处理系统应用广泛。

 

“流立方”流式大数据实时处理系统应用广泛在金融、交通、电信、公安等行业具有广泛的应用场景。以金融风控反欺诈为例,部署“流立方”风控系统仅需在交易前端增加风控探头,将实时交易数据旁路接入系统。“流立方”风控系统根据融合了专家知识和机器学习结果的数百条规则对每笔交易进行风险评估,判断是否允许进行该笔交易。

 

 

 

基于“流立方”的实时机器防御系统通过多服务器访问流水关联决策、长周期数据决策、复杂规则爬虫识别、设备维度爬虫识别、人机识别等技术,实现了微秒级(400~800μs)的识别时延,同时具有机器人识别管控一体化、轻量级接入等优点。

 

根据已经接入机器防御服务的几十家客户的反馈,基于“流立方”平台的防御系统对网络机器人识别覆盖率在95%以上,准确率为99.9%。该机器防御系统能够拦截这些客户业务系统中占原有访问总流量80%~90%的来自网络机器人的访问流量,使得其业务系统服务器的压力降为原来的10%。

 

总之,流式大数据实时处理是大数据时代信息化的重要抓手。

 

采用“事中”甚至“事前”模式实现感知、分析、判断、决策等功能的智能系统需要流式大数据实时处理平台的支撑。同时,流式大数据实时处理可以为大数据驱动的深度学习提供计算框架支撑。“流立方”流式大数据实时处理平台可为研制融合逻辑推理、概率统计、神经网络等多种形态的下一代人工智能统一计算框架提供支持。

 

“热数据”带来无与伦比的价值,数据从产生开始,其应用价值随时间的流逝呈现指数式下降,因此,如何充分应用“热数据”是一个新生事务,是一个长期任务,也是流式大数据处理技术大有可为之处。

上一篇:万亿苹果有哪些问题值得我们深思? 下一篇: “智汇数据 • 智胜未来”大数据论坛在杭圆满举办! 返回列表