面向安全的大数据分析方法和思路
发布日期:2015-04-24浏览:4007
-
课程价值点
通过学习,使学员了解大数据的概念和特征、如何将大数据分析方法用于安全分析、如何从大数据中发现异常行为和攻击事件、如何发现未知攻击和异常、如何发现未感知的攻击和异常。
二、课程内容
介绍大数据的概念和特征,面向安全的大数据分析的目的是希望从大数据中分析出异常行为或攻击事件,尤其是未知且未感知的攻击和异常。从原理的层面对适用于异常检测的大数据分析算法做了详细介绍,然后介绍大类数据分析的两大思路,即告警驱动的分析方法和数据驱动的分析方法。举例说明如何利用前述的分析算法和分析思路获得期望的分析结果。课程时长
12 H课程大纲
第一章 大数据分析概述
介绍大数据的概念和特征,面向安全的大数据分析的目的是希望从大数据中分析出异常行为或攻击事件,尤其是未知且未感知的攻击和异常。
1、大数据(Big data)的前世今生
假如我们有了一个数据预报台,就像为企业装上了一个GPS和雷达,企业的出海将会更有把握。——马云2012年网商大会演讲
2、大数据的4V特征
1V-Volume,数据体量巨大。从TB级别,跃升到PB级别
2V- Variety,数据类型繁多。网络日志、图片、视频、地理位置信息、购物等等
3V- Value,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅一两秒
4V- Velocity, 处理速度快。1秒定律。这一点和传统的data mining有着本质不同
3、大数据的价值
纵向:消费者、企业与价值链
横向:“大交易数据”(比如支付宝的交易数据)和“大交互数据”(比如一些社交网站,移动互联网新媒体等)
两类数据融合:容易洞察“客户足迹”,掌控消费趋势、开发创新产品和推进精确营销
第二章 适用于异常检测的大数据分析算法原理
1、经典统计方法
组合优化
EM优化
2、聚类分析算法
例如,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再比较各银行之间不同等级网点数量对比状况。
直接聚类法
最短距离聚类法
最远距离聚类法
3、相似性分析算法
检测效率高
相似列表片段
4、关联分析算法
关联算法是数据挖掘中的一类重要算法。1993年,R.Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题,其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层及布尔关联规则,典型的算法是Aprior算法。
5、分类算法
决策树
贝叶斯
K-近邻
基于关联规则的分类
集成学习
6、文本分析
(I)用映射或变换的方法把原始特征变换为较少的新特征。
(2)从原始特征中挑选出一些最具代表性的特征。
(3)根据专家的知识挑选最有影响的特征。
(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
第三章 面向安全的大数据分析思路
1、可分析数据
可靠性数据分析
智能数据分析
多元统计分析
2、分析的过程
数据是信息的载体,也是今后系统要处理的主要对象。因此,必须对系统调查中所有搜集的数据以及统计处理数据的过程进行分析和整理。如有不清楚的问题,应立刻返回去弄清楚;如发现有数据不全、采集过程不合理、处理过程不畅、数据分析不深入等问题,应在本次分析过程中研究解决。
流动
变换
存贮
3、基于各种期待结果的分析场景
黑盒测试
测试用例
性能测试
总结 课程总结