网络数据流方法-第五章
数据流概述
海量数据
测量要求:
- 一次机会
- 空间小
- 处理和更新快
- 查询准确度
测量方式:
- 专用硬件
- 抽样技术(部分流量数据)
- 数据流(所有流量数据)
数据流定义:高速传输的数据
数据流适用任务场景:
- 熵估计
- 流量与流矩阵估计
- 连接度估计
- 大流估计
- 活跃流的计数
Bitmap
naive bitmap:bitset[n][m]
direct bitmap:对流标识进行hash,映射到bitmap的某个位
virtual bitmap:hash(流标识)若在virtual bitmap中则置位,相当于抽样
multiple bitmap
multiresolution bitmap
Bloom Filter
标准布隆过滤器:一个元素计算多次hash,若各个hash位置为1则说明元素在集合中
仅支持插入和查找,不支持删除
由于hash碰撞,存在误判的可能性
误判分析
k=7时有最小误判率
计数布隆过滤器:标准布隆计数器+可删除;每个元素一个计数器,当元素被删除时对应计数器减少
计数器4位够用
Sketch
count-min sketch:mxn的二维矩阵,每行对应一个hash函数,n为mod的大小;计算元素的各个hash值,mod n后每行对应位置加1
用于计数
返回不准确的结果