网站做美工,163网站建设,关于校园网站建设的通知,专业网站制作定制摘要#xff1a; 近日#xff0c;阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。
近日#xff0c;阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。
先跟大家聊一…摘要 近日阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。
近日阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。
先跟大家聊一下什么叫时序数据。简单的说就是时间上分布的一系列数值关键字是数值我们一般认为的时序数据是什么时间发生了什么事情但是在时序数据这个领域里定义的时序数据全都是跟数值有关的。也就是说如果只是一个带有时间戳的一条数据并不能叫做时序数据。举个例子比如像我早上8点半上楼吃了个饭这条记录相当于一个日志这个本身不构成一个时序数据但是如果某个餐厅早上8点半同时有50个人在那里吃饭这个50加上餐厅的信息再加这个时间点就构成了一个时序数据。
单值与多值建模
实际上通用的建模方式有两种其中的一种是单值。实际上我们是针对不同的东西来建模的多值的模型是针对数据源建模我们每一行数据针对的是一个数据源它的三个被测量的指标在同一列上所以每一个数据源数据的来源在每一个时间点上都有一行这就是多值的模型。还有一种模型是单值的模型单值的模型我们是把它测量的精确到时间序列上也就在时间序列的每个时间点上只有一个值所以是个单值也就是说对于多值模型来说它每一行数据对应的是一个数据源对于单值模型来说它对应的是一个时间序列实际上多值模型对应的是一个数据源在一个时间点上就会产生一行数据而在单值模型里一个数据源上面的每一个指标会产生一行数据。
什么是插值和降精度
如上前面所讲时间序列会分布在一些时间线上数据源和测量指标确定了的话时间序列是随着时间轴往后分布的实际上它的采样在一个典型的场景里是固定时间间隔的它中间一些点做处理会牵扯到插值和降精度处理。比如说中间丢失了一个点比较简单的方法是中间插一个值常用的方法是线性插值就是在时间轴上画一个直线中间的点就插出来了。另一个叫降精度例如我们有个按秒采样的时间序列显示时间范围是一年的数据为了便于查看需要把时间精度降到一天。比如我们只选这一天中的最大值或者最小值或者平均值作为这一天的气温也就是最高气温最低气温和平均气温的概念。用算法或者把时序数据转换成精度比较低的时间序列以便于观察和理解它这是在传统数据库里没有的一种方式。再一个就是数据聚合也是非常典型的基于设备的数据统计比如这里有很多设备指标数据构成的时间线时序数据的聚合是在时间线的维度上的而不是按点的在处理平时处理的空间聚合的话一般是把很多数据点按照一个个聚合起来而实际数据处理的时候一般会把它抽象的点连成线就是刚才看的时间序列每个数据源在一个测量值上会产生一行时间线加上时间序列如果是根据某一个维度上的测量的话在同一维度就能调成线就把时间序列处理出来了。
举个例子 智慧园区的业务系统需要查看一个楼宇的某盏灯的耗电量情况那么就需要把这盏灯的耗电量数据从数据库中查询并展示出来如果由于采集的故障导致某个时刻用电量数据缺失那么需要通过特定算法来近似的估算出这个数据这个计算补全数据的过程就是“插值”。而当需要查看这盏灯一年的耗电趋势情况时通常只需要计算出每一天的耗电量进行查看而不需要把每一个时刻采集的数据全部输出出来这个将原始精度转化为业务需求精度的过程就是“降精度”。而如果要统计某一个楼层或者楼宇的用耗电量整体趋势数据时就需要将所有统计范围内的灯具的耗电量数据做“合并统计”这个类似的统计过程就是Aggregation。
时序数据降精度是在时间序列维度上做的。对于关系数据库来说首先要把时间序列维度拿出来然后在中间插值而实际上 SQL 是按点来操作的。所以如果要做降精度的话需要用一个值查询把整条时间序列上的数据查询出来插好值之后才能做时间序列之间的聚合那么服务和 SQL 服务器之间的吞吐量非常大相当于 SQL 只是一个数据通道需要把所有值都拉出来运算一遍这个查询性能会非常慢并且每一次计算都需要重新拉取数据相对 HiTSDB这个性就能差了几百倍在空间聚合 Aggregator 支持也非常全面支持 ADhoc 查询HiTSDB 通过引入倒排索引和数据分片提升检索时间序列的效率通过并行计算架构整体计算性能提升非常明显。
HiTSDB高压缩技术 存储成本降低90%
物联网领域是最典型的时序数据产生和应用的场景这些场景具备一些特征技术数据量特别大比如某个智能设备的温度传感器首先第一是时间序列会持续的产生大量的数据持续的产生什么意思呢因为我们往往对时间序列来说是定时采样功能如果每秒测量一次一天是86400秒如果24小时都要用平均每一个传感器仪表在一个时间点上产生一个数据点一个仪表就产生86400个数据如果把全国各个县都布一个采样点那一天数据就上亿了实际上大家作为气象采样来说每一个县对应一个温度传感器显然有点不够的可能我们是每一个街道甚至每个小区都有这样的传感器那么这个数据加起来实际上是一个非常惊人的数字。
利用HiTSDB 的高压缩技术相比较 OpenTSDB 提升10倍左右通常原始时序数据的大小在 200-300 ByteOpenTSDB 单数据点消耗约20 ByteHiTSDB 单数据点消耗约 2Byte通过 HiTSDB 可以节约90%以上的数据库存储成本。
对于物联网平台企业可以利用HiTSDB 和阿里云的产品能力基于如下的架构构建云上的物联网平台。HiTSDB 除了在云上提供高效的时序数据服务能力企业可以也可以利用HiTSDB 结合阿里云工业大脑和城市大脑的大数据方案实现智能制造生产和智慧城市。 利用HiTSDB 的“边缘 中心”的解决方案可以满足工业物联网IoT尤其是电力能源行业的数据边缘端本地存储分析逐级数据上报 以及网络不稳态的数据数据稳定上报和中心端的全局设备数据监控分析打通智慧大脑的数据通道。
HiTSDB商业化首发期间官网推出85折优惠活动。更多详情点击【HiTSDB官方网站】
原文链接
干货好文请关注扫描以下二维码