传统数据仓库技术即使做了数据分区,由于数据加载过程中需要维护索引,会引起数据加载将近10倍的性能下降,(无索引11000条/秒;有索引1000条/秒),在某些系统中,远远跟不上OLTP数据的产生速度(峰值8000条/秒),所以在数据的ETL过程中不能有索引。
如果没有索引,对于一个24亿条记录的表进行面向某一关键词的简单检索,就需要将近3小时。而如果有索引,同样的操作只需要20分钟。所以,没有索引数据检索不能满足业务的要求。
在数据加载的时候跳过索引的维护,可以提高数据加载的速度,但是会造成当前数据分区的索引失效,检索出错。
所以,我们需要一种新的技术来满足这种“实时数据仓库“的需要。
|