摘要:為了解決現(xiàn)有的亂序數(shù)據(jù)流聚合查詢處理技術(shù)不能在降低查詢處理延遲,同時(shí)保障聚合查詢結(jié)果的最終正確性的局限性問(wèn)題,本研究設(shè)計(jì)了混合嵌入分布式流處理模塊和分布式批處理模塊的亂序數(shù)據(jù)流分布式聚合查詢處理技術(shù)。該技術(shù)一方面基于用戶給定的結(jié)果質(zhì)量,限制自適應(yīng)地優(yōu)化流處理模塊所用的緩沖區(qū)大小,從而盡可能降低流處理的查詢處理延遲;另一方面基于備份于分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)的歷史流數(shù)據(jù),并以批處理的方式實(shí)現(xiàn)對(duì)極其晚到流元組的查詢處理,從而保障聚合查詢結(jié)果的最終正確性?;谡鎸?shí)的亂序數(shù)據(jù)流數(shù)據(jù)集對(duì)該技術(shù)進(jìn)行測(cè)試分析表明:該技術(shù)在平均查詢處理時(shí)延、查詢結(jié)果精度和系統(tǒng)可擴(kuò)展性方面,比目前最好的基于緩存的亂序數(shù)據(jù)流處理技術(shù)均具有顯著優(yōu)勢(shì)。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社