提升讀取效率　大范圍數(shù)據(jù)讀取處理方案 - 業(yè)界

影響讀取的因素

堆表的結(jié)構(gòu)特征會(huì)對數(shù)據(jù)讀取效率產(chǎn)生很大的影響。前面在介紹堆表結(jié)構(gòu)和聚簇因子時(shí)，已經(jīng)詳細(xì)說明了其中的一部分影響因素。接下來，我們還會(huì)說明需要了解和注意的其他幾個(gè)影響因素。

大范圍數(shù)據(jù)讀取的處理方案。

提高聚簇因子的處理方案及重構(gòu)表時(shí)的注意事項(xiàng)。

大范圍數(shù)據(jù)讀取的處理方案（1）

在堆表中，由于數(shù)據(jù)是按照插入順序被存儲(chǔ)在磁盤的任意位置上，所以存儲(chǔ)時(shí)所需要付出的代價(jià)相對較少。但是在讀取滿足特定查詢條件（SQL語句中WHERE之后的條件）的數(shù)據(jù)時(shí)，所需要付出的代價(jià)則相對較大。當(dāng)然，這并不是我們所能左右的事情。我們知道，當(dāng)讀取的數(shù)據(jù)量非常少時(shí)，不論怎么讀取都能獲得非常好的讀取效率；但是當(dāng)讀取的是海量數(shù)據(jù)時(shí)，問題就從根本上發(fā)生變化了。

例如，當(dāng)人體內(nèi)的病菌數(shù)量非常少時(shí)，只需要通過打預(yù)防針，以增強(qiáng)免疫力，就能夠治愈。但是，當(dāng)人體內(nèi)的病菌數(shù)量非常多時(shí)，以至到了威脅生命的程度，那就不再是僅僅通過注射預(yù)防的藥物就能夠治愈的問題了。再比如，假設(shè)讀取1行數(shù)據(jù)需要花費(fèi)0.01秒，那么讀取10行數(shù)據(jù)也只不過是花費(fèi)了0.1秒而已。但是如果需要讀取1億行數(shù)據(jù)，則所花費(fèi)的時(shí)間為1 000 000秒，即277小時(shí)，將近12天。在查詢數(shù)據(jù)時(shí)，等待0.1秒也許根本就覺察不到；但是如果要等待12天，則無論如何都是無法忍受的。

雖然這里舉的這個(gè)例子有些極端但卻是事實(shí)。在必須要處理海量數(shù)據(jù)的情況下，所采用的處理方案從根本上就應(yīng)與面對少量數(shù)據(jù)時(shí)不同。因此，作為用戶，我們首先應(yīng)當(dāng)認(rèn)識到這一問題的嚴(yán)重性，絕不可以掉以輕心。很多用戶認(rèn)為，在處理海量數(shù)據(jù)時(shí)不應(yīng)當(dāng)使用堆表，事實(shí)并非如此，堆表在管理海量數(shù)據(jù)方面具有其他類型表無法比擬的優(yōu)勢。在堆表結(jié)構(gòu)中，由于處理海量數(shù)據(jù)的各種解決方案（并行處理、分區(qū)、各種索引等）都可以使用，所以在現(xiàn)實(shí)中有很多用戶都在使用堆表來存儲(chǔ)海量數(shù)據(jù)。

即便在預(yù)測到將要處理的數(shù)據(jù)量會(huì)非常大的情況下，也仍然可以選擇使用堆表來存儲(chǔ)數(shù)據(jù)，這主要是因?yàn)檫@可以減輕數(shù)據(jù)插入時(shí)的負(fù)擔(dān)。當(dāng)然，如果插入數(shù)據(jù)時(shí)的負(fù)擔(dān)并不是很大，則為了提高數(shù)據(jù)的讀取效率，我們可以選擇使用其他類型的表來存儲(chǔ)數(shù)據(jù)。但是，在對數(shù)據(jù)存儲(chǔ)速度要求非常高的情況下，相信沒有哪個(gè)用戶愿意為了給數(shù)據(jù)尋找一個(gè)好的存儲(chǔ)位置而花費(fèi)時(shí)間。

有些用戶可能會(huì)把需要存儲(chǔ)的數(shù)據(jù)暫時(shí)存儲(chǔ)在臨時(shí)位置上，等到閑暇時(shí)再將數(shù)據(jù)移動(dòng)到磁盤的合適位置，但是這種方法并不像我們想象的那樣容易。事實(shí)上，在大部分的RDBMS中，都是只在內(nèi)存中對用戶要求的數(shù)據(jù)進(jìn)行處理，然后等到閑暇時(shí)再將處理結(jié)果從內(nèi)存中移出并存儲(chǔ)在磁盤的合適位置上。我們將此方式稱為延遲寫入（Deffered Write）。

在我們所開發(fā)的應(yīng)用程序中，如果試圖使用延遲寫入的方法來處理數(shù)據(jù)，則由于每次都要通過編寫代碼來實(shí)現(xiàn)，使用起來會(huì)比較費(fèi)勁。綜上所述，在無法避免由于插入數(shù)據(jù)而造成的很大負(fù)擔(dān)的情況下，不僅要對堆表予以充分的肯定，而且還要盡最大努力去尋找其他有效解決方案。在本書的后面會(huì)不斷涉及此問題的不同解決方案，在此不進(jìn)行過多說明。

在作者看來，堆表其實(shí)是最普遍的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。乍一看，好像堆表只是在存儲(chǔ)海量數(shù)據(jù)方面比較有效；但事實(shí)并非如此，也希望各位讀者不要產(chǎn)生不必要的錯(cuò)覺。堆表所具有的唯一優(yōu)點(diǎn)就是在數(shù)據(jù)插入時(shí)不需要采取任何特別的措施，只需順其自然按照數(shù)據(jù)插入的順序存儲(chǔ)，因此減少了插入大量數(shù)據(jù)時(shí)的代價(jià)。僅此而已，再無其他任何優(yōu)勢可言。

依據(jù)表中所要存儲(chǔ)數(shù)據(jù)量多少的不同，將表分為小型表、中型表、大型表。在這三種類型中，都會(huì)有一些對決定表結(jié)構(gòu)產(chǎn)生一定影響的因素，在這里將予以詳細(xì)說明。

小型表

首先來分析一下小型表的特征，所謂的小型表就是指表中所存儲(chǔ)的數(shù)據(jù)量相對較少。這不僅意味著數(shù)據(jù)插入時(shí)的代價(jià)相對較小，而且還意味著數(shù)據(jù)被分散存儲(chǔ)在較少的數(shù)據(jù)塊上。假設(shè)把小型表中數(shù)據(jù)的存儲(chǔ)區(qū)域視為一個(gè)個(gè)圓，則該圓的半徑也會(huì)相對較小。例如小村子里的人們即使居住得比較分散，相對而言他們之間的距離其實(shí)也并不怎么遠(yuǎn)。然而，表的這些特征會(huì)對后來的數(shù)據(jù)讀取有著非常大的影響。

在關(guān)系型數(shù)據(jù)庫中，不論是何種類型的數(shù)據(jù)讀取，每次最少都需要讀取一個(gè)以上的數(shù)據(jù)塊。由于小型表數(shù)據(jù)塊數(shù)量相對較少，重復(fù)讀取緩存在內(nèi)存中的概率也相對較大，所以盡管是隨機(jī)讀也能獲得非常好的數(shù)據(jù)讀取效率。

如果小型表是在關(guān)鍵訪問路徑（Critical Access Path）上，則即使非常微小的差異也會(huì)由于頻繁讀取而被放大得非常明顯。在此情況下，就有必要使用更加有效的方法（例如索引組織表，或者聚簇表）來存儲(chǔ)數(shù)據(jù)。事實(shí)上，由于大部分小型表都不在關(guān)鍵訪問路徑上，所以除了特殊情況之外，一般沒有必要采取額外的措施。

中型表

現(xiàn)在讓我們再來思考一下中型表。對中型表進(jìn)行具體定義是比較困難的，而且也沒有必要必須對其下一個(gè)定義。這里所介紹的中型表是指，位于處理代價(jià)非常大的大型表與處理代價(jià)非常小的小型表之間的所有表。我們知道，在幾乎所有的分類中，位于中間的類型通常都是最一般且所占比例最大的部分。

所謂的中型表不僅意味著數(shù)據(jù)插入時(shí)的負(fù)擔(dān)不像大型表那樣會(huì)對整個(gè)系統(tǒng)有著決定性的影響，而且還意味著在各種應(yīng)用中頻繁被讀取的概率相對來說較大。讓我們從常識的角度來思考一下中型表，反正數(shù)據(jù)插入時(shí)都需要付出一定的代價(jià)，還不如采用有利于數(shù)據(jù)讀取的固定存儲(chǔ)方式來存儲(chǔ)數(shù)據(jù)。這樣盡管在某種程度上增加了一些數(shù)據(jù)插入時(shí)的代價(jià)，但換回的卻是高效率的數(shù)據(jù)讀取。

雖然這種想法具有一定道理，但由于按照固定存儲(chǔ)方式只能確保一種存儲(chǔ)順序，所以也只是在讀取特定列時(shí)能夠獲得較好的效率。對于其他列而言，根本無法改變其值處于分散狀態(tài)的事實(shí)。這個(gè)概念在介紹聚簇因子時(shí)，已經(jīng)進(jìn)行了詳細(xì)說明。

大范圍數(shù)據(jù)讀取的處理方案（2）

換言之，使用以某個(gè)特定順序存儲(chǔ)數(shù)據(jù)的方法并不能滿足所有的讀取要求。這主要是因?yàn)檫@種存儲(chǔ)方法只能確保在特定的讀取類型中獲得較好的效率。通常情況下，對大部分表的讀取要求并不僅局限于某幾個(gè)特定的讀取類型，而是多種多樣的。所以，從理論上來看，根本就不存在一種能夠滿足所有讀取要求的數(shù)據(jù)存儲(chǔ)方式。

從任意列的角度來看，不論采用何種方式對數(shù)據(jù)進(jìn)行存儲(chǔ)，整個(gè)表中的數(shù)據(jù)都將被認(rèn)為是分散地存儲(chǔ)著的。然而，即使無法通過使用存儲(chǔ)方式來提高讀取效率，我們也不能放棄尋找其他能夠提高隨機(jī)讀取效率的解決方案。

如果某個(gè)特定的讀取類型不僅具有非常重要的地位，而且值得為確保其讀取效率而采用一些必要措施，則我們應(yīng)當(dāng)對其予以高度重視。這就好像侍衛(wèi)為了確保皇帝的安危而提前做好各種防護(hù)措施；又如為了提高首爾至釜山快速列車的速度，直接修建了一條名為京釜線的高速鐵路。

至此我們的結(jié)論就比較清晰了：首先，選定最為重要的讀取類型；其次，通過調(diào)查分析來決定是否有必要為該讀取類型采取一些特殊的措施。在此情況下，我們還應(yīng)當(dāng)集中精力尋找除了此方法之外的其他解決方案，如果能夠找到自然是最理想的；如果費(fèi)了九牛二虎之力也沒能找到，則只能采用這種方法了。對于世界上的所有問題而言，我們始終追求的最理想解決方案就是以最少的代價(jià)換取最大的回報(bào)。如果各位讀者對經(jīng)濟(jì)學(xué)比較了解的話，則會(huì)知道在經(jīng)濟(jì)學(xué)中所追求的是以最低的成本支出換取最大的利潤回報(bào)。所以我們在解決問題時(shí)，也應(yīng)當(dāng)追求一下"經(jīng)濟(jì)效益"。

如果決定按照某個(gè)（或多個(gè)）特定列的順序來存儲(chǔ)數(shù)據(jù)，則必須為了提高其他列的讀取效率而努力尋找解決方案。由于這里所涉及的解決方案幾乎是本書中所要討論的主要話題，所以在此就不對其進(jìn)行詳細(xì)說明了。

需要再次強(qiáng)調(diào)的是，盡管為了提高聚簇因子而選擇使用了特定的存儲(chǔ)結(jié)構(gòu)，但時(shí)刻都不能忘記表的結(jié)構(gòu)依然是堆表。這類似于我們?yōu)榱颂岣咚俣榷藿烁咚俟罚且话愕膰酪廊徊粫?huì)被拆除。

就像如果由于修建高速公路的支出太大，大到會(huì)對財(cái)政支出帶來一定的負(fù)擔(dān)，那就需要我們反復(fù)探討一樣，如果數(shù)據(jù)插入時(shí)的代價(jià)超出了承受的范圍，則就需要我們對使用特定位置存儲(chǔ)數(shù)據(jù)的方式予以重新考慮。這里所介紹的原理不僅適用于中型表，也適用于大型表和小型表。但不同的是，對于大型表而言，不僅數(shù)據(jù)插入的負(fù)擔(dān)比較大，數(shù)據(jù)讀取的類型也比較多，所以采用堆表會(huì)比較有效。

迄今為止，我們已經(jīng)從不同的角度對堆表進(jìn)行了全面分析，從中可以發(fā)現(xiàn)堆表就是最一般的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。在大部分情況下，由于數(shù)據(jù)被分散存儲(chǔ)的順序與我們所要查詢的數(shù)據(jù)順序之間并沒有任何必然的聯(lián)系，所以只能通過大量的數(shù)據(jù)讀取來查找我們所期望的數(shù)據(jù)，從而使系統(tǒng)需要付出大量額外的代價(jià)。綜上所述，我們無法單一地只通過選擇數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)來提高所有數(shù)據(jù)讀取類型的效率。

大型表

最后讓我們再來考慮一下大型表。對大型表的分類方法有很多，在這里我們將其分為以下三類。

第一類：單純的存儲(chǔ)型表。在這里以管理日志信息的表為例來進(jìn)行說明，這樣的表既不會(huì)被經(jīng)常使用，也不會(huì)有多樣化的讀取要求。只有在特殊的情況下，才有可能要求按照特定的讀取類型讀取數(shù)據(jù)，或?qū)Υ罅康臄?shù)據(jù)進(jìn)行掃描，并且日志表還要求具有較快的存儲(chǔ)速度。綜合這些特征和要求，使用堆表來存儲(chǔ)此類數(shù)據(jù)是最佳的選擇。另外，由于數(shù)據(jù)增長的速度會(huì)比較快，所以最好能夠?yàn)槠鋭?chuàng)建分區(qū)。

第二類：像顧客表這樣雖然存儲(chǔ)著大量的數(shù)據(jù)，但主要是以隨機(jī)讀取為主，并不存在多樣化的讀取類型的表。這種情況下，堆表仍然是比較適合的選擇。一次性向這樣的表中插入大量數(shù)據(jù)的情況非常少見，范圍處理（要求處理的數(shù)據(jù)范圍相對比較大）的情況也不會(huì)經(jīng)常出現(xiàn)。

盡管按照某個(gè)列對表進(jìn)行了分區(qū)，但是經(jīng)常會(huì)出現(xiàn)并不是只讀取某個(gè)特定分區(qū)的情況，而且為了某個(gè)特定部分而對其進(jìn)行單獨(dú)操作的機(jī)會(huì)也并不多，所以即使創(chuàng)建了分區(qū)表或聚簇表，也不會(huì)獲得太大的效益。

第三類：像銷售表這樣的表不僅數(shù)據(jù)急速大量增加，而且具有多樣化的數(shù)據(jù)讀取類型。一般情況下，擁有這種特征的表對系統(tǒng)會(huì)產(chǎn)生極大的影響。不論從數(shù)據(jù)管理的角度還是從數(shù)據(jù)讀取的角度來看，都具有非常大的負(fù)擔(dān)。如果我們沒有為這種類型的表制定出合理的解決方案，那么各種問題就會(huì)接踵而至。

如果急速增加的數(shù)據(jù)對管理造成了很大的負(fù)擔(dān)，則應(yīng)當(dāng)當(dāng)機(jī)立斷為其創(chuàng)建分區(qū)。關(guān)于如何更好地使用分區(qū)的相關(guān)內(nèi)容將在后面予以詳細(xì)說明。由于經(jīng)常需要對這種類型的表執(zhí)行大范圍數(shù)據(jù)掃描，所以如果再掃描了大量本不應(yīng)該掃描的數(shù)據(jù)，則會(huì)導(dǎo)致非常嚴(yán)重的后果。

我們?yōu)槿绾沃粚λ枰臄?shù)據(jù)進(jìn)行讀取的問題提供了多種有效的解決方案。其中構(gòu)建有效的索引和確保最優(yōu)化的SQL執(zhí)行計(jì)劃是其中最為重要的兩個(gè)方法。除了這些解決方案之外，我們優(yōu)先應(yīng)該解決的問題就是，如何決定只能按照一種順序存儲(chǔ)數(shù)據(jù)的表結(jié)構(gòu)。

不論是調(diào)整索引結(jié)構(gòu)、修改SQL語句，還是改變執(zhí)行計(jì)劃，相對而言都比較容易，但改變表的結(jié)構(gòu)卻不是一件容易的事情。

原文鏈接：http://book.51cto.com/art/201010/231701.htm

亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

提升讀取效率　大范圍數(shù)據(jù)讀取處理方案
2011-06-27 《海量數(shù)據(jù)庫解決方案》

延伸閱讀

熱文

亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

提升讀取效率 大范圍數(shù)據(jù)讀取處理方案 2011-06-27 《海量數(shù)據(jù)庫解決方案》

延伸閱讀

熱文

提升讀取效率　大范圍數(shù)據(jù)讀取處理方案
2011-06-27 《海量數(shù)據(jù)庫解決方案》