數據庫sharding Lookup技術探討 - 數據中心

數據庫sharding有幾個主要的優點：

1. Database sharding提供了近似線性擴展的架構。可以隨著應用的增長線性的增加更多的服務器。

2. 提高了數據庫的可用性。如果只有一個數據庫，一旦down掉的話，對其所提供的service影響是100%，如果拆成10臺數據庫，那么一臺數據庫 down掉的影響只有10%。

3. 小的數據庫壓力比較小，風險更小，性能更好。做過DBA的都知道，管理一臺3000 TPS的數據庫和一臺300 TPS的數據庫的壓力是完全不一樣的。

其缺點在于：

1. 首先要業務邏輯支持，并不是任何類型的數據庫都支持拆分。如果業務邏輯不支持拆成幾個不相干的數據的話，拆開后各個數據庫之間數據join會帶來額外的開銷，而且隨著數據庫的增多，開銷越來越大。

2. 更多的數據庫也帶來一些維護上的開銷，例如升級數據庫，打patch等。

3. 因為數據分散了，所以要提供機制能夠找到所需數據所在的數據庫。這也是本篇文章討論的重點，即數據的lookup技術。

下面重點討論lookup技術。數據被分散在不同的數據庫中，當應用需要查詢數據時，要能夠定位到相應的數據庫中查詢。如果沒有Lookup機制，則需要到每一個數據庫中查詢，這樣的話就不可能做到線性擴展，數據庫Sharding也就失去了其主要的優勢。

Lookup技術主要從以下幾個方面來考慮：

1. 成本

2. 效率

3. 再次拆分的難度

4. 是否支持在線拆分

我接觸到或者想到的Lookup技術有以下幾種，下面分別討論其優缺點。

1. 建立Lookup數據庫

這是很自然想到的一種方法。Lookup數據庫中記錄 (ID, Server)的對應關系。
其優點在于靈活性很高，數據可以存放在任何一個數據庫中，可以在不同的數據庫之間在線遷移數據來平衡數據庫壓力，遷移數據時同時更新Lookup數據庫中相應的記錄。

缺點也很明顯，就是需要一套Lookup數據庫來支持，有不小的額外開銷。Lookup數據庫的數據必須集中存放，不好再做水平切割。雖然其數據結構簡單，存放的數據量并不大，但是所有的應用都需要到Lookup數據庫上查找數據，其查詢的頻率很高。而且Lookup數據庫在這個方案中也成為了一個故障節點。所以不能用一臺數據庫做Lookup DB，否則前面提到的sharding數據庫可用性的優勢又失去了。我們可以用Master/Slave的方式來實現Lookup數據庫的 scalability和availability。Master數據庫提供寫操作，Slave數據庫提供讀的操作。

對于oracle來說，可以采用復制軟件來實現master和slave之間的同步，例如shareplex，也可以采用oracle logical standby或者oracle active physical standby（11g）來實現。

MySQL數據庫的話，memory engine很適合做Slave服務器，因為Lookup表的數據庫不大，可以放在內存中，而且hash index很適合等式查找。Memory engine可以支持大并發量的查詢。Mater數據庫可以采用Innodb，文檔中提到在高版本的MySQL中支持不同storage engine之間的復制。實際應用中不知道有沒有公司這么使用。

2. 采用劃分區間的方式

將數據按照range來劃分。比方說以1萬為一個區間長度，ID在1~10000的在數據庫D1中，10001~20000的在數據庫D2 中，20001~30000在數據庫D3中，依此類推。當分配的ID用完或者新增服務器時，繼續分配后面的ID供其使用。可以通過sequence來實現。
其優點在于不需要額外的開銷，應用通過簡單的映射就可以得知數據存放于哪個數據庫中，缺點在于各個數據庫之間很難實現在線的數據遷移。如果應用的增長不是因為數據量增長而增長，而是因為執行次數的增加的話，很難做到在線的壓力平衡。另外當區間內分配的ID數用完了，需要DBA手工分配新的區間。

3. 采用hash函數的方式

比方說最簡單的hash函數—mod函數。將數據進行mod(ID, 13860) (13860= 2*3*5*6*7*11)，如果有十臺數據庫，每個數據庫中存放1386個mod。將mod和數據庫之間的mapping關系存放于數據庫中，應用服務器可以將其load進自己的內存中（這個表很小）。當新增服務器時，從各個數據庫中轉移一部分mod到新的服務器上。
其優點在于不需要額外的開銷，可以通過查找應用端很小的內存鏈表就能獲知數據存放的位置，缺點在于當新增服務器后轉移數據過程中要保持數據的同步，需要同步機制。

4. 采用hash函數和Lookup數據庫相結合的方式

基本劃分的方法和第三種一樣，但是多了一套Lookup數據庫來提供miss查詢。這套Lookup數據庫解決了方法三中新增服務器數據同步的問題。新增服務器轉移數據時就不需要同步了，而是采用move的方式，這樣在舊的服務器中miss了，但可以通過Lookup數據庫來定位到新的服務器，當單個mod完全轉移了，可以更新mapping表，這樣就可以直接定位到新的服務器上。

不知道大家是如何實現Lookup機制的，有什么好的方法或想法非常歡迎大家來分享。

亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

數據庫sharding Lookup技術探討
2010-02-04 網絡

延伸閱讀

熱文

亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

數據庫sharding Lookup技術探討 2010-02-04 網絡

延伸閱讀

熱文

數據庫sharding Lookup技術探討
2010-02-04 網絡