顯而易見的事例太多了。YouTube公司幾年前還不存在,現在每天通過其網站傳送的視頻多達1億份。專家們說,每天通過互聯網共享的MP3歌曲超過10億首。這是一個數字比特的世界。倫敦的200個交通監控攝像頭每天向總部數據中心發送64萬億個數字比特。Chevron公司的首席信息官說,Chevron公司的數據在以每天2TB、也即1.7592×1013個比特的速度增加。到2010年,世界上大多數國家的電視廣播都將全面實現數字化。數字比特在不斷增多。
不過,我們不知道的是,這些數字比特總共有多少?數字比特增加的速度有多快?比特激增意味著什么?
人們制造、獲取和復制的所有1和0組成了數字宇宙。這份白皮書是IDC公司對數字宇宙未來發展的預測。IDC同時分析了數字宇宙的未來發展對身處其中的人們和公司可能產生的影響。人們通過拍照片和共享音樂制造了數字比特,而公司則組織和管理對這些數字信息的訪問和存儲并為其提供安全保障。這個研究項目是由EMC公司贊助的。
•2006年產生、獲取和復制的數字信息總量為1288×1018個比特。用計算機用語來說,就是161EB或1610億GB(見“什么是比特和字節?”部分)。這大約是有史以來出版的圖書信息總量的300萬倍。
•從2006年到2010年,數字宇宙的信息量將增長6倍多,從161EB增加到988EB。
•三種主要的模擬數字轉換為這種增長提供了動力:用膠片拍攝影像轉換為數字影像拍攝、模擬話音轉換為數字話音以及模擬電視轉換為數字電視。
•從數碼相機、相機電話、醫用掃描儀到保安攝像頭,全世界有10億多個設備在拍攝影像,這些影像成為數字宇宙中最大的組成部分。這些影像通過互聯網、企業內部網在PC和服務器以及數據中心中復制,通過數字電視廣播和數字投影銀幕播放。
•IDC預計,到2010年,數字宇宙中有近70%的信息由個人建立,而機構(各種規模的企業、服務代理機構、政府部門、協會等等)將負責管理至少85%的信息,負責保證這些信息安全、可靠并符合法規規定以及保護這些信息的隱私性。
•這種迅速加重的責任將給現有計算系統帶來壓力,并促使機構開發更加以信息為中心的計算架構。
•IT經理們會發現,他們的職責范圍極大地擴大了:VoIP電話成了企業網絡的一部分、樓宇自動化和安全保障系統進入了IP網絡、監控系統實現了數字化、RFID和傳感器網絡在激增。
• 隨著企業與客戶的實時聯系越來越緊密,信息安全和隱私保護將成為企業高層關注的問題。因此除了需要進行新的培訓并制訂策略和工作程序以外,還需要實施新的安全技術。
• IDC估計,今天數字宇宙中有20%的信息受到法規和標準的制約,大約有30%的信息可能與安全應用發生關聯。
• 訪問企業數據的人群會變得更加多樣化:員工移動工作的機會越來越多;各公司都在實施客戶自助式服務;全球化使得客戶和合作伙伴關系多樣化并拉長了供應鏈。
• 數字宇宙的發展是不均衡的。新興市場?D?D除日本之外的亞太各國以及除北美和西歐以外的世界其余國家現在在數字宇宙中占10%的份額,但是這些國家的增長速度將比發達國家快30%到40%。
• 2007年,人們建立的信息量將首次超過可用的存儲容量。
數字宇宙令人難以置信的發展意味著一個極為簡單的事實,我們每個人都將面臨規模空前的信息爆炸。對機構來說,這意味著需要保護隱私、數據安全和知識產權,進行內容管理和信息管理以及采用合適的技術和數據中心架構。
數字宇宙中比特的增加及其異構特性意味著,世界各地的機構,無論大小,只要它們的IT基礎架構在傳遞、存儲、復制這些比特并在保護這些比特的安全,那么這些機構就別無選擇,為管理、搜索和存儲信息并保護信息的安全,它們只能實施越來越復雜的技術。
我們是怎樣得出這些數字的?
有關我們采用的方法和基本假設條件,在“方法與主要假設條件”一節可以看到。我們的基本方法是:采用IDC的預測數據,即IDC對個人計算機、數碼相機、服務器、傳感器等產生或獲取數字信息的設備的預測;估計這些設備在一年中獲取或產生數據的總MB數。我們根據IDC的研究數據和其他資料做出估計,看這些數據有多少通過電子郵件附件、歸檔文件、廣播等進行了復制。
我們以前在加州大學伯克利分校開展過一個研究項目,此次研究是伯克利項目的延續。盡管我們這次采用的方法與伯克利項目有所不同,但是很多基本假設條件是相同的。伯克利項目只研究了原始信息的產生(不包括復制),并估計了如果所有這些原始信息都轉換成數字格式后,會產生多少數字信息。
用我們這次采用的方法,可以確定和預測數字宇宙中產生和復制的所有信息、可以分地區研究信息的產生與復制并結合可用存儲容量來考慮問題。我們相信,這是有史以來第一個確定和預測整個數字宇宙擴張速度的研究項目。
什么是比特和字節?
“比特”是可以存儲在計算機中的最小信息單位,由1和0(或接通/斷開狀態)組成。所有計算機都以比特形式進行計算。
“字節”是8個比特的組合。因此1個字節是1個比特的8倍長。用字節很方便,因為轉換成計算機代碼時,字節可以代表256個字符,如數字或字母。
人們常以1000的倍數來表示字節量,如千字節(KB)、兆字節(MB)、千兆字節(GB)等。這些單位之間的進位關系如下:
比特(b) 1或0
字節(B) 8bits
千字節(KB) 1000B
兆字節(MB) 1000KB
千兆字節(GB) 1000MB
兆兆字節(TB) 1000GB
1015字節(PB) 1000TB
1018字節(EB) 1000PB
1021字節(ZB) 1000EB
這似乎很簡單,但實際上字節的倍數應該是2的冪,因為原始的計算機語言只有兩種狀態:1或0。KB是210字節或1024字節。MB是220字節或1024KB,依此類推。
為簡單起見,在本次研究中所有計算都是基于10進制系統即上面列出的進位關系進行的。這與伯克利項目所用的表示方法是一致的。