亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關(guān)注微信公眾號

基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)
2007-09-25   51CTO

1 數(shù)字圖書館個性化服務(wù)的含義

近10年來,隨著“數(shù)字化生存”方式逐漸為人們所接受,數(shù)字圖書館因其信息量大、占用空間少、更新速度快、不受時空限制等特點而越來越受到人們的關(guān)注。但人們在享受著數(shù)字圖書館所帶來便捷的同時,也深受其龐大而形式多樣的信息資源困擾。因為信息資源具有較強的目標導向性,同樣的信息對于不同的個體表現(xiàn)出不同的價值。對單個用戶來說,不可能對數(shù)字圖書館的所有信息資源都需要,而同樣的信息也不一定會滿足所有的用戶。個性化服務(wù)是解決用戶“眾口難調(diào)”問題的關(guān)鍵,它是適應(yīng)用戶多樣化需求的重要手段,也是圖書館應(yīng)對信息資源多樣化的一個重要措施。

數(shù)字圖書館個性化服務(wù)是基于信息用戶的信息使用行為、習慣、偏好、特點及用戶特定的需求,向用戶提供滿足其個性化需求的信息內(nèi)容和系統(tǒng)功能的一種服務(wù)。首先,它應(yīng)該是一種能夠滿足數(shù)字圖書館用戶的個體信息需求的服務(wù),即根據(jù)用戶提出的明確要求提供信息服務(wù),或通過對用戶個性使用習慣的分析而主動地向用戶提供其可能需要的信息服務(wù);其次,應(yīng)該是一種培養(yǎng)個性、引導需求的服務(wù),這樣可以幫助個體培養(yǎng)個性、發(fā)現(xiàn)個性、引導需求,促進社會的多樣性和多元化發(fā)展。數(shù)據(jù)挖掘是近年新興的計算技術(shù)與方法,它在科學發(fā)現(xiàn)、商業(yè)零售以及信用管理、醫(yī)學等領(lǐng)域已得到廣泛應(yīng)用,并顯示出巨大的威力。最近幾年,數(shù)據(jù)挖掘技術(shù)開始應(yīng)用于數(shù)字圖書館領(lǐng)域,使數(shù)字圖書館的功能有了較大的變化和發(fā)展。

2 數(shù)據(jù)挖掘及相關(guān)技術(shù)

數(shù)據(jù)挖掘也稱知識發(fā)現(xiàn),是從數(shù)據(jù)庫中獲取人們感興趣的知識,這些知識是隱含的、潛在的。傳統(tǒng)的決策支持系統(tǒng)、知識庫中的知識和規(guī)則是由專家和程序人員由外部輸入的,是已知的,決策者可以用聯(lián)機分析處理等工具直接使用;而數(shù)據(jù)挖掘是從大量的內(nèi)部數(shù)據(jù)庫中獲取尚未被發(fā)現(xiàn)的知識、關(guān)系、趨勢等信息。數(shù)字圖書館的數(shù)據(jù)挖掘是從數(shù)字圖書館大型數(shù)據(jù)庫、數(shù)據(jù)倉庫和浩瀚的網(wǎng)絡(luò)信息空間中發(fā)現(xiàn)并提取隱藏在其中的信息,目的是幫助信息工作人員尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,而這些信息對預(yù)測趨勢和決策行為也許是十分有用的。數(shù)據(jù)挖掘根據(jù)其主要研究對象的數(shù)據(jù)結(jié)構(gòu)形式的不同,一般粗分為數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘3類。

2.1 數(shù)據(jù)挖掘(Data Mining)

面向數(shù)值數(shù)據(jù)的數(shù)據(jù)挖掘,通常稱數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的任務(wù)主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等。

(1)關(guān)聯(lián)分析(association analysis):兩個或兩個以上變量的取值之間存在某種規(guī)律性就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián),關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),一般用支持度和可信度兩個閥值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。

(2)聚類分析(clustering):聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。

(3)分類(classification):分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測。

(4)預(yù)測(predication):預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常用預(yù)測方差來度量。

(5)時序模式(time-series pattern):時序模式是指通過時間序列搜索出的重復發(fā)生概率較高的模式。與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。

(6)偏差分析(deviation):在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間的差別。

常見的數(shù)據(jù)挖掘方法主要有:統(tǒng)計分析、歸納學習方法、仿生物技術(shù)、神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、貝葉斯信念網(wǎng)絡(luò)、模糊集、粗糙集等,由于各種方法都有自身的功能特點以及應(yīng)用領(lǐng)域,因此不同方法的選擇將影響最后結(jié)果的質(zhì)量和效果,通常是將多種方法結(jié)合使用,形成優(yōu)勢互補。

2.2 Web數(shù)據(jù)挖掘

數(shù)據(jù)挖掘的對象是傳統(tǒng)的數(shù)據(jù)庫或數(shù)據(jù)倉庫,而Web數(shù)據(jù)挖掘是指針對包括Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、商務(wù)交易信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法及技術(shù)以發(fā)現(xiàn)有用的知識來幫助人們從萬維網(wǎng)中提取知識,改進站點設(shè)計,更好地開展電子商務(wù)或改進服務(wù)。Web數(shù)據(jù)挖掘分為Web內(nèi)容挖掘、Web訪問信息挖掘、Web結(jié)構(gòu)挖掘。

2.3 文本數(shù)據(jù)挖掘(Text Mining)

面向文本信息的數(shù)據(jù)挖掘,通常稱文本挖掘。當數(shù)據(jù)挖掘的對象完全由文本類型組成時,結(jié)合使用數(shù)據(jù)挖掘算法與信息檢索算法對巨量文本信息進行自動化信息處理與分析的過程叫文本數(shù)據(jù)挖掘。它包括特征提取、文本摘要、文本分類與聚類、概念操作以及探索性數(shù)據(jù)分析等工作。文本數(shù)據(jù)挖掘所應(yīng)用的技術(shù)包含用于表示文檔的詞頻反文獻頻率(TFIDF)向量表示法、詞串表示法,用于文本分類的貝葉斯分類算法(Bayesian classifier)、詞集合算法(Bag of word),基于概念的文本聚類算法以及K—最近鄰參照分類算法等。

3 數(shù)據(jù)挖掘在數(shù)字圖書館中的應(yīng)用

3.1 個性化服務(wù)

數(shù)字圖書館的個性化服務(wù)在整個數(shù)字圖書館系統(tǒng)中是很關(guān)鍵的部分,如同網(wǎng)絡(luò)向智能化方向發(fā)展一樣,信息服務(wù)也應(yīng)“智能化”,即由被動服務(wù)轉(zhuǎn)向主動服務(wù),由單純的信息呈現(xiàn)轉(zhuǎn)向信息生成。數(shù)字圖書館的個性化服務(wù)主要表現(xiàn)為兩個層次:第一層次為按用戶要求進行信息訂制。例如,慧聰國際I系列應(yīng)用軟件中個性化信息服務(wù)軟件My info和I get,可以讓用戶根據(jù)自己的需要訂制專門信息,其功能包括數(shù)字圖書館站內(nèi)搜索,Internet搜索,時間、日期、重要事件的提示,并可幫助用戶建立個性化信息空間。第二層次則是數(shù)字圖書館挖掘用戶興趣模式,主動提供服務(wù),使數(shù)字圖書館成為一個智能型、主動性的信息提供商。

3.2 提高信息獲取速度

數(shù)字圖書館中的信息量是龐大的,在堆積如山的數(shù)據(jù)中包含著許多待提取的有用知識。對于用戶來說,他關(guān)心自己的需要是不是能夠被滿足更勝于關(guān)心數(shù)據(jù)圖書館中總的信息量。因此,要想為用戶提供更快、更有效的服務(wù),就必須有一套很好的搜索機制。數(shù)據(jù)挖掘技術(shù)為數(shù)字化圖書館提供了先進的信息檢索工具,在數(shù)字圖書館的檢索中采用數(shù)據(jù)挖掘的相關(guān)理論和方法,設(shè)計的系統(tǒng)將有更大的智能性。

為保證用戶在盡可能短的響應(yīng)時間內(nèi)獲取所需信息,要搜集用戶每次閱讀的專題集合(瀏覽模式)作為一個事務(wù),記錄所有用戶每一次的瀏覽過程構(gòu)成事務(wù)庫,再對事務(wù)庫進行如下操作:第一,利用關(guān)聯(lián)規(guī)則采掘算法找到訪問頻率超過給定閾值的專題(項目)集,進而用分類算法把客戶的瀏覽模式與頻繁項目集進行相似匹配,將具有相似瀏覽模式的客戶組織到一個服務(wù)器上,從而減少服務(wù)器緩存和傳輸頁面的數(shù)量;第二,找到事務(wù)庫中某頻率訪問的專題集,利用關(guān)聯(lián)分析得到專題之間的關(guān)聯(lián)規(guī)則,存入服務(wù)器的知識庫,當用戶瀏覽某頁面時,網(wǎng)絡(luò)代理根據(jù)規(guī)則預(yù)先連接其關(guān)聯(lián)頁面,從而提高響應(yīng)速度;第三,也可利用Web挖掘得到用戶訪問序列模式,根據(jù)預(yù)測,預(yù)先傳輸用戶可能閱讀的頁面。

3.3 拓展服務(wù)形式

數(shù)據(jù)挖掘可實現(xiàn)信息服務(wù)質(zhì)量的提升和業(yè)務(wù)的拓展。數(shù)字圖書館借助現(xiàn)代信息技術(shù),其意義不僅在于服務(wù)媒體和時空的轉(zhuǎn)變,更重要的是能夠借助數(shù)據(jù)挖掘技術(shù),完善其服務(wù)結(jié)構(gòu)和提升服務(wù)水平。

(1)信息檢索服務(wù)。信息檢索是數(shù)字圖書館提供的一個主要功能之一,信息檢索服務(wù)的質(zhì)量是衡量數(shù)字化圖書館服務(wù)質(zhì)量的一個重要標準。傳統(tǒng)的檢索工具缺乏結(jié)果的友好性、可理解性和交互性,往往將一大堆查詢結(jié)果線性呈現(xiàn),令用戶不知所云。智能化的信息檢索不僅支持概念檢索、模糊檢索、聯(lián)想檢索及多語言檢索等,而且能迅速利用聚類算法將查詢結(jié)果分析聚類,使之條理化顯示,方便用戶篩選,同時在此基礎(chǔ)上確定進一步的檢索定位。例如,系統(tǒng)提示“Limited your research to result within one of the following categories”,從而實現(xiàn)交互式檢索。

(2)定題與查新服務(wù)。這兩種常用的針對科研的信息服務(wù),其傳統(tǒng)方式是檢索文獻或光盤數(shù)據(jù)庫,然而在網(wǎng)絡(luò)時代,我們更不能忽視對外部網(wǎng)絡(luò)這一即時便利的信息發(fā)布平臺的搜索,才能確保查新結(jié)果的可靠性。同時,數(shù)字圖書館可運用興趣模式算法判斷并爭取潛在用戶,在服務(wù)過程中,還可利用可視化技術(shù)幫助用戶進行在線實時信息分析。

(3)信息分析服務(wù)。有專家指出,“對文本的探索性數(shù)據(jù)分析(EDA)才是真正的文本挖掘”。它是指直接對文本數(shù)據(jù)及其相互間的關(guān)系進行分析,從而識別出未知的、有用的知識的過程。例如,利用文本EDA形成一些科學假設(shè)等?;诖耍瑪?shù)字圖書館可提供面向商業(yè)用戶的信息分析,幫助它們確定發(fā)展和競爭策略,實現(xiàn)自身的收益。

4 構(gòu)建數(shù)字圖書館個性化服務(wù)系統(tǒng)

利用數(shù)據(jù)挖掘技術(shù)構(gòu)建數(shù)字圖書館個性化服務(wù)系統(tǒng)的前提和基礎(chǔ)是擁有大量、真實的數(shù)據(jù)積累,沒有數(shù)據(jù)積累,數(shù)據(jù)挖掘?qū)o用武之地,因此要踏踏實實做好基礎(chǔ)數(shù)據(jù)庫的建設(shè)。在建庫及數(shù)據(jù)挖掘的整個過程中,需要各方人員共同參與,通力合作。

4.1 提取原始信息和收集用戶特征

用戶通過瀏覽器訪問數(shù)字圖書館時,系統(tǒng)可以記錄下來的用戶訪問數(shù)據(jù)有兩類:用戶信息和用戶行為特征。用戶信息包括用戶的姓名、性別、年齡、職業(yè)、愛好、教育程度以及用戶訪問IP地址等;利用Web日志記錄可獲得用戶的行為特征,如對知識點的點擊率、停留時間、訪問次數(shù)、下載次數(shù)、搜索關(guān)鍵詞及模式等信息,還有用戶的主觀信息,如網(wǎng)絡(luò)調(diào)查、BBS留言等。準確把握用戶的行為特征和偏好,是提供更精確、更符合用戶需求的信息服務(wù)的首要條件。

4.2 數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換

對收集到的數(shù)據(jù)進行加工處理和組織重構(gòu),如檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去除噪聲或刪除無效數(shù)據(jù)、填補丟失的域、去除空白數(shù)據(jù)域、考慮時間順序和數(shù)據(jù)變化;找到數(shù)據(jù)的特征,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目,找到數(shù)據(jù)的不變式,構(gòu)建相關(guān)主題的數(shù)據(jù)倉庫,為下一步的數(shù)據(jù)挖掘過程提供基礎(chǔ)平臺,做好前期準備。

4.3 確定數(shù)據(jù)挖掘目標

數(shù)據(jù)挖掘的目標切忌空而大,應(yīng)結(jié)合實際情況,細化、清晰。例如,根據(jù)用戶興趣的不斷變化,利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)用戶的最新需要,或者根據(jù)用戶的興趣度,推薦相關(guān)專題信息,并提供個性化界面等。

4.4 數(shù)據(jù)挖掘

根據(jù)挖掘目標和數(shù)據(jù)特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘。選擇某個特定數(shù)據(jù)挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數(shù)據(jù)中的模式,進行數(shù)據(jù)挖掘、搜索或產(chǎn)生一個特定的感興趣的模式或一個特定的數(shù)據(jù)集,在此基礎(chǔ)上進行分析與評估,檢驗數(shù)據(jù)挖掘所得到的知識模式。

4.5 結(jié)果分析和知識的運用

對數(shù)據(jù)挖掘的結(jié)果進行解釋和評價,用預(yù)先、可信的知識檢查和解決數(shù)據(jù)模式中可能的矛盾,以改善數(shù)據(jù)倉庫,轉(zhuǎn)化成為能夠最終被用戶理解的知識,將分析所得到的知識加載到實際運行系統(tǒng)中。數(shù)據(jù)挖掘的過程是一個反復進行的過程,很難一步到位,需要對挖掘結(jié)果進行不斷的實踐應(yīng)用、測試、修改、比對,直到最后達到用戶滿意為止。

5 結(jié)語

數(shù)字圖書館個性化服務(wù)改變了圖書情報機構(gòu)以往“我提供什么用戶就接受什么”的運作方式,開創(chuàng)了“用戶需要什么我就提供什么”的發(fā)展思路。根據(jù)LITA(Library and Information Technology Association)的研究預(yù)測,個性化服務(wù)將成為未來數(shù)字圖書館技術(shù)發(fā)展的主要趨勢。事實也證明,隨著網(wǎng)絡(luò)用戶群的日益增長,更多的用戶期望能得到具有針對性的、個性化的信息服務(wù)和用戶支持。數(shù)據(jù)挖掘技術(shù)因其在海量信息資源中的智能表現(xiàn),能為數(shù)字圖書館的個性化服務(wù)建設(shè)提供不可或缺的技術(shù)支撐。盡管數(shù)據(jù)挖掘作為一門前沿技術(shù),自身還在不斷發(fā)展完善,還面臨著許多問題,如數(shù)據(jù)挖掘語言的標準化、對多種類型多層次知識的有效挖掘方法、數(shù)據(jù)的可視化等,但隨著研究的深入,數(shù)據(jù)挖掘技術(shù)必將對數(shù)字圖書館的建設(shè)產(chǎn)生積極的影響。

熱詞搜索:

上一篇:歸檔 (Archiving)應(yīng)用的最佳實踐
下一篇:專家提醒:移動存儲信息安全是隱患

分享到: 收藏