據(jù)外媒報道,谷歌于近日發(fā)布了一個大型數(shù)據(jù)集合--Wikilinks Corpus,它將可以幫助開發(fā)人員構(gòu)建出可以準(zhǔn)確解釋人類語言的軟件。Wikilinks Corpus中包含了來自各大網(wǎng)頁及維基百科文章的4000多萬條個人鏈接,它們則被稱為mention。開發(fā)人員則可以通過分析每一條mention的內(nèi)容以及目標(biāo)文章的內(nèi)容,進而確定一些模棱兩可單詞的意思。
谷歌在其Reaserch Blog中提出,人類非常擅長辨別同一個單詞在不同語境下的意思。比如說,當(dāng)把dodge寫成Dodge時,它就是一個車子的品牌,而當(dāng)寫成to dodge的時候,它就是一個動詞。
跟谷歌搜索算法非常類似,Wikilinks Corpus也是由在來自馬薩諸塞大學(xué)阿默斯特分校的研究人員的協(xié)助下完成的,并且它的規(guī)模要比以往的數(shù)據(jù)集合都要來得大。更重要的是,它是免費的。雖然由于版權(quán)問題,谷歌無法發(fā)布個人網(wǎng)頁的實際內(nèi)容,但是它卻可以提供獲得這些內(nèi)容的代碼。