大多數(shù)數(shù)據(jù)都沒有標注是非結構化數(shù)據(jù),而人工智能訓練需要的是計算機可以讀懂的結構化數(shù)據(jù)。帶標簽的數(shù)據(jù),意味著標注或注釋目標模型的數(shù)據(jù),以便可以進行訓練、預測。通常,數(shù)據(jù)標注包括數(shù)據(jù)標注、注釋、審核、分類、轉錄和處理。標注的數(shù)據(jù)是為了突出顯示某些特征,并根據(jù)這些特征對其進行分類,通過模型分析其模式以預測新的目標。
數(shù)據(jù)在人工智能項目中占用多少時間?
訓練機器學習和深度學習模型,需要豐富的數(shù)據(jù),以便將其用于部署,訓練和調整模型。訓練機器學習和深度學習模型需要大量經過仔細標注的數(shù)據(jù)。標注原始數(shù)據(jù)并準備將其應用于機器學習模型和其他AI工作流,被稱為數(shù)據(jù)標注。根據(jù)相關統(tǒng)計,數(shù)據(jù)整理在AI項目中消耗了80%以上的時間。通常在一個人工智能項目中,數(shù)據(jù)的需求也分3次左右,第一次是在項目開始的驗證階段,需求數(shù)量量比較小,需要確定可行性及規(guī)則;第二次是項目正式啟動,需要大量的數(shù)據(jù)對模型進行訓練;第三次是在訓練并驗證完成后,對一些不滿意的地方進行訓練集的補充,以達到預期的目標。下圖是在人工智能機器學習項目中各個任務的時間占比。

數(shù)據(jù)標注在人工智能中的成本占比多少?
與數(shù)據(jù)相關的機器學習成本主要表現(xiàn)在數(shù)據(jù)集方面,包括數(shù)據(jù)集的采集、清洗、數(shù)據(jù)的標注等。DimensionalResearch代表Alegion所做的一項最新研究表明,所有組織中的96%都遇到了與訓練數(shù)據(jù)質量和數(shù)量相關的問題。同一項研究表明,大多數(shù)項目需要超過100,000個數(shù)據(jù)樣本才能表現(xiàn)良好。

DimensionalResearch研究的圖表說明了公司在數(shù)據(jù)方面面臨的最常見的一些問題。
如果還沒有數(shù)據(jù),可以假設能夠在大約一個小時內收集5–10個樣本并對它們進行標注。利用亞馬遜的MechanicalTurk之類的服務來驗證整個項目過程,生成100,000個合格樣本數(shù)據(jù)集的話,花費大約為70,000美元。
如果已經收集了大量數(shù)據(jù),則可以使用專業(yè)的數(shù)據(jù)標注服務公司來對其進行標注。在這種情況下,獲得100,000個帶有標簽的數(shù)據(jù)樣本,則可能需要花費8,000到80,000美元的費用,具體的需要取決于標注的復雜程度。
此外,檢查和校正數(shù)據(jù)樣本與生成和標注數(shù)據(jù)樣本一樣耗時。DimensionalResearch研究報告中提到,66%的公司在其數(shù)據(jù)集中遇到偏差和錯誤問題。有些公司選擇采用完整的內部方法(自己做所有標注),也有一些公司會選擇外包和內部混合使用。第二種常見的情況是將大部分工作外包,然后由公司個別人員負責驗證和清理。外包10萬個數(shù)據(jù)樣本的初始成本可能會增加大約2500至5,000美元。
除了數(shù)據(jù)成本外,還有算法人工成本、算力設備成本、項目落地成本。除去附加項成本和一系列功耗所帶來的成本,機器學習項目可能會使公司花費51,750美元至136,750美元(不包括難以確定的其他成本)。價格差異主要是由數(shù)據(jù)的決定的。這是一個非常樂觀的估計。如果企業(yè)位于美國,并且使用的是優(yōu)質的數(shù)據(jù)(自由職業(yè)者不會這樣做),則與人才相關的費用將激增,使人工智能機器學習項目的費用超過108,500美元。
這樣高昂的價格使想要解決新問題或讓其流程自動化。決策的個人、小型團隊和初創(chuàng)企業(yè)無法使承擔。
數(shù)據(jù)處理中最難的是什么?
最艱難的步驟是第一步:獲取數(shù)據(jù)。沒有數(shù)據(jù),幾乎不可能在研究階段驗證機器學習解決方案,從而導致項目進度幾乎無法進行。
隨著工業(yè)、醫(yī)療、安防、教育、金融等領域意識到未來人工智能對于行業(yè)改變的重要性,都紛紛入局開發(fā)自己的人工智能應用,但是隨著這些領域越來越重視數(shù)據(jù)保密性及數(shù)據(jù)的安全性,這些因素都可能會導致人工智能研究的私有化。人工智能逐漸趨于私有化確是事實,在這個大環(huán)境之下,數(shù)據(jù)標注服務、訓練模型平臺、算力設備等都已經研究出各自的私有化部署的解決方案。