全文將圍繞下面三點展開:
- 數據科學VS用戶興趣分群
- 基于事實生成的用戶興趣標簽
- 基于內容聚類的用戶興趣分群探索
01 數據科學VS用戶興趣分群
首先通過下圖介紹一下數據科學專家的能力范圍。
注:圖片來源于網絡,侵權刪?
數據科學家的能力主要由三方面:較強的數學功底和數字敏感程度、很強的問題解決能力(包括數據分析、數據建模和數據處理等能力)、很強的業務溝通能力。
雖然數據科學家面對的業務是比較個性化的,但是我們今天將提煉出一個較為通用且具有借鑒意義的課題進行分享——用戶興趣分群,其本質是通過大數據的挖掘和分析,反映出用戶對某個主題或事物不同程度的匹配價值和接受程度。其在互聯網的各行各業中是比較適用的,例如電商行業、服務行業、內容行業等,也可以應用到一些算法場景提高其準確度和效果,例如廣告搜索推薦、運營策略等。
02 基于事實生成的用戶興趣標簽
1. 用戶興趣權重標簽如何設計?
為了解不同用戶的興趣,采用最典型的方式就是給用戶打標。基于不同業務的認知,所提煉出的維度是各異的,但提取的流程類似,例如愛奇藝平臺這類內容行業通常按照以下幾步提取用戶興趣偏好標簽:
- 基于業務認知研究主題:選取不同興趣的主題,例如視頻內容、視頻類型、相關明星、播放頻道、播放時間以及價格等。
- 基于以上主題梳理用戶行為:用戶會通過一些觀影和互動等行為表現出對某一主題的傾向性,例如明星偏好,則可能存在關注、發彈幕評論、觀看相關視頻等行為。
- 選取合適的維度和計算方法量化用戶行為:對于用戶各種顯式和隱式行為,需要一套合理的指標體系進行量化。針對觀影行為,可以從觀影次數、觀影時長等維度進行量化。
- 數據處理:在建立這個體系的過程中,對不同的指標采用加權、降權、時間衰減、起始值等方法使量化結果更加合理科學。經過數據權重等方法處理后,得到一個總和的權重,還需要將其進行0—1的歸一化處理,如果有負向指標,可以做-1—1的置信度處理。
通過以上方法得到的結果,便可以反應用戶的偏好傾向,得分越高表示該用戶對于該主題的偏好更加強烈。
2. 用戶興趣標簽的驗證與迭代
上面介紹了生成標簽的流程方法。在使用該標簽之前,我們還需要審視一下這個標簽的適用性,例如上述提到的可比性問題。將標簽引入到不同業務之前需要進行審視和驗證。
?
對于標簽的驗證,主要有兩種方法:?
- 盲測用戶問卷:收集用戶反饋,例如用戶對明星喜好進行判斷,便可提供整個權重的校準依據,基于此檢驗排序性,判斷標簽合理性。
- 線上不同場景ABTEST:上線權重標簽前可在內容過濾、排序等模型上進行測試,利用實驗對照組觀察能否帶來明顯提升或正向效果,利用ABTEST的結果修正權重設計。
?
權重標簽更多的是做用戶中長期的偏好計算, 對于即時愛好的計算需要采用事實標簽。權重標簽也存在一些短板:
- 權重解釋性:權重標簽生成過程中,難免進行一下復雜的數據處理,使得該標簽對于業務方而言不夠簡單明了。
- 每天全量decay:有些數據會融合各種衰減計算,使計算復雜度更高。
- 不適合實時場景:對于每天實時發生的行為數據難以及時更新到權重標簽中去,這樣的數據標簽存在滯后性。
對于一些個性化的場景,會考慮給業務方提供事實標簽,增加屬性維度,方便其更靈活使用。
3. 用戶興趣結構化事實標簽
?
上圖展示了事實標簽,主要分為了顯式行為和隱式行為,基本可以通過這些行為去判斷用戶對某一內容或主題的偏好程度。其中顯式行為可以直觀表現用戶的偏好,而隱式行為雖不能直觀表現用戶態度,但對于應用場景而言是有意義的統計數據。
03 基于內容聚類的用戶興趣分群探索
我們通過以上方法對用戶進行打標之后,如何針對性的做一些內容推送或者運營策略?
1. 用戶興趣圈層分類方法
我們常用的對用戶進行分組的思維通常是基于用戶屬性,根據人口統計學的思想分為少男/少女、男青年/女青年、中高齡等人群。這種分法對于內容平臺不夠有針對性,因此可以采用第二種圈層方法——基于內容屬性進行興趣圈層。具有以下優勢:
- 通過算法發現看似完全不同內容之間意想不到的關聯性。
- 對于內容運營,可為人工運營場景提供數據支持。
- 對于內容供給規劃方,可將純業務經驗驅動轉變為大數據驅動。
2. 圈層聚類方法
對于圈層聚類,首先是對內容進行聚類,如果兩個內容的受眾群體的重合度較高意味著內容的相似度較高,可劃分為同類內容。利用用戶圈層聚類系統,可客觀、精準定位目標人群,具有以下優勢:
- 客觀觀影行為:基于用戶真實播放行為為依據,避免了打標過程中人的先知經驗判斷,更加客觀。
- 顆粒度可控:圈層劃分粒度可根據業務需求進行選擇,例如規劃可以選擇粗粒度,運營方則可選擇更細的粒度。
- 數據獲取便捷:可利用算法自動聚類圈人。
?
通過經典的相似度計算方法可以計算不同內容專輯的用戶相似度,但在實際應用中會碰到很多問題,因此通過以下修正提升任意兩個內容之間重合度的可比性:
- 修正1:修正內容體量差異、頻道規模差異對用戶重合度計算的影響。
- 修正2:修正內容上線時間早晚、上線時間間隔對用戶重合度計算的影響。
在上述優化方法的基礎上,還可以采用層次聚類等聚類方法進行更深層次的優化。通過剪枝線的滑動,控制內容聚合的顆粒度,通過計算兩兩內容的用戶相似度,將用戶最相似的內容先聚在一起,依次向上聚集。
以上是一個例子,分別采用了內容聚類方法和標簽的方法進行的分類。左圖是對于某興趣圈層用戶聚類得到的內容,右圖是通過傳統標簽打標分類得到。可以發現左圖的綜合歸納的內容和用戶特征是可以推測出用戶的核心訴求,即求追經典、優質IP等,內容形成一定價值體系,在娛樂同時可以向觀眾輸出觀點、產生火花碰撞。與右圖的純類別分類方法相比,更加符合用戶需求。
04 問答
Q1:怎么衡量用戶標簽的業務落地和收益?
A1:在愛奇藝團隊中主要應用在兩個方向,一個是人工運營和規劃上,一個是與算法結合的一些模型應用上以及用戶畫像挖掘等方向。收益可以體現在利用線上ABTEST得到數據效果,以及人工運營的投放和活動上。
Q2:用戶聚類和推薦算法之間是個什么關系?
A2:用戶聚類的結果會作為信號直接輸入到算法團隊,但在推薦層面,模型中其實已經包含大量用戶行為和內容選擇的信號輸入,原始數據中,已經體現了這類用戶行為的數據信息。這個內容聚類更多是從業務的角度,相對于打標的方法幫助業務方更好理解其聚類過程。
Q3:如何甄別用戶在某興趣圈層是否為核心人群或邊緣人群?
A3:如采用傳統權重標簽的方法,可以直接通過權重就能表現標簽的偏好程度。而對于內容聚類的層面,例如二次元,天然形成一堆相似內容,運營便可以精準投放到該類內容背后的用戶。
Q4:一些高熱度節目會不會對于用戶重疊度分析上帶來偏差?
A4:這個問題就是上文提到的關于內容體量的相似度修正,對于體量特別大和特別小的內容需要計算兩兩內容用戶重合度的基準值(期望),去除內容體量的影響。
今天的分享就到這里,謝謝大家。