目前,隨著人工智能的突飛猛進,數據領域呈現爆炸式增長。公司正在大力投資數據和數據基礎設施,將數據用于業務中,無論是分析還是大型語言模型,都為業務的不同部分或面向客戶的體驗提供了動力。
但也很容易被過度的營銷所干擾,從而阻礙進步。“數據科學家就像是一個沒有明確定義的職位描述。”Ingo Mierswa博士說。他的理由是:“軟件工程師為程序編寫代碼。如果你從事的是活動營銷,那么很明顯,你將為你的組織開展營銷活動。但對于數據科學家來說,這個人究竟是做什么的,往往不是很清楚。”
這個人是否把大部分時間都放在了解業務、識別更多用例以及將這些用例和業務問題映射到分析方法上?重要的是,這個人是否真正坐下來處理臟數據,以更好的形式創建數據——這更接近于數據工程。或者,他們可能只專注于機器學習模型并對其進行優化,或者將這些模型集成到其他業務應用程序中。
這個人要做什么?也許根本不涉及機器學習,在這種情況下,這個角色更像是傳統的數據分析師。
Mierswa和兩位著名的數據科學領袖分別為招聘決策者和尋找機會的數據科學家分享了他們的見解。
保持開放的心態
“數據科學家可以做所有這些事情,但并不是每個數據科學家都能勝任所有這些事情,”Mierswa闡述道:“當有人來找我說:'嘿,英戈,我需要一名數據科學家'時,我首先會問:'你為什么需要一名數據科學家?你想要解決的問題到底是什么?你有哪些具體需求?比如你認為你可能需要的東西——讓我們實際談談這是否真的適合你?我發現有趣的一點是,很多人都會掉進這個陷阱,認為他們會在所有事情上都使用機器學習;但由于種種原因,這通常是不正確的。因此,如果你確定了需要解決的任務,你也就能在這個過程中推導出你需要的技能。在這個階段,當我明確提出這些要求時,實際上就是在說明我是否在招聘一名數據科學家。這些細節將成為職位描述的一部分,對于根據這些要素評估員工至關重要。”基于這一點,他說,“在招聘時,我會進行相當全面的面試。”
與其他求職面試一樣,面試過程分為多個階段,但只有技術評估的分量更重,因為它更接近數據科學家的實際工作。“我更看重對概念的理解、溝通技巧,以及這位數據科學家是否能真正解決業務問題并實現端到端,”Mierswa闡述道。“但大多數人把事情搞混了——他們一聽到數據科學,就認為自己可以整天玩弄數據,尋找有趣的東西,”他勸誡道。“不,你不能這樣做。這不是數據科學家的特征”。
“這需要更深思熟慮,以便清楚地思考特定的問題。如果你需要端到端解決方案,這并不意味著數據科學家就是提供所有解決方案的人,而是能夠幫助你朝著正確方向前進的人。”考慮到這一點,他說,“當我們進行技術評估時,我覺得更注重會話技能、分析思維、批判性思維以及對數據科學概念的理解。”
尋找思維能力
當某件事情處于熱門階段時,我們會神奇地遇到炒作周期,即某些技能或工具被熱捧為不可或缺,鼓勵人們縮小技能差距。米爾斯瓦駁斥了這種說法,他指出:“事實上,數據科學家在大多數情況下并不需要編程技能。但假設我要招聘的50位數據科學家中,有一位是真正的編碼數據科學家,那么這個人就必須具備很強的編程技能,此外還要具備其他所有技能--溝通技能、批判性思維、分析思維等。”
“如果你有很強的Python技能,有一定的經驗,還是一名優秀的軟件工程師,那就再好不過了。但好消息是,這只是20分之一,其他49位數據科學家并不需要任何Python技能。”他幽默地反駁道:“看來你在建立數據科學組織時,認為自己需要一直使用和編寫代碼。如果你為同一個問題編寫了兩次代碼,那么你就沒有高效地解決問題,因為數據科學中真正的解決問題意味著創建可重復使用而非重復的解決方案。”
米爾斯瓦說,我總是喜歡那些對數據庫有很好理解的人,一些基本的SQL知識總是有幫助的,因為這是你的數據所在。事實上,我也喜歡與那些擁有很強的Excel、PowerPoint和其他演示技能的人共事。為什么呢?因為盡管有些人可能不喜歡Excel,但在大多數情況下,這將是您分享結果的格式。
“面對現實吧,Excel仍然是全球使用最廣泛的分析工具之一。”米爾斯瓦說:“就我們的具體情況而言,我們一直在尋找具備這些技能的人才,同時還要有工作流程思維能力,因為這才是數據科學的最終目的。你會不會編程并不重要,重要的是你要能夠組織自己的思維。這事關思維能力,現在我正在做這件事,根據結果,我將進行下一步。現在我又循環了一遍……”這就是工作流思維的定義。這是一種數學直覺,就像你擁有理解算法人的思維方式,但你不需要擁有真正把算法寫成代碼的技術技能。
“工作流思維是您取得成功所需的技術技能。如果你能編寫一些Python代碼并構建ML工作流,那也總是件好事。但是,如果你需要的話,你可以學習這些,而其他類型的思維流派則是你必須掌握的。”他說:“我不會投入多年的時間來改變你的思維方式,但我很樂意為你投資,給你正確的工具,并培訓你使用這些工具。”
如果不重視人工智能,那就大錯特錯了。這是數據團隊的當務之急,因為生成式人工智能將改變一切。“如果你還不熟悉現在的情況,也不知道如何真正使用大型語言模型,那么你就必須立即加快速度,”米爾斯瓦鼓勵每一位有抱負的數據科學家。“抽出一些時間,甚至是個人項目,學習數據科學。學習數據科學用正確的方法——用黑客的方式來掌握一般的方法,以防你還沒有掌握。”
關注數據形式
米爾斯瓦的樂觀精神主要來自于他多年的經驗。十多年前,他創建了無代碼數據科學平臺Altair RapidMiner,他的貢獻影響了業界無代碼數據科學和機器學習功能的采用和實施。這也是他看好這一行業的部分原因。“如果你認為自己已經知道了,那你就進入了一個錯誤的領域。這對軟件工程師來說也是如此,但在我看來,對數據科學家來說,”他明確表示,“這個觀點更加正確,也更為關鍵,因為在我們這個領域,事情變化得非常快”。
如果你剛剛開始自己的職業生涯,你需要對學習新事物充滿渴望。他敦促道,“如果你想成為一名科學家,就去大學工作。不要去企業工作,因為對于大多數企業來說,我們沒有足夠的空間容納研究人員”。
還需要注意的是,“數據科學家”這一職稱通常被廣泛使用。但是,“數據科學家是一份時髦的工作”這一炒作背后赤裸裸的事實是,教科書與現實之間存在著一道復雜的大陸鴻溝。在學術領域的學習經歷中,經常會遇到條理清晰、結構嚴謹的數據,而現實世界中的行業數據卻可能雜亂無章、缺乏條理。
瓦倫-曼達拉普保險科技領域的高級數據科學家說:“我看到許多求職者僅僅依靠職位描述就產生了誤解,這些職位描述大多是通用的,有些求職者還出于被迫做出了錯誤的決定,希望能夠改變職業生涯。”他曾聘用過不同級別的數據科學家,他分享說:“我有幸在人工智能的最前沿工作,看到了底層科學與可能實現的藝術之間的鮮明對比。對于數據科學家來說,無論是在公司內部,還是在團隊內部,從來沒有放之四海而皆準的流程。”
“我們解決問題,”他分享道,“只有在實踐中,與有競爭力的人一起工作,我們才能確定基本要求,這對數據團隊了解如何解決問題至關重要,否則我們就會因為雇用了錯誤的候選人而使問題惡化。”
“為此,我在面試時,”他繼續說,“我不想總是先談很多技術問題,而是要掃描他們的數據科學組合。我反而想看看他們在主業或通過對項目的貢獻產生了什么影響。”
曼達拉普在跟隨米爾斯瓦的過程中也指出了近視方法的問題,因為每個團隊都有其獨特的要求。一個團隊可能在潛心研究市場營銷方面的機器學習,而另一個團隊則在開發人工智能驅動的產品。即使在同一個團隊中,角色也可能大相徑庭,一位數據科學家可能研究線性ML模型,而另一位則負責動態自適應模型。
在招聘信息中,總會有一些噪音,而這些區別并不總是很明顯。“必須認識到,招聘經理和數據科學團隊應該準確地闡明這些需求,”他還強調說。“任何求職面試都是求職者展示其數據科學技能的絕佳機會,但同時也是招聘經理確保該職位符合其期望和職業目標的重要責任。”
關鍵考慮因素
當我們問及如何培養和留住數據科學人才時,技術研究所數據科學高級主任Ravindra Patil博士,分享了他對領導者如何尋找和聘用合適的數據科學人才的見解。他詳細闡述了自己在面試候選人時所看重的以下特質。
用數據科學解決方案解決業務問題:要錄用應聘者,我必須相信他們能夠通過數據驅動的解決方案解決具體的業務挑戰。在面試中,應聘者應能描述他們如何應用先進的數據科學技術來解決行業和業務問題,并解釋他們的貢獻如何改進了運營流程和決策。
將人工智能模型與領域專業知識相結合:優質數據科學家必須具備的一個重要特質是領域專長。他們了解行業趨勢、痛點和企業目標,能夠戰略性地思考如何使用自己的技術技能。擁有領域知識的數據科學家可以幫助創建人工智能模型,以解決現實世界中的問題,實現任務自動化,提高運營效率,并直接影響業務決策。由于業務正在加速發展,客戶的期望值也在不斷提高,因此他們能夠以最快的速度完成這項工作。
在初級職位中使用無代碼/低代碼工具:如果要招聘入門級數據科學和人工智能職位,我會考察應聘者在無代碼和低代碼平臺方面的經驗。這些工具能讓編碼經驗有限的個人更輕松地構建和部署人工智能解決方案。但對于復雜的項目,應聘者需要掌握傳統的編碼技能,以確保解決方案的可靠性、可擴展性和可維護性。
利用生成式人工智能進行快速實驗:生成式人工智能現在是每個人的愿望清單中的首要任務。掌握并了解LLM、RAG內部運作和多模態RAG的候選人非常受歡迎。他們甚至在利用先進的人工智能解決方案開發成本優化解決方案方面發揮著重要作用。
在整個企業內擴展數據:大規模解決數據問題是數據科學家必須掌握的另一項關鍵技能,同時他們還必須具備利用增強技術巧妙應對數據挑戰的能力。為了在企業內部實現數據民主化,他們必須有效地處理不斷增長的數據量,整合結構化和非結構化數據,與工程團隊密切合作,采用或開發用于洞察的尖端工具,確保數據的準確性,并解決數據稀疏的問題。這些能力使團隊能夠自信地做出明智的決策。
原文標題:How(and when?)to hire a data scientist
原文作者:Saqib Jan