A. 數據標注過程中遇到的最大難點是什麼如何解決
最大的問題是:「如何在保證標注質量的同時,大幅提高標注效率」。
可以通過加強標注員培訓、使用高效率的標注工具、加強質檢來解決這個問題。
B. 如何提高工作中數據的准確性
提高人工數據標注的准確性可指灶以從以下幾個層面入手:
一、加強標注員培訓,提高標注能力。
人工智慧本質上是先有「人工」,後有「智能」,數據標注行業尤其如此。目前的數據標注行業仍屬於勞動密集型產業,幾乎所有的數據都依賴於人去標注。因此標注員的素質高低將直接影響標注數據質量的好壞。
通過自建標注團隊,並設立合理的培訓機制,可以有效提高標注員的標注能力,進而提高標注結果的准確率。
二、提高管理和執行系統平台化融合能力
隨著AI基礎數據需求多樣化,以及復雜程度的提升,以往項目經理「人管人」的管理方式和使用單一工橡逗局具應對單一需求的執行方式在質量和效率上都顯得捉襟見肘。因此,擁有一套自主研發管理和執行一體化平台,能在提升人機協作效率,擴大產能,靈活可變地增加標注能力之外,准確地把控每一環節的數據安全和質量問題。
三、梁讓建立全面的質檢與審核機制。
質檢與審核體系的建立可以有效提高整體標注的准確率。同時,通過引入AI輔助,可以大幅提高質檢與審核的效率與准確率。
C. 8個提高數據分析工作效率的技巧
8個提高數據分析工作效率的技巧
我剛和一位老友恢復了聯系。她一直對數據科學很感興趣,但10個月前才涉足這一領域——作為一個數據科學家加入了一個組織。我明顯感覺到她已經在新的崗位上學到了很多東西。然而,我們聊天時悶族枯,她提到了一個至今在我腦海里都揮之不去的事實或者說是問題。她說,不論她表現如何,每一個項目或分析任務在令經理滿意之前都要做好多次。她還提到,往往事後發現原本不需要花這么多時間!
聽起來是不是很像你的遭遇?你會不會在得出像樣的答案之前反復分析很多次?或者一遍又一遍地為類似的活動寫著代碼?如果是這樣的話,這篇文章正好適合你。我會分享一些提高效率和減少不必要的重復工作的方法。
備註:請別誤會。我不是說迭代都不好。這篇文章的重點在於如何識別哪些迭代是必要的,哪些是不必要且需要避免的。
什麼原因導致了數據分析中的重復工作?我認為沒有加入新信息,就沒必要重復分析(後面提到一個例外)。下面這些重復工作都是可以避免的:
對客戶問題的診斷有穗空偏差,不能滿足需求,所以要重做。重復分析的目的在於收集更多的變數,而你之前認為不需要這些變數。之前沒有考慮到影響你分析活動的偏差或假設,後來考慮到了所以要重做。哪些迭代是必要的呢?下面舉兩個例子,一、你先建立了一個6個月後的模型,隨後有了新的信息,由此導致的迭代是健康的。二、你有意地從簡單的模型開始逐漸深入理解並構建復雜模型。
上面沒有涵蓋所有可能的情況,但我相信這些例子足夠幫助你判斷你的分析迭代是不是健康的。
這些生產力殺手的影響?我們很清楚一點——沒有人想在分析中出現不健康的迭代和生產力殺手。不是每個數據科學家都樂於一邊做一邊增加變數並反復運行整個分析過程。
分析師和數據科學家會因為不健康迭代和喪失效率而深感挫敗,缺乏成就感。那麼讓我們盡一切努力來避免它們吧。
小貼士:如何避免不健康迭代並增加效率技巧1: 只關注重大問題
每個組織都有很多可以用數據解決的小問題!但雇一個數據科學家的主要目的不在於解決這些小問題。好鋼要用在刀刃上,應該選取3到4個對整個組織影響最大的數據問題交給數據科學家來解決。這些問題一般具有挑戰性,會給你的分析活動帶來最大杠桿(或者收獲滿滿或者顆粒無收,想像一下借貸炒股)。當更大的問題沒被解決時,你不應當去解決小問題。
聽起來沒什麼,但實際上很多組織都沒做好這一點!我看到很多銀行沒用數據分析去改善風險評分,而是去做市場營銷。有些保險公司沒用數據分析提升客戶留存率,而是試圖建立針對代理機構的獎勵計劃。
技巧2: 一開始就創建數據分析的演示文稿 (可能的布局和結構)
我一直這樣做並且受益匪淺。把分析演示稿的框架搭起來應該是項目啟動後的第一件事。這聽起來或許有悖常理,然而一旦你養成這個習慣,就可以節省時間。
如何搭框架呢?你可以用ppt、word、或者一段話來搭框架,形式是無關緊要的。重要的是一開始就要把所有可能情況列出來。例如,如果你試圖降低壞賬沖銷率,那麼可以像下面一樣布局你的演示文稿:
接下來,你可以考慮每個因素如何影響壞賬沖銷率?例如,由於給客戶增加了信用額度導致銀行的壞賬沖銷率增加,你可以:
首先,確定那些信用額度沒被增加的客戶並沒有導致此次壞賬沖銷率增加。
下一步,用一個數學公式來測量這個影響。
一旦你把分析中的每一個分支都考慮到了,那麼你已經為自己創造了一個良好的起點。
技巧3: 事先定義數據螞洞需求
數據需求直接源於最後的分析結果。如果你已經全面地規劃了要做哪些分析、產生什麼結果,那麼你將知道數據需求是什麼。這里有幾個提示來幫助你:
? 試著賦予數據需求一個結構: 不單是記下變數列表,你應該分門別類地想清楚分析活動需要哪些表格。以上面增加壞賬沖銷率為例,你將需要客戶人口統計表,過往市場營銷活動統計表,客戶過去 12 個月的交易記錄,銀行信貸政策變更文件等資料。
? 收集你可能需要的所有數據: 即使你不是 100%肯定是否需要所有的變數,在這一階段你應該把所有數據都收集起來。這樣做工作量大一些,但是與在以後的環節增加變數收集數據相比,還是更有效率一些。
? 定義您感興趣的數據的時間區間。
技巧 4: 確保你的分析可重現
這個提示聽起來可能很簡單——但初學者和高級分析人員都難以把握好這一點。初學者會用Excel執行每一步活動,其中包括復制粘貼數據。對於高級用戶,任何通過命令行界面完成的工作都可能不可重現。
同樣,使用記事本(notebook)時需要格外小心。你應該克制自己修改以前的步驟,尤其是在前面的數據已經被後面的步驟使用的情況下。記事本在維護這種涉及前後數據勾稽關系的數據流方面表現地非常強大。但是如果記事本中沒維護這種數據流,它也會非常沒用。
技巧5: 建標准代碼庫
沒必要為簡單的操作一次又一次重寫代碼。它不僅浪費時間,還可能會造成語法錯誤。另一個竅門是創建常見操作的標准代碼庫並在整個團隊中共享。
這將不僅確保整個團隊使用相同的代碼,而且也使他們更有效率。
技巧6: 建中間數據集市
很多的時候,你會反復需要同一批信息。例如,你將在多個分析和報告中用到所有客戶信用卡消費記錄。雖然你可以每次都從交易記錄表中提取,但是創建包含這些表的中間數據集市,可以有效節省時間和精力。同樣,市場營銷活動的匯總表也沒必要每次都查詢提取一次。
技巧7: 使用保留樣本和交叉驗證防止過度擬合
很多初學者低估了保留樣本和交叉驗證的強大。很多人傾向於認為只要訓練集足夠大,幾乎不會過擬合,因此沒必要交叉驗證或保留樣本。
有這種想法,往往會在最後出岔子。不單我這樣說——可以看一下Kaggle上任意競賽公開或非公開的排行榜。你會發現前十名中有些人不再過擬合時他們的排名就不再下降了。你可以想像這些都是高級數據科學家。
技巧8: 集中一段時間工作並且有規律地休息
對於我來說,最佳的工作狀態是集中利用2-3小時解決一個問題或項目。作為一名數據科學家,你很難同時完成多項任務。你需要以自己的最佳狀態對待一個單獨的問題。對於我來說,2-3 小時的時間窗口最有效率,你可以依據個人情況自行設定。
後記上面這些就是我提高工作效率的一些方法。我不強調非要第一次就把事情做好,但是你必須養成每一次都能做好的習慣——這樣你才能成為一個專業的數據科學家。
你有什麼提高工作效率的好方法嗎?有的話請在下面的評論中留言。
原文標題:8 Proctivity hacks for Data Scientists & Business Analysts
翻譯筆記1、catchupwithsb.還特指同某人恢復聯系,相當於becomecurrentwithwhat』sgoingoninsomeone』slifewhenyouhaven』tbeenintouchforawhile
所以這句話的意思是說「再次聯絡到(碰到/遇到)你真好」,特指有段時間和你沒有見面或者聯絡時候的說法。
2、proctivitykillers,生產效率殺手,降低生產效率的因素,阻礙提高生產效率的因素。
3、壞賬沖銷率,信用卡行業的重要指標,每月發生壞賬除以當月初信用卡應收款總額的年化比例,主要用於衡量資產的信用水平。
4、插圖中Brandstrategychange,品牌戰略變更可能會導致壞賬沖銷率增加。例如,當採用競爭品牌或者邊際品牌戰略時可能會導致壞賬沖銷率的增加。
5、品牌戰略:
形象品牌。在品牌競爭中形象品牌能有效地贏得公眾的信賴,形成良好的「口碑」效應,對累積、提升品牌資本有著極為重要的作用,能促進企業其它品牌的推廣。例如,雀巢公司的「雀巢」作為母品牌就是形象品牌,它有力地推動了其眾多的子品牌。因此,企業的品牌經營戰略不能沒有形象品牌。競爭品牌,通常是針對市場上同類產品而推出的,它將通過其特殊的市場定位如技術上的、價格上的或服務上的特色撕開競爭對手的防線,或開辟嶄新的目標市場。顯然,競爭品牌的主要目的就是為企業爭奪更多的市場份額,創立企業的競爭優勢。這種類型的品牌也許現在並不能為企業帶來多少利潤,但發展潛力極大,是企業參與未來市場品牌競爭的關鍵和希望。利潤品牌,是企業多品牌經營的中心。利潤品牌為企業創造利潤是現代品牌經營的重要特徵。利潤品牌一般都是企業獨特技術(企業核心競爭力)的代表,競爭者難於在較短時間內進入這一領域為企業創造很大的利潤空間,甚至是超額利潤。當然這類品牌如果不加以提升和改善,就有進入衰退期的可能。邊際品牌,是企業多品牌經營戰略的必要補充。邊際品牌不是企業的形象品牌、競爭品牌,從其表象看難於創造利潤但因其具有一定的客戶基礎,不像其它品牌那樣需要高額的投資。因此,即使該品牌的銷售額停滯不前或緩慢下降,仍有一批忠誠的消費者不會放棄這類品牌。邊際品牌的作用就是創造盈餘資源,並為企業的競爭品牌、形象品牌和利潤品牌提供資源支持,為沖銷企業的固定經營費用做出貢獻。6、插圖中「Acquisitiondriven」,acquisition意為(1)(對公司的)收購,並購;(2)(圖書館通過采購、交換贈閱等)圖書資料的獲得;獲得的書籍(或報刊、雜志);(3)(知識、技能等的)獲得,習得。例如,dataacquisition指數據採集。
7、插圖中「Spendsimulation」,譯者在此只依文解義的翻成了「花費模擬」。在ask.com搜索引擎中,沒有相應內容,網站提示是否搜索spentsimulation,spent是一個互動游戲,由一個幫助流浪者和貧窮者的公益組織發起,玩家用1000美元生活一個月模擬貧窮的生活狀態,玩家參與互動游戲時會面臨很多選擇,比如?支付信用卡還是支付房租。這個游戲從2011年2月第一次舉辦到2014年7月已經有200萬人在218個國家玩超過400萬次。如果客戶參與這類活動,可能會導致信用卡超期未付。參考鏈接:http://umrham.org/ https://en.wikipedia.org/wiki/SPENT_(online_game)#cite_note-2
8、datarequirement,數據需求,與之相關的還有Marketrequirement,Proctionrequirement,其中產品需求與數據需求關系緊密。因為數據需求隨著產品業務邏輯展開。要收集一個產品的數據,首先需要了解產品業務邏輯,例如功能之間的交互關系以及單一功能的業務邏輯。其次將業務邏輯節點化,識別出重要節點並列出優先順序。再次將節點化的業務代碼化,主要將列出的重要節點(需要統計的節點)添加統計事件和統計參數。最後形成數據需求文檔。
9、moreoftenthannot,往往。
讀後感譯完這篇文章,我感覺數據分析人員可以從兩個方面借鑒經驗,一是從傳統管理咨詢行業借力,DA需要具備的能力包括傳統咨詢行業解決問題的能力加上數據處理技能。比如本文的第二點提示,類似於咨詢行業的重要方法——結構化思維。可以參考芭芭拉·明托編寫的《Logicinwriting,thinkingandproblemsolving》(中文譯名:金字塔原理——思考、表達和解決問題的邏輯),這本書是麥肯錫的經典培訓教材,介紹了很多實用的方法,幫助讀者在思考表達時重點突出、邏輯清晰、主次分明。二是可以從傳統的數據資源規劃中得到啟發。本文第三點提示,如何確定數據需求,恰恰可以參照傳統數據資源規劃中從業務需求得到數據需求,並對業務和數據進行建模的系統化方法,具體可以參考高復先教授的《信息資源規劃:信息化建設基礎工程》。
本文最後提到工作和休息,這點因人而異。我覺得需要關注以下幾點:
一是評估綜合效率。一周有一兩次效率特高,但綜合效率或許不如一周都保持一個平穩的節奏。可以嘗試用番茄鍾這種時間管理工具來量化分析一下自己的情況;
二是調整生活習慣。數據分析工作需要飽滿的精力,影響精力的因素很多,比如暴飲暴食可能就會帶來負面影響。
三是關注呼吸,如果我們高效率的時候身心舒暢,呼吸自然,那麼這種狀態是可持續的。如果精力集中時,經常屏住呼吸,這種方式更傾向於消耗。冥想和正念訓練或許會有幫助。
工作有如跑馬拉松,有些人的目標不為跑得快只為跑得年頭久,希望60歲依然能去跑,這類人對控制心率的需求大過提高速度。有些人希望盡快提高成績,去沖刺幾個重要賽事,因而自願承擔自由基增加的代價。做數據分析也一樣,設定怎樣的目標,那就怎樣去奔跑吧。
以上是小編為大家分享的關於8個提高數據分析工作效率的技巧的相關內容,更多信息可以關注環球青藤分享更多干貨
D. 如何保證數據標注的高質量
可以從三方面著手:
1.提升標注員素質
目前的數據標注行業仍然是勞動密集型行業,人力在其中扮演者著至關重要的角色。
2.規范標注流程
規范標注流程,建立實時篩查體系。
3.使用高質量的標注工具
AI預標注技術可以在很大程度上避免純人工標注過程中出現的各種問題,提升標注效率與准確率。