導航:首頁 > 網路數據 > 內容創作與大數據

內容創作與大數據

發布時間:2024-06-22 16:51:04

㈠ 鍐呭逛駭涓氱殑緇撴瀯褰㈠紡

鍐呭圭敓浜с佸唴瀹規湇鍔°佸唴瀹規妧鏈銆
1銆佸唴瀹圭敓浜э細鍐呭圭敓浜ф槸鍐呭逛駭涓氱殑鍩虹錛屾兜鐩栧悇縐嶅艦寮忕殑鍐呭瑰壋浣滃拰鍒朵綔錛屽寘鎷鏂伴椈銆佸嚭鐗堛佸獎瑙嗐侀煶涔愩佽壓鏈銆佹父鎴忋佸姩婕絳夈傚唴瀹圭敓浜ц呴氳繃鍒涗綔鍜屽埗浣滃悇縐嶅艦寮忕殑鍐呭癸紝婊¤凍浜轟滑鐨勪俊鎮闇奼傘佸ū涔愰渶奼傚拰鏂囧寲闇奼傘傞氳繃灝嗗壋鎰忓拰鏁呬簨杞鍖栦負鏈夊艦鐨勪駭鍝侊紝涓哄唴瀹逛駭涓氭彁渚涙簮婧愪笉鏂鐨勫唴瀹硅祫婧愩
2銆佸唴瀹規湇鍔★細鍐呭規湇鍔℃槸鍐呭逛駭涓氱殑寤朵幾錛岄氳繃鏁板瓧鍖栧拰緗戠粶鍖栫殑鏂瑰紡錛屽皢鍐呭逛紶閫掔粰鐢ㄦ埛銆傚唴瀹規湇鍔″寘鎷鏁板瓧闃呰匯佹暟瀛楅煶涔愩佹暟瀛楄嗛戙佹暟瀛楁暀鑲茬瓑銆傚唴瀹規湇鍔℃彁渚涘晢閫氳繃鍦ㄧ嚎騫沖彴銆佺Щ鍔ㄥ簲鐢ㄧ瓑娓犻亾錛屽悜鐢ㄦ埛鎻愪緵渚挎嵎鐨勫唴瀹硅幏鍙栧拰娑堣垂鏂瑰紡銆傜敤鎴峰彲浠ユ牴鎹鑷宸辯殑闇奼傞夋嫨騫朵韓鍙楀悇縐嶅艦寮忕殑鍐呭規湇鍔★紝婊¤凍涓鎬у寲鐨勯渶奼傘
3銆佸唴瀹規妧鏈錛氬唴瀹規妧鏈鏄鍐呭逛駭涓氱殑鎶鏈鏀鎾戱紝鍖呮嫭浜戣$畻銆佸ぇ鏁版嵁銆佷漢宸ユ櫤鑳界瓑銆傝繖浜涙妧鏈涓哄唴瀹逛駭涓氭彁渚涗簡鏇撮珮鏁堛佹洿鏅鴻兘鐨勭敓浜у拰鏈嶅姟鏂瑰紡銆備簯璁$畻鎶鏈鍙浠ユ彁渚涘己澶х殑璁$畻鍜屽瓨鍌ㄨ兘鍔涳紝鏀鎸佸唴瀹圭殑瀛樺偍銆佺$悊鍜屼紶杈擄紱澶ф暟鎹鎶鏈鍙浠ュ垎鏋愮敤鎴瘋屼負鍜屽嚲濂斤紝涓哄唴瀹圭敓浜у拰鎺ㄨ崘鎻愪緵鍙傝冿紱浜哄伐鏅鴻兘鎶鏈鍙浠ュ疄鐜板唴瀹圭殑鏅鴻兘鍒涗綔銆佹帹鑽愬拰涓鎬у寲瀹氬埗銆傚唴瀹規妧鏈鐨勫彂灞曚笉鏂鎺ㄥ姩鍐呭逛駭涓氱殑鍒涙柊鍜岃繘姝ワ紝鎻愬崌鐢ㄦ埛浣撻獙鍜屼駭涓氭晥鐩娿

㈡ 短視頻系統大數據推薦機制

  三個商業維度決定了短視頻已經成為主流,分別為 網路流量趨勢,信息高效傳達,變現價值能力 。這三個方面的分別為平台,用戶,創作者滿足了各取所需的形態,這是實際價值的存在點。
  網路流量趨勢顧名思義,則是網路平台的唯一KPI。網路平台擁有越多的活躍用戶就越證明該平台的成功,每一個網路巨頭無一例外都是利用自身的流量,獲取市場的廣告效益,所以平台只有擁有流量才會成為具有實際價值的平台。
  信息高效傳達則是針對用戶而言,能夠在網路平台上獲取到自己需要的信息更高效的方式。無論是娛樂,財經,體育,知識,消費各方面的視頻內容都是對網路1.0時代以圖文為主的博客,新聞知識獲取渠道的升級。視頻的每羨中一幀都可能敗如涵蓋成百上千字的文字內容,在這個數據爆炸的時代,提高獲取內容成本是對用戶的一次體驗升級。
  變現價值能力,這是對於創作者的努力創造優質內容的原動力。這三者的高效配合形成一個正向循環齒輪,這樣蛋糕就會越做越大。
  我個人認為一個優秀的短視頻平台需要具備以下3個方面:
   (1).視頻的實時性,熱點性,個性化推薦
   (2).檢索提取干貨信息,作為更高效的搜索引擎
   (3).有娛樂性,實用學習性,傳播性

   2020年8月份科技部明確指出將基於數據分析的個性化服務推送服務技術列為限制出口名單,這必然會讓大家聯想到最近抖音海外版Tiktok的出售風波。因為推薦演算法一般是根據海量app用戶信息經過核心演算法服務進行建模計算出來的。這裡麵包含大量用戶隱私數據,核心演算法技術積累,所以在目前初步人工智慧時代,演算法的重要程度在日益加重。

  說到推薦演算法則不得不說到機器學習,在抖音熱門推薦區推薦的視頻都是通過對每個用戶進行建模後根據權重進行個性化推送的,平台也會通過計算點贊概率影響排序順序,然後推薦給用戶。用數學來表示的話:

針對已知用戶,視頻和環境和未知行為,比如點擊去預測它產生的概率,這就是推薦演算法的核心。

   (1).特徵X:用戶,視頻,環境
   比如用戶年齡就可以作為特徵,根據不同年齡進行特定內容推送,越多的特徵可以幫助更好的幫助我們去給他們挑選感興趣的內容。更多的用戶特徵也可以從用戶的手機型號,來自哪裡,收藏內容標簽,觀看停留時間,興趣標簽;當然也可以從視頻內容獲取特徵信息,視頻標簽,用戶評論信息提取,視頻類別,視頻的平均點擊率,彈幕內容,評論量,轉發量;用戶在什麼樣的環境中看到的視頻,白天或者晚上,使用手機看到的還是電腦看到的。很多做推薦演算法的工程師會花很多時間用在製作一些特徵的工程,用機器去實現用戶的標簽或者視頻內容的理解,這部分是構成了推薦演算法很重要的一部分。等到我們的特徵准備完畢,就可以作為我們的輸入去送給我們的模型,也就是Fx函數。
   (2).構建模型F(y|x)
   目前主流市場上有2種模型,第一種是基於樹的模型,就比如說決策樹。在實際的推薦演算法工程里,這個決策樹模型可以製作得非常深,並且根據板塊門類的劃分也可能不止一顆樹,可能是很多樹構成,相關樹之間通過關聯主鍵進行連接,一起加權構成了一個決策樹的森林,它們會合在一起去做一個推薦演算法,模擬計算Fx函數。另一種模型是基於神經網路去做的一些數據的擬合。(模型見圖1)

   第二種是基於人工神經網路(Artificial Neural Networks)簡稱連接模型(Connection Model),它是一種模仿動物神經網路行為的特徵,進行分布式並行星系處理的演算法數學模型。這種網路以考系統的復雜度,通過調整內部大量節點之間的相互關連的關系,從而達到處理信息的目的。神經網路是一種數據挖掘的方法,不僅可以使用與決策樹大體相同的方式預測類別或分類,而且還能更好的確定屬性之間的關聯強度(模型見圖2)。通常構建神經網路模型個人比較推薦RapidMiner,通過Excel或者DB導入各類不同屬性的分類數據,比如醫兄枯山院里病人的血脂,體重,體溫等各類指標數據,然後進行流程連接並設置條件,最終得出神經網路數據結果。

   (3).制定目標Y
   需要預測的位置行為Y指的就是推薦權重,通過一系列數據計算得出這類視頻是否適合推薦給用戶觀看。

這也是很多短視頻平台,一直以綜合互動量為考核內容創作的最終指標。

   機器學習演算法其實就是普通演算法的進化版。通過自動學習數據規律,讓你的程序變得更聰明些。這里舉一個生活中的案例說明這一點,某天你去買芒果,小販攤了滿滿一車芒果,你一個個選好,拿給小販稱重,然後論斤付錢。自然,你的目標是那些最甜最成熟的芒果,那怎麼選呢?你想起來,外婆說過,明黃色的比淡黃色的甜。你就設了條標准:只選明黃色的芒果。於是按顏色挑好、付錢、回家。

   機器學習演算法其實就是普通演算法的進化版。通過自動學習數據規律,讓程序變得更聰明些。那麼如何讓程序變得更聰明一些喃?則需要利用演算法進行數據訓練並在過程中對數據預測結果集進行效驗。

根據數據類型的不同,對一個問題的建模有不同的方式。在機器學習或者人工智慧領域,人們首先會考慮演算法的學習方式。在機器學習領域,有幾種主要的學習方式。將演算法按照學習方式分類是一個不錯的想法,這樣可以讓人們在建模和演算法選擇的時候考慮能根據輸入數據來選擇最合適的演算法來獲得最好的結果。

在監督式學習下,輸入數據被稱為「訓練數據」,每組訓練數據有一個明確的標識或結果,如對防垃圾郵件系統中「垃圾郵件」「非垃圾郵件」,對手寫數字識別中的「1「,」2「,」3「,」4「等。在建立預測模型的時候,監督式學習建立一個學習過程,將預測結果與「訓練數據」的實際結果進行比較,不斷的調整預測模型,直到模型的預測結果達到一個預期的准確率。監督式學習的常見應用場景如分類問題和回歸問題。常見演算法有邏輯回歸(Logistic Regression)和反向傳遞神經網路(Back Propagation Neural Network)

在非監督式學習中,數據並不被特別標識,學習模型是為了推斷出數據的一些內在結構。常見的應用場景包括關聯規則的學習以及聚類等。常見演算法包括Apriori演算法以及k-Means演算法。

在此學習方式下,輸入數據部分被標識,部分沒有被標識,這種學習模型可以用來進行預測,但是模型首先需要學習數據的內在結構以便合理的組織數據來進行預測。應用場景包括分類和回歸,演算法包括一些對常用監督式學習演算法的延伸,這些演算法首先試圖對未標識數據進行建模,在此基礎上再對標識的數據進行預測。如圖論推理演算法(Graph Inference)或者拉普拉斯支持向量機(Laplacian SVM.)等。

在這種學習模式下,輸入數據作為對模型的反饋,不像監督模型那樣,輸入數據僅僅是作為一個檢查模型對錯的方式,在強化學習下,輸入數據直接反饋到模型,模型必須對此立刻作出調整。常見的應用場景包括動態系統以及機器人控制等。常見演算法包括Q-Learning以及時間差學習(Temporal difference learning)

㈢ 澶ф暟鎹浜戣$畻鐗╄仈緗戝強浜哄伐鏅鴻兘濡備綍鐢ㄤ簬鏁板瓧濯掍綋鑹烘湳鍒涗綔

澶ф暟鎹浜戣$畻鐗╄仈緗戜漢宸ユ櫤鑳藉備綍鐢ㄤ簬鏁板獟鍒朵綔錛屾柟娉曞備笅:
1.棣栧厛浜嗚В澶ф暟鎹鎵琛ㄨ揪鐨勯棶棰橈紝浠ュ強鍏朵腑鐩稿瑰簲鐨勬暟鎹嫻併
2.澶ф暟鎹鏄浜哄伐鏅鴻兘鐨勫熀紜錛屾暟濯掑埗浣滈渶瑕佷漢宸ユ櫤鑳戒腑鐨鉶氭嫙鐜板疄鎶鏈錛屽埄鐢ㄥ叾鏉ユ瀯閫犳嗘灦銆
3.澶ф暟鎹鍜岀墿鑱旂綉鐨勬妧鏈鋙嶅悎錛屽彲浠ュ壋閫犵墿浣撴棤闄愪簰鑱旓紝緗戠粶鏃犻檺寤朵幾鐨勬繁灞傚簲鐢ㄦ晥鏋溿璁$畻鏈烘妧鏈蹇閫熷彂灞曠殑褰撲笅錛屾暟鎹涔嬮棿鍙浠ヨ繘琛岄珮閫熴佹湁鏁堢殑浼犳挱錛屽苟涓斾俊鎮鐨勫勭悊鏁堢巼涔熶笉鏂鍦板姞蹇錛屼嬌鏁板獟鍒朵綔鏈夋柊鏂瑰悜銆

閱讀全文

與內容創作與大數據相關的資料

熱點內容
ps入門必備文件 瀏覽:348
以前的相親網站怎麼沒有了 瀏覽:15
蘋果6耳機聽歌有滋滋聲 瀏覽:768
怎麼徹底刪除linux文件 瀏覽:379
編程中字體的顏色是什麼意思 瀏覽:534
網站關鍵詞多少個字元 瀏覽:917
匯川am系列用什麼編程 瀏覽:41
筆記本win10我的電腦在哪裡打開攝像頭 瀏覽:827
醫院單位基本工資去哪個app查詢 瀏覽:18
css源碼應該用什麼文件 瀏覽:915
編程ts是什麼意思呢 瀏覽:509
c盤cad佔用空間的文件 瀏覽:89
不銹鋼大小頭模具如何編程 瀏覽:972
什麼格式的配置文件比較主流 瀏覽:984
增加目錄word 瀏覽:5
提取不相鄰兩列數據如何做圖表 瀏覽:45
r9s支持的網路制式 瀏覽:633
什麼是提交事務的編程 瀏覽:237
win10打字卡住 瀏覽:774
linux普通用戶關機 瀏覽:114

友情鏈接