A. 大數據里的青年是什麼樣子
90後海歸研製的馬桶能智能體檢;南京餐飲業求職者7成是90後,平均薪資排全國第二;00後們其實很認同傳統美德,九成認為成功要靠自己奮斗……昨天(5月4日)是五四青年節,QQ、淘寶、口碑、58等多家互聯網機構出台了各種角度關於年輕人的大數據畫像,讓我們來看看這里有沒有你熟悉的年輕人。
畫像三
南京餐飲業平均薪資6447元,求職者七成是90後
「四千塊你就想請個服務員?你想多了吧!」這個前兩年流傳的段子或許正在變成現實。58英才招聘研究院聯合口碑剛剛發布的今年1至4月全國重點城市餐飲業用工分析報告顯示,北上廣深、南京等一二線城市餐飲用工缺口巨大,餐飲人員供不應求直接拉高了餐飲企業薪資水平,服務員薪水最高的重點城市依次是北京、南京、廣州、上海等。其中,南京餐飲企業平均支付薪資水平已達6447元。
數據顯示,2018年1-4月,餐飲業企業招聘量城市前十位依次是北京、廣州、深圳、上海、成都、杭州、重慶、武漢、西安、蘇州。餐飲行業員工流動性較大,一直是用工需求最大的行業之一,招人難、留人難已成為絕大多數餐飲企業面臨的問題。
統計數據還顯示,餐飲業企業支付薪資水平城市前十位依次是北京、南京、廣州、上海、深圳、杭州、合肥、蘇州、西安、武漢。其中,北京的餐飲業企業薪資標准居全國第一,為7656元,其次是南京、廣州、上海、深圳,分別為6447元、6377元、6331元和6196元。值得一提的是,南京的餐飲業平均薪資超過了廣州、上海、深圳等一線城市,僅次於北京。
什麼樣的人應聘餐飲業最多?58英才招聘研究院數據顯示,餐飲業求職者中,90後佔比最高,達到72.5%。
以上內容來自:揚子晚報
B. 教育大數據是什麼教育大數據作用有哪些
本文主要內容是介紹教育大數據的定義與作用,在了解教育大數據前我們首先要了解什麼是大數據。大數據技術是21世紀最具時代標志的技術之一。國務院發布的《促進大數據發展行動綱要》中提出「大數據是以容量大、類型多、存取速度快、應用價值高為主要特徵的數據集合」。簡單的說,大數據就是將海量碎片化的信息數據能夠及時地進行篩選、分析,並最終歸納、整理出我們需要的資訊。
教育大數據,顧名思義就是教育行業的數據分析應用。
而大數據,則需要具備5V的特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
其中的「大」主要指的是 Volume(大量),我們現階段用的數據分析,大部分情況下的數據量還達不到這個「大」的級別。
教育行業在數據分析的應用方面,主要痛點有以下四個方面:
1.數據涉及面窄
數據主要來源為數字化校園系統產生的,其他教學管理的數據多為手工錄入非結構化數據
數據維度少,數據來源不足。
2.數據介面不完善
內部信息系統的教務系統、一卡通系統、圖書館系統、財務系統等數據都不規范一致,數據結構也不一樣,各業務系統介面對接難度大
業務介面與數據結構還不規范
3.缺乏統一的數據管理平台
沒有統一的數據處理中心對數據進行管理,沒有人力維護各系統的接入
有效數據量少,數據質量差,達不到大數據處理分析要求
在具體的應用方面,即數據分析體系搭建上,可以在以下四個方面開展。
1.教務管理
在這方面可以進行招生分析、就業分析、住宿分析、圖書館分析、資產數據統計分析等。
2.教學創新
在這里可以進行教學質量評估、上網行為分析、學生成績分析、學生特長能力分析
3.應用創新
可以進行學生軌跡分析、學生畫像、學生輿情監控
4.科研支撐
可以開展科研成果分析統計、科研項目研究、科研經費跟蹤研究,對整個科研情況有全面的了解和掌握。
1.大數據或把老師從作業批改中解放
在線教育除了能以優質教育資源為學生提供幫助外,對廣大家長、老師和學校也大有裨益。蘇靜以作業幫家長版的「口算批改」功能為例介紹,家長或老師只需要用手機對著學生作業一掃,就能立刻對作業完成智能批改,顯示出批改結果,能夠大大節省老師和家長批改作業的時間。
事實上,隨著人工智慧等新興技術的深入應用,在線教育平台能夠為家長、老師、學校提供更有效的教學輔助。
2.因材施教,將更有的放矢
「人工智慧+大數據精準教育」系統能利用大數據技術,完成對學生學習進度、學力、習慣的跟蹤和分析,系統後台能夠准確對用戶進行用戶畫像,找到他們的知識薄弱點,形成用戶學情報告,這可以幫助老師和學校更細致地了解每一個學生的情況,並有的放矢地制定更精準的學生學習計劃。
C. 有哪些軟體可以做大數據畫像
TempoBI可以做大數據畫像,給你看一個用他做的員工與學生畫像截圖。
D. 大數據時代,做頂級數據專家的學生是怎樣一種體驗
一問未來的學校什麼樣?
學校仍會存在,但功能會發生重大改變
Q1:您在書中談到,今天的學校和幾百年前的學校相比沒什麼變化,而校園外的世界早已變得幾乎面目全非。在您看來,一所典型的大數據時代的學校,應該是什麼樣的?
舍恩伯格:首先我必須說,我的答案並不是完美的答案。因為我們人類很難預測未來,我們的視野會被我們已經見到的東西局限住。
我舉個例子,歐洲一所大學里,一群學建築的學生被要求設計出2050年的學校。這些25-30歲的年輕人設計的作品都包括教室、黑板、圖書館、實驗室等現在的學校里有的東西,甚至還有一間專門的電腦室。這些設計中沒有wifi,沒有平板電腦——人們很難預見未來。
就我個人的觀點,我認為未來的學校不會完全轉移到線上,未來的學校仍舊會有物理性的存在,但是,學校的功能將發生重大改變。
現在的學校是一個學生接受信息的空間,但未來學生們將在家裡通過觀看網上等形式接受信息,然後到學校去和老師、同學就自己學習的內容進行討論。學校將變成一個社會性的場所,是一個互相討論,互相學習的所在。
二問未來的老師怎麼當?
教師核心技能從宣講知識變為組織討論、個別引導
Q:大數據時代,翻轉課堂會削弱老師在學習過程中的重要性嗎?
舍恩伯格:不會!
大數據只會幫助老師的工作。以前老師不知道哪些部分的內容是學生面臨困難的,哪些學習材料是學生感興趣的,接下來的教授重點應該是什麼。大數據可以幫助老師,提供這些信息。
我舉個例子,我的《大數據時代》這本書出版之後,我並不知道讀者的確切反饋,直到我們把電子書的版權賣給了。
讀者們在kindle上閱讀這本書,我就可以從獲取很多信息:某個讀者花費多少時間讀完這一本書,甚至花費多少時間在某一頁上;讀者們在哪些部分畫了下劃線以突出這些字句。
我告訴你一個秘密,統計了全書中被讀者們畫出下劃線次數最多的十個句子,我一個都沒有猜中!
同樣,大數據可以幫助老師們更深入了解學生的學習興趣和學習風格。
當然,翻轉課堂需要老師們的教學技能發生改變。以前照本宣科的傳授、宣講知識的技能,要讓位於組織學生討論的技能;要讓位於從數據中獲取學生學習信息的技能;要讓位於根據數據對學生進行個別引導的技能。
這確實有些困難,但如果老師們掌握了這些技能,學校將比現在的更美好。
Q:隨著數據處理技術的進一步發展,如果發展到一定程度可以自動處理數據並生成自適應的教育內容,技術是否會取代老師?
舍恩伯格:不會!
有兩方面的原因。一是數據處理無法生成內容,它可以篩選、排序、組合內容,但無法生成內容。而且,即使是翻轉課堂,中教授知識的也仍是老師。
第二個原因是學習是一個社會性的過程,我們面對人溝通時比面對書本學習得更快也更好。
三問未來的學習如何變?
大數據將重塑學習的三個主要特徵
Q:您的新書《與大數據同行——學習與教育的未來》中文版即將問世,能否概括一下,大數據對教育和學習究竟將帶來哪些方面的改變?
舍恩伯格:大數據將重塑學習的三個主要特徵,我將之稱為「反饋、個性化和概率預測」。
首先說反饋。在正規教育中,從幼兒園到大學,反饋隨處可見,最常見的就是考試。然而,這種教育反饋系統的幾乎所有方面都存在很大的缺陷:我們並不是總在收集正確的信息,即便是,我們所有收集的數量也遠遠不足。
大數據正在改變這一現狀。我們能夠收集到過去無法獲取的學習數據,並用於學習過程的處理。我們還能用新的方式組合數據,並充分發揮起作用以提高學習理解和學業表現,同時分享給教師和管理者以改善教育系統。
我剛才舉的通過獲得的讀者反饋就是一例。
然後是個性化。學習一直以來都是個人行為,但大多數正規學校的教育,在其設計時考慮的是處於平均水平的學生——比坐在前排的神童學得慢,但比教室後排的笨蛋學得快的一種虛構的生物。而現實中,並沒有歸屬於這一類別的學生。
我們需要的是「一個尺寸適合一個人」的方式。既然我們可以截取、混合最愛的音樂並將之刻錄到iPods播放器中,那為什麼不能對我們的學習做出同樣的操作呢?
在未來,學習決不會是按照一本給定的教科書、一門科目或課程,以同樣的順序和步調進行,而將會是有數千種不同的組合方式。
最後說說概率預測。通過大數據,我們能夠對人們的整體學習狀況和個體的知識掌握情況產生獨到的見解。然而這些見解並不是完美的。我們「對學習的學習」可是說只是一種「可能性」。
我們可以基於高度的可能性,對個體為提高其學業成績需要實施的行為作出預測。比如,選擇最有效的教材、教學風格和反饋機制。但這僅僅是概率預測。
四問:大數據可能帶來教育領域哪些危險?
用數據貼標簽和限制學習自由
Q:除了這些正面的影響,大數據對於教育和學習有沒有什麼負面的影響?
舍恩伯格:是的。其危險有兩個,一個是「永久的過去」,一個是「決定了的未來」。
所謂「永久的過去」是指,我們作為個人不斷地成長、發展、變化,而那些多年來收集的全面的教育數據卻始終保持不變。
想像一下,某個學生的活動記錄被存儲下來,並在25年後他找工作的時候被提供給未來的僱主,這將會是怎樣的情形?
因此,全面教育數據帶來的首個重大威脅,並不是信息的發布不當,而是束縛我們的過去、否定我們進步、成長和改變的能力,而且目前尚無抵禦這一威脅的可靠措施。
所謂「決定了的未來」是指,以所有人為對象收集到的全面教育數據,將用於對未來進行預測;但是系統也可能帶來一些惡性的後果。假如系統預測某個學生不太可能在一個學科領域(如生物信息學)取得良好成績,於是引導他轉入護理之類的其他專業,我們應該如何看待系統的決策?
諸如此類的概率預測將會限制我們的「學習自由」,並有可能最終威脅到我們對生活中的機遇的獲取。比如大學可以很容易利用大數據選拔出學習能力最強的學生,畢竟教育最聰明的10個學生很容易,而提高普通學生的成績卻難得多,但也有意義的多。
在我看來,大數據蘊含的巨大潛力在於推進個性化學習、改善教材和教學、並最終提高學生的成績。數據應該被視為促進產品改良的反饋,而不是對產品使用者進行簡單評價的依據。
Q:我們該如何避免這些狀況的發生?
舍恩伯格:依靠法律。我認為應該對大數據的使用立法,明確規定哪些數據可以收集和使用,哪些數據不能收集和使用;哪些數據可以在哪些領域中加以使用等等。
E. 「人工智慧」,「大數據」+教育如何驅動教育的未來
近日,由論答公司主辦的教育大數據研討會在北京舉行,討論會主題為「大數據+教育,有哪些可能性?」。本次研討會主要關注數據在教育領域的應用,具體包括自適應學習、學習數據分析和教育數據挖掘。來自賓夕法尼亞大學、人民大學、華中師范大學的專家和企業界代表,共同探討了教育大數據和自適應學習領域的技術趨勢和產業機會
Ryan Baker是國際教育數據挖掘協會(International Ecational Data Mining Society)的創始人、《教育數據挖掘》雜志(Journal Ecational Data Mining)主編,在各類期刊和會議發表了260餘篇學術論文,先後主持了美國科學基金會(National Science Foundation)、蓋茨基金會(Gates Foundation)等研究基金的多項重大項目,累計獲得研究經費超過1600萬美元。
他也在哥倫比亞大學教育學院和愛丁堡大學同時擔任教職,他在Coursera和edX上開設的「Big Data in Ecation(教育大數據)」課程,有來自100多個國家和地區的學生注冊。
研討會現場,Ryan Baker通過遠程視頻,分享了他對教育大數據的體驗和應用。據他介紹,目前在教育大數據領域主要有四大研究組織,分別研究人工智慧與教育、教育數據挖掘、學習數據分析和大規模學習。
Ryan Baker表示,在教育領域廣泛應用大數據的時代正在到來。教育數據挖掘有很多的應用方向,包括:預測學生是會輟學,還是會成功完成學業;自動檢測學生的學習投入程度、情感、學習策略,以更好地達到個性化;給教師和其他相關人員提供更好的報告;教育科學的基礎研究和發現。
他認為,個性化教育至少要做到三件事情:
1、確定學生的有關數據;
2、了解對於學生的學習來說什麼是真正重要的;
3、有針對性地為學生提供合適的教學。
而通過教育數據挖掘,我們可以推斷很多事情:
學生的元認知和求助。比如,這個學生有多自信?當他需要幫助時,有沒有在尋求幫助?他有沒有在給自己解釋問題,有沒有思考這個答案是正確的還是錯誤的?最重要的,當他面臨挑戰時,能否堅持下去?
沒有投入學習的行為。比如,「玩弄」系統,為了找到正確的答案,有的學生會試各種不同的答案,從「1」試到「38」。粗心,本身會做,但是不用心,最後給出的答案是錯的。有些孩子會做非常難以解釋的行為,比如不用方程符號,而是畫了一個笑臉。
學生情感。Baker的研究團隊和其他研究團隊,已經創造了研究模型,可以根據數據推斷,學生是否感到厭倦、沮喪、困惑、好奇、興奮、快樂,是否投入,等等。
長期的學習結果。比如,學生能夠記住剛才他學的東西嗎?學生准備好學習下一個主題、下一個知識沒有?中學生能上大學嗎?他會從大學畢業還是輟學?
Ryan Baker表示,要獲得這樣的推斷,只需要學生與系統交互的數據,不需要學生戴上頭盔檢測器。目前,這些模型已經開始大規模應用於自適應學習,應用於幾十萬的美國學生。Ryan Baker列舉了一些自適應學習系統的案例。
Knewton
通過系統決定學生下一個要學習的問題是什麼,已在全球的多個領域多個學科中運用。
ALEKS-ALEKS
用的是先行知識結構和知識點模型,來選擇最適合學生的學習材料。比如,一個學生在學習上出現了問題,系統能夠檢測出來,是以前學的知識點出了問題,然後讓學生回到以前的知識點上去學習。ALEKS系統應用於美國高中、大學的數學、科學學科。
Cognitive Tutor
系統能自動檢測學生的知識,直到學生掌握為止。比如,系統不會讓學生學習下一步的知識,直到他展示出他已經學好了他現在正在學習的知識。系統能夠給學校提供數據報告,學校根據報告能夠更好地讓學生投入到學習中去。每年大約被50萬的美國初高中生用於數學學習。
論答
論答公司的系統與ALEKS的系統有些類似,也是用先行結構和知識點模型,選擇合適的學習材料。同時也是自動檢測學生的知識狀態直到學生掌握為止。應用領域目前包括數學和英語,完全針對中國學生開發。
Reasoning Mind
用各種自動檢測的模型來檢測老師的教學是否有效。通過數據生成報告給每個地區的教學管理員,讓他們找到方法幫助老師提高教學。主要是用於美國的小學數學。
Duolingo
自動檢測學生記憶,來決定什麼時候回顧已經學過的知識。在全世界范圍內應用於外語詞彙的學習。
其他的像Civitas,Course Signals,Zogotech都是地區供應商,運用風險預測模型提供行動信息預測。它們會對學生做出預測,可能學不好、會失敗,把報告提供給老師。已在世界范圍內的大學應用。
Ryan Baker指出,在這些系統中,有足夠的證據證明,至少以下兩個系統是非常好的。
1、胡祥恩教授在美國做了大量實證研究,證明ALEKS系統對於幫助學生學習是有效的。他的研究證明,ALEKS系統對於不同人群的學生是同樣有效的;特別值得提出的是,ALEKS可以幫助少數人群群體提高學習成績。
2、Ryan Baker本人領導的研究團隊與論答公司合作的研究表明,學生通過論答系統學習,比通過傳統的在線學習系統學習,效果更好。他們在中國3個不同的地區做的3次實證研究,都證明了論答系統的有效性。
Ryan Baker分析了教育大數據演算法模型的潛在發展方向。他認為,這些模型的長期潛力是,通過學生的知識和學習模型來確認,學生什麼時候需要更多的支持:
首先是「mastery learning」,學生在掌握一個知識前,不會讓他去學習下一個知識。當學生需要支持的時候,自動介入;同時告訴老師和父母,這個學生什麼時候需要支持。
通過學習投入程度模型判斷,學生什麼時候開始變得厭倦、沮喪了,並調整學習活動,讓厭倦的學生不再厭倦,讓沮喪的學生的學習變得更容易一些。
學習投入程度模型還可以檢測,在線學習中,什麼樣的學習活動,能讓學生更容易地投入進去,並最終發現,什麼樣的學習活動對學生更好、對什麼樣的學生更好。
這樣的模型也能告訴老師和父母,學生什麼時候開始變得不再投入學習了。
還可以運用學習模型確認,學生什麼時候沒有真正學會,需要更多支持。
最後,Ryan Baker指出,下一步的目標是優化之前已經驗證的經驗和方法,然後把它們運用到系統中,最終讓中國和世界上的數十億學生受益。
討論:「因材施教」的千年理想該如何照進現實?
王楓博士,論答公司(Learnta Inc.)創始人兼CEO
胡飛芳博士,美國喬治華盛頓大學(George Washington University)統計學終身教授,中國人民大學統計與大數據研究院的教授
胡祥恩博士,美國孟菲斯大學(University of Memphis)心理系、計算機科學系、計算機工程系終身教授,華中師范大學心理學院院長
馬鎮筠博士,論答公司聯合創始人兼首席數據科學家
辛濤博士,北京師范大學中國基礎教育質量監測協同創新中心常務副主任、博士生導師,兼任國家督學、教育部基礎教育課程教材專家工作委員會委員、中國教育學會學術委員會委員。
技術發展到今天,「因材施教」如何實現?
王楓:因材施教,我首先到的是,每位學生學習的內容都不一樣。如果有新的技術或者系統,系統應該像一個好老師一樣,不會頭疼醫頭腳疼醫腳。比如說,一元二次方程做錯了,好老師不會簡單說一元二次方程做錯了,你繼續再做十道一元二次方程的題目,這其實是很差的老師,他沒有真正去全面評判學生,到底是哪些掌握好、哪些掌握不好。
一個好的老師可能會說,我全面地看了你整個學習,可能你的問題不是出在一元二次方程上面,老師看了你做的題目,一元一次方程沒有掌握好、因式分解也沒有掌握好,你繼續做一元二次方程是浪費時間。這就是從系統角度來說,系統做到了根據每個學生最基礎的先行知識點的結構,給你提供最適合你當前學習的知識點,題目也好、視頻也好、還有其他各種各樣的學習內容。
胡飛芳:因材施教是我們教育的理想狀態。孔子很早提出因材施教,在他當時的歷史環境裡面,因材施教可能更多是個體性的,因為那時學生少、老師也少,因材施教相對比較容易做到。
隨著歷史的發展,我們有更多的人需要教育時,我們做的一件事情是什麼呢?就是做了一個標准化。標准化做的是什麼?課堂教育。課堂教育從某種意義上來講是標准化。現在這個歷史階段,教育大數據可能真正要做到的就是因材施教,自適應學習本身想做的也是這個。
胡祥恩:因材施教事實上在學習理論里有兩個:一個是outerloop「學什麼」,一個是innerloop「怎麼學」。用技術來細化因材施教是教育產業走向成熟的一個標志。但是這個路非常非常難,因為「怎麼學」那個層次非常非常難。
馬鎮筠:「因材」代表認識到學生的個體化差異,「施教」指進行差異化教學,這是根本思想。但如果考慮到時代背景,孔夫子時代專注的是學生的職業發展方向,也就是說,把適合當政治家的培養成政治家,把適合當學者的培養成學者。現在再提因材施教,我們其實能做得更多、更精細化。
比如,「因材」,對「材」的分類不僅是職業方向,還會考慮到學生的學習狀態、學習目標、潛在能力、興趣偏好等。而且,傳統意義上的因材施教考慮的是學生個體間的差異,沒有重視學生本身狀態是在發生變化的,學生在不斷學習,狀態甚至興趣各方面都可能發生變化。
但這些是自適應學習能夠做到,甚至比傳統的因材施教做得更好的地方。再說到「施教」,現在我們能做的幾件事,包括學習路徑推薦,給不同的學生匹配他最合適的學習內容,這種非常精細化的層面,我們已經有了一定的技術積累。
怎麼判斷一個產品做到了真正的自適應?
馬鎮筠:大多數產品的學習過程可以分為測、學、練,可以從這三個環節去看這個產品做到什麼程度。
測,各種學習機構都有測評。但是國內只有論答團隊第一個做出來能夠在幾十道題內,精準判斷你一百個知識點,哪21個沒掌握,哪79個掌握了。市場上大部分競品,只會告訴你,知識點掌握率或者分數,79分或者知識掌握率達到79%;或者一些其他維度的總結,比如邏輯思維能力比較強、閱讀的磨煉技巧比較好、學習動力哪方面稀缺。他們做了降維,本來很復雜的學習狀態這樣說出來,相對比較容易實現。但如果要做到具體告訴你,哪些知識點掌握、哪些知識點沒掌握,這個難度就高很多了。
關於學習路徑推薦的話,很多題庫類的軟體,知識點學完之後,會給一些題目推薦,但真正實現路徑推薦的很少很少。路徑推薦也是很核心的,有20個知識點沒掌握,先學哪個知識點,後學哪個知識點,學習順序是非常關鍵的,必須遵循循序漸進的原則,哪些知識點是前提知識點,哪些知識點是後續知識點,隨機給你知識點去學習的話不能起到最好效果。真正到了練或學的環節,推薦什麼樣的視頻,先推視頻還是先推文字講義,推簡單題、中等難度題還是復雜題目,都需要根據學生實際情況來決定。
剛才只是舉了幾個例子,具體涉及到背後的演算法、整個系統跟學習內容的結合以及整個教學流程的實現,中間很多環節必須要打通,形成一個閉環,才能對最終的結果負責。
辛濤:我的研究領域是教育和心理學的測量和評價。我個人的學術觀察,基本上在現代這領域是兩個類型。一個是心理測量領域,有一套成熟的方法,包括早期的IRT(Item Response Theory)和現在的ADT。另外一個是人工智慧檢測。心理測量系統,是一小群人在做;人工智慧化是大的方向,現在是顯學,給大家提供了明顯的可能性。重要的是,那些背後的演算法,能夠在企業里真正實現出來。現在可能很多演算法已經在那兒了,大體上路徑是通的。
自適應學習基本上是把學習和評價聯動起來了。因為,要自適應學習,必須有一個系統隨時看到學生學到什麼程度,這個完全是評價。但是,評價完了之後有一個新的呈現。這一塊現在已經有一些很成熟的一些東西了,但不是一時半時可以說得特別具體的。
我做教育的測量和心理測量,人工智慧那塊我不熟。但是,從教育測量角度來說,在自適應學習和新技術結合之前,很大一塊還是自適應考試,CAT(computer adaptive test)。系列化產生一個CAT變成了一個自適應學習的過程。總的來說,使用最簡單、最機械化的方法,連續的CAT實際上是可以破解一個學習過程的。
測評本身經歷了好幾個階段,通常用三個應用介詞表示。
accessment to learning and teaching;
現在國家倡導的,accessment for learning and teaching,測評要對學習和教學有幫助;
跟信息化結合,accessment as learning and teaching,它是學習提供的完全融合的一個環節。
王楓:什麼樣的自適應學習系統才是真正的高級自適應學習系統?在中國的落地到底是怎麼樣才能真正落地?我在馬博士的基礎上想補充一點。
自適應系統如果一定要分級,也可以簡單分一下。一種最基礎的系統是基於規則的,比如說埋點。一個學生做10道一元二次方程題目,我預先埋好了,你做錯了,立馬給你推五道一元一次方程題目、五道因式分解題目。這個是埋點埋好了,這是規則,預先由老師或公式設置好了。
但這個規則有用性是非常有限的,因為每個學生不一樣,A學生是因為一元一次方程不會,B學生可能是因式分解不會,C學生可能連小學的乘法快速運算都不會,這個沒法預先直接埋點准備好。
所以自適應系統真正到了更高級一點的話,一定是真正通過大數據、根據演算法模型來分析學生的學習數據,匹配下一步應該學什麼。
在中國,自適應學習有效應用於教學有三個前提條件。做到這三點,自適應學習在中國的教育裡面前途無限。
好的產品。必須要有針對中國本土化的自適應學習產品,把它開發出來。像ALEKS系統的確演算法不錯,但裡面連一套國內的高考題都沒有,家長不會讓小孩子用這樣的系統,因為直接影響應試目標。真正本土化開發的話,沒有一成不變的演算法,世界上最好演算法就是沒有開發出來的。教育非常復雜,每個學科不一樣。比如數學後台有強大的關系,先行後續關系;英語沒達到數學這么強的相關性,但演算法是一樣可以應用的。
好的學生、家長、老師。有了好的產品,首先學生應該真正投入進去學習。像Ryan Baker教授講的,學生如果隨便學一下,再好的系統也沒用。第二,家長得督促孩子學習。第三,老師非常重要。老師應該做有價值的事情,比如給學生做個性化的輔導答疑,給學生針對性的講解,組織學習活動小組,鼓勵學生發揮創造能力,領導能力的培養。
學校以點帶面。學生大部分時間都在學校裡面學習。如果學校里最基本的、有效的在線教學產品都不應用的話,其實是有問題的。但是改變絕對不是簡單的行政命令可以解決的。一個好的產品,一定是從點到面,逐步推廣。自適應學習,更適合有明確目的的學習,像應試教育這塊可以做得更好。所以學校可以應用進去。
胡祥恩:我覺得大家做自適應也好、因材施教也好,比較好的例子大家可以看一看。教育這個領域有多大,自適應概念就該有多寬。所以說,實驗室裡面有很多小的做得非常非常好的東西,只是沒有到市場上面去,有很多非常非常巧妙的演算法、一些東西。你會發現很多歐洲的、美國的實驗室做的system,我每次看了都有種,自己是坐井觀天的感覺。
怎麼看待人工智慧在教育中的應用?
胡飛芳:AlphaGo跟master,谷歌做了一個非常好的廣告,人工智慧在某些方面可以做得非常好。但是,我現在給你們講另外一個谷歌自己不會去說的例子,但這也是事實。2008年、2009年的時候,谷歌推出一個免費產品,用各種搜集到的數據,預測美國的流感發展趨勢。開始時很成功,預測跟實際發生的情況很相似。但到2015年,他自動撤回去了,不再提供預測。因為在2012跟2013年預測的時候,預測結果跟實際情況相差非常遠。
這說明像這種不確定性的問題,人工智慧還有非常大的局限性。一旦有不確定的數據,就有噪音。數據量很大時,大數據可能產生大噪音。怎樣使噪音下降?2015年一個哈佛教授的研究團隊在谷歌的基礎上,用谷歌的數據去做同樣的預測。他用了什麼呢?就是用了模型,實際上模型在很多時候降噪是很有用的,用模型去預測,而不完全是人工智慧的方式去預測。結果,他做出來的預測基本都比較准。
人工智慧相對比較成功的,是比較確定的問題,所謂的確定是不管有多少種可能性,還是一個確定的東西。而流感很多時候是完全不確定的因素。
教育其實很多時候也是不確定的。同樣一個人,現在讓他回答這個問題,他可能思路清楚地回答出來;過了一個小時後,即使是同樣類型的問題,按道理他應該回答出來,結果他回答不出來。這是說,實際上有很多因素在干擾的時候,人工智慧的功能是不是會減少一點。把模型跟人工智慧加在一起,會彌補人工智慧在某些方面的弱點,這樣會更好。
怎樣促進商界和學界的交流,更好地把學界已經有的一些成果,運用到市場上來?
胡祥恩:教育產業應該是一個最大的產業,教育產業事實上是一個知識產業鏈。到目前為止,很多人認為自己要做一整套系統而在美國汽車業,最賺錢的是供應商,是做輪胎、做玻璃的。一旦標准化之後,一個人如果螺絲釘生產得最好,他就能夠養活幾家人、幾代人。
到目前為止,美國推的就是教育標准化,教育內容的標准化、教育技術的標准化。比如說97年的時候,就說怎麼樣把內容標准化,你做的東西我可以用。我只是做整個教育知識產業鏈裡面一個小塊,做得很好。教育整個的產業鏈,有可能發揮特別特別技巧的那些小的公司,就能夠在這個產業鏈裡面生存、可以做得很好。第一個是要標准化,第二個要理解整個教育是一個產業鏈。
F. 大數據應用之「畫像」
隨著大數據技術的備受關注,有關「用戶畫像」、「商品畫像」、「產品畫像」、「資產畫像」……的討論就不絕於耳。那麼,究竟什麼是畫像?又如何進行畫像建設與畫像分析呢?我們就從以下幾個方面,著重探討一下。
1、什麼是畫像?
用戶畫像,被定義為一種抽象出用戶信息全貌的手段。
舉個簡單的例子,某個客戶的特徵描述為:500強企業,媒體行業,旗下產品覆蓋網站、APP、微博、微信等埠,擁有受眾9億+,這就是一個典型的用戶畫像,我們據以便可以知道其存在大數據方面的需求。如果用一句話來描述,即:用戶信息標簽畫。
大數據的時代背景下,畫像被認作為企業應用大數據的根基,並直接跟企業經營能力、競爭優勢的打造聯系在一起。
有評論指出,要看一家企業的數據化運營程度,首當其沖地要看其「畫像」構建情況:是否建設了「畫像」?「畫像」體系構建程度如何?針對什麼對象進行了畫像?構建畫像的各種標簽與指標情況如何?有沒針對已建立起來的」畫像」的應用?應用情況如何?等等
2、為什麼要進行用戶畫像
這跟用戶行為識別及數據應用直接相關。
各行各業都期待著,用戶能主動告訴我們,他們的行為偏好。然而,事實既總非如願,技術實現也非如此簡單:首先,用戶用以描述興趣的自然語言很難為自然語言理解技術所理解;其次,用戶的 興趣是不斷變化的,無法不停地提供興趣描述;最後,很多時候用戶並不知道自己喜歡什麼,或很難清楚描述出自己喜歡什麼。
於是,我們需要通過演算法自動發掘用戶行為數據,從用 戶的行為中推測出用戶的興趣,從而給用戶推薦滿足他們興趣的產品和服務,而畫像,就是其中最重要的應用之一。
畫像,通過為用戶打標簽的方式,使計算機能夠程序化處理與人相關的信息。
如用戶信息的分類統計:喜歡魅族的用戶有多少?喜歡魅族的人群中,男、女比例是多少?如用戶數據的挖掘工作:利用關聯規劃計算,購買該種商品的用戶還購買了什麼產品?利用聚類演算法分析,喜歡該種產品的人年齡段分布情況如何等等?
3、構建用戶畫像的關鍵是什麼?
從畫像與標簽的關系也可以窺見一斑,標簽是畫像建設的關鍵。同時,它也是大數據技術場景化的關鍵,因為如果沒有針對場景構建出來標簽,大數據的應用往往就很難「落地「。
一個標簽通常是人為規定的高度精煉的特徵指標,如年齡段標簽:25-35歲;地域標簽:北京、上海;設備標簽:PC、移動;性別標簽:男、女等等。
標簽呈現出明顯的語義化與短文本的特徵:語義化,人能很方便地理解每個標簽含義,使得用戶畫像模型具備實際意義,能夠較好的滿足業務需求;短文本,每個標簽通常只表示一種含義,標簽本身無需再做過多文本分析等預處理工作,這為利用機器提取標准化信息提供了便利。
制定標簽要遵循一定的規則,既要涵蓋重要信息,又要方便機器做標簽提取、聚合分析。
案例:用戶的商品價格偏好標簽建設過程
以某公司構建用戶消費偏好畫像為例,我們需要根據具體場景下用戶的選擇行為,將用戶偏好畫像拆分成幾個不同數據標簽:品牌、價格、購買時間、購買方式等
取用戶歷史購買消費記錄,統計用戶歷史購買商品的價格,然後對價格進行區間劃分。看用戶購買的價格帶主要集中在哪個區間中(價格帶偏愛應該是一個相對動態的標簽,更新頻率可能一個月需要定期更,而且選擇的時間段也應該是過去某個時間,不應該選擇過長時間段。大家想想為什麼?)。如何進行價格區間劃分?
方法一:按統計學的方法
1、按分位數進行。例如:25%,50%,75%
2、按等箱原則。劃分幾等分
3、看數據的分布。
4、……
方法二:按業務知識經驗
把價格帶按業務經驗,行業經驗進行劃分。
通過數據統計出來,我們可以看用戶是否商品單價是否集中的某個區間范圍內。例如,某用戶購買的商品價格主要集中在30到40這個區間內,根據歷史顯示可以說,用戶可能偏好於購買這個價格帶的商品。當未來我們需要做促銷商品推薦的時候,可以向該用戶重點推薦打折後在這個價格區間的商品。
通過用戶購買的價格區間,以及結合商品所歸屬的品類,可以看這個價格區間在這個品類中屬於什麼級別的。可以進一步給用戶打上:注重品牌、注重高性價比等標簽。
例如:如果某個品類商品的價格範圍是(5,40],該用戶購物商品主要集中(30,40]這個商品價格區間,用戶在這個品類的消費上都是最高價格區間,說明這個用戶在購買這個品類主要購買的高端商品。這樣又可以為這個用戶打上在這個品類的消費特徵標簽:品類高端用戶。
4、構建用戶畫像的方法
從上面案例中,我們可以抽象出構建用戶畫像的方法,即用戶畫像模型的構建方法。
一個事件模型包括:時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件,可以詳細描述為:什麼用戶、在什麼時間、在什麼地點、做了什麼事。
其中用戶的屬性識別關鍵在於對用戶的標識,用戶標識的目的是為了區分用戶、單點定位。時間的屬性包括兩個重要信息:時間戳和時間長度,時間戳指的是標識用戶行為的時間點,通常精確到秒;時間長度指的是標識用戶的停留時間。地點的屬性也就是用戶接觸點,在互聯網上,用戶的接觸點就包括了網址和內容兩個重要信息。
用戶行為屬性有不同的類型,結合接觸點的內容產生的標簽信息,具有不同的權重。用戶畫像的數據模型可以概括為這樣一個公式:用戶標識+時間+行為類型+接觸點(網址+內容),某個用戶在某個時間、某個地點做了什麼事情,就會被打上一個既定的標簽。而用戶標簽的權重可能隨時間的增加而衰減,因此定義時間為衰減因子,行為類型、網址決定了權重,內容決策了標簽,可以認為公式轉變為標簽權重=衰減因子×行為權重×網址子權重。
通過這樣的計算才能夠構建用戶畫像模型,進而能夠逐步細化模型,從而最終製作出一個精準的用戶模型。而每一個精準的用戶模型都能夠根據用戶不斷調整的互聯網行為進行更新,從而精準把握用戶心理,為每一個用戶提供最完美的精細化服務,全面提升客戶感知,最終實現客戶滿意度的不斷提升。
G. 學校如何用大數據查看學生
學校通過學生手機號碼、身份信息等用大數據查看學生。根據查詢相關資料信息,學校用大數據可以查到學生的學籍信息以及教師的聯系方式。大數據或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理。
H. 大數據在教育方面的應用
大數據成為了這兩年非常重要的一項技術,使用的地方也越來越多,在教育方面現在也有了很多的應用,下面就一起來看看大數據在教育中的使用。
1、個性化教育。通過運用大數據技術,教師可以關注學生個體的多方位的表現,可以通過對學生及時性的行為進行記錄,使得數據有效整合,為教師提供真實個性的學生特點數據。
4、更新教育理念,創新教育思維。大數據時代下教育大數據扭轉傳統落後的教育理念與思維方式。在新時期教育領域到處充滿了信息與數據,師生的一言一行以及學校的各類事物都能夠轉化為信息或數據。
隨著智能化設備的廣泛普及每位學生都可以運用計算機進行終端學習,有助於提高學生的學習積極性。
I. 如何用大數據的方法繪制知覺圖
如何用大數據的方法繪制知覺圖
統研究時代,知覺圖(perceptual map)是一個簡潔直觀解析品牌定位的經典工具。然而隨著大數據時代的降臨,傳統的數據獲取方法受到了不斷的沖擊,原來使用焦點小組(Focus Group) 或調研問卷獲得數據變成了一項費時費力,且耗費成本的工作。
大數據背景下,可不可以有更簡單,更快捷的方式獲知品牌及其競爭對手的定位?可不可以快速評價品牌定位是否達到目標位置?可不可以全面檢驗修正品牌傳播策略正確與否?
這些問題都值得我們來探討。
知覺圖是什麼?
先來說說知覺圖的含義:
知覺圖是消費者對某一系列產品或品牌的知覺和偏好的形象化表述。目的是嘗試將消費者或潛在消費者的感知用直觀的、形象化的圖像表達出來。特別是用在產品、產品系列、品牌的定位方面,也會用於描述企業與競爭對手的相對位置方面。
知覺圖可以是多維的,但通常的情形是二維的。
下圖通過兩維展示了消費者心目中筆記本電腦品牌在用戶導向/標准配置,創意設計/經濟實用方面的品牌定位。此例中,消費者認為,蘋果品牌代表了創新設計及用戶導向的特性。而三星筆記本則代表了經濟實用和標准配置。
*非真實數據,僅用於展示
如何用大數據的方法繪制知覺圖?
繪制知覺圖,涉及到至少6個步驟:
確定研究方向:
作為咨詢研究公司,研究方嚮往往是通過對消費者的研究,獲取其對於客戶某產品及其競爭對手產品的感覺或偏好。這時我們要選擇符合該產品的一系列變數指標以及想要研究的目標品牌。
通常來說, 品牌和變數指標之間存在一個理想的比例關系,即1.3-1.6倍,也就是說如果研究8-10個品牌,大致需要14-15個變數。在傳統研究時代,通過問卷獲取消費者認知的階段中,對於品牌的研究一般不超過20個,否則可能導致調查對象的疲倦,最終影響調研結果。而在大數據獲取的背景下,數據是本身的獲取是相對客觀的,並不存在這個問題。這也算是大數據繪制知覺圖的優勢之一。
獲取數據
本次介紹的大數據獲取用戶感知數據的方式,主要來自電商評論數據的獲取。與傳統途徑相比,它具有採集快速,數據量大的特點。
在HCR最新的研究項目中,僅6個月內關於幾大剃須刀品牌的商品評論數據就採集33萬條之多,而採集時間卻僅用了一天。省去了問卷設計,調研對象邀約,答題,統計等多個環節,最終獲取到多於問卷調研對象百倍的原始數據。
當然這種大數據的採集方式,也會存在短板,比如評價不同品牌的個體不相同,個人評論的尺度的不同可能會影響最終的結果。但通過大量級的數據收集,可以將這種誤差控制在可控范圍內。任何一項研究都可能存在誤差,而傳統問卷抽樣所導致的誤差問題可能更明顯。
確定產品變數
傳統問卷的採集形式中,確定產品維度的工作是在數據採集前完成的,即先確定需要考察的產品屬性,之後體現在問卷設計當中向調查對象提問。
在大數據的研究方法中,在數據採集之後,可通過高頻屬性的方式,提煉出某產品最受關注的一系列屬性。例如:物流,服務,促銷,價格,外觀,功能,質量,體驗等。每一項指標分為正面,中性,負面。相當於以往問卷式研究中的1-3分量表,即負面等於1分表示不滿意,中性等於2分表示一般,正面等於3分表示滿意。
數據處理
計算每一條評價在不同的指標下的分數,匯總後取平均值,得到不同品牌在各項指標下的平均得分。此處以剃須刀為例(非真實數據):
用因子分析中的主成分分析法可以得出每個品牌及每項指標的兩維(X,Y)值:
繪圖
根據品牌及指標的X,Y值,繪制出知覺圖。在繪制知覺圖的時候,有一項工作是非常重要的。即坐標軸的命名。此處可根據軸兩側45%角內指標的特性,為X,Y軸命名。例如:X軸負半軸,可根據便攜,價格和促銷/贈品來命名,比如「經濟實用」。如果遇到命名指標數量過少的情況,如Y軸負半軸,則可用正半軸相關指標的反義詞來輔助命名。
圖表解讀:
位置越相近的品牌,說明他們的市場定位越接近。而同屬一個象限的品牌,在本質上可以被聚類。例如博朗與松下;奔騰,科美及朗威;飛利浦與飛科。他們彼此形成強烈的競爭關系。對於這些品牌,可以通過知覺圖檢測品牌定位的正確與否,通過逐漸改變品牌定位的方法,遷移到理想的新位置。
大數據時代的到來,提供了我們更多,更大的數據。獲取數據的時間縮短了,成本降低了。但對於傳統研究方法的借鑒,仍然是一個值得關注的話題。都說大數據往往缺少深入洞察,但HCR一直致力於將豐富的調研分析經驗融入到新時代的背景下,將大小數據融合,不斷為客戶創造更高價值。
J. 如何利用大數據技術構建用戶畫像
1、認識用戶畫像
用戶畫像簡單來講,就是用戶信息標簽化。即收集這個用戶的各種數據和行為,從而得出這個用戶的一些基本信息和典型特徵,最後形成一個人物原型。一般用戶畫像會分析三個信息維度,分別是基本屬性、消費購物以及社交圈。其中基本屬性就是指用戶的一些基本信息,比如年紀、性別、生日、學校、所在地等等。
2、利用大數據構建用戶畫像的好處
(1)精準營銷:當企業和商家掌握了用戶的一定信息後,就可以構建出清晰的用戶畫像,這樣一來就可以根據用戶的偏好、收入等標簽,推薦給他們會感興趣的商品和服務。
(2)用戶統計:通過大數據我們可以對一些數據進行統計,比如我們經常會看到有一些APP的排行榜,甚至是滲透率、日活率這些具體數據都可以清晰統計出來。
(3)數據挖掘:構建智能推薦系統,利用關聯規則計算,喜歡紅酒的人通常喜歡什麼運動品牌,利用聚類演算法分析,喜歡紅酒的人年齡段分布情況。
(4)進行效果評估:其實相當於市場調研、用戶調研,迅速下定位服務群體,提供高水平的服務。比如你是一個買車的想要投放廣告,但是不知道哪個渠道投放更好,就可以先嘗試一下,看看數據反饋如何。
(5)私人訂制:對服務或產品進行私人訂制,然而不法商家也會利用用戶畫像來殺熟。
(6)業務經營分析:業務經營分析以及競爭分析,影響企業的商業決策,甚至發展戰略。
3、構建用戶畫像的流程
(1)數據源端:一般來講構建用戶畫像的數據來自於網站交易數據、用戶行為數據、網路日誌數據。當然也不僅限於這些數據,一些平台上還有個人徵信數據。
(2)數據預處理:第一步是清洗,把一些雜亂無序的數據清洗一下,然後歸納為結構化的數據,最後是把信息標准化。我們可以把數據的預處理簡單理解為把數據分類在一個表格中,這一步就是奠定數據分析的基石。
關於如何利用大數據技術構建用戶畫像,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。