① 資料庫都有哪些
資料庫是一組信息的集合,以便可以方便地訪問、管理和更新,常用資料庫有:1、關系型資料庫;2、分布式資料庫;3、雲資料庫;4、NoSQL資料庫;5、面向對象的資料庫;6、圖形資料庫。
計算機資料庫通常包含數據記錄或文件的聚合,例如銷售事務、產品目錄和庫存以及客戶配置文件。
通常,資料庫管理器為用戶提供了控制讀寫訪問、指定報表生成和分析使用情況的能力。有些資料庫提供ACID(原子性、一致性、隔離性和持久性)遵從性,以確保數據的一致性和事務的完整性。
資料庫普遍存在於大型主機系統中,但也存在於較小的分布式工作站和中端系統中,如IBM的as /400和個人計算機。
資料庫的演變
資料庫從1960年代開始發展,從層次資料庫和網路資料庫開始,到1980年代的面向對象資料庫,再到今天的SQL和NoSQL資料庫和雲資料庫。
一種觀點認為,資料庫可以按照內容類型分類:書目、全文、數字和圖像。在計算中,資料庫有時根據其組織方法進行分類。有許多不同類型的資料庫,從最流行的方法關系資料庫到分布式資料庫、雲資料庫或NoSQL資料庫。
常用資料庫:
1、關系型資料庫
關系型資料庫是由IBM的E.F. Codd於1970年發明的,它是一個表格資料庫,其中定義了數據,因此可以以多種不同的方式對其進行重組和訪問。
關系資料庫由一組表組成,其中的數據屬於預定義的類別。每個表在一個列中至少有一個數據類別,並且每一行對於列中定義的類別都有一個特定的數據實例。
結構化查詢語言(SQL)是關系資料庫的標准用戶和應用程序介面。關系資料庫易於擴展,並且可以在原始資料庫創建之後添加新的數據類別,而不需要修改所有現有應用程序。
2、分布式資料庫
分布式資料庫是一種資料庫,其中部分資料庫存儲在多個物理位置,處理在網路中的不同點之間分散或復制。
分布式資料庫可以是同構的,也可以是異構的。同構分布式資料庫系統中的所有物理位置都具有相同的底層硬體,並運行相同的操作系統和資料庫應用程序。異構分布式資料庫中的硬體、操作系統或資料庫應用程序在每個位置上可能是不同的。
3、雲資料庫
雲資料庫是針對虛擬化環境(混合雲、公共雲或私有雲)優化或構建的資料庫。雲資料庫提供了一些好處,比如可以按每次使用支付存儲容量和帶寬的費用,還可以根據需要提供可伸縮性和高可用性。
雲資料庫還為企業提供了在軟體即服務部署中支持業務應用程序的機會。
4、NoSQL資料庫
NoSQL資料庫對於大型分布式數據集非常有用。
NoSQL資料庫對於關系資料庫無法解決的大數據性能問題非常有效。當組織必須分析大量非結構化數據或存儲在雲中多個虛擬伺服器上的數據時,它們是最有效的。
5、面向對象的資料庫
使用面向對象編程語言創建的項通常存儲在關系資料庫中,但是面向對象資料庫非常適合於這些項。
面向對象的資料庫是圍繞對象(而不是操作)和數據(而不是邏輯)組織的。例如,關系資料庫中的多媒體記錄可以是可定義的數據對象,而不是字母數字值。
6、圖形資料庫
面向圖形的資料庫是一種NoSQL資料庫,它使用圖形理論存儲、映射和查詢關系。圖資料庫基本上是節點和邊的集合,其中每個節點表示一個實體,每個邊表示節點之間的連接。
圖形資料庫在分析互連方面越來越受歡迎。例如,公司可以使用圖形資料庫從社交媒體中挖掘關於客戶的數據。
訪問資料庫:DBMS和RDBMS
資料庫管理系統(DBMS)是一種允許您定義、操作、檢索和管理存儲在資料庫中的數據的軟體。
關系資料庫管理系統(RDBMS)是上世紀70年代開發的一種基於關系模型的資料庫管理軟體,目前仍然是最流行的資料庫管理方法。
Microsoft SQL Server、Oracle資料庫、IBM DB2和MySQL是企業用戶最常用的RDBMS產品。DBMS技術始於20世紀60年代,支持分層資料庫,包括IBM的信息管理系統和CA的集成資料庫管理系統。一個關系資料庫管理系統(RDBMS)是一種資料庫管理軟體是在20世紀70年代開發的,基於關系模式,仍然是管理資料庫的最普遍的方式。
希望能幫助你還請及時採納謝謝
② 估值380億美元的數據湖引領者,Databricks是如何發展壯大的
阿爾法公社
重度幫助創業者的天使投資基金
Databricks是一家正在崛起的企業軟體巨頭。2021年,它連續獲得兩輪10億美元級別的大額融資,估值躍升到380億美元,它在數據和人工智慧領域具有全球雄心。
Databricks是一個非典型的創業故事,它由七位聯合創始人創辦,其中大部分是學者。它從Spark開源項目起步,現在引領了數據湖範式,這將加速其與主要競爭對手Snowflake的競爭。
本文是投資人Matt Turck與Databricks聯合創始人兼CEO Ali Ghodsi的對話實錄,Matt Turck在2015年就與Databricks的聯合創始人Ion Stoica有過對話,對於Databricks的情況相當熟悉。在本文中Ali Ghodsi將透露Databricks從一個開源項目到大型公司的成長經歷,以及在團隊,產品,進入市場,擴張等方面積累的洞見,Enjoy。
科學家創始人們推動Databricks起步
Matt Turck: 我們談一下Databricks的起步,AMPLab、Spark和Databricks,這一切是如何開始的?
Ali Ghodsi: 我們當時正處於人工智慧革新的風口浪尖:Uber剛剛起步,Airbnb、Twitter處於早期,Facebook還不是巨頭。他們聲稱,使用20世紀70年代誕生的機器學習演算法實現了很好的效果。
以當時的常識來想這不可能是真的,我們覺得那些演算法不可能Work,但他們說,「不,我們得到了非常厲害的結果。」當仔細觀察後,我們的想法被顛覆了——他們確實獲得了驚人的結果。以現代硬體和大量數據為支撐,運用上世紀的演算法依舊可以獲得令人難以置信的產出,我們對此感到震驚。我們想:"需要使之普適化"。例如,在Facebook,他們可以提前檢測到情侶分手,如果地球上的每個企業都有這種技術,這會對現有商業產生巨大影響。這就是AMPLab的起點。
Matt Turck: 當時AMPLab的Spark是怎麼來的?
Ali Ghodsi: 圖靈獎得主之一戴夫·帕特森當時是伯克利的教授,他非常相信人們應該聚在一起,打破孤島。伯克利的教授們放棄了自己的私人辦公室,和所有學生一起在巨大的開放區域辦公。
他們試圖解決的機器學習問題以當時的技術背景來說是很有挑戰性的。AMPLab里做機器學習的人,做數學的人,不得不使用Hadoop,數據的每一次迭代都必須運行MapRece,這樣光是做一次迭代就需要20到30分鍾。所以當時我們決定:"聯合起來,建立一個反應快速的基礎架構。」我們在數據上做了很多迭代。因此,不只是做一次,不只是一個SQL引擎,而是可以做遞歸機器學習的東西,並可以極快地找到數據中的內涵模式。
Matt Turck: Databricks創始故事的特殊之處在於,你們有七、八個聯合創始人。回過頭看,擁有這樣一個大的創始團隊利與弊是什麼?
Ali Ghodsi: 肯定是有利有弊的。如果你知道如何真正讓由七個人組成的緊密小組真正信任對方,並在一起工作得很好,就會發生令人驚訝的事情。我認為Databricks的成功很大程度上歸因於我們互相的信任。
創業早期的創始人,即使只有兩個人,他們也會爭吵,然後可能會在一兩年內分裂,這就是問題所在。我們找到了一種方法,使大家真正了解對方的長處和短處,使這段創業旅程成為一種樂趣。
人們總說CEO是地球上最漫長的工作,我從來沒有這種感覺。我有很多聯合創始人和我在一起,他們一直都在,這對我們來說絕對是一種力量。如果我們沒有這些人,就不會有現在的成就。
從開源項目到公司,
從0到100萬美元ARR
Matt Turck: 你們是如何從學術性的開源項目(Spark)變成一家公司,然後從0做到1000萬美元ARR的?這背後是否有任何決定性的時刻,或其他特別的增長手段?
Ali Ghodsi: 我們從0到100萬美元ARR的旅程非常特別,與其他的旅程非常不同。我們經歷了三個階段,第一個階段是PMF(產品與市場契合)階段,當你有了一個產品,你能找到它與用戶之間的契合點么?這對任何公司都存在挑戰。
你一旦你找到PMF,接下來就得弄清楚什麼是能將該產品與市場聯系起來的渠道,你的產品或許符合市場需求,但怎麼通過渠道銷售呢?事實上,我們一開始在這方面走了彎路,花了幾年時間才確定正確的發展方向。在這幾年裡,為了弄清楚Databricks的正確模式我們進行了大量的實驗。
接下來,讓我們從產品開始,然後再談談渠道。
產品方面,我們有在伯克利建立的開源技術,但這不一定符合大企業的需要,因為在大企業,他們沒有來自伯克利的博士。因此,我們需要為他們大簡化問題,我們開始在雲中託管它,但事實證明,即使是雲版本對他們來說也太復雜了,無法使用。
因此,我們開始與用戶一起進行迭代。我們在這之後削減了很多特性和功能,甚至可以說重新構建了一個產品。我們問自己:"如果我們知道現在的一切,回去再做一次,會怎麼做?"
於是,我們重新做了另一個開源項目,Delta,你可以把它看作Spark為大型企業所做的非常簡單和自動化的軟體。當我們在伯克利時,我們的產品設想是提供盡可能多的功能和設置項,因為可能是一個博士在用它做研究。但當我們把產品在企業中推廣時,我們意識到不是每個人都有博士學位,大家不知道如何使用它。這就是早期我們遇到的問題。在渠道方面,錯誤在於,我們在早期真的是非常相信這種產品主導的增長。
關於銷售,當時我們的設想是,有了一個簡化的產品,我們把它做成基於雲的產品,就會有人會使用它,會為它刷信用卡,我們會非常成功。我們可以僱用銷售人員,給年輕人打電話進行推銷,我們不會僱傭企業的銷售人員。我們更喜歡這種模式,它更便宜,更簡單。
但那是一個錯誤。你不能憑空選擇你的渠道。你有一個產品和相應的市場,必須找到正確的渠道來連接它們。
Databricks如何開發產品,
數據倉庫VS數據湖
Matt Turck: 我們一會再繼續談進入市場。現在讓我們先談談產品,我在Databricks觀察到的令人著迷的事情之一是,你們發布新產品並將其轉化為一個平台的速度。從Spark到機器學習到AI工作台再到Lakehouse,請向我們介紹一下產品的思路——一個產品如何導致另一個產品的出現。
Ali Ghodsi: 我們從Spark開始起步,它讓用戶可以訪問所有數據;於是人們開始在企業中創建資料庫,並在其中積累了大量數據。但過了一段時間,企業高管會問:「我不在乎我們獲得和存儲了多少數據,你能用這些數據為我做什麼? 」 這就是我們試圖建立其他應用程序的原因。
起初我們的收入很少,然後我們意識到它太復雜了,有太多的選項和配置。我們就問自己:"如果必須重做,必須簡化,會做什麼?"這種思路後的第一個創新是Delta,它重新定義了Spark,以一種真正企業友好的簡化方式。但最初我們沒有將它開源。
接下來,我們想:「如果拓寬資料庫的用途,不僅僅是數據科學家和機器學習工程師,而是真正廣泛的用例,應該怎麼做? 」 這就是我們開始重視商業分析師的原因。
商業分析師習慣於像Tableau那樣的操作軟體。如果他們想做一些更復雜的事情,只能使用SQL。因此,我們在四年前開始致力於構建數據倉庫能力,把它建立在我們稱為Lakehouse的核心基礎設施中,然後在前年較大規模的推廣。
我們的秘訣是:看企業的問題,弄清楚那是什麼,通過實際的客戶問題來深入了解它,把問題帶回來,解決這個問題,在雲中與客戶快速迭代。一旦它有了產品的市場適應性,就把它開放出來。建立巨大的開源勢頭,幾乎像一個B2C病毒式的形式。然後,用基於雲的SaaS版本將其變現。
這是受AWS的啟發,當創立Databricks時,我們認為AWS是地球上最好的雲計算開源公司。他們本身不進行開發,其盈利模式基於開源軟體,託管它並在上面賺很多錢。我們只是在這一點上進行了調整和演變。我們認為:「這是一個偉大的商業模式。我們將在雲上託管開源軟體。但不同的是,我們將自己創建開源軟體。這樣一來,就獲得了相對於其他任何想做同樣事情的人的競爭優勢。 」 否則,任何人都可以建立任何開源軟體並在雲中託管它。
Matt Turck: 接下來,讓我們從Lakehouse開始,了解一下數據湖和數據倉庫的演變,以及Lakehouse是如何在這兩個領域中取得最好的成績。
Ali Ghodsi: 這很簡單。人們在數據湖裡存儲所有的數據:數據集,視頻、音頻、隨機文本,這既迅速又便宜。利用各種各樣的數據集,你可以基於數據湖進行AI創新,AI與數據湖密切相關。如果你想做BI,而不是AI,你就使用數據倉庫,數據倉庫和BI有一個單獨的技術堆棧,但是它其實和AI一樣,有很多同樣的數據集。
BI用於回答過去的問題,比如上個季度的收入是多少;AI用來問關於未來的問題,哪些客戶將會回來?所以,這意味著需要兩個獨立的堆棧,你必須有兩個數據副本,而且你必須管理它們,這造成了很多復雜性。但當年的FAANG(矽谷幾個頂尖互聯網巨頭的聯合簡稱)可不是這樣做的,他們有一個統一的平台。所以,我們的想法是把這兩個統一成一個平台—Lakehouse、人工智慧數據湖--提出關於未來的問題。這兩者的結合將使企業能夠更快地發展。它是數據工程師、數據科學家和商業分析師的平台,這樣他們就可以在整個企業內一起工作。所以這是一個用於AI和BI的數據平台。
Matt Turck: 實現這一點靠的是什麼重大的技術突破么?是Delta Lake?還是Iceberg?那是如何工作的?
Ali Ghodsi: 是的, 我認為有四個技術突破是在2016、2017年同時發生的,Hudi、Hive ACID、Iceberg、Delta Lake,我們貢獻的是Delta Lake。問題是這樣的,在數據湖裡有人們收集了所有的數據,這些數據非常有價值,但很難對它們進行結構化查詢。之前的傳統方式是利用SQL資料庫,然後應用在BI領域。因此,你需要一個單獨的數據倉庫。
為什麼這么難?因為數據湖是為大數據、大數據集建立的,它並不是為真正的快速查詢而建立的。它太慢了,而且沒有任何方法來結構化數據,並以表格的形式展現數據,這就是問題所在。那麼,你如何把像一個大的數據塊存儲的東西,變成一個數據倉庫?這就是這些項目的秘訣。我們找出了解決這些數據湖效率低下的方法,並使用戶能夠直接從數據湖的數據倉庫中獲得相同的價值。
Matt Turck: 這種方法有什麼取捨嗎?
Ali Ghodsi: 事實上並非如此,我們做到了魚與熊掌可以兼得。我知道這聽起來很瘋狂,但試試就是如此。我們減少了很多在80、90年代由數據倉庫供應商發明的技術,調整它們,使它們在數據湖上工作。你可以問:「為什麼這在10或15年前沒有發生? 」 因為開放標準的生態系統並不存在,它是隨著時間的推移慢慢出現的。所以,它從數據湖開始,然後有一個很大的實際技術先導突破。我們在這里談論的,是數據的標准化格式。他們被稱為Parquet和ORC,但這些是數據格式,行業要將所有的數據集標准化。
這些類型的標准化步驟是需要的,以獲得數據湖的突破。這有點像USB,一旦你有了它,你就可以把任何兩個設備相互連接起來。所以,正在發生的事情是,開源領域的一個生態系統正在出現,在那裡你可以在數據湖的範式中做所有的分析。最終,你將不需要所有這些自八十年代以來的專有舊系統,包括數據倉庫和其他類似系統。
Matt Turck: 我會針對這個再問問題,業界有很多關於Snowflake和Databricks之間即將發生大沖突的議論,作為這個領域的兩個巨大的公司,你對未來的看法是,數據湖最終成為範式,然後隨著時間的推移,其他一切都被吸收?還是你認為未來更多的是混合,用戶可以用數據倉庫做某些事情,數據湖做其他事情?
Ali Ghodsi: 我將從兩個方面回答這個問題。首先,人們把這說成是零和博弈,但你認為谷歌雲會淘汰AWS和微軟雲,還是AWS會淘汰其他雲?沒有人這么認為,對吧。他們會共存,都將獲得成功。
數據空間是巨大的。將會有很多供應商參與其中。我認為Snowflake將獲得成功,他們現在有一個偉大的數據倉庫,可能是市場上最好的數據倉庫。而它肯定會與Databricks共存。事實上,Databricks與Snowflake共存於可能70%的客戶中。我認為這種情況將繼續存在,人們將使用數據倉庫進行商業智能。
但是,如果長期來看,我認為數據湖的範式將獲勝。為什麼?因為數據太重要了,人們所有的數據都在這些數據湖中,而且更多的數據正在進入數據湖中。公有雲計算供應商也有動力推動更多的動力讓人們把數據存到他們的數據湖中,因為這對他們來說是既得利益。因此,任何使其真正有價值的解決方案,都將是未來的趨勢。所以,我認為從長遠來看,越來越多的人將傾向於這種數據湖的範式。
為什麼Databricks能夠不斷產出創新產品?
Matt Turck: 我想了解你的產品和工程團隊是如何組織的?對於一家公司,能夠在第一個產品成功的基礎上做第二個產品是非常罕見的。但在這里,我們正在談論,如何成功的做出三個、四個、五個不同的產品。你的公司是如何管理好團隊組織結構和其他資源,以不斷創新?
Ali Ghodsi: 我們從創立Databricks時,就在試圖找到這個問題的答案。我們不想靠一個單一的產品生存。當我們有了Spark,卻並沒有把它當成公司的名字,因為如果Spark變得落後了,我們就會把它迭代掉,然後繼續向前,我們想不斷找到數據的最佳答案。那麼如何不斷的有創新產品出現?我認為非常重要的是,要把創新和現有的現金流業務分開。
有一本關於這個問題的好書,叫Zone To Win。書中談到,當你創造出一些新東西時,你需要快速迭代。你需要讓工程師直接與客戶交談,甚至不一定要讓產品經理來做,快速的創新迭代是最要緊的。而在在企業端,你需要一個慢得多的周期來迭代。
另外,所有的工程和產品團隊組織被分成兩個不同的部分。一部分專注於企業客戶需要的東西:加密,安全,認證,穩定性等。另一部分則專注於創新,而且你應該把這些分開,分別的投入資源,否則前者(企業那部分)將得到所有的資源。你會傾向於不斷地建立那些擴大你的TAM的東西。TAM擴展實際上是安全能力,它本身並沒有任何創新。
我認為,有些公司已經做得很好了,比如AWS,它不是一招鮮,亞馬遜本身也不是一招鮮,它不斷有新的創新。所以我們希望我們的公司也是這樣的,因此取名為Databricks。
Matt Turck: MLflow Delta Lake, Koalas。這屬於創新陣營還是商業陣營的子層?
Ali Ghodsi: 這些都是創新陣營。當然,其中一些項目,當他們不那麼創新的時候,像Spark,會轉移到維護方面,我們通常也會移動核心人員。因此,實際上是同一個人或同一撥人在不斷地進行創新。我們試圖培養更多的創新者,但我們試圖把那種已經真正有訣竅破解從0到1的人轉移到下一個問題,然後把現有的項目移交給其他人去運行,比方說Spark,這已經是一個巨大的成功項目。
當我們把已經創造出東西的人轉移到別的地方去創造下一個東西,對於一個優秀人才,獲得這種責任是一個很大的職業提升。而我們也會發現誰是擅長從0到1人。我們實際上是在做實驗,給研發部門的人一個機會去試驗從0到1的東西,他們並不總是成功。這需要幾次嘗試,直到他們成為真正擅長的人。所以你必須慎重考慮這種高失敗的策略。
開源的商業模式,有何優越性?
Matt Turck: 如果你今天要再開一家企業軟體公司,你會先去開源代碼嗎?
Ali Ghodsi: 是的,我認為它很優越。我認為如果你從進化的角度來考慮,它在進化上比以前的商業模式要好。為什麼我這么說?因為任何專有的軟體公司都是成熟的,可以被開源的競爭者破壞。因此,任何專有的東西都可以立即被顛覆,就像Windows被Linux顛覆一樣。我的意思是,那是最先進的東西,是真正復雜的技術操作系統,對嗎?你不會認為大學里的某個傢伙會發明,然後成為工業的標准。任何專有軟體都是成熟的,可以進行這樣的顛覆。問題是,你能靠它賺錢嗎?在紅帽和所有這些做支持網路服務的公司之前,這真的很難,直到AWS破解了商業模式的密碼。
商業模式是我們為你運行軟體,你從我們這里租用它。這是一個優越的商業模式,因為你實際上可以擁有大量的IP,這是很難復制的。所以我認為我創辦的下一家公司將是這樣的。如果你要問我,我的下一次創業會在哪個領域開始,我會在人工智慧方面做什麼?我會認為我們現在在人工智慧方面的應用還很淺層,尤其是操作性的人工智慧。人工智慧未來將會被嵌入到各個地方。我知道這很老套。馬克·安德森說,軟體正在吞噬世界。我們真的相信,人工智慧將吞噬所有的軟體。你擁有的任何軟體,人工智慧都會悄悄進入,就像軟體悄悄進入你的 汽車 、冰箱和恆溫器一樣。所以這真的是早期的事情,我認為任何加入或創辦人工智慧領域公司的人,他們還在早期,他們有機會創辦下一個谷歌。所以這就是我想做的。
Matt Turck: 我們談到了開源,也繼續談進入市場的問題,在這個階段,作為一個非常晚期的創業公司。開源在進入市場的過程中處於什麼位置?你們進入市場的策略是自下而上與自上而下?你們如何分配BDR小組與AE的工作,讓他們協作而不是互相拖後腿?
Ali Ghodsi: Databricks是混合模式,我們是自下而上與自上而下在同一時間結合。一開始我們是自下而上,但是也會做自上而下的事情。我們有BDRs和SDRs。這是一個從市場營銷開始的篩選器。
Databricks社區版是完全免費的,你想怎麼用就怎麼用,永遠不需要付錢,而且有完整的功能。但是從這里產生的線索會導入到SDR。因此,這也是一個非常重要的管道。我們一半的線索來自於此,這就是為什麼開源對我們是一個重要的引擎。
現在,我們也有傳統的企業銷售動作,比如給CIO遞名片,一對一的交流,但發生的情況是,開發人員在這些組織中也變得越來越強大。例如,CIO說,我與Databricks的CEO進行了一次很好的談話,我正在 探索 這項技術,但我擔心,這對我們來說是正確的選擇嗎?那家公司的聽眾中會有人說,是的,我使用社區版。我們不需要做6個月的POC。我認識這些人,他們真的非常好,或者我認識他們,他們來自伯克利。我已經使用了這些技術。我去參加了一些聚會等。
因此,這有助於證實用例,你可以消除整個POC,因為他們已經知道它是什麼,而不是像10-20年前那樣,一個銷售人員進來,解釋這個軟體有多棒,但你不能相信他們。因此你就必須去做POC,然後去花時間檢驗這個軟體是不是真的有用。我們不必這樣做,我們可以穿過所有這些層次。因此,我們把自上而下和自下而上結合起來,而這兩方面對於Databricks的成功都是非常必要的。
從創業公司到超級獨角獸,
領導者的修煉之路
Matt Turck: 你已經把一家小型創業公司帶成了超級獨角獸,很快還會上市。你是如何讓自己完成角色轉變的,從一個講願景,講故事的人,變成管理一個全球組織?
Ali Ghodsi: 其實就是如何找到你可以信任的具有領導力的幫手,並和他們建立更深的信任。我可以把我大部分時間都花在這上面,而公司能夠繼續正常運行。我有運行良好的銷售團隊,市場營銷團隊,工程團隊,我卻不需要自己直接參與其中,因為我找到了適合領導這些部門的領導者,並且花了很多時間與他們建立起信任。
這是你在早期就要開始准備的事情,早期時,你的組織規模小,你可以參與到每個環節,如臂使指。但是當團隊規模擴展到150-200人直到超過鄧巴數。你會感覺自己完全被淹沒了。因此你必須找到可以信任的正確的領導人,而且要找到自己與組織溝通的方法,因為現在不是直接溝通,而是通過領導層間接溝通,所以幫助你與團隊組織溝通的人就特別重要。
Matt Turck: 你如何找到他們?你是偏向在內部提拔人才,還是從外部引入已經獲得成功的高管,哪一個效果更好?你是如何處理的?
Ali Ghodsi: 要找到與公司文化相適應的、你能與之建立強大信任的高管是非常困難的,我認為不應該排除任何選項。如果能夠從內部提拔人,那很好,但是如果只是內部晉升,你就不能獲得市場上已經存在的成功經驗,這種經驗可能是超級有價值的。
如果我們尋找外部的高管,他必須經歷過我們現在所處的階段,有實戰的經驗。不是說他必須從零開始創建一個估值幾百億的公司,而是建立和操作過這種階段公司的工程等相應部門,他是否在這個過程中有第一性思考,有自己的沉澱。我認為能力和智商還是非常重要的。
文化看起來是個很復雜的東西,但是對與我,會把它分解成一連串問題:我可以和這個人相處嗎?願意每天花10個小時和他在一起工作么?當事情變得非常棘手和困難的時候,我們能一起去解決問題么?所以你要做的就是花大量時間與這個人相處,然後問自己是否喜歡他們,就像婚姻一樣。你可以問他們一些困難的問題,與他們爭論或者聽取他們的意見,直到確定這就是正確的人。如果你感覺到自己無法和某個人一起好好工作,那他就可能是文化不匹配。
本文編譯整理自Matt Turck個人博客,略有刪節。
關於阿爾法公社
阿爾法公社(Alpha Startup Fund)是中國領先的早期投資基金,由曾帶領公司在納斯達克上市的許四清和前創新工場聯合管理合夥人蔣亞萌在2015年共同創立。
阿爾法公社基金的三大特點是系統化投資、社交化創業者社區運營和重度產業資源加速成長。專注在半導體、企業服務軟體、人工智慧應用、物聯網技術、金融 科技 等 科技 創新領域進行早期投資。目前已經在天使輪投資了包括白山雲 科技 、領創集團(Advance Intelligence Group)、Zenlayer、帷幄 科技 、所思 科技 等為數眾多的優秀項目。
③ 資料庫分割如何進行操作
找個沒人用的時間操作:用SQL操作這張表,通過id篩選並復制記錄到新庫新表。例如10W條 10W條 的復制。
我們當時是這樣操作的,我們記錄是百萬級。
④ 該選擇哪個開源資料庫哪一個更好
如果打算為項目選擇一款免費、開源的資料庫,那麼你可能會在MySQL與PostgreSQL之間猶豫不定。MySQL與PostgreSQL都是免費、開源、強大、且功能豐富的資料庫。你主要的問題可能是:哪一個才是最好的開源資料庫,MySQL還是PostgreSQL呢?該選擇哪一個開源資料庫呢?
在選擇資料庫時,你所做的是個長期的決策,因為後面如果再改變決定將是非常困難且代價高昂的。你希望一開始就選擇正確。兩個流行的開源資料庫MySQL與PostgreSQL常常成為最後要選擇的產品。對這兩個開源資料庫的高層次概覽將會有助於你選擇最適合自己需要的。
MySQL
MySQL相對來說比較年輕,首度出現在1994年。它聲稱自己是最流行的開源資料庫。MySQL就是LAMP(用於Web開發的軟體包,包括Linux、Apache及Perl/PHP/Python)中的M。構建在LAMP棧之上的大多數應用都會使用MySQL,包括那些知名的應用,如WordPress、Drupal、Zend及phpBB等。
一開始,MySQL的設計目標是成為一個快速的Web伺服器後端,使用快速的索引序列訪問方法(ISAM),不支持ACID。經過早期快速的發展之後,MySQL開始支持更多的存儲引擎,並通過InnoDB引擎實現了ACID。MySQL還支持其他存儲引擎,提供了臨時表的功能(使用MEMORY存儲引擎),通過MyISAM引擎實現了高速讀的資料庫,此外還有其他的核心存儲引擎與第三方引擎。
MySQL的文檔非常豐富,有很多質量不錯的免費參考手冊、圖書與在線文檔,還有來自於Oracle和第三方廠商的培訓與支持。
MySQL近幾年經歷了所有權的變更和一些頗具戲劇性的事件。它最初是由MySQL AB開發的,然後在2008年以10億美金的價格賣給了Sun公司,Sun公司又在2010年被Oracle收購。Oracle支持MySQL的多個版本:Standard、Enterprise、Classic、Cluster、Embedded與Community。其中有一些是免費下載的,另外一些則是收費的。其核心代碼基於GPL許可,對於那些不想使用GPL許可的開發者與廠商來說還有商業許可可供使用。
現在,基於最初的MySQL代碼還有更多的資料庫可供選擇,因為幾個核心的MySQL開發者已經發布了MySQL分支。最初的MySQL創建者之一Michael "Monty" Widenius貌似後悔將MySQL賣給了Sun公司,於是又開發了他自己的MySQL分支MariaDB,它是免費的,基於GPL許可。知名的MySQL開發者Brian Aker所創建的分支Drizzle對其進行了大量的改寫,特別針對多CPU、雲、網路應用與高並發進行了優化。
PostgreSQL
PostgreSQL標榜自己是世界上最先進的開源資料庫。PostgreSQL的一些粉絲說它能與Oracle相媲美,而且沒有那麼昂貴的價格和傲慢的客服。它擁有很長的歷史,最初是1985年在加利福尼亞大學伯克利分校開發的,作為Ingres資料庫的後繼。
PostgreSQL是完全由社區驅動的開源項目,由全世界超過1000名貢獻者所維護。它提供了單個完整功能的版本,而不像MySQL那樣提供了多個不同的社區版、商業版與企業版。PostgreSQL基於自由的BSD/MIT許可,組織可以使用、復制、修改和重新分發代碼,只需要提供一個版權聲明即可。
可靠性是PostgreSQL的最高優先順序。它以堅如磐石的品質和良好的工程化而聞名,支持高事務、任務關鍵型應用。PostgreSQL的文檔非常精良,提供了大量免費的在線手冊,還針對舊版本提供了歸檔的參考手冊。PostgreSQL的社區支持是非常棒的,還有來自於獨立廠商的商業支持。
數據一致性與完整性也是PostgreSQL的高優先順序特性。PostgreSQL是完全支持ACID特性的,它對於資料庫訪問提供了強大的安全性保證,充分利用了企業安全工具,如Kerberos與OpenSSL等。你可以定義自己的檢查,根據自己的業務規則確保數據質量。在眾多的管理特性中,point-in-time recovery(PITR)是非常棒的特性,這是個靈活的高可用特性,提供了諸如針對失敗恢復創建熱備份以及快照與恢復的能力。但這並不是PostgreSQL的全部,項目還提供了幾個方法來管理PostgreSQL以實現高可用、負載均衡與復制等,這樣你就可以使用適合自己特定需求的功能了。
⑤ 資料庫的發展簡史
資料庫技術是本世紀60年代開始興起的一門信息管理自動化的新興學科,是計算機科學中的一個重要分支。隨著計算機應用的不斷發展,在計算機應用領域中,數據處理越來越佔主導
地位,資料庫技術的應用也越來越廣泛。
資料庫是數據管理的產物。數據管理是資料庫的核心任務,內容包括對數據的分類、組織、編碼、儲存、檢索和維護。隨著計算機硬體和軟體的發展,資料庫技術也不斷地發展。從數據管理的角度看,資料庫技術到目前共經歷了人工管理階段、文件系統階段和資料庫系統階段。
A.人工管理階段
人工管理階段是指計算機誕生的初期(即20世紀50年代後期之前),這個時期的計算機主要用於科學計算。從硬體看,沒有磁碟等直接存取的存儲設備;從軟體看,沒有操作系統和管理數據的軟體,數據處理方式是批處理。
這個時期數據管理的特點是:
1. 數據不保存
該時期的計算機主要應用於科學計算,一般不需要將數據長期保存,只是在計算某一課題 時將數據輸入,用完後不保存原始數據,也不保存計算結果。
2. 沒有對數據進行管理的軟體系統
程序員不僅要規定數據的邏輯結構,而且還要在程序中設計物理結構,包括存儲結構、存取方法、輸入輸出方式等。因此程序中存取數據的子程序隨著存儲的改變而改變,數據與程序不具有一致性。
3. 沒有文件的概念
數據的組織方式必須由程序員自行設計。
4. 一組數據對應於一個程序,數據是面向應用的
即使兩個程序用到相同的數據,也必須各自定義、各自組織,數據無法共享、無法相互利用和互相參照,從而導致程序和程序之間有大量重復的數據。
B.文件系統階段
文件系統階段是指計算機不僅用於科學計算,而且還大量用於管理數據的階段(從50年代後期到60年代中期)。在硬體方面,外存儲器有了磁碟、磁鼓等直接存取的存儲設備。在軟體方面,操作系統中已經有了專門用於管理數據的軟體,稱為文件系統。
這個時期數據管理的特點是:
1. 數據需要長期保存在外存上供反復使用
由於計算機大量用於數據處理,經常對文件進行查詢、修改、插入和刪除等操作,所以數據需要長期保留,以便於反復操作。
2. 程序之間有了一定的獨立性
操作系統提供了文件管理功能和訪問文件的存取方法,程序和數據之間有了數據存取的介面,程序可以通過文件名和數據打交道,不必再尋找數據的物理存放位置,至此,數據有了物理結構和邏輯結構的區別,但此時程序和數據之間的獨立性尚還不充分。
3. 文件的形式已經多樣化
由於已經有了直接存取的存儲設備,文件也就不再局限於順序文件,還有了索引文件、鏈表文件等,因而,對文件的訪問可以是順序訪問,也可以是直接訪問。
4. 數據的存取基本上以記錄為單位