1. 五大資料庫理念,讀懂亞馬遜雲科技的資料庫布局
1970 年,關系型資料庫之父 E.F.Codd 發表《用於大型共享資料庫的關系數據模型》論文,正式拉開資料庫技術發展序幕。以 Oracle、DB2、SQL Server 為代表的三大商業資料庫產品獨占鰲頭,隨後涌現出 MySQL、PostgreSQL 等為代表的開源資料庫 ,和以 Amazon RDS 等為代表的雲資料庫,拉開百花齊放的資料庫新序幕。
我們知道,雲計算十年為產業轉型升級提供了 歷史 性契機,但變革仍在進行,隨著雲計算的普及,資料庫市場發生根本性改變,雲廠商打破傳統商業資料庫的堡壘,成為資料庫領域全新力量。其中以連續六年入選 Gartner 領導者象限的亞馬遜雲 科技 為代表,我們一起探討:為什麼亞馬遜雲 科技 能始終保持其創新性?縱觀雲原生時代下,亞馬遜雲 科技 資料庫未來還有哪些更多的可能性?
01 面對四大數據庫發展趨勢,亞馬遜雲 科技 打造五大資料庫理念
後疫情時代下,加速了不少行業的業務在線化和數字化運營,企業對數據價值挖掘的需求越發強烈,亞馬遜雲 科技 大中華區產品部總經理顧凡詳細介紹其中四大趨勢:
一是伴隨互聯網、移動互聯網的發展,電商、視頻、社交、出行等新應用場景的興起,不僅數據量大,對數據實時性要求極高,傳統關系型資料庫無法滿足需求,因此驅動雲原生資料庫的出現。
二是開源資料庫的廣泛應用。
三是應用程序現代化對資料庫提出更高要求,期待資料庫擁有更高的性能、可擴展性、可用性以及降低成本,讓開發人員專注於核心業務的應用開發,不用關注和核心業務無關的代碼。
四是軟體架構歷經 PC、互聯網、移動互聯網,再到如今的萬物互聯時代,其中的迭代和轉型正在驅動資料庫選型的變化。
在此四大趨勢下,伴隨企業的業務量越來越大、越來越復雜,對資料庫的要求越來越高。亞馬遜雲 科技 洞察客戶需求,在打造雲上資料庫產品時提出五大理念:
一是專庫專用,極致性能;二是無伺服器,敏捷創新;第三是全球架構,一鍵部署;第四是平滑遷移,加速上雲;第五是 AI 賦能,深度集成。
02 歷經真實錘煉,五大資料庫理念,持續賦能企業數智轉型
顧凡表示,隨著數據爆炸式增長,微服務架構與 DevOps 愈發流行的今天,一個資料庫打天下的時代已然過去。我們需要在不同的應用場景下,針對不同的數據類型和不同的數據訪問特點,為開發者和企業提供專門構建的工具。
所以亞馬遜雲 科技 提出 第一個核心資料庫理念:專庫專用 。在此理念下,推出針對關系數據、鍵值數據、文檔數據、內存數據、圖數據、時許數據、分類賬數據、寬列等專門構建資料庫的產品家族。
這些資料庫產品均經歷過亞馬遜內部核心業務的真實錘煉,成績斐然:
亞馬遜電商當年是 Oracle 的客戶之一,隨著亞馬遜電商的應用重構和業務體量發展,亞馬遜電商決定將業務遷移到亞馬遜雲 科技 里。100 多個團隊參與這龐大的遷移工作中,將亞馬遜電商采購、目錄管理、訂單執行、廣告、財務系統、錢包、視頻流等關鍵系統全部從 Oracle 遷出來。2019 年,亞馬遜將存儲近 7500 個Oracle 資料庫中的 75 PB 內部數據遷移到多項亞馬遜雲 科技 的資料庫服務中,包括 Amazon DynamoDB、Amazon Aurora、Amazon ElastiCache,於是亞馬遜電商成為亞馬遜雲 科技 在全球的「第一大客戶」。
從 Oracle 切換到亞馬遜雲 科技 後,亞馬遜電商節省了 60% 成本,面向消費者端的應用程序延遲降低 40%,資料庫管理支出減少 70%。
以被譽為「亞馬遜雲 科技 歷史 上用戶數量增速最快的雲服務」Amazon Aurora 為例,其擁有科媲美高端商業資料庫的速度和可用性,還擁有開源資料庫的簡單性與成本效益,Amazon Aurora 讓客戶滿足「魚和熊掌兼得」需求。
據顧凡介紹,Amazon Aurora 可提供 5 倍於標准 MySQL 性能,3 倍於 PostgreSQL 吞吐量。同時提供高可用,可用區(AZ)+1的高可用,Global Databases 可完成跨區域災備。可擴展到 15 個只讀副本,成本只有商業資料庫的 1/10。
醫葯企業九州通為葯廠、供應商,搭建葯廠、供應商、消費者提供供應鏈鏈條。其 B2B 系統的業務特點是讀多寫少,受促銷活動、工作時間等影響,經常會出現波峰波谷落差較大的情況,讀寫比例在 7:2 或者 8:3。九州通採用 Amazon Aurora 後實現讀寫分離和按需擴展,整體資料庫性能提升 5 倍,TCO 降低 50%。實現了跨可用區部署、負載均衡、自動故障轉移、精細監控、按需自動伸縮等。
據權威機構預測,到 2022 年,75% 資料庫將被部署或遷移至雲平台。在這個過程中,亞馬遜雲 科技 是如何通過技術來幫助客戶加速應用上雲的?這離不開除了上述的「專庫專用」外,以下四大理念:
第二個理念是無伺服器、敏捷創新。 亞馬遜雲 科技 大中華區產品部數據類產品高級經理王曉野表示,企業業務總有波峰波谷之時,如何按照企業 80-90% 的業務峰值來規劃資料庫的存儲容量和計算資源的話,將給應用帶來一定的業務連續性的妥協和挑戰。因此大多數企業都是按照峰值留有餘地來選擇資料庫的計算資源,這將造成成本上的浪費。而 Serverless 資料庫服務可完成無差別的繁復工作和自動化擴展。
Amazon DynamoDB 是亞馬遜雲 科技 自研 Serverless 資料庫,其誕生最早可追溯到 2004 年,當時亞馬遜電商作為 Oracle 的客戶,盡管對於關系型資料庫在零售場景的需求並不頻繁,70% 均是鍵值類操作,此時倒逼亞馬遜電商思考:為什麼要把關系型資料庫這么重得使用?我們可以設計一款支持讀寫、可橫向擴展的分布式資料庫嗎?後來的故事大家都知道了,這款資料庫就是 Amazon DynamoDB,並在 2007 年發表論文,掀起業界 NoSQL 分布式資料庫技術創新大潮。
Amazon DynamoDB 可為大規模應用提供支持,支撐亞馬遜自身多個高流量網站和系統,如亞馬遜電商網站、亞馬遜全球 442 個物流中心等。在亞馬遜電商一年一度 Prime Day,光是針對DynamoDB API 的調用達到數萬億次,最高峰值請求達到每秒 8920 萬次。由此可見,DynamoDB 擁有高吞吐、擴展性、一致性、可預測響應延遲、高可用等優勢。
智能可穿戴設備廠商華米 科技 ,在全球 70 多個國家擁有近 1 億用戶。僅 2020 年上半年,其手錶出貨量超 174 萬台,截止到 2021 年 2 月,華米 科技 的可穿戴設備累計記錄步數是 151 萬步,累計記錄的睡眠時間是 128 億個夜晚,記錄心率總時長達 1208 億個小時。如此龐大的數據同時必須保證極高的安全性和低延遲相應,如何保證穩定性是巨大的挑戰。
DynamoDB 幫助華米 科技 在任何規模下都能提供延遲不超過 10 毫秒的一致響應時間。華米 科技 健康 雲的 P0 和 P1 級別故障減少了約 30%,總體服務可用性提升了 0.25%,系統可用性指標達到 99.99%,為華為 科技 全球化擴展提供了有力的支撐。
最新無服務資料庫產品是 Amazon Aurora Serverless V2 提供瞬間擴展能力,真正把擴展能力發揮到極致,在不到一秒的時間內,將幾百個事務擴展到數十萬的級別。同時在擴展時每一次調整的增量都是非常精細化的去管理,如果按照峰值來規劃資料庫資源,可實現大概90%的成本節省。目前 Amazon Aurora Serverless V2 在全球實現預覽。
第三個理念是全球架構、一鍵部署。 在全球化的今天,如何支撐全球客戶的業務擴展連續性、一致性、以最低延遲帶給到終端客戶上,對資料庫提出新的挑戰。
亞馬遜雲 科技 提供 Amazon Aurora 關系型資料庫Global Database、Amazon DynamoDB、Amazon ElastiCache 內存資料庫、Amazon DocumentDB 文檔資料庫都能利用亞馬遜雲 科技 的骨幹網路提供比互聯網更穩定的網路支撐,以一鍵部署的方式,幫助客戶實現幾千公里跨區域資料庫災備,故障恢復大概能在一分鍾之內完成,同時跨區域的數據復制延遲通常小於一秒。
第四個理念是平滑遷移、加速上雲。 目前,450000+ 資料庫通過亞馬遜雲 科技 資料庫遷移服務遷移到亞馬遜雲 科技 中,這個數字每年都在不斷增長。亞馬遜雲 科技 提供 Amazon DMS、Amazon Database Migration Service 等工具讓開發者和企業進行自助式雲遷移。另外,對於遷移過程中可能會需要的支持,可通過專業服務團隊和合作夥伴網路成員,為客戶提供專業支持,還通過 Database Freedom 項目幫助客戶降低他們的顧慮。
今年 11 月,最新產品 Babelfish for Amazon Aurora PostgreSQL 在全球和中國兩個區域正式可用,可加速企業上雲的遷移,實現讓企業可以利用原有的技術棧、原有的 SQL Server T-SQL的人員可以利用到雲資料庫進行創新。
第五個理念是 AI賦能,深度集成。 我們觀察到,ML 技術賦能資料庫開發者,開發者無需具備機器學習專業知識,就可進行機器學習操作。在此潮流下,亞馬遜雲 科技 推出 Amazon Neptune,藉由 Deep Graph Library 和 Amazon SageMaker 驅動圖神經網路。
今年 8 月,Neptune ML 在中國正式可用,允許數據工程師不需要掌握機器學習的技能直接從圖資料庫里導出數據、轉換格式、訓練模型並發布,用 gremlin 語句調用訓練成的模型在資料庫里實現推理,進行欺詐檢測,推薦物品。
目前,亞馬遜雲 科技 加速在中國區域服務落地,2021年至今新發布 60 多個資料庫服務與功能。亞馬遜雲 科技 正是通過上述五大資料庫理念,打造豐富的資料庫產品家族,在全球智能化發展趨勢下,為企業提供更快更好的數智服務,釋放數據價值,並連續六年入選 Gartner 領導者象限,得到業界和客戶的深度認可。
2. 在關系資料庫中,為了提高查詢效率,在物理實現是,對存儲結構會有哪些考慮
在關系資料庫中,為了提高查詢效率,在物理實現時,對存儲結構會由哪些考慮?
答:一般用貳緝弛狙佾繳崇斜搐鉚戶不需要知道數據在資料庫中如何存放。然而對資料庫管理員來說,需要在 安裝、配置資料庫時,決定數據的存放方式和位置;需要在系統運行過程中,調整數據存 放以提高系統性能。如果資料庫管理員能夠在最初安裝、配置資料庫時,根據應用程序的 特性,仔細地規劃、合理地安排數據的存放,就能夠極大地減少系統運行過程中對磁碟的 I/O 操作,這必然會帶來系統性能的提高。 在規劃數據的存放之前,我們首先要對資料庫的存儲結構有所了解。資料庫的存儲結構可分為物 理結構和邏輯結構
3. 求高手詳細解釋數據規劃和資料庫規劃/設計的區別,不要百度百科裡那種模稜兩可的答案,最好有自己見解的
我也說不明白,大概理解是這樣:
數據存儲過程-----數據邏輯------數據表----數據透視
大型的資料庫是用Oracle來完成的,SQL中也包括這種做法,
1. 按周期備份資料庫,按數據邏輯備份資料庫,按自動編號記錄數據變更痕跡,這是第一層
2. 用數據邏輯來建立數據表,如工廠的切割BOMB生產物料清單,銀行的業主基本資料
3. 數據表層是記錄資料的
4. 數據透視是分析數據的
數據表就象大樹上的葉子,數據透視是樹枝,邏輯是他的神經系統,存儲過程是他的根。所以前期規劃應該是搭建伺服器,建立表存儲過程規則和主表索引,子表索引,自動編號過程
第二個過程搜集基礎資料,做物料清單、基礎信息,進入數據調查階段,規范層次邏輯
第三步就要建立數據表了,實施數據表建立和軟體部署,發布軟體
第四步進入測試階段,建立數據透視,搜集資料重新按照實際應用製作客戶端和伺服器應用程序,搭建三層結構,並且建立數據許可權,這一步最重要。
我是這么做的
4. 資料庫中數據如何存儲
利用邏輯資料庫
和物理資料庫
來存儲
其中
邏輯資料庫主要包括表
,段,區,oracle數據塊。物理數據塊
包括
數據文件,聯機重做日誌文件等
5. 在進行資料庫規劃時應考慮哪幾方面因素,分別是什麼含義
第一:各個參數是來否對應的一源個對象(面向對象編程思想);
第二:各個參數可能類型和出現的最大長度,之後合理的設計各個欄位的最大長度和相應類型;
第三:各個參數中哪些欄位具有唯一性,考慮作為主鍵或者是外鍵來進行表關聯;
第四:根據數據量的大小來考慮是否需要進行分區處理;
第五:哪些欄位是不經常便跟欄位,可以考慮進行多張表的存儲來節省存儲空間(可能影響查詢修改效率)
6. 資料庫規劃一般要包含那些內容
總體數據規劃主要從三個方面去規劃:1、管理方面、2、技術方面 3、用戶方面。
總體規劃的內容包括:戰略的業務規劃、戰略的信息技術規劃、戰略的數據規劃。