導航:首頁 > 網路數據 > 大數據多表

大數據多表

發布時間:2023-01-16 06:25:14

① mysql執行多表查詢,大數據,sql該怎麼寫

你應該在每個表的查詢欄位上創建索引,這樣可以提高查詢效率。這個查詢只能逐個表查,你可以用union把查詢結果並到一起,這樣一次查詢連接就可以了,能減少因為連接造成的開銷。

② 多表連接查詢和多次單表查詢哪個效率高為什麼

如果數據量小的表,這樣的設計意義不大,而且當然是單錶速度快。若在大數據量情況下,設計非常有意義。在多表連接中注意數據的條目和外健,避免出行大量冗餘數據導致性能下降。下面我以Oracle講講數據查詢的整個過程技術。

由於數據分布到數據塊,在大量數據設計中可以將數據存儲於多個數據塊,在高並發進程的隨機訪問的情況下,能有效減少塊沖突 同樣的數據需要更多的數據塊來存儲,由於數據塊的塊頭元信息大小固定,所以需要更多的空間來存儲塊頭元信息。行長度過大容易導致行連接,從而導致Oracle獲取數據塊的效率降低 ,在行長度固定的前提下,單塊能夠存儲更多的數據行,也就意味著Oracle一次I/O能讀取更多的數據行。適合連續順序讀或者存放大對象數據(如LOB數據) 由於大數據塊可以存放更多的索引葉節點信息,容易引起爭用,所以大數據塊不適合存放索引葉節點信息。

大量數據表的資料庫參數設置DB_FILE_MULTIBLOCK_READ_COUNT表示Oracle一次順序I/O讀操作最多能讀取的數據塊塊數。該參數的默認值隨操作系統的不同而不同。在全表掃描或者索引快速掃描比較多的系統中(如DSS系統),建議將該值設置得較大。但是DB_FILE_MULTIBLOCK_READ_COUNT參數受操作最大單次I/O大小的限制,大多數操作系統單次讀操作的大小不能超過1MB,這也就意味著在8KB數據塊大小的情況下,該參數最大值為128。值得一提的是,該參數的大小還會影響Oracle CBO對執行計劃的評估,如果設成較大值,Oracle的執行計劃傾向於全表掃描。當該參數設置為0或者保持默認時,CBO假設全表掃描時最多能連續讀取8個數據塊。從Oracle 11R2開始,DB_FILE_MULTIBLOCK_READ_COUNT的取值演算法如下:

db_file_multiblock_read_count = min(1048576/db_block_size , db_cache_size/

(sessions * db_block_size))

注意資料庫參數BLOCK_SIZE在設定之後,在資料庫生命周期內不可更改。

當執行SELECT語句時,如果在內存里找不到相應的數據,就會從磁碟讀取進而緩存至LRU末端(冷端),這個過程就叫物理讀。當相應數據已在內存,就會邏輯讀。我物理讀是磁碟讀,邏輯讀是內存讀;內存讀的速度遠比磁碟讀來得快。

下面將本人大數據分區設計截圖,為大家參考學習。

先貼倆圖鎮鎮場。

引言

對於內連接,使用單個查詢是有意義的,因為你只獲得匹配的行。

對於左連接,多個查詢要好得多。


數據說話

看看下面的基準測試:

5個連接的單個查詢

一行5個查詢

注意,我們在兩種情況下得到了 相同的結果 (6 x 50 x 7 x 12 x 90 = 2268000)


總結一下

對於冗餘數據,左連接使用更多的內存。

如果只執行兩個表的連接,那麼內存限制可能沒有那麼糟糕,但通常是三個或更多的表,因此值得進行不同的查詢。


寫在最後

用過Laravel嗎?還記得 Eloquent ORM模型嗎?

不知道有沒有注意到,debug所列印出來的多表聯合查詢,

都是拆分為「單個表查詢」,然後使用PHP處理的。

Happy coding :-)


是做表連接查詢還是做分解查詢要具體情況具體分析。

如果資料庫的結構合理,索引設計得當,表連接的效率要高於分解查詢。比如,在有外鍵的時候,資料庫可以為外鍵建表並建立索引從而提升多個表連接查詢的效率。另外,多表連接查詢不需要把數據傳輸到應用程序中,直接在資料庫端執行,這在很大程度上提升了效率。

但是多表連接也有一些缺點。多表連接對表結構的依存度很高,只要表結構出現變更就會同時對資料庫檢索和應用處理兩個部分產生較大影響。另外,多表連接的兼容性不好,資料庫不同SQL文也多少有些差異。而且採用分散資料庫的時候,實現多表連接即麻煩又沒有什麼好處。因此,一些大型系統或者是支持多種類資料庫的系統一般不會使用多表連接,而傾向於採用分解查詢。

這個得看情況,一般數據不大的情況下多表連接查詢和多次單表查詢的效率差不多。如果數據量足夠大,那肯定是多次單表查詢的效率更高。在很多大的公司裡面,都會禁用多表連接查詢,原因就是一旦數據量足夠大的時候多表連接查詢效率會很慢,而且不利於分庫分表的查詢優化。那麼看一下下面這個例子。

兩種查詢方式的比較

我這里有一個資料庫,我們拿裡面的客戶表和地區表做兩種查詢的對比。用戶表數據是31萬條,地區表3511條。

1. 使用連表查詢成都市的客戶總數

2.使用多次單表查詢客戶總數

可以看到,查詢出來的結果都是一樣,但是第一種的連表查詢用了0.67秒中,而第二種多次單表查詢一共用時0.14秒。這個對比已經是很明顯了吧。

雖然這只是一個很簡單的例子,但是對比結果是非常明顯的。在實際應用中可能會更復雜、數據更多,如果還使用連表查詢時非常慢的,而且還消耗伺服器資源。

所以現在在很多大了公司明確要求禁止使用join查詢,比如阿里、騰訊就明確規定禁用三表以上的join查詢。

總結一下,單表查詢的優點

1. 多次單表查詢,讓緩存的效率更高。

許多應用程序可以方便地緩存單表查詢對應的結果對象。另外對於MySQL的查詢緩存來說,如果關聯中的某個表發生了變化,那麼就無法使用查詢緩存了,而拆分後,如果某個表很少改變,那麼基於該表的查詢就可以重復利用查詢緩存結果了。

2. 將查詢分解後,執行單個查詢可以減少鎖的競爭。

3. 在應用層做關聯,更容易對資料庫進行拆分,更容易做到高性能和可擴展。

4. 查詢本身效率也可能會有所提升。

5. 可以減少冗餘記錄的查詢。

6. 在應用中實現了哈希關聯,而不是使用MySQL的嵌套環關聯,某些場景哈希關聯的效率更高很多。

7. 單表查詢有利於後期數據量大了分庫分表,如果聯合查詢的話,一旦分庫,原來的sql都需要改動。

8. 很多大公司明確規定禁用join,因為數據量大的時候查詢確實很慢

所以在數據量不大的情況下,兩種方式的查詢都沒什麼明顯的差別,使用多表連接查詢更方便。但是在數據量足夠大幾十萬、幾百萬甚至上億的數據,或者在一些高並發、高性能的應用中,一般建議使用單表查詢。

如果覺得笨貓的回答對你有用,點個關注,非常感謝。

java的,在orm框架下,分解查詢是最符合面向對象操作的,挺支持分解查詢的(拙見)

先說結論:不一定。

多表查詢效率低的時候,可以考慮拆解sql成多個小的sql,至於效率是否一定會提高,這個還不一定,具體問題具體問題。當多表查詢效率低的時候,拆解成單個小sql,這只是一個可能的思路,起不起作用,不一定。

sql是一個很復雜的東西,sql引擎會分析執行計劃,並可能按照他認為最優的執行計劃執行sql,但他認為的也不一定是正確的。不同的sql執行計劃不一樣,所以很難斷定sql拆解或者合並的效率。

說了這么多,那到底是多表聯合查詢還是拆解呢?有沒有一個原則? 有!如果你確定你的單個sql的執行效率比較快,當然可以寫多個單個sql。當然了,具備這個能力需要你對資料庫足夠了解,比如什麼時候走索引,什麼時候nested loop等等。如果你現在的多表聯合查詢比較慢,你需要找出來慢的原因,並分析拆解後的sql的執行計劃,看是否避免了多表聯合查詢的效率問題。


總之吧。這個問題,只能給你一個大體的思路,因為牽扯到很多基礎問題,我覺得最起碼sql執行計劃應該需要了解,一個sql可能的執行計劃有幾十中,復雜sql的執行計劃又是這幾十種的組合。哪種效率低,哪種效率高應該有個大體了解。


多表查詢可以很快,也可以很慢。主要看執行計劃。

單次肯定是多表連接查詢的效率高,但多次單表查詢的吞吐量高,而且容易優化,例如分庫分表,使用緩存減少DB訪問次數等等,所以在大數據量高並發場景通常使用多次單表查詢的方式。另外,不管是單表還是多表連接查詢,SQL的執行時間和數據量、並發量都有很大關系,和掃描的數據行數也很有關系。如果一條SQL,平時執行一次要2秒,10個並發時,系統可能一點問題都沒有,1000個並發時,資料庫可能就被拖死了。我們組之前碰到過好幾次這種問題,一張只有幾萬條數據的表,因為忘記加索引,平時執行只有幾百毫秒,高峰期直接飆到幾十秒,DB差點被拖垮。

單純從效率來講,join的表不太多時,join效率比較高。但是佔用的主要是資料庫伺服器的資源。資料庫資源又是個瓶頸,不易橫向擴展。所以在數據量大的時候,我們會採用單表查詢,把循環和匹配等大量工作移到應用伺服器上。應用伺服器容易擴展,對並發支持更好。

當數據量大到千萬級以上,就建議盡可能減少join,鼓勵使用單表查詢。查詢優化比較容易。這時候使用join的一個大型查詢就可能花很久,對其他查詢造成阻塞,導致服務不可用。

當考慮單表查詢後,就會衍生一系列的策略,比如冷熱數據分離,將熱數據和 歷史 數據分離,大幅降低數據量級以提高熱數據查詢性能,並可以使用內存緩存。這樣又促使你考慮引入微服務架構。

總結,數據量小,查詢並發少,那麼使用join的性能是可控的,開發成本低。當數量級上升到千萬級且不斷增加,盡早考慮向單表查詢切換,否則可能有性能下降會導致系統奔潰。而且性能下降不是線性的,會陡降。

③ 資料庫的多表大數據查詢應如何優化

1.應盡量避免在 where 子句中對欄位進行 null 值判斷,否則將導致引擎放棄使用索引而進行全表掃描,如:x0dx0aselect id from t where num is nullx0dx0a可以在num上設置默認值0,確保表中num列沒有null值,然後這樣查詢:x0dx0aselect id from t where num=0x0dx0a2.應盡量避免在 where 子句中使用!=或<>操作符,否則將引擎放棄使用索引而進行全表掃描。優化器將無法通過索引來確定將要命中的行數,因此需要搜索該表的所有行。x0dx0a3.應盡量避免在 where 子句中使用 or 來連接條件,否則將導致引擎放棄使用索引而進行全表掃描,如:x0dx0aselect id from t where num=10 or num=20x0dx0a可以這樣查詢:x0dx0aselect id from t where num=10x0dx0aunion allx0dx0aselect id from t where num=20x0dx0a4.in 和 not in 也要慎用,因為IN會使系統無法使用索引,而只能直接搜索表中的數據。如:x0dx0aselect id from t where num in(1,2,3)x0dx0a對於連續的數值,能用 between 就不要用 in 了:x0dx0aselect id from t where num between 1 and 3x0dx0a5.盡量避免在索引過的字元數據中,使用非打頭字母搜索。這也使得引擎無法利用索引。 x0dx0a見如下例子: x0dx0aSELECT * FROM T1 WHERE NAME LIKE 『%L%』 x0dx0aSELECT * FROM T1 WHERE SUBSTING(NAME,2,1)=』L』 x0dx0aSELECT * FROM T1 WHERE NAME LIKE 『L%』 x0dx0a即使NAME欄位建有索引,前兩個查詢依然無法利用索引完成加快操作,引擎不得不對全表所有數據逐條操作來完成任務。而第三個查詢能夠使用索引來加快操作。x0dx0a6.必要時強制查詢優化器使用某個索引,如在 where 子句中使用參數,也會導致全表掃描。因為SQL只有在運行時才會解析局部變數,但優化程序不能將訪問計劃的選擇推遲到運行時;它必須在編譯時進行選擇。然而,如果在編譯時建立訪問計劃,變數的值還是未知的,因而無法作為索引選擇的輸入項。如下面語句將進行全表掃描:x0dx0aselect id from t where num=@numx0dx0a可以改為強制查詢使用索引:x0dx0aselect id from t with(index(索引名)) where num=@numx0dx0a7.應盡量避免在 where 子句中對欄位進行表達式操作,這將導致引擎放棄使用索引而進行全表掃描。如:x0dx0aSELECT * FROM T1 WHERE F1/2=100 x0dx0a應改為: x0dx0aSELECT * FROM T1 WHERE F1=100*2x0dx0aSELECT * FROM RECORD WHERE SUBSTRING(CARD_NO,1,4)=』5378』 x0dx0a應改為: x0dx0aSELECT * FROM RECORD WHERE CARD_NO LIKE 『5378%』x0dx0aSELECT member_number, first_name, last_name FROM members x0dx0aWHERE DATEDIFF(yy,datofbirth,GETDATE()) > 21 x0dx0a應改為: x0dx0aSELECT member_number, first_name, last_name FROM members x0dx0aWHERE dateofbirth < DATEADD(yy,-21,GETDATE()) x0dx0a即:任何對列的操作都將導致表掃描,它包括資料庫函數、計算表達式等等,查詢時要盡可能將操作移至等號右邊。x0dx0a8.應盡量避免在where子句中對欄位進行函數操作,這將導致引擎放棄使用索引而進行全表掃描。如:x0dx0aselect id from t where substring(name,1,3)='abc'--name以abc開頭的idx0dx0aselect id from t where datediff(day,createdate,񟭅-11-30')=0--『2005-11-30』生成的idx0dx0a應改為:x0dx0aselect id from t where name like 'abc%'x0dx0aselect id from t where createdate>=񟭅-11-30' and createdate<񟭅-12-1'x0dx0a9.不要在 where 子句中的「=」左邊進行函數、算術運算或其他表達式運算,否則系統將可能無法正確使用索引。x0dx0a10.在使用索引欄位作為條件時,如果該索引是復合索引,那麼必須使用到該索引中的第一個欄位作為條件時才能保證系統使用該索引,否則該索引將不會被使用,並且應盡可能的讓欄位順序與索引順序相一致。x0dx0a11.很多時候用 exists是一個好的選擇:x0dx0aelect num from a where num in(select num from b)x0dx0a用下面的語句替換:x0dx0aselect num from a where exists(select 1 from b where num=a.num)x0dx0aSELECT SUM(T1.C1)FROM T1 WHERE( x0dx0a(SELECT COUNT(*)FROM T2 WHERE T2.C2=T1.C2>0) x0dx0aSELECT SUM(T1.C1) FROM T1WHERE EXISTS( x0dx0aSELECT * FROM T2 WHERE T2.C2=T1.C2) x0dx0a兩者產生相同的結果,但是後者的效率顯然要高於前者。因為後者不會產生大量鎖定的表掃描或是索引掃描。

④ 資料庫的多表大數據查詢應如何優化

1.應盡量避免在 where 子句中對欄位進行 null 值判斷,否則將導致引擎放棄使用索引而進行全表掃描,如:
select id from t where num is null
可以在num上設置默認值0,確保表中num列沒有null值,然後這樣查詢:
select id from t where num=0
2.應盡量避免在 where 子句中使用!=或<>操作符,否則將引擎放棄使用索引而進行全表掃描。優化器將無法通過索引來確定將要命中的行數,因此需要搜索該表的所有行。
3.應盡量避免在 where 子句中使用 or 來連接條件,否則將導致引擎放棄使用索引而進行全表掃描,如:
select id from t where num=10 or num=20
可以這樣查詢:
select id from t where num=10
union all
select id from t where num=20
4.in 和 not in 也要慎用,因為IN會使系統無法使用索引,而只能直接搜索表中的數據。如:
select id from t where num in(1,2,3)
對於連續的數值,能用 between 就不要用 in 了:
select id from t where num between 1 and 3
5.盡量避免在索引過的字元數據中,使用非打頭字母搜索。這也使得引擎無法利用索引。
見如下例子:
SELECT * FROM T1 WHERE NAME LIKE 『%L%』
SELECT * FROM T1 WHERE SUBSTING(NAME,2,1)=』L』
SELECT * FROM T1 WHERE NAME LIKE 『L%』
即使NAME欄位建有索引,前兩個查詢依然無法利用索引完成加快操作,引擎不得不對全表所有數據逐條操作來完成任務。而第三個查詢能夠使用索引來加快操作。
6.必要時強制查詢優化器使用某個索引,如在 where 子句中使用參數,也會導致全表掃描。因為SQL只有在運行時才會解析局部變數,但優化程序不能將訪問計劃的選擇推遲到運行時;它必須在編譯時進行選擇。然而,如果在編譯時建立訪問計劃,變數的值還是未知的,因而無法作為索引選擇的輸入項。如下面語句將進行全表掃描:
select id from t where num=@num
可以改為強制查詢使用索引:
select id from t with(index(索引名)) where num=@num
7.應盡量避免在 where 子句中對欄位進行表達式操作,這將導致引擎放棄使用索引而進行全表掃描。如:
SELECT * FROM T1 WHERE F1/2=100
應改為:
SELECT * FROM T1 WHERE F1=100*2
SELECT * FROM RECORD WHERE SUBSTRING(CARD_NO,1,4)=』5378』
應改為:
SELECT * FROM RECORD WHERE CARD_NO LIKE 『5378%』
SELECT member_number, first_name, last_name FROM members
WHERE DATEDIFF(yy,datofbirth,GETDATE()) > 21
應改為:
SELECT member_number, first_name, last_name FROM members
WHERE dateofbirth < DATEADD(yy,-21,GETDATE())
即:任何對列的操作都將導致表掃描,它包括資料庫函數、計算表達式等等,查詢時要盡可能將操作移至等號右邊。
8.應盡量避免在where子句中對欄位進行函數操作,這將導致引擎放棄使用索引而進行全表掃描。如:
select id from t where substring(name,1,3)='abc'--name以abc開頭的id
select id from t where datediff(day,createdate,'2005-11-30')=0--『2005-11-30』生成的id
應改為:
select id from t where name like 'abc%'
select id from t where createdate>='2005-11-30' and createdate<'2005-12-1'
9.不要在 where 子句中的「=」左邊進行函數、算術運算或其他表達式運算,否則系統將可能無法正確使用索引。
10.在使用索引欄位作為條件時,如果該索引是復合索引,那麼必須使用到該索引中的第一個欄位作為條件時才能保證系統使用該索引,否則該索引將不會被使用,並且應盡可能的讓欄位順序與索引順序相一致。
11.很多時候用 exists是一個好的選擇:
elect num from a where num in(select num from b)
用下面的語句替換:
select num from a where exists(select 1 from b where num=a.num)
SELECT SUM(T1.C1)FROM T1 WHERE(
(SELECT COUNT(*)FROM T2 WHERE T2.C2=T1.C2>0)
SELECT SUM(T1.C1) FROM T1WHERE EXISTS(
SELECT * FROM T2 WHERE T2.C2=T1.C2)
兩者產生相同的結果,但是後者的效率顯然要高於前者。因為後者不會產生大量鎖定的表掃描或是索引掃描。

⑤ 對於多表關聯的,大數據分頁,怎麼整sql

SELECT*
FROM(SELECT查詢欄位,
ROW_NUMBER()OVER(ORDERBY排序欄位)ASNum
FROM表專1a
INNERJOIN表2bONa.關聯字屬段=b.關聯欄位
)t
WHEREt.NumBETWEEN10AND20

⑥ 請教專家:oracle大數據量一對多表查詢問題

實際情況可能會這樣,表1有產品的名稱,表2沒有產品的名稱。所以如內果在查詢中,要包含表容1中的欄位的話,就要用到關聯,所以最好,將表1和表2都在ID上建索引。再關聯;如果不包含表1的話,只需給表2建索引。
根據這里的環境來看,走索引會比走全表掃描來的快些。

然後可以在SQLPLUS環境下,啟動跟蹤功能,查看這個語句的執行計劃情況

SQL優化方面,可以參考oracle性能調整方面的書籍

以上參考!

⑦ SQL SERVER 2008跨資料庫大數據多表聯查

描述不清,不過大概能理解。
給點建議。大數據量表在做非主鍵或有索引列查詢時,採用有主鍵或索引列查詢並將一級結果保存至公有臨時表中。再進行二級查詢。

⑧ mysql執行多表查詢,大數據,sql該怎麼寫

使用連接(JOIN)來代替子查詢(子查詢)選擇最合適的欄位屬性使用聯合(UNION),以取代臨時表使用手動創建使用事務外鍵索引使用避免使用會非常優化來優化查詢

⑨ 如何提高mysql大數據多表查詢速度

見索引,還有就是在取數據的時候,分批次取數據。
ps = (PreparedStatement) con.prepareStatement(sql,
ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY);
ps.setFetchSize(Integer.MIN_VALUE);
ps.setFetchDirection(ResultSet.FETCH_REVERSE);

閱讀全文

與大數據多表相關的資料

熱點內容
pdf文件無法列印其他正常 瀏覽:126
拍照文件掃描轉換word 瀏覽:724
電腦啟動後桌面文件不見了 瀏覽:535
圖文游戲編程作品說明如何寫 瀏覽:197
qq瀏覽器wifi不安全衛士 瀏覽:449
文件在用戶卻不顯示在桌面 瀏覽:124
delphi獲取操作系統版本 瀏覽:722
linux定時任務執行腳本 瀏覽:787
招商銀行app怎麼查電費 瀏覽:739
手機代碼文檔翻譯軟體 瀏覽:676
青華模具學院和ug編程哪個好 瀏覽:736
怎麼改網站關鍵詞 瀏覽:581
怎麼把ps圖片保存成雕刻文件 瀏覽:771
java字元串賦空值不賦值null 瀏覽:556
什麼是文件hash 瀏覽:345
文件碎片微信小程序 瀏覽:878
蘋果手機怎麼升級運營商版本 瀏覽:100
什麼是菜鳥網路服務協議 瀏覽:260
11月份的銷售數據是什麼 瀏覽:439
三個數據如何列表格 瀏覽:92

友情鏈接