java如何處理大數據_Java如何處理大數據的

❶ 處理java 大數據有什麼技巧

java在處理數據量比較大的時候，載入到內存必然會導致內存溢出，而在一些數據處理中我們不得不去處理海量數據，在做數據處理中，我們常見的手段是分解，壓縮，並行，臨時文件等方法。

❷ 做了這么多年Java開發，如何快速轉行大數據

一、學習大數據是需要學習java和linux的

二、你有多年的java開發經驗，那麼可以直接跳過java課程部分，學習大數據技術！

三、分享一份大數據技術課程大綱供你了解參考

❸ Java大數據需要學習哪些內容

首先明確，java大數據通常指的是採用Java語言來完成一些大數據領域的開發任務，整體的學習內容涉及到三大塊，其一是Java語言基礎，其二是大數據平台基礎，其三是場景開發基礎。
Java開發包括了Java基礎，JavaWeb和JavaEE三大塊。java可以說是大數據最基礎的編程語言，一是因為大數據的本質無非就是海量數據的計算，查詢與存儲，後台開發很容易接觸到大數據量存取的應用場景。java語言基礎部分的學習內容相對比較明確，由於Java語言本身的技術體系已經比較成熟了，所以學習過程也會相對比較順利。JavaWeb開發不僅涉及到後端開發知識，還涉及到前端開發知識，整體的知識量還是比較大的，而且在學習的過程中，需要完成大量的實驗。
大數據開發包括Java基礎，MySQL基礎，Hadoop(HDFS,MapRece,Yarn,Hive,Hbase,Zookeeper,Flume,Sqoop等)，Scala語言(類似於Java,Spark階段使用)，Spark(SparkSQL,SparkStreaming,SparkCore等)。
學習Java大數據一定離不開具體的場景，這裡面的場景不僅指硬體場景（數據中心），還需要有行業場景支持，所以學習Java大數據通常都會選擇一個行業作為切入點，比如金融行業、醫療行業、教育行業等等。初學者可以考慮在實習崗位上來完成這個階段的學習任務
總體上來說，Java大數據的學習內容是比較多的，而且也具有一定的難度。

❹ 如何優化操作大數據量資料庫

如何優化操作大數據量資料庫

下面以關系資料庫系統Informix為例，介紹改善用戶查詢計劃的方法。
1．合理使用索引
索引是資料庫中重要的數據結構，它的根本目的就是為了提高查詢效率。現在大多數的資料庫產品都採用IBM最先提出的ISAM索引結構。索引的使用要恰到好處，其使用原則如下：
●在經常進行連接，但是沒有指定為外鍵的列上建立索引，而不經常連接的欄位則由優化器自動生成索引。
●在頻繁進行排序或分組（即進行group by或order by操作）的列上建立索引。
●在條件表達式中經常用到的不同值較多的列上建立檢索，在不同值少的列上不要建立索引。比如在雇員表的「性別」列上只有「男」與「女」兩個不同值，因此就無必要建立索引。如果建立索引不但不會提高查詢效率，反而會嚴重降低更新速度。
●如果待排序的列有多個，可以在這些列上建立復合索引（pound index）。
●使用系統工具。如Informix資料庫有一個tbcheck工具，可以在可疑的索引上進行檢查。在一些資料庫伺服器上，索引可能失效或者因為頻繁操作而使得讀取效率降低，如果一個使用索引的查詢不明不白地慢下來，可以試著用tbcheck工具檢查索引的完整性，必要時進行修復。另外，當資料庫表更新大量數據後，刪除並重建索引可以提高查詢速度。
2．避免或簡化排序
應當簡化或避免對大型表進行重復的排序。當能夠利用索引自動以適當的次序產生輸出時，優化器就避免了排序的步驟。以下是一些影響因素：
●索引中不包括一個或幾個待排序的列；
●group by或order by子句中列的次序與索引的次序不一樣；
●排序的列來自不同的表。
為了避免不必要的排序，就要正確地增建索引，合理地合並資料庫表（盡管有時可能影響表的規范化，但相對於效率的提高是值得的）。如果排序不可避免，那麼應當試圖簡化它，如縮小排序的列的范圍等。
3．消除對大型錶行數據的順序存取
在嵌套查詢中，對表的順序存取對查詢效率可能產生致命的影響。比如採用順序存取策略，一個嵌套3層的查詢，如果每層都查詢1000行，那麼這個查詢就要查詢10億行數據。避免這種情況的主要方法就是對連接的列進行索引。例如，兩個表：學生表（學號、姓名、年齡……）和選課表（學號、課程號、成績）。如果兩個表要做連接，就要在「學號」這個連接欄位上建立索引。
還可以使用並集來避免順序存取。盡管在所有的檢查列上都有索引，但某些形式的where子句強迫優化器使用順序存取。下面的查詢將強迫對orders表執行順序操作：
SELECT ＊ FROM orders WHERE (customer_num=104 AND order_num>1001) OR order_num=1008
雖然在customer_num和order_num上建有索引，但是在上面的語句中優化器還是使用順序存取路徑掃描整個表。因為這個語句要檢索的是分離的行的 *** ，所以應該改為如下語句：
SELECT ＊ FROM orders WHERE customer_num=104 AND order_num>1001
UNION
SELECT ＊ FROM orders WHERE order_num=1008
這樣就能利用索引路徑處理查詢。
4．避免相關子查詢
一個列的標簽同時在主查詢和where子句中的查詢中出現，那麼很可能當主查詢中的列值改變之後，子查詢必須重新查詢一次。查詢嵌套層次越多，效率越低，因此應當盡量避免子查詢。如果子查詢不可避免，那麼要在子查詢中過濾掉盡可能多的行。
5．避免困難的正規表達式
MATCHES和LIKE關鍵字支持通配符匹配，技術上叫正規表達式。但這種匹配特別耗費時間。例如：SELECT ＊ FROM customer WHERE zipcode LIKE 「98_ _ _」
即使在zipcode欄位上建立了索引，在這種情況下也還是採用順序掃描的方式。如果把語句改為SELECT ＊ FROM customer WHERE zipcode >「98000」，在執行查詢時就會利用索引來查詢，顯然會大大提高速度。
另外，還要避免非開始的子串。例如語句：SELECT ＊ FROM customer WHERE zipcode[2，3]>「80」，在where子句中採用了非開始子串，因而這個語句也不會使用索引。
6．使用臨時表加速查詢
把表的一個子集進行排序並創建臨時表，有時能加速查詢。它有助於避免多重排序操作，而且在其他方面還能簡化優化器的工作。例如：
SELECT cust.name，rcvbles.balance，……other columns
FROM cust，rcvbles
WHERE cust.customer_id = rcvlbes.customer_id
AND rcvblls.balance>0
AND cust.postcode>「98000」
ORDER BY cust.name
如果這個查詢要被執行多次而不止一次，可以把所有未付款的客戶找出來放在一個臨時文件中，並按客戶的名字進行排序：
SELECT cust.name，rcvbles.balance，……other columns
FROM cust，rcvbles
WHERE cust.customer_id = rcvlbes.customer_id
AND rcvblls.balance>0
ORDER BY cust.name
INTO TEMP cust_with_balance
然後以下面的方式在臨時表中查詢：
SELECT ＊ FROM cust_with_balance
WHERE postcode>「98000」
臨時表中的行要比主表中的行少，而且物理順序就是所要求的順序，減少了磁碟I/O，所以查詢工作量可以得到大幅減少。
注意：臨時表創建後不會反映主表的修改。在主表中數據頻繁修改的情況下，注意不要丟失數據。

7．用排序來取代非順序存取
非順序磁碟存取是最慢的操作，表現在磁碟存取臂的來回移動。SQL語句隱藏了這一情況，使得我們在寫應用程序時很容易寫出要求存取大量非順序頁的查詢。
有些時候，用資料庫的排序能力來替代非順序的存取能改進查詢。
實例分析
下面我們舉一個製造公司的例子來說明如何進行查詢優化。製造公司資料庫中包括3個表，模式如下所示：
1．part表
零件號?????零件描述????????其他列
（part_num）?（part_desc）??????（other column）
102，032???Seageat 30G disk?????……
500，049???Novel 10M neork card??……
……
2．vendor表
廠商號??????廠商名??????其他列
（vendor _num）?（vendor_name）（other column）
910，257?????Seageat Corp???……
523，045?????IBM Corp?????……
……
3．parven表
零件號?????廠商號?????零件數量
（part_num）?（vendor_num）?（part_amount）
102，032????910，257????3,450,000
234，423????321，001????4，000，000
……
下面的查詢將在這些表上定期運行，並產生關於所有零件數量的報表：
SELECT part_desc，vendor_name，part_amount
FROM part，vendor，parven
WHERE part.part_num=parven.part_num
AND parven.vendor_num = vendor.vendor_num
ORDER BY part.part_num
如果不建立索引，上述查詢代碼的開銷將十分巨大。為此，我們在零件號和廠商號上建立索引。索引的建立避免了在嵌套中反復掃描。關於表與索引的統計信息如下：
表?????行尺寸???行數量?????每頁行數量???數據頁數量
（table）?(row size)?（Row count）?（Rows/Pages）?（Data Pages）
part????150?????10，000????25???????400
Vendor???150?????1，000???? 25???????40
Parven???13????? 15，000????300?????? 50
索引?????鍵尺寸???每頁鍵數量???頁面數量
（Indexes）?(Key Size)?（Keys/Page)???(Leaf Pages）
part?????4??????500???????20
Vendor????4??????500???????2
Parven????8??????250???????60
看起來是個相對簡單的3表連接，但是其查詢開銷是很大的。通過查看系統表可以看到，在part_num上和vendor_num上有簇索引，因此索引是按照物理順序存放的。parven表沒有特定的存放次序。這些表的大小說明從緩沖頁中非順序存取的成功率很小。此語句的優化查詢規劃是：首先從part中順序讀取400頁，然後再對parven表非順序存取1萬次，每次2頁（一個索引頁、一個數據頁），總計2萬個磁碟頁，最後對vendor表非順序存取1.5萬次，合3萬個磁碟頁。可以看出在這個索引好的連接上花費的磁碟存取為5.04萬次。

hibernate如何優化大數據量操作？

建議你直接用Jdbc好了，用batch，這樣是最快的。

如何實現大數據量資料庫的歷史數據歸檔

打開資料庫
con.Open();
讀取數據
OdbcDataReader reader = cmd.ExecuteReader();
把數據載入到臨時表
dt.Load(reader);
在使用完畢之後，一定要關閉，要不然會出問題
reader.Close();

這個問題是這樣的：
首先你要明確你的插入是正常業務需求么？如果是，那麼只能接受這樣的數據插入量。
其次你說資料庫存不下了那麼你可以讓你的資料庫上限變大這個你可以在資料庫裡面設置的裡面有個資料庫文件屬性 maxsize
最後有個方法可以使用，如果你的歷史數據不會對目前業務造成很大影響可以考慮歸檔處理定時將不用的數據移入歷史表或者另外一個資料庫。
注意平時對資料庫的維護定期整理索引碎片

時間維度分區表，然後定情按照規則將屬於歷史的分區數據遷移到，歷史庫上，寫個存儲自動維護分區表。

如何用java jdbc 向資料庫表插入大數據量

一次性插入大量數據，只能使用循環，
如：游標，while 循環語句
下面介紹While 循環插入數據，
SQL 代碼如下：
IF OBJECT_ID('dbo.Nums') IS NOT NULL
DROP TABLE dbo.Nums;
GO
CREATE TABLE dbo.Nums(n INT NOT NULL PRIMARY KEY);
DECLARE @max AS INT, @rc AS INT;
SET @max = 5000000;
SET @rc = 1;
INSERT INTO Nums VALUES(1);
WHILE @rc * 2 <= @max
BEGIN
INSERT INTO dbo.Nums SELECT n + @rc FROM dbo.Nums;
SET @rc = @rc * 2;
END
INSERT INTO dbo.Nums SELECT n + @rc FROM dbo.Nums WHERE n + @rc <= @max;
--以上函數取自Inside SQL Server 2005: T-SQL Query一書。
INSERT dbo.Sample SELECT n, RAND(CAST(NEWID() AS BINARY(16))) FROM Nums

php 怎麼解決大數據量插入資料庫

ini_set('max_execution_time',Ɔ');
$pdo = new PDO("mysql:host=localhost;dbname=test","root","123456");
$sql = "insert into test(name,age,state,created_time) values";
for($i=0; $i<100000; $i++){
$sql .="('zhangsan',21,1,񟭏-09-17')";
}
$sql = substr($sql,0,strlen($sql)-1);
var_mp($sql);
if($pdo -> exec($sql)){
echo "插入成功！";
echo $pdo -> lastinsertid();
}
試試吧。10萬條1分鍾多，我覺得還行

請教如何通過WCF傳輸大數據量數據

就是直接把DataSet 類型作為參數直接傳遞給服務端
WCF默認支持這么做，直接傳Datatable不行。
你看一下「服務引用設置」中你選的 *** 類型是什麼，我選的是System.Array
字典 *** 類型是默認第一項 System.Collections.Generic.Dictionary

又是一個把自己架在火上烤的需求啊，
如果不考慮傳輸因素，可以調整wcf配置，提升傳遞的容量，如果是對象傳遞可能還要調整對象層次的深度

❺ Java如何處理大數據的

文件讀取：首先是一個文件上傳，數據入庫，10-200萬條不等，這里主要考慮到一次性讀取，JVM分配出來的棧內存不一定會夠（個人對內存這一塊還是處於一知半解的狀態，所以比較謹慎，若諸位大神有好的認知，希望評論留下地址分享一下），是依行讀取數據，設定一個批量值，當讀取的數據達到一定量之後，執行批量入庫操作，清空集合，再接著讀取。
//讀取文件內容
while((s = br.readLine())!=null){
//判斷是否達到單次處理量
if(num%leadingNum==0&&num!=0){
int a = stencDao.insertBatch(listBean);
if(a!=leadingNum){
flag = false;
}
//清空集合
listBean.clear();
}
String value = s.trim();
//將讀取到的內容放入集合中
if(!value.equals("")){
StencilCustomer bean = new StencilCustomer();
bean.setCustomerPhone(value);
bean.setLinkStencilId(id);
listBean.add(bean);
num ++;
}
}
數據處理：這里的思路也是將數據小化然後處理，這里使用了多線程，設定單個線程處理量，然後開啟多個線程處理，這里需要考慮你的伺服器的承載能力，如果線程開得太多了，處理不過來，會出現蹦死的情況。例如200萬數據，我開了20個線程，單個線程處理600條。
//建立一個線程池 ThreadPoolExecutor threadPool = new ThreadPoolExecutor(
minTaskNumber, maxTaskNumber, 3L, TimeUnit.SECONDS,
new ArrayBlockingQueue<Runnable>(minTaskNumber),
new ThreadPoolExecutor.DiscardOldestPolicy());
//當正在執行的線程數達到最大執行線程數的時候等待
boolean flag = true;
while(flag){
Thread.sleep(1000);//休眠2ms查詢一次
int c = threadPool.getActiveCount();//線程池中活動中的線程數量
if(c<maxTaskNumber){
flag = false;
}
}
上面的代碼是我對線程池的一個控制，控制伺服器一直最大線程執行，Thread.sleep(1000);用while的時候，這個休眠最好不要去掉，去掉之後很影響執行效率

❻ Java 大數據量導出，該怎麼解決

對於數據規模復太大的，做成制任務。

用戶點擊導出，檢查他的數據規模，超過50W的，提示其數據規模過大，可能需要 N 小時完成，請稍候再來查詢和下載導出結果。如果用戶點擊確定，你就提示：「任務已進入隊列，點擊此連接查詢導出進度。」

然後你要做兩件事情：
1、給這個用戶記錄個標識，就是他已經啟動某導出任務，不能再啟動新的了（或者限制一個人最多同時啟動幾個導出任務）；
2、後台有個調度程序，開始執行導出工作，並將生成的Excel放在某磁碟目錄或存在資料庫中；這個調度任務可以控制下最大同時並發的導出任務數，以避免任務太多拖垮系統。

另外需要開發界面查詢導出進度以及下載導出結果。導出結果可以考慮一個最大保存周期，比如7天。

導航:首頁 > 網路數據 > java如何處理大數據

java如何處理大數據

如何優化操作大數據量資料庫

hibernate如何優化大數據量操作？

如何實現大數據量資料庫的歷史數據歸檔

如何用java jdbc 向資料庫表插入大數據量

php 怎麼解決大數據量插入資料庫

請教如何通過WCF傳輸大數據量數據

與java如何處理大數據相關的資料

友情鏈接

導航:首頁 > 網路數據 > java如何處理大數據

java如何處理大數據

如何優化操作大數據量資料庫

hibernate如何優化大數據量操作？

如何實現大數據量資料庫的歷史數據歸檔

如何用java jdbc 向資料庫表插入大數據量

php 怎麼解決 大數據量 插入資料庫

請教如何通過WCF傳輸大數據量數據

與java如何處理大數據相關的資料

友情鏈接

php 怎麼解決大數據量插入資料庫