① Scala在大數據處理方面有何優勢
我想大部分應用開發程序員,最關鍵是看有什麼類庫合適的方便特定領域的應用開發。就像ruby有rails做web開發,你可以去論證ruby優缺點,但實際上應用開發效率提升很大程度上依靠類庫。現在Spark是大數據領域的殺手級應用框架,BAT,我們現在幾個領域巨頭的客戶(有保密協議不方便透露)都全面使用Spark了,這個時候再談Scala適不適合大數據開發其實意義不大。因為大家比的不只是編程語言,而是構建在這個編程語言之上的類庫、社區和生態圈(包括文檔和數據、衍生類庫、商業技術支持、成熟產品等等)。那麼反過來問,為什麼Spark會選擇Scala可能更有意義一點。Spark主創Matei在不同場合回答兩次這個問題,思考的點稍微不一樣,但重點是一樣的,很適合回答題主的問題。
總結來說最主要有三點:1.API能做得優雅;這是框架設計師第一個要考慮的問題,框架的用戶是應用開發程序員,API是否優雅直接影響用戶體驗。2.能融合到Hadoop生態圈,要用JVM語言;Hadoop現在是大數據事實標准,Spark並不是要取代Hadoop,而是要完善Hadoop生態。JVM語言大部分可能會想到java,但Java做出來的API太丑,或者想實現一個優雅的API太費勁。3.速度要快;Scala是靜態編譯的,所以和JRuby,Groovy比起來速度會快很多,非常接近Java。1.Scala的基準性能很接近Java,但確實沒有Java好。但很多任務的單次執行的,性能損失在毫秒級不是什麼問題;2.在大數據計算次數很多的情況下,我們全部寫成命令式,而且還要考慮GC,JIT等基於JVM特性的優化。
② java如何表示數據結構
一、List介面,有序的Collection介面,精確地控制每個元素插入的位置,允許有相同的元素
1.鏈表,LinkedList實現了List介面,允許null元素,提供了get()、remove()、insert()方法。
[java] view plain
public void add() {
LinkedList List = new LinkedList();
List.add("link1");
List.add("link2");
List.add("link3");
Iterator it = List.iterator();
while (it.hasNext()) {
System.out.println(it.next());
}
it.remove();
Iterator it1 = List.iterator();
for (int i = 0; i < List.size(); i++) {
System.out.println(it1.next());
}
}
2.數組列表,ArrayList,可以動態變化容量的數組,數組列表中存放Object類型,在數組列表中存放的對象類型,以其原型的父類代替,提取其中的元素時要進行類型轉換
[java] view plain
public static void main(String[] args)
{
ArrayList al=new ArrayList();
al.add("name");
al.add("value");
al.add("number");
for(int i=0;i<al.size();i++)
{
System.out.println(al.get(i));
}
}
二、Set介面,不包含重復元素的Collection介面
1.散列集,HashSet,實現了Set介面,非線性同步與鏈表和數組列表幾乎類似,處理時鏈表進行數據處理花費時間更短,處理大數據時通常使用散列集
[java] view plain
public static void main(String[] args)
{
long time=0;
HashSet hs=new HashSet();
ArrayList al=new ArrayList();
long starttime=System.currentTimeMillis();
for(int i=0;i<10000;i++)
{
hs.add(new Integer(i));
}
System.out.println(System.currentTimeMillis()-starttime);
for(int i=0;i<10000;i++)
{
al.add(new Integer(i));
}
System.out.println(System.currentTimeMillis()-starttime);
}
2.樹集,TreeSet,實現了Set介面,實現了排序功能,集合中的元素默認按升序排列元素。
三、Map介面,沒有繼承Collection介面,其提供key到value的映射,Map中不能包含相同的key,每個key只能映射一個value。
1.散列表類,HashTable,繼承了Map介面,非空(non-null)的對象都可作為key或value,特點:無序的可以快速查找特定的元素
[java] view plain
public static void TableTest(){
Hashtable ht = new Hashtable();
ht.put("key1", "value1");
ht.put("key2", "value2");
String value1=(String)ht.get("key2");
System.out.println(value1);
}
2.散列映射類,HashMap,與HashTable類似,HashMap是非同步的,且允許null
[java] view plain
public static void Maptest(){
Map<string string=""> map=new HashMap<string string="">();
map.put("key1", "value1");
map.put("key2", "value2");
map.put("key3", "value3");
for(Map.Entry<string string=""> entry:map.entrySet()){
System.out.println(entry.getKey());
System.out.println(entry.getValue());
}
String value1=(String)map.get("key1");
System.out.println(value1);
}
</string></string></string>