java判斷string編碼_Java中如何查看字元串是什麼字元集

A. java中文亂碼，能說下string.getBytes()和new String()轉碼是，具體點。

1、Java中，【String.getBytes(String decode)】的方法，會根據指定的decode，編碼返回某字元串在該編碼下的byte數組表示，例如：

byte[] b_gbk = "中".getBytes("GBK");
byte[] b_utf8 = "中".getBytes("UTF-8");
byte[] b_iso88591 = "中".getBytes("ISO8859-1")

上面三行代碼表示：分別返回「中」這個漢字在GBK、UTF-8和ISO8859-1編碼下的byte數組表示，此時b_gbk的長度為2，b_utf8的長度為3，b_iso88591的長度為1。

2、而通過【new String(byte[], decode)】的方式來還原這個「中」字時，實際是使用decode指定的編碼來將byte[ ]解析成字元串，例如：

String s_gbk = new String(b_gbk,"GBK");
String s_utf8 = new String(b_utf8,"UTF-8");
String s_iso88591 = new String(b_iso88591,"ISO8859-1");

s_gbk和s_utf8都是「中」，而只有s_iso88591是一個不認識的字元，因為ISO8859-1編碼的編碼表中，根本就沒有包含漢字字元，當然也就無法通過"中".getBytes("ISO8859-1")。

因此，通過【String.getBytes(String decode)】方法來得到byte[ ]時，要確定decode的編碼表中確實存在String表示的碼值，這樣得到的byte[ ]數組才能正確被還原。

(1)java判斷string編碼擴展閱讀

java中文編碼避免亂碼

1、為了讓中文字元適應某些特殊要求（如http header頭要求其內容必須為iso8859-1編碼），可能會通過將中文字元按照位元組方式來編碼的情況，比如：

String s_iso88591 = new String("中".getBytes("UTF-8"),"ISO8859-1")

2、上述例子中的s_iso8859-1字元串實際是三個在 ISO8859-1中的字元，在將這些字元傳遞到目的地後，目的地程序再通過相反的方式：

String s_utf8 = new String(s_iso88591.getBytes("ISO8859-1"),"UTF-8")

來得到正確的中文漢字。這樣就既保證了遵守協議規定、也支持中文。

3、String.getBytes(String decode)方法會根據指定的decode編碼返回某字元串在該編碼下的byte數組表示這里是encode ，not decode，從字元串到位元組數組是編碼的過程，從位元組數組到字元串（即 new String（byte[] , charsetname））才是解碼的過程。

B. Java中如何查看字元串是什麼字元集

判斷java字元串的字元集有多種方法，我們一一討論如下：
1、通過把未知編碼字元串,用猜想的編碼再解碼,觀察字元串是不是正確還原了。
原理:假如目標編碼沒有數組中的字元,那麼編碼會破壞,無法還原。
缺點:假如字元少,而正巧錯誤的猜想編碼中有這種位元組,就會出錯。
如:new String("tested str".getBytes("enc"),"enc")
2、大多數時候,我們只要判斷本地平台編碼和utf8,utf8編碼相當有規律,所以可以分析是否是utf8,否則使用本地編碼。
原理:分析byte[]來判斷規律。
缺點:有時,個別本地編碼位元組在utf8中也會出現,導致出錯,需要分析。
如：判斷是否utf-8代碼：
public static boolean isValidUtf8(byte[] b,int aMaxCount){
int lLen=b.length,lCharCount=0;
for(int i=0;i
byte lByte=b[i++];//to fast operation, ++ now, ready for the following for(;;)
if(lByte>=0) continue;//>=0 is normal ascii
if(lByte<(byte)0xc0 || lByte>(byte)0xfd) return false;
int lCount=lByte>(byte)0xfc?5:lByte>(byte)0xf8?4
:lByte>(byte)0xf0?3:lByte>(byte)0xe0?2:1;
if(i+lCount>lLen) return false;
for(int j=0;j=(byte)0xc0) return false;
}
return true;

C. java中的String的默認編碼是什麼

可以通過如下代襲碼獲得默認編碼：

System.out.println(Charset.defaultCharset());

字元編碼（英語：Character encoding）也稱字集碼，是把字元集中的字元編碼為指定集合中某一對象（例如：比特模式、自然數序列、8位組或者電脈沖），以便文本在計算機中存儲和通過通信網路的傳遞。常見的例子包括將拉丁字母表編碼成摩斯電碼和ASCII。其中，ASCII將字母、數字和其它符號編號，並用7比特的二進制來表示這個整數。通常會額外使用一個擴充的比特，以便於以1個位元組的方式存儲。
在計算機技術發展的早期，如ASCII（1963年）和EBCDIC（1964年）這樣的字元集逐漸成為標准。但這些字元集的局限很快就變得明顯，於是人們開發了許多方法來擴展它們。對於支持包括東亞CJK字元家族在內的寫作系統的要求能支持更大量的字元，並且需要一種系統而不是臨時的方法實現這些字元的編碼。

D. java 怎麼判斷編碼是utf-8 還是gbk

你是要判斷字元還是判斷文件的編碼，若是字元：
String str="123456";
String type = "utf-8"; //更換這里進行其他編碼判斷
try {
if (str.equals(new String(str.getBytes(type ), type ))) {
return type;
}
} catch (Exception e) {

}
如果是文件，麻煩一些，可以使用一個開源項目cpdetector，這個我也沒用過，你自己查一下吧

E. java 判斷字元串什麼編碼類型

如果是Java的String對象的話，則一定是Unicode的，這個沒有為什麼，Java就是這么定的。
我猜你的問題應該是如何判斷一段位元組流是什麼編碼類型，對嗎？比如一個文件，或是網路上面取下來的一段Byte數組，你需要用一個合適的編碼來解析成字元串。
這個讓你失望了，沒有一個文檔化的，確定的方法來判斷，只能用測試的方法，這個方法也只是猜測，不能百分百的確定，方法如下：
用常見的編碼方式對位元組流進行解碼，比如Unicode，UTF8，
UTF8
without
BOM,
UTF16,
ANSI等等。
對解析的結果進行判斷，是不是一個合理的可列印字元，可列印字元最多的解碼方式就是最可能的編碼了。
如何判斷可列印字元？流程如下：把解析好的字元串按照字元進行遍歷，把每一個字元轉化成Unicode編碼，看看這些編碼是不是Unicode的支持范圍極客。
如果發現有種編碼方式都是可列印字元，那麼再使用本步驟：對字元串進行分詞，分詞這個在此不作贅述，你自己再研究一下。分詞效果好的就是最可能的編碼了。（不過通常到第三步就能搞定了，第四部絕大部分用不著）

導航:首頁 > 編程語言 > java判斷string編碼

java判斷string編碼

與java判斷string編碼相關的資料

友情鏈接