javastring的編碼_怎麼知道 java字元串編碼格式

❶ java中的String的默認編碼是什麼

可以通過如下代襲碼獲得默認編碼：

System.out.println(Charset.defaultCharset());

字元編碼（英語：Character encoding）也稱字集碼，是把字元集中的字元編碼為指定集合中某一對象（例如：比特模式、自然數序列、8位組或者電脈沖），以便文本在計算機中存儲和通過通信網路的傳遞。常見的例子包括將拉丁字母表編碼成摩斯電碼和ASCII。其中，ASCII將字母、數字和其它符號編號，並用7比特的二進制來表示這個整數。通常會額外使用一個擴充的比特，以便於以1個位元組的方式存儲。
在計算機技術發展的早期，如ASCII（1963年）和EBCDIC（1964年）這樣的字元集逐漸成為標准。但這些字元集的局限很快就變得明顯，於是人們開發了許多方法來擴展它們。對於支持包括東亞CJK字元家族在內的寫作系統的要求能支持更大量的字元，並且需要一種系統而不是臨時的方法實現這些字元的編碼。

❷ java中文亂碼，能說下string.getBytes()和new String()轉碼是，具體點。

1、Java中，【String.getBytes(String decode)】的方法，會根據指定的decode，編碼返回某字元串在該編碼下的byte數組表示，例如：

byte[] b_gbk = "中".getBytes("GBK");
byte[] b_utf8 = "中".getBytes("UTF-8");
byte[] b_iso88591 = "中".getBytes("ISO8859-1")

上面三行代碼表示：分別返回「中」這個漢字在GBK、UTF-8和ISO8859-1編碼下的byte數組表示，此時b_gbk的長度為2，b_utf8的長度為3，b_iso88591的長度為1。

2、而通過【new String(byte[], decode)】的方式來還原這個「中」字時，實際是使用decode指定的編碼來將byte[ ]解析成字元串，例如：

String s_gbk = new String(b_gbk,"GBK");
String s_utf8 = new String(b_utf8,"UTF-8");
String s_iso88591 = new String(b_iso88591,"ISO8859-1");

s_gbk和s_utf8都是「中」，而只有s_iso88591是一個不認識的字元，因為ISO8859-1編碼的編碼表中，根本就沒有包含漢字字元，當然也就無法通過"中".getBytes("ISO8859-1")。

因此，通過【String.getBytes(String decode)】方法來得到byte[ ]時，要確定decode的編碼表中確實存在String表示的碼值，這樣得到的byte[ ]數組才能正確被還原。

(2)javastring的編碼擴展閱讀

java中文編碼避免亂碼

1、為了讓中文字元適應某些特殊要求（如http header頭要求其內容必須為iso8859-1編碼），可能會通過將中文字元按照位元組方式來編碼的情況，比如：

String s_iso88591 = new String("中".getBytes("UTF-8"),"ISO8859-1")

2、上述例子中的s_iso8859-1字元串實際是三個在 ISO8859-1中的字元，在將這些字元傳遞到目的地後，目的地程序再通過相反的方式：

String s_utf8 = new String(s_iso88591.getBytes("ISO8859-1"),"UTF-8")

來得到正確的中文漢字。這樣就既保證了遵守協議規定、也支持中文。

3、String.getBytes(String decode)方法會根據指定的decode編碼返回某字元串在該編碼下的byte數組表示這里是encode ，not decode，從字元串到位元組數組是編碼的過程，從位元組數組到字元串（即 new String（byte[] , charsetname））才是解碼的過程。

❸ 怎麼知道 java字元串編碼格式

這樣的測試方法是不正確的。getBytes(charset)是解碼，new String(byte[], charset)是編碼。new String(str.getBytes(charset),charset)是解碼再編碼，無論回charset是什麼編碼格式，返答回的字元串內容原始str是一致，因此equals方法都是返回true，達不到測試字元串編碼格式的目的。個人觀點：正確的測試姿勢應該是這樣的：

Stringcharset="xxx";//假定編碼格式
Stringstr="中文"；
booleanflag=str.equals(newString(str.getBytes(),charset));

flag為true則表明str的編碼格式是假定的編碼格式。其中說明str.getBytes()該方法就是按其自身編碼格式去解碼。其自身編碼格式跟你的操作系統編碼格式或你使用的IDE設置的文件的Text file encoding有關。

❹ 怎麼知道 java字元串編碼格式

這樣的測來試方法是不正確的。自getBytes(charset)是解碼，new
String(byte[],
charset)是編碼。new
String(str.getBytes(charset),charset)是解碼再編碼，無論charset是什麼編碼格式，返回的字元串內容原始str是一致，因此equals方法都是返回true，達不到測試字元串編碼格式的目的。個人觀點：正確的測試姿勢應該是這樣的：
String charset ="xxx"; //假定編碼格式
String str = "中文"；
boolean flag = str.equals(new String(str.getBytes(),charset));flag為true則表明str的編碼格式是假定的編碼格式。其中說明str.getBytes()該方法就是按其自身編碼格式去解碼。其自身編碼格式跟你的操作系統編碼格式或你使用的IDE設置的文件的Text
file
encoding有關。

❺ java 判斷字元串什麼編碼類型

如果是Java的String對象的話，則一定是Unicode的，這個沒有為什麼，Java就是這么定的。
我猜你的問題應該是如何判斷一段位元組流是什麼編碼類型，對嗎？比如一個文件，或是網路上面取下來的一段Byte數組，你需要用一個合適的編碼來解析成字元串。
這個讓你失望了，沒有一個文檔化的，確定的方法來判斷，只能用測試的方法，這個方法也只是猜測，不能百分百的確定，方法如下：
用常見的編碼方式對位元組流進行解碼，比如Unicode，UTF8，
UTF8
without
BOM,
UTF16,
ANSI等等。
對解析的結果進行判斷，是不是一個合理的可列印字元，可列印字元最多的解碼方式就是最可能的編碼了。
如何判斷可列印字元？流程如下：把解析好的字元串按照字元進行遍歷，把每一個字元轉化成Unicode編碼，看看這些編碼是不是Unicode的支持范圍極客。
如果發現有種編碼方式都是可列印字元，那麼再使用本步驟：對字元串進行分詞，分詞這個在此不作贅述，你自己再研究一下。分詞效果好的就是最可能的編碼了。（不過通常到第三步就能搞定了，第四部絕大部分用不著）

導航:首頁 > 編程語言 > javastring的編碼

javastring的編碼

與javastring的編碼相關的資料

友情鏈接