1. Unicode是什麼
Unicode(統一碼、萬國碼、單一碼)是計算機科學領域里的一項業界標准,包括字元集、編碼方案等。
Unicode 是為了解決傳統的字元編碼方案的局限而產生的,它為每種語言中的每個字元設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。1990年開始研發,1994年正式公布。
Unicode通常用兩個位元組表示一個字元,原有的英文編碼從單位元組變成雙位元組,只需要把高位元組全部填為0就可以。
因為Python的誕生比Unicode標准發布的時間還要早,所以最早的Python只支持ASCII編碼,普通的字元串'ABC'在Python內部都是ASCII編碼的。
Unicode 是為了解決傳統的字元編碼方案的局限而產生的,例如ISO 8859所定義的字元雖然在不同的國家中廣泛地使用,可是在不同國家間卻經常出現不兼容的情況。
很多傳統的編碼方式都有一個共同的問題,即容許電腦處理雙語環境(通常使用拉丁字母以及其本地語言),但卻無法同時支持多語言環境(指可同時處理多種語言混合的情況)。
(1)java輸出俄文字母表擴展閱讀:
Unicode 兼容於 ASCII 字元並被大多數程序所支持,前128個 Unicode 碼同 ASCII 碼具有同樣的位元組值;Unicode 字元從 U+0020 到 U+007E 等同與 ASCII 碼的 0x20 到 0x7E,不同於支持拉丁字母的7位 ASCII。
Unicode 對每個字元進行16位值的編碼設置,它允許幾萬個字元,例如 Unicode 2.0 版包含 38,885 個字元,它也可以進行擴展,如UTF-16允許用16位字元組合為一百萬或更多的字元,UTF 將編碼轉換為真實的二進制位。
Unicode 完全兼容於國際標准 ISO/IEC 10646-1; 1993,它是 ISO 10646 的一個子集,並支持用兩個八進制數的 ISO UCS-2(Universal Character Set)。
JavaScript 1.3 版本對 Unicode 的支持意味著您可以任意地在程序中使用本地的字元以及特殊的科學符號。Unicode 提供了一種標準的方法來編碼多語言文本,並且因為它兼容於 ASCII ,您也可以隨意使用 ASCII 字元。