Windows記事本的ANSI Unicode UTF 8這三種編碼模式有什麼區別

2022-03-03 10:20:26 字數 4826 閱讀 7634

1樓:盤默

ansi是一種字元**,為使計算機支援更多語言,通常使用 0x80~0xff 範圍的 2 個位元組來表示 1 個字元。表示英文字元時用一個位元組,表示中文用兩個或四個位元組。

unicode(統一碼、萬國碼、單一碼)是電腦科學領域裡的一項業界標準,包括字符集、編碼方案等。unicode 是為了解決傳統的字元編碼方案的侷限而產生的,它為每種語言中的每個字元設定了統一併且唯一的二進位制編碼,以滿足跨語言、跨平臺進行文字轉換、處理的要求。2023年開始研發,2023年正式公佈。

unicode是國際組織制定的可以容納世界上所有文字和符號的字元編碼方案。目前的 unicode字元分為17組編排,0x0000 至 0x10ffff,每組稱為平面(plane),而每平面擁有65536個碼位,共1114112個。然而目前只用了少數平面。

utf-8、utf-16、utf-32都是將數字轉換到程式資料的編碼方案。

通用字符集(universal character set, ucs)是由iso制定的iso 10646(或稱 iso/iec 10646)標準所定義的標準字符集。ucs-2用兩個位元組編碼,ucs-4用4個位元組編碼。

utf-8(8-bit unicode transformation format)是一種針對unicode的可變長度字元編碼,又稱萬國碼。由ken thompson於2023年建立。現在已經標準化為rfc 3629。

utf-8用1到6個位元組編碼unicode字元。用在網頁上可以同一頁面顯示中文簡體繁 體及其它語言(如英文,日文,韓文)。

2樓:權巨集勝

ansi比較好 他是適應你作業系統語言的編碼格式

windows記事本的ansi、unicode、utf-8這三種編碼模式有什麼區別?

3樓:匿名使用者

ansi通常使用 0x80~0xff 範圍的 2 個位元組來表示 1 個字元。unicode字元分為17組編排,   utf-8用1到6個位元組編碼unicode字元。

ansi是一種字元**,為使計算機支援更多語言,通常使用 0x80~0xff 範圍的 2 個位元組來表示 1 個字元。表示英文字元時用一個位元組,表示中文用兩個或四個位元組。

unicode(統一碼、萬國碼、單一碼)是電腦科學領域裡的一項業界標準,包括字符集、編碼方案等。unicode 是為了解決傳統的字元編碼方案的侷限而產生的,它為每種語言中的每個字元設定了統一併且唯一的二進位制編碼,以滿足跨語言、跨平臺進行文字轉換、處理的要求。2023年開始研發,2023年正式公佈。

unicode是國際組織制定的可以容納世界上所有文字和符號的字元編碼方案。目前的unicode字元分為17組編排,0x0000 至 0x10ffff,每組稱為平面(plane),而每平面擁有65536個碼位,共1114112個。然而目前只用了少數平面。

utf-8、utf-16、utf-32都是將數字轉換到程式資料的編碼方案。

通用字符集(universal character set, ucs)是由iso制定的iso 10646(或稱iso/iec 10646)標準所定義的標準字符集。ucs-2用兩個位元組編碼,ucs-4用4個位元組編碼。

utf-8(8-bit unicode transformation format)是一種針對unicode的可變長度字元編碼,又稱萬國碼。由ken thompson於2023年建立。現在已經標準化為rfc 3629。

utf-8用1到6個位元組編碼unicode字元。用在網頁上可以同一頁面顯示中文簡體繁體及其它語言(如英文,日文,韓文)。

4樓:盤默

一句話建議:涉及相容性考量時,不要用記事本,用專業的文字編輯器儲存為不帶 bom 的 utf-8。

如果是為了跨平臺相容性,只需要知道,在 windows 記事本的語境中:

所謂的「ansi」指的是對應當前系統 locale 的遺留(legacy)編碼。[1]

所謂的「unicode」指的是帶有 bom 的小端序 utf-16。[2]

所謂的「utf-8」指的是帶 bom 的 utf-8。[3]

gbk 等遺留編碼最麻煩,所以除非你知道自己在幹什麼否則不要再用了。

utf-16 理論上其實很好,位元組序也標明瞭,但 utf-16 畢竟不常用。

utf-8 本來是相容性最好的編碼但 windows 偏要加 bom 於是經常出問題。

所以,跨平臺相容性最好的其實就是不用記事本。

建議用 notepad++ 等正常的專業文字編輯器儲存為不帶 bom 的 utf-8。

另外,如果文字中所有字元都在 ascii 範圍內,那麼其實,記事本儲存的所謂的「ansi」檔案,和 ascii 或無 bom 的 utf-8 是一樣的。

電腦自帶txt記事本預設儲存的時候使用什麼編碼,是ansi還是utf-8

5樓:匿名使用者

是ansi碼。�0�2在儲存的時候,可以設定的。

6樓:匿名使用者

ansi

不同的國家和地區制定了不同的標準,由此產生了 gb2312、gbk、gb18030、big5、shift_jis 等各自的編碼標準。這些使用多個位元組來代表一個字元的各種漢字延伸編碼方式,稱為 ansi 編碼。在簡體中文windows作業系統中,ansi 編碼代表 gbk 編碼;在繁體中文windows作業系統中,ansi編碼代表big5;在日文windows作業系統中,ansi 編碼代表 shift_jis 編碼。

7樓:匿名使用者

你在另存為的時候命名的下面有個字元編碼 你看看就知道了

文字文件的ansi編碼與unicode有什麼區別?

8樓:匿名使用者

編碼指不同國家的語言在計算機中的一種儲存和解釋規範

ansi與ascii

n最初,internet上只有一種字符集——ansi的ascii字符集(american standard code for information interchange, 「美國資訊交換標準碼),它使用7 bits來表示一個字元,總共表示128個字元,後來ibm公司在此基礎上進行了擴充套件,用8bit來表示一個字元,總共可以表示256個字元,充分利用了一個位元組所能表達的最大資訊

nansi字符集:ascii字符集,以及由此派生併相容的字符集,如:gb2312,正式的名稱為mbcs(multi-byte chactacter system,多位元組字元系統),通常也稱為ansi字符集。

unicode與utf8,utf16

n由於每種語言都制定了自己的字符集,導致最後存在的各種字符集實在太多,在國際交流中要經常轉換字符集非常不便。因此,產生了unicode字符集,它固定使用16 bits(兩個位元組)來表示一個字元,共可以表示65536個字元

n標準的unicode稱為utf-16(utf:ucs transformation format )。後來為了雙位元組的unicode能夠在現存的處理單位元組的系統上正確傳輸,出現了utf-8,使用類似mbcs的方式對unicode進行編碼。

(unicode字符集有多種編碼形式)

例如「連通」兩個字的unicode標準編碼utf-16 (big endian)為:de 8f 1a 90

而其utf-8編碼為:e8 bf 9e e9 80 9a

n當一個軟體開啟一個文字時,它要做的第一件事是決定這個文字究竟是使用哪種字符集的哪種編碼儲存的。軟體一般採用三種方式來決定文字的字符集和編碼:

檢測檔案頭標識,提示使用者選擇,根據一定的規則猜測

最標準的途徑是檢測文字最開頭的幾個位元組,開頭位元組 charset/encoding,如下表:

ef bb bf utf-8

fe ff utf-16/ucs-2, little endian

ff fe utf-16/ucs-2, big endian

ff fe 00 00 utf-32/ucs-4, little endian.

00 00 fe ff utf-32/ucs-4, big-endian.

windows作業系統unicode文字編碼格式是utf-8還是utf-16??現在的系統 20

9樓:山水阿銳

檔案的字符集在windows下有兩種,一種是ansi,一種unicode。

對於unicode,windows支援了它的三種編碼方式,一種是小尾編碼(unicode),一種是大尾編碼(bigendianunicode),一種是utf-8編碼。

我們可以從檔案的頭部來區分一個檔案是屬於哪種編碼。當頭部開始的兩個位元組為 ff fe時,是unicode的小尾編碼;當頭部的兩個位元組為fe

ff時,是unicode的大尾編碼;當頭部兩個位元組為ef bb時,是unicode的utf-8編碼;當它不為這些時,則是ansi編碼。

按照如上所說,我們可以通過讀取檔案頭的兩個位元組來判斷檔案的編碼格式,**如下(c#**):

程式中system.text.encoding.default是指作業系統的當前 ansi **頁的編碼。

1: public system.text.encoding getfileencodetype(string filename)

2:12: else if(buffer[0]==0xfe && buffer[1]==0xff)

13:16: else if(buffer[0]==0xff && buffer[1]==0xfe)

17:20: else

21:24: }

25: else

26:29: }

10樓:匿名使用者

utf-16,因為每個字元佔兩個位元組

電腦記事本出現亂碼,記事本亂碼,要怎麼恢復?

120位粉絲問題分析造成記事本打不開的原因有很多。其中包括你電腦的字型庫不充分,通過記事本開啟及儲存的編碼不正確,軟體故障以及相容性的問題。也有可能不是而被軟體或者人為改動了等情況。所以要根據具體情況來分析記事本開啟出現亂碼的故障。解決方法1 最簡單的方法就是將你的txt文件的字尾名改掉,要看你改成...

記事本和text有什麼區別啊,記事本 txt 和 text 有什麼區別啊,

您好!txt是所有作業系統通用支援的一種文字格式,也是電腦上最常見的一種格式,它只能用於儲存文字。而.text並不是系統上自帶的檔案格式,也許是第三方軟體生成的格式,具體用途應該與.txt相似。我遇到text檔案 應該是在用python網頁爬蟲的時候,應該text檔案是無法直接開啟的,用json模組...

記事本怎麼自動空行,記事本中如何刪除文字以下的空行

html裡的換行有兩種,具體的內部html語法怎麼實現的忘了。word文件裡也有類似格式,一種是直接按enter,另一種是shift enter,後者只是格式顯示上換行實際還是一段文字。後面這種大概叫 手動換行符 如果允許顯示隱藏符號可以看出區別來。從瀏覽器之類顯示帶格式文字的視窗中複製出來的內容,...