漢字區位碼是采用一種科學可行的辦法,為每個漢字編一個唯一的代碼,以便計算機辨認、接收和處理。
中文名漢字區位碼
作用為每個漢字編一個唯一的代碼
優勢便計算機辨認、接收和處理
簡介在此介紹的是《國家標準信息交換漢字編碼》。
這種編碼經過加工整理一律以漢語拼音的字母為序,音節相同的字以使用頻率為序,其查找方法與一般漢語字典的漢字拼音音節索引查找法相同。
國家標準為了使每一個漢字有一個全國統一的代碼,1980年,我國頒布了第一個漢字編碼的國家標準:GB2312-80《信息交換用漢字編碼字符集》基本集,這個字符集是我國中文信息處理技術的發展基礎,也是目前國內所有漢字系統的統一標準。
由于國標碼是四位十六進制,為了便于交流,大家常用的是四位十進制的區位碼。所有的國標漢字與符號組成一個94×94的矩陣。
在此方陣中,每一行稱為一個"區",每一列稱為一個"位",因此,這個方陣實際上組成了一個有94個區(區號分別為01到94)、每個區內有94個位(位號分別為01到94)的漢字字符集。
一個漢字所在的區號和位號簡單地組合在一起就構成了該漢字的"區位碼"。在漢字的區位碼中,高兩位為區號,低兩位為位號,在區位碼中,01-09區為682個特殊字符,16~87區為漢字區,包含6763個漢字。
其中16-55區為一級漢字(3755個最常用的漢字,按拼音字母的次序排列),56-87區為二級漢字(3008個漢字,按部首次序排列)。
所以,當我們需要n個任意漢字時,我們不必建一個全部漢字表,而是利用區位碼實現常用漢字的提取。
現在標準制訂的大方向沒有問題了,雖然在國際會議上,各方仍然為了各自的利益爭論不休,但已經有了基本規則,ISO10646(GB13000/Unicode)已成為主流編碼。[1]
參考資料本文發布于:2023-06-04 21:47:44,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/92/200394.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:漢字區位碼(國家標準信息交換漢字編碼).doc
本文 PDF 下載地址:漢字區位碼(國家標準信息交換漢字編碼).pdf
| 留言與評論(共有 0 條評論) |