2024年2月19日發(fā)(作者:德音莫違)
我國(guó)哈薩克族詞匯與哈薩克斯坦詞匯間自動(dòng)轉(zhuǎn)換的研究
古麗扎達(dá)·海沙;古麗拉·阿東別克
【摘 要】由于居住在不同地區(qū)的哈薩克族長(zhǎng)期受到不同文化、不同歷史等因素的影響,我國(guó)哈薩克族使用的詞匯與啥薩克斯坦啥薩克語詞匯之間發(fā)音、術(shù)語、口語等方面均有所不同.處理這方面差異的方法是先將用戶輸入的詞匯根據(jù)系統(tǒng)所構(gòu)建的對(duì)照詞典自動(dòng)轉(zhuǎn)換,如果詞典里未找到該詞匯,則根據(jù)哈薩克阿拉伯字母和哈薩克斯坦斯拉夫字母之間的對(duì)應(yīng)關(guān)系自動(dòng)轉(zhuǎn)換,其系統(tǒng)詞典是基于哈薩克語規(guī)則和首字Hash表的詞典結(jié)構(gòu),具有較強(qiáng)的擴(kuò)展性和使用性.%The Kazakh vocabulary ud
by the Chine Kazakhs has differences to that by Kazakhstan Republic in
pronunciation, terminology and tongue as the Kazakhs people living in
different regions have been influencing in long-term by the factors
including different culture and different history, etc. The method
introduced in this article in regard to dealing with the differences is that,
first, the words the ur inputted are to be automatically converted
according to the vocabulary comparison dictionary constructed by the
system. If the words can not be found in the dictionary, then they will be
automatically converted according to the corresponding relations between
the Kazakh Arabian letters and the Kazakhstan Slavic letters. The system
dictionary is bad on the Kazakh word rules and in the structure with
initial character Hash table, and has strong scalability and availability.
【期刊名稱】《計(jì)算機(jī)應(yīng)用與軟件》
【年(卷),期】2012(029)007
【總頁(yè)數(shù)】3頁(yè)(P3-5)
【關(guān)鍵詞】哈薩克語;對(duì)照詞典;詞典結(jié)構(gòu);哈希
【作 者】古麗扎達(dá)·海沙;古麗拉·阿東別克
【作者單位】新疆大學(xué)信息科學(xué)與工程學(xué)院 新疆烏魯木齊830046;新疆大學(xué)信息科學(xué)與工程學(xué)院 新疆烏魯木齊830046
【正文語種】中 文
【中圖分類】TP391
0 引言
哈薩克族作為跨境民族居住在全球不同的國(guó)家和地區(qū),因此跨境文化交流的程度和效率對(duì)哈薩克族的發(fā)展?fàn)顩r具有重大影響。由于歷史的原因,同一哈薩克語言發(fā)展出兩種不同的文字形式——以阿拉伯文字母為基礎(chǔ)的中國(guó)哈薩克阿拉伯文字和以斯拉夫文字母為基礎(chǔ)的哈薩克斯拉夫文字這兩種文字形式。
隨著全球經(jīng)濟(jì)一體化發(fā)展,中國(guó)和哈薩克斯坦等國(guó)的經(jīng)濟(jì)貿(mào)易往來日益頻繁,哈薩克語的使用交流范圍擴(kuò)大,哈薩克語成為我國(guó)哈薩克族同其他國(guó)家地區(qū)的哈薩克族經(jīng)濟(jì)文化交流的重要載體。由于雙方術(shù)語和外來詞匯的不同,需要先轉(zhuǎn)換對(duì)方使用的書籍、文件、合同、書信等文字資料的詞匯,現(xiàn)在的傳統(tǒng)做法是人工轉(zhuǎn)換,這種轉(zhuǎn)換方式不適用于跨國(guó)民族交流的深入快速發(fā)展,而且耗費(fèi)人力、物力、財(cái)力,阻礙了經(jīng)濟(jì)文化交流的程度。
為了適應(yīng)這方面的需要,本文研究在Windows環(huán)境下,哈薩克語的同一詞匯的兩國(guó)詞匯間對(duì)照和相互轉(zhuǎn)換的實(shí)現(xiàn)。
1 不同詞匯及外來詞匯的收集工作
1.1 兩國(guó)間不同哈薩克詞匯構(gòu)建規(guī)則的研究[2,3]
詞匯是構(gòu)建電子詞典的素材,電子詞典納入的詞匯的數(shù)量和詞匯構(gòu)建的規(guī)則直接影響到系統(tǒng)翻譯的質(zhì)量和應(yīng)用范圍[1]。
由于哈薩克族居住在不同國(guó)家和地區(qū),受到不同的文化及經(jīng)歷不同的歷史,在哈薩克語中產(chǎn)生了同一個(gè)詞匯或者同一個(gè)詞組的不同說法。其中,中國(guó)與哈薩克斯坦間哈薩克語在發(fā)音、術(shù)語、口語等方面的差異特別明顯,如表1所示。這種差異主要體現(xiàn)在以下幾個(gè)方面(如表1所示):
1.1.1 元音的差異
(1)在國(guó)內(nèi)的哈薩克語中的后元音在哈薩克斯坦哈薩克語中變成它不僅表現(xiàn)在口頭表達(dá)上,而且也在書面語里都能見到。
(2)在國(guó)內(nèi)哈薩克語中的輪后元音在哈薩克斯坦哈薩克語中變成或者a。
1.1.2 輔音的差異
(1)在國(guó)內(nèi)的哈薩克語中的在哈薩克斯坦哈薩克語中讀為。
(2)在國(guó)內(nèi)哈薩克語中的b有時(shí)在哈薩克斯坦哈薩克語中讀成為p。
1.1.3 外來詞的介入
由于該民族居住地區(qū)的不同而引進(jìn)了不同外來詞,中國(guó)哈薩克族外來詞的來源多數(shù)是漢語,而哈薩克斯坦外來詞來自俄語等,使同一個(gè)語言中出現(xiàn)不同的外來詞[3]。
表1 同一詞匯之間的不同解釋?
本文中以《友鄰》雜志和《漢俄哈對(duì)照對(duì)話》及2008年由哈薩克斯坦阿斯塔納出版社整理的《考古,人種學(xué)和藝術(shù)史詞典(哈俄英)》書作為詞匯語料,從中搜集了兩千條以上中國(guó)與哈薩克斯坦哈薩克語之間,同一詞匯的不同解釋和外來詞,其中大多數(shù)詞匯包含了常用的哈薩克語專業(yè)詞匯。
2 詞典的設(shè)計(jì)與實(shí)現(xiàn)
2.1 詞典的組織結(jié)構(gòu)
本文采用的電子詞典是基于整詞二分結(jié)構(gòu),基于整詞二分的分詞詞典機(jī)制是一種使用較廣的分詞詞典機(jī)制,該機(jī)制的詞典結(jié)構(gòu)分為首字Hash散列表,詞索引表詞典正文三級(jí)[4]。詞典正文是以詞為單位的有序表,詞索引表是指向詞典中每個(gè)詞的指針表。詞首字散列函數(shù)根據(jù)哈薩克語字母的編碼特點(diǎn),通過1次Hash哈希運(yùn)算即可直接定位哈語字母在字散列表中的序號(hào),再結(jié)合索引表很容易確定指定詞在詞典正文中的可能位置范圍,進(jìn)而在可能范圍內(nèi)通過整詞二分進(jìn)行定位。這種機(jī)制比較適合于“確定詞條查詢”方式。這種算法的優(yōu)點(diǎn)是數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,占用空間小,構(gòu)建及維護(hù)簡(jiǎn)單易行。缺點(diǎn)是由于查詢過程采用全詞匹配,故效率較低。但是本文詞匯庫(kù)里的詞條只有2000條左右完全能用這個(gè)方法。
2.2 詞典結(jié)構(gòu)
為了電子詞典高度形式化的信息和規(guī)則表示法描述詞典詞條的綜合屬性。電子詞典由很多項(xiàng)組成,其中每個(gè)詞項(xiàng)還包含不同屬性描述信息[5]。用簡(jiǎn)單化的Jakson圖來描述的詞典的結(jié)構(gòu)如圖1所示。
圖1 電子詞典的結(jié)構(gòu)
此結(jié)構(gòu)可以用下面的BNF形式描述:
<電子詞典>::={<詞項(xiàng)>}
<詞項(xiàng)>::={<詞條><綜合屬性>}
<綜合屬性>::={<描述信息><詞性>}
在上面的BNF形式的描述中,詞匯的<綜合屬性>采用復(fù)雜特征表示,每一個(gè)特征采用屬性-值結(jié)構(gòu)表示,具體說明如下:
<描述信息>—提供該單詞用哈薩克斯坦和中國(guó)哈薩克語的不同描述的說明性信息
<詞性>—指出該詞條的詞性
2.3 索引表設(shè)計(jì)與實(shí)現(xiàn)
索引表文件提供哈薩克文原形單詞和該詞條有關(guān)信息記錄在詞條信息庫(kù)中的偏移地址與詞條信息的長(zhǎng)度。對(duì)于詞典的構(gòu)造首先準(zhǔn)備哈薩克斯坦與中國(guó)哈薩克之間同一詞匯的不同描述的信息詞條,錄入計(jì)算機(jī)并生成索引。索引文件中的索引項(xiàng)按組成哈薩克文單詞字母的Unicode編碼從小到大的順序排序。如果兩個(gè)哈薩克單詞的前N個(gè)字符相同,則比較兩個(gè)單詞第N+1個(gè)字符編碼的大小進(jìn)行排序。查詢的算法如下:
Step1 接受用戶的輸入。
Step2 把以詞作為索引的查詢?cè)O(shè)計(jì)成哈希映射的形式,從索引表讀取相應(yīng)的單詞及其屬性集的長(zhǎng)度和在詞條信息庫(kù)中的偏移量。
Step3 從詞條信息庫(kù)讀取與用戶查找的單詞有關(guān)的詳細(xì)信息。
Step4 如未找到匹配詞條,詞根據(jù)哈薩克阿拉伯字母和哈薩克斯坦斯拉夫字母之間的對(duì)應(yīng)關(guān)系自動(dòng)轉(zhuǎn)換、自動(dòng)列出相關(guān)詞匯。
這種查詢方式速度快,效率高。在查詢之前,要將詞典文件映射到一塊內(nèi)存中去,這樣在內(nèi)存中查詢,既方便查詢,查詢速度又快。
2.4 詞條信息庫(kù)設(shè)計(jì)
詞條庫(kù)文件的組織和構(gòu)造對(duì)本系統(tǒng)質(zhì)量的影響非常大。詞條信息庫(kù)除了提供正確、完整的單詞信息以外,還必須考慮單詞信息查找和提取效率。詞條信息庫(kù)的結(jié)構(gòu)分析在詞典構(gòu)造中占據(jù)非常重要的地位。詞條信息庫(kù)是本詞典的核心,它提供與中國(guó)哈薩克文單詞有關(guān)的綜合屬性信息和哈薩克斯坦斯拉夫字母對(duì)應(yīng)的描述信息。
2.5 程序流程圖
哈薩克語同一詞匯在中國(guó)與哈薩克斯坦詞匯間轉(zhuǎn)換流程[6]如圖2 所示。
圖2 字母轉(zhuǎn)換流程圖
3 詞條文件的加密和解密
本詞典使用的詞條庫(kù)是以文本文件的形式存儲(chǔ)在機(jī)器上。對(duì)該文件先用8位移位加密然后用“異或”加密方法進(jìn)行加密。本詞典用C#語言編寫詞條文件加密(OnEncry)算法,其中key為一個(gè)字節(jié)長(zhǎng)度的密鑰。
解密算法是加密算法的逆過程,密鑰不變。更換密鑰時(shí),需將算法中的key值做相應(yīng)變動(dòng)。詞條文件加密(OnDecry)算法,其中key為一個(gè)字節(jié)長(zhǎng)度的密鑰。
4 結(jié)語
電子詞典是哈薩克斯坦哈薩克語和中國(guó)哈薩克語詞匯級(jí)翻譯軟件的基礎(chǔ),因此研究一種有效的對(duì)比詞匯和外來詞庫(kù)的自動(dòng)構(gòu)建具有重要的現(xiàn)實(shí)意義。本詞典是用整詞二分法,基于規(guī)則和基于哈希表的哈薩克語詞典搜索法,使它把所學(xué)專業(yè)知識(shí)和母語聯(lián)系起來。其重要特點(diǎn)是:(1)建立中國(guó)與哈薩克斯坦哈薩克語同一詞匯之間的不同對(duì)照詞匯庫(kù)。(2)建立中國(guó)與哈薩克斯坦哈薩克語同一外來詞之間的對(duì)照詞匯庫(kù)。(3)詞庫(kù)里沒有的詞根據(jù)哈薩克阿拉伯字母和哈薩克斯坦斯拉夫字母之間的對(duì)應(yīng)關(guān)系自動(dòng)轉(zhuǎn)換、自動(dòng)列出相關(guān)詞匯及自動(dòng)升級(jí)等功能。
本詞典是在不同詞匯轉(zhuǎn)換領(lǐng)域研究工作中實(shí)現(xiàn)的第一個(gè)研究成果,因此它需要進(jìn)一步完善,如詞典存儲(chǔ)容量的控制、用戶詞條的擴(kuò)充等。
參考文獻(xiàn)
[1]賀勝,曲維光,許超.面向中文自動(dòng)分詞的可擴(kuò)展式電子詞典研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(21):199-201.
[2]阿力肯·阿吾哈力.哈薩克斯坦哈薩克語教程[M].民族出版社,2006:12-76.
[3]Garipolla Em,Kamal Burhan,Almas ary of the
archeological,ethnographic and art history terms(Kazakh-Russian-English)[M].Astana Publishing,2008:5-46.
[4]楊毅,王禹橋.一種改進(jìn)逐字二分中文分詞詞典設(shè)計(jì)[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào),2009,31(4):124-128.
[5]熱西旦·塔依,吐爾根·依布拉音.漢文一維吾爾文雙語語料庫(kù)中基于詞典譯文的句子對(duì)齊方法研究[J].新疆大學(xué)學(xué)報(bào):自然科學(xué)版,2009,26(3):359-363.
[6]鞏政,郭莉,楊旭華.非標(biāo)準(zhǔn)蒙古文字符編碼轉(zhuǎn)換為國(guó)際編碼的一種方法[J].內(nèi)蒙古大學(xué)學(xué)報(bào),2008,39(2):216-219.
本文發(fā)布于:2024-02-19 13:25:29,感謝您對(duì)本站的認(rèn)可!
本文鏈接:http://www.newhan.cn/zhishi/a/88/50283.html
版權(quán)聲明:本站內(nèi)容均來自互聯(lián)網(wǎng),僅供演示用,請(qǐng)勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請(qǐng)與我們聯(lián)系,我們將在24小時(shí)內(nèi)刪除。
本文word下載地址:我國(guó)哈薩克族詞匯與哈薩克斯坦詞匯間自動(dòng)轉(zhuǎn)換的研究.doc
本文 PDF 下載地址:我國(guó)哈薩克族詞匯與哈薩克斯坦詞匯間自動(dòng)轉(zhuǎn)換的研究.pdf
| 留言與評(píng)論(共有 0 條評(píng)論) |