Compu ̄r Engineering andApplications計(jì)算機(jī)工程與應(yīng)用
英中可比語(yǔ)料庫(kù)中多詞表達(dá)自動(dòng)提取與對(duì)齊
肖 健,徐建,徐曉蘭,袁琦
XIA0 Jian,XU Jian,XU Xiao—lan,YUAN Qi
中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院,北京100044
China Center for Information Industry Development,Beijing 100044,China
E-mail:Yq@ccidit.com
XIAO Jian,XU Jian,XU Xiao-lan,et a1.Automatic extraction and alignment of muliword expressifons from English-Chi-
nese comparable corpus.Computer Engineering and AppHeafions,2010,46(31):130-134.
Abstract:Mulifword Expressions(MWE)are important for practical applications,such as machine translation(henceforth,
MT),multilingual information retrieval,data mining and other natural language processing.A method of combining semantic
template and statistical tool is proposed for automatically extracting native English MWE from three—tuple comparable corpus.
Thesaurus-based and distributional methods are harnessed to calculate the semantic relations between words for improving
MWE coverage.GIZA++is executed to align words at sentence leve1.aiming at obtaining Chinese MWE candidates.For each
native English MWE,all of the Chinese MWE candidates are collected and sorted according to their CO-occurrence afinitfy.
Only the top one is accepted as true Chinese translation of the given English MWE.Experimental results show the proposed
technique improves MWE extraction and alignment eficifently.
Key words:three—tuple comparable corpus;multiword expressions(MWE);semantic template
摘要:多詞表達(dá)(MwE)不僅用來(lái)提高當(dāng)前機(jī)器翻譯系統(tǒng)質(zhì)量,而且也用于跨語(yǔ)言檢索和數(shù)據(jù)挖掘等其他自然語(yǔ)言處理領(lǐng)域。
為此,提出了基于語(yǔ)義模板與基于統(tǒng)計(jì)工具相結(jié)合的方法從三元紐可比語(yǔ)料庫(kù)中自動(dòng)提取本族英語(yǔ)MWE。采用基于詞表和分
布方法計(jì)算詞語(yǔ)間的相似度,擴(kuò)大MWE覆蓋范圍。利用GIzA++對(duì)齊算法提取對(duì)譯的中文MwE,依據(jù)統(tǒng)計(jì)方法計(jì)算互譯概率
信息,根據(jù)概率大小,選擇最佳英漢MWE互譯對(duì)。實(shí)驗(yàn)結(jié)果表明上述方法可以有效提高MWE提取和對(duì)齊的準(zhǔn)確率。
關(guān)鍵詞:三元組可比語(yǔ)料庫(kù);多詞表達(dá)(MWE);語(yǔ)義模板
DOI:10.3778 ̄.issn.1002.8331.20r0_31.037 文章編號(hào):1002.8331(2010)31-0130 05 文獻(xiàn)標(biāo)識(shí)碼:A 中圖分類(lèi)號(hào):TP391
1引言
平行語(yǔ)料庫(kù)(parallel corpus)由源語(yǔ)文本和目標(biāo)語(yǔ)文本構(gòu)
成,長(zhǎng)期以來(lái)在機(jī)器翻譯領(lǐng)域被廣泛用于構(gòu)建MWE互譯對(duì)的
研究和應(yīng)用,用以提高機(jī)器翻譯系統(tǒng)的質(zhì)量。隨著研究的進(jìn)
一
(weapons of mass destruction)等,而這些新詞及其對(duì)譯詞對(duì)
MWE提取和對(duì)齊起著十分重要的作用。
可比語(yǔ)料庫(kù)(comparable corpus)是由某些具有相同屬性
步深入,研究人員發(fā)現(xiàn)基于平行語(yǔ)料庫(kù)獲取MWE互譯對(duì)存
在漢英機(jī)器翻譯中,目標(biāo)語(yǔ)若為英語(yǔ)且由中國(guó)人翻譯,則 pus)由本族英語(yǔ)(本族英語(yǔ)指由以英語(yǔ)為母語(yǔ)的人寫(xiě)的英語(yǔ))
的文本構(gòu)成,EAGLES項(xiàng)目1996年將可比語(yǔ)料庫(kù)定義為:“選
取了一種語(yǔ)言以上的相似文本或者一種語(yǔ)言的不同類(lèi)型文
本”。本文的三元組可比語(yǔ)料庫(kù)(tree.htuple comparable cor.
在如下不足:(1)MWE互譯對(duì)中,目標(biāo)語(yǔ)存在“扭斜”現(xiàn)象。
帶有明顯的“翻譯腔”,稱(chēng)之為中式英語(yǔ)(Chinese translatio.
文本、中式英語(yǔ)文本和中文文本構(gòu)成。通過(guò)對(duì)比本族英語(yǔ)和
中式英語(yǔ)之間的差別,解決由中式英語(yǔ)導(dǎo)致的“扭斜”問(wèn)題,奠
nese)。例如,當(dāng)我們使用Google檢索“英國(guó)電子信息產(chǎn)品”,
檢索的結(jié)果均涉及“英國(guó)電子圖書(shū)文獻(xiàn)”。其根源是國(guó)內(nèi)具有 定了高質(zhì)量的MWE互譯對(duì)基礎(chǔ),從而提高機(jī)器翻澤的質(zhì)量。
扭斜特征的平行語(yǔ)料庫(kù)訓(xùn)練得到的應(yīng)用系統(tǒng),因?yàn)樵搼?yīng)用系 當(dāng)然,這樣的可比語(yǔ)料庫(kù),除了有助于提高機(jī)器譯文質(zhì)量之
具有扭斜的語(yǔ)言模型,所以通過(guò)該平行語(yǔ)料庫(kù),國(guó)內(nèi)的“電子 外,也有助于提高人工翻譯質(zhì)量。三元組可比語(yǔ)料庫(kù)中的英
信息產(chǎn)品”無(wú)法生成“elecrtonics and IT products”,但卻生成 語(yǔ)是由本族英語(yǔ)和中式英語(yǔ)構(gòu)成,由不同的人用同一種語(yǔ)言
了扭斜的“electronic information products”;(2)平行語(yǔ)料庫(kù)難 來(lái)描述事件。例如,針對(duì)體育賽事,不同的人很可能分別用本
以捕獲新詞(未登錄詞)及其對(duì)譯詞,例如,大規(guī)模殺傷武器
族英語(yǔ)和中式英語(yǔ)對(duì)同一事件進(jìn)行報(bào)道,因此具有可比性。
基金項(xiàng)目:國(guó)家自然科學(xué)基金(the National Natural Science Foundation of China under Grant No.60872118)。
作者簡(jiǎn)介:肖健(1972.),男,碩士 研究方向:自然語(yǔ)言處理、機(jī)器翻譯;徐建(1982.),男,碩士,研究方向:自然語(yǔ)言處理、機(jī)器翻譯;徐曉蘭
(1964.),女,碩士,研究方向;計(jì)算機(jī)應(yīng)用、中文信息處理;袁琦(1939.),男,研究員,研究方向:中文信息處理、機(jī)器翻譯。
收稿日期:2009.12.30修回日期:2010—03-17
本文發(fā)布于:2023-11-18 08:12:20,感謝您對(duì)本站的認(rèn)可!
本文鏈接:http://www.newhan.cn/zhishi/a/88/32382.html
版權(quán)聲明:本站內(nèi)容均來(lái)自互聯(lián)網(wǎng),僅供演示用,請(qǐng)勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請(qǐng)與我們聯(lián)系,我們將在24小時(shí)內(nèi)刪除。
本文word下載地址:英中可比語(yǔ)料庫(kù)中多詞表達(dá)自動(dòng)提取與對(duì)齊.doc
本文 PDF 下載地址:英中可比語(yǔ)料庫(kù)中多詞表達(dá)自動(dòng)提取與對(duì)齊.pdf
| 留言與評(píng)論(共有 0 條評(píng)論) |