作者:吳桐桐,王貴濤,趙錦銘,劉昭然,漆桂林,李元放
論文發(fā)表:EMNLP2022
論文下載:https://arxiv.org/abs/2210.08759
文章來源:知乎@漆桂林
01
背景介紹
隨著大數(shù)據(jù)時(shí)代的到來,互聯(lián)網(wǎng)中每天都會(huì)產(chǎn)生海量的信息,且模態(tài)多樣化。多數(shù)的信息為半結(jié)構(gòu)或非結(jié)構(gòu)數(shù)據(jù),沒有辦法被直接被計(jì)算機(jī)系統(tǒng)利用。因此,如何低成本地抽取出有效的信息變得越來越重要。信息抽取旨在從大規(guī)模半結(jié)構(gòu)或非結(jié)構(gòu)的自然語言文本中抽取出結(jié)構(gòu)化信息。關(guān)系抽取是信息抽取的重要子任務(wù),目的是從文本中抽取實(shí)體之間存在的各類關(guān)系類別,構(gòu)成“實(shí)體-關(guān)系-實(shí)體”的三元組結(jié)構(gòu)化形式,是自然語言處理領(lǐng)域的重要研究方向[1]。
語音是日常生活中交流的主要媒介,同時(shí),語音是一種富含信息的信號(hào)載體,它承載了語義、說話人、情緒、語種、方言等諸多信息。語音信息抽取類似于人類語言學(xué)習(xí)的思路,采用機(jī)器學(xué)習(xí)手段,讓機(jī)器通過“聆聽”大量的語音數(shù)據(jù),并從語音數(shù)據(jù)中學(xué)習(xí)蘊(yùn)含其中的規(guī)律。
圖 1 包含關(guān)系信息的語音來源
盡管近年來關(guān)系抽取是一項(xiàng)探索性很強(qiáng)的任務(wù),但大多數(shù)研究都是在文本數(shù)據(jù)集上進(jìn)行的,而非語音數(shù)據(jù)。然而,如圖1所示,語音里面同樣包含了大量的關(guān)系信息可以用來抽取,如面試、新聞、聊天、演講等等。經(jīng)典方法抽取內(nèi)容是先對(duì)語音進(jìn)行轉(zhuǎn)錄,然后根據(jù)轉(zhuǎn)錄后的文本進(jìn)行關(guān)系抽取,從語音到文本,再從文本到知識(shí)圖譜,可是這種方法會(huì)在中間的文本過程引入額外的誤差。我們首次提出一個(gè)端到端的方法,把前面的工作囊括起來,直接使用語音進(jìn)行關(guān)系抽取。這樣可以減少過程中的誤差,并提高關(guān)系抽取的效果。如圖2所示。因此,面向語音數(shù)據(jù)的端到端式關(guān)系抽取具有重要的研究意義。
圖 2 傳統(tǒng)基于文本的關(guān)系抽取、管線方法關(guān)系抽取和端到端式語音關(guān)系抽取的比較
--
02
相關(guān)工作
1. 關(guān)系抽取
關(guān)系抽取是信息抽取重要的子任務(wù)之一,關(guān)系抽取的目的是從文本中抽取實(shí)體之間存在的各類關(guān)系類別,構(gòu)成“實(shí)體-關(guān)系-實(shí)體”的三元組結(jié)構(gòu)化形式,是構(gòu)建知識(shí)圖譜,知識(shí)問答等系統(tǒng)重要的一部分。隨著計(jì)算機(jī)計(jì)算能力的增加,基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法達(dá)到了很好的效果,機(jī)器學(xué)習(xí)方法也成為了信息抽取中廣泛應(yīng)用的方法。機(jī)器學(xué)習(xí)可以看作映射,輸入為標(biāo)注語料,輸出為期望結(jié)果,在人工標(biāo)注數(shù)據(jù)集的基礎(chǔ)上訓(xùn)練模型分類器,使得模型學(xué)習(xí)不同關(guān)系類型語句的特征。
關(guān)系抽取任務(wù)通常遵循管道處理,稱為管線方法,將關(guān)系抽取任務(wù)拆分為命名實(shí)體識(shí)別和關(guān)系分類兩個(gè)子任務(wù),先進(jìn)行實(shí)體識(shí)別,然后在實(shí)體識(shí)別完成的基礎(chǔ)上抽取實(shí)體之間關(guān)系。管線方法通常無法捕獲實(shí)體和關(guān)系類型之間的聯(lián)合特征,命名實(shí)體識(shí)別的誤差會(huì)累計(jì)到接下來的關(guān)系分類模型之中。因此又有將命名實(shí)體識(shí)別和關(guān)系分類結(jié)合起來的聯(lián)合抽取方法,2019年,Nguyen[2]提出了實(shí)體和關(guān)系的聯(lián)合抽取模型,緩解了誤差累計(jì)的問題,實(shí)現(xiàn)了當(dāng)時(shí)最佳的性能。實(shí)體和關(guān)系聯(lián)合抽取的方法基于神經(jīng)網(wǎng)絡(luò)的端到端模型,與管線方法相比,聯(lián)合學(xué)習(xí)方法能夠捕獲實(shí)體和關(guān)系之間的聯(lián)合特征。
2. 語音識(shí)別
傳統(tǒng)語音識(shí)別模型建立在似然和概率的理論基礎(chǔ)之上,多數(shù)采用隱馬爾科夫高斯混合模型[3],在語音預(yù)處理階段需要對(duì)語音信號(hào)進(jìn)行抽樣組合,并使用線性預(yù)測(cè)的分析方法以預(yù)測(cè)信號(hào)。由于不同性別,不同的年齡,不同語言的人的發(fā)音不同,導(dǎo)致語音信息抽取十分復(fù)雜,傳統(tǒng)語音識(shí)別難以適應(yīng)這些不同場(chǎng)景。由于特征之間存在關(guān)聯(lián),隨著深度學(xué)習(xí)的出現(xiàn),模型可以將連續(xù)幀的語音特征組合后進(jìn)行訓(xùn)練,使語音識(shí)別的準(zhǔn)確率大幅提高。
語音領(lǐng)域有多種任務(wù),基礎(chǔ)任務(wù)是語音識(shí)別,可以將語音轉(zhuǎn)化為詞向量。在此基礎(chǔ)上可以進(jìn)行更多種語音相關(guān)的任務(wù):
語音識(shí)別+翻譯:將語音轉(zhuǎn)化為文本語音識(shí)別+意圖分類:可以對(duì)語音的內(nèi)容進(jìn)行分類語音識(shí)別+槽填充:把連續(xù)序列中每個(gè)詞賦予相應(yīng)的語義類別標(biāo)簽基于語音的任務(wù)沒有關(guān)系抽取,而基于關(guān)系抽取的任務(wù)又只關(guān)注從文本到實(shí)體和關(guān)系,沒有考慮文本的其他來源,因此會(huì)在語音轉(zhuǎn)文本的過程中引入額外的誤差。
--
03
語音關(guān)系抽取
我們將語音關(guān)系抽取定義為一個(gè)聯(lián)合實(shí)體和關(guān)系抽取任務(wù),它將一段語音作為輸入,并生成一組形式為<實(shí)體1,關(guān)系,實(shí)體2>的關(guān)系三元組作為輸出。
輸入: Speech Instance (.wav)
輸出: “[<entity1,relation,entity2>, …]”
例子:' Big Bang ' physicist Andrew Lange dead at 52 .
—> “[< Andrew Lange, person title, physicist >, < Andrew Lange, person age, 52 >]”
1. 任務(wù)難點(diǎn)
面向語音數(shù)據(jù)的端到端式關(guān)系抽取的關(guān)鍵問題就是讓計(jì)算機(jī)學(xué)會(huì)通過輸入語音數(shù)據(jù),輸出正確的實(shí)體和相應(yīng)的關(guān)系。
難點(diǎn)一:長(zhǎng)度限制。基于文本的深度學(xué)習(xí)模型往往有有限的最大輸入長(zhǎng)度,如BERT的最大長(zhǎng)度是512,而語音數(shù)據(jù)的向量很長(zhǎng),每秒一般有16000幀,幾秒的語音向量長(zhǎng)度能輕易達(dá)到十萬級(jí)別。如何抽取語音特征,縮短向量長(zhǎng)度是需要解決的問題。
難點(diǎn)二:跨模態(tài)對(duì)齊。模態(tài)指數(shù)據(jù)的存在形式,如文本、圖像、音頻、視頻等等。由于語音和文本是兩個(gè)不同的模態(tài),語音的詞向量和文本的詞向量的表示往往并不相同,如何將兩者相結(jié)合是一個(gè)難點(diǎn)。
2. 數(shù)據(jù)集構(gòu)建
由于沒有現(xiàn)成的關(guān)系抽取語音數(shù)據(jù)集,本文從現(xiàn)有的文本關(guān)系抽取語料庫中合成語音數(shù)據(jù)。
語音合成分為兩個(gè)步驟,為文本轉(zhuǎn)頻譜和頻譜轉(zhuǎn)語音。本文兩個(gè)步驟均使用預(yù)訓(xùn)練模型。文本轉(zhuǎn)頻譜的步驟本文選擇3個(gè)不同的預(yù)訓(xùn)練模型,分別是Glow-TTS,Speedy-Speech-WN和Tacotron2-DCA,頻譜轉(zhuǎn)語音的步驟本文選擇2個(gè)不同的預(yù)訓(xùn)練模型,分別是Multiband-MelGAN和WaveGrad,將這五個(gè)模型排列組合,并人工比較生成的語音效果,如圖3所示。最終使用的模型是文本轉(zhuǎn)頻譜模型Tacotron2-DCA和聲學(xué)模型MultiBand-MelGAN,聲音效果最為自然。
圖 3 語音合成中不同預(yù)訓(xùn)練模型的選擇
3. 語音關(guān)系抽取方法
(1)管線方法
管線方法是將語音數(shù)據(jù)先翻譯為文本,然后利用文本進(jìn)行關(guān)系抽取。語音識(shí)別模型本文選擇了Wav2Vec 2.0[4]的預(yù)訓(xùn)練模型“wav2vec2-large-960h-lv60-lf”處理語音,并使用T5的預(yù)訓(xùn)練模型“t5-small-wav2vec2-grammar-fixer”處理生成的文字,添加標(biāo)點(diǎn)并改變大小寫。
關(guān)系抽取本文選擇了文本端到端關(guān)系抽取模型SpERT[5]。訓(xùn)練文本關(guān)系抽取模型需要有標(biāo)注的訓(xùn)練集,SpERT需要的是實(shí)體和其在文本中對(duì)應(yīng)的跨度信息,關(guān)系和其對(duì)應(yīng)的實(shí)體。由于翻譯后的文本可能會(huì)出現(xiàn)單詞數(shù)量的變動(dòng),導(dǎo)致原來的跨度信息并沒有標(biāo)注到真實(shí)的實(shí)體,因此這里采用了相似度匹配算法來重新標(biāo)記數(shù)據(jù)集。
(2)端到端方法
仿照Gerard等人[7]提出的機(jī)器翻譯模型的框架,我們構(gòu)建了一個(gè)端到端式語音到文本模型SpeechRE,由兩個(gè)預(yù)訓(xùn)練模型和長(zhǎng)度適配器組成,如圖4所示。
模型的輸入是語音數(shù)據(jù),輸出含有關(guān)系信息的線性化序列。我們的方法結(jié)合了Wav2Vec 2.0編碼器和BART[6]解碼器。當(dāng)結(jié)合這兩個(gè)模型時(shí),在目標(biāo)句子長(zhǎng)度和編碼器輸出之間存在長(zhǎng)度差異。為此,有必要使用一個(gè)耦合模塊來縮短編碼器輸出,即長(zhǎng)度適配器。
圖 4 語音關(guān)系抽取模型結(jié)構(gòu)示意圖
--
04
實(shí)驗(yàn)
1. 數(shù)據(jù)集
在合成的語音關(guān)系抽取數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括適用于基于文本關(guān)系抽取的基準(zhǔn)數(shù)據(jù)集CoNLL04和TACRED數(shù)據(jù)集。
(1)CoNLL04
CoNLL04數(shù)據(jù)集由《華爾街日?qǐng)?bào)》和美聯(lián)社的新聞文章組成。CoNLL04定義了4種實(shí)體類型,包括位置(Loc)、組織(Org)、人(Peop)和其他(Other),以及5種關(guān)系類別,即坐落在(Locate_In)、基于組織的在(OrgBad_In)、住在(Live_In)、殺死(Kill)和工作在(Work_For)。CoNLL04 數(shù)據(jù)集的數(shù)據(jù)劃分如表1所示。
(2)TACRED
TACRED是一個(gè)大規(guī)模的關(guān)系抽取數(shù)據(jù)集,其中包含106264個(gè)示例,這些示例來自年度TAC知識(shí)庫群體(TAC KBP)挑戰(zhàn)中使用的語料庫的新聞線和Web文本。TACRED中的示例涵蓋TAC KBP挑戰(zhàn)中使用的41種關(guān)系類型,如果沒有建立定義的關(guān)系,則標(biāo)記為no_relation,其中79.5%的示例被標(biāo)記為no_relation。這些示例是通過組合來自人工注釋創(chuàng)建的。除去no_relation,TACRED數(shù)據(jù)集的劃分如表2所示。
表 2 TACRED數(shù)據(jù)集數(shù)據(jù)劃分
2. 評(píng)估指標(biāo)
由于實(shí)體需要嚴(yán)格匹配,一個(gè)字母的錯(cuò)誤或差異導(dǎo)致實(shí)體匹配失敗,進(jìn)而降低三元組的結(jié)果。因此,本文選取了命名實(shí)體識(shí)別和實(shí)體關(guān)系分類進(jìn)行評(píng)估。并采用適用于關(guān)系抽取的常見指標(biāo),針對(duì)精確率、召回率以及F1值來進(jìn)行分析。
3. 實(shí)驗(yàn)結(jié)果
(1)各方法的實(shí)驗(yàn)結(jié)果對(duì)比
Text+SpERT:使用原始文本和SpERT模型進(jìn)行實(shí)驗(yàn)。
ASR+SpERT:使用語音翻譯將語音翻譯成文本再用SpERT進(jìn)行實(shí)驗(yàn)。
SpeechRE:使用端到端式語音關(guān)系抽取模型SpeechRE進(jìn)行實(shí)驗(yàn)。
表 3 CoNLL04數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表 4 TACRED數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
如表 3 和表 4 所示,使用語音作為數(shù)據(jù)的模型和文本的差距較大。分析發(fā)現(xiàn),主要是由于命名實(shí)體識(shí)別的效果較差,這也是我們所預(yù)期到的現(xiàn)象。關(guān)系抽取任務(wù)一般都有自己相應(yīng)的領(lǐng)域,因此會(huì)有許多領(lǐng)域內(nèi)的實(shí)體需要進(jìn)行抽取,而這些實(shí)體往往都是不易翻譯的單詞,如人名和地名,這些會(huì)導(dǎo)致命名實(shí)體識(shí)別的效果很差,進(jìn)而影響關(guān)系抽取的效果。
在CoNLL04數(shù)據(jù)集上,我們提出的模型效果已經(jīng)超過了管線方法。然而,在TACRED數(shù)據(jù)集上,離管線方法還有一定的差距,分析原因如下:
TACRED數(shù)據(jù)集包含37000條左右的訓(xùn)練數(shù)據(jù),總時(shí)長(zhǎng)80小時(shí)以上。可是,TACRED數(shù)據(jù)集有80%左右的數(shù)據(jù)標(biāo)記為沒有關(guān)系,除此之外擁有41個(gè)不同的關(guān)系,并且各個(gè)關(guān)系的數(shù)量差別較大,有的關(guān)系數(shù)量過多,有很多關(guān)系的數(shù)量很少,形成長(zhǎng)尾分布,如圖5所示。長(zhǎng)尾關(guān)系對(duì)模型來說是巨大的挑戰(zhàn),語音模型對(duì)數(shù)據(jù)更為敏感。并且,經(jīng)過對(duì)CONLL04數(shù)據(jù)集的分析發(fā)現(xiàn),很多同義句都有相同的實(shí)體和關(guān)系,這也降低了語音關(guān)系抽取的難度。
圖 5 TACRED關(guān)系分布
(2)不同數(shù)據(jù)量的模型效果對(duì)比
提高模型的數(shù)據(jù)量意味著數(shù)據(jù)增強(qiáng),然而,語音領(lǐng)域里的數(shù)據(jù)增強(qiáng)和關(guān)系抽取不太相同。翻譯任務(wù)的數(shù)據(jù)增強(qiáng)方法往往是直接加數(shù)據(jù),然而關(guān)系抽取有自己的領(lǐng)域,如果兩個(gè)數(shù)據(jù)集的領(lǐng)域不相同,很容易讓模型變得混亂。
由于CoNLL04數(shù)據(jù)集本身數(shù)據(jù)較少,不適合做實(shí)驗(yàn),這里選擇了TACRED數(shù)據(jù)集關(guān)系數(shù)量最多的五個(gè)關(guān)系進(jìn)行實(shí)驗(yàn),分別劃分了20%,40%,60%,80%的數(shù)據(jù)量和原數(shù)據(jù)集進(jìn)行對(duì)比。每次采樣均在上一次采樣的基礎(chǔ)上進(jìn)行,保證了訓(xùn)練數(shù)據(jù)的一致性。
由于命名實(shí)體識(shí)別效果普遍較差,這里展示的是關(guān)系分類的 F1值結(jié)果,僅僅統(tǒng)計(jì)關(guān)系是否分類準(zhǔn)確,可以看出模型是否學(xué)習(xí)到了文本中蘊(yùn)含的關(guān)系信息。
圖 6 TACRED前五個(gè)關(guān)系不同數(shù)據(jù)量關(guān)系分類F1值趨勢(shì)
如圖 6 所示實(shí)驗(yàn)結(jié)果表明,數(shù)據(jù)量的增強(qiáng)對(duì)文本沒有明顯影響,而對(duì)語音模型有著明顯的提升。這是基于語音的模型和基于文本模型的差別,語音模型需要大量的訓(xùn)練數(shù)據(jù)支撐,為了獲得更多的訓(xùn)練數(shù)據(jù),可以采用數(shù)據(jù)增強(qiáng)的方法。雖然目前在TACRED上本文提出的模型結(jié)果不如管線方法,但是可以推測(cè),在數(shù)據(jù)量足夠多的情況下,端到端式語音關(guān)系抽取模型的表現(xiàn)會(huì)優(yōu)于管線式語音關(guān)系抽取方法。
(3)錯(cuò)例分析
我們對(duì)模型預(yù)測(cè)錯(cuò)誤的情況進(jìn)行分析。分析中發(fā)現(xiàn)經(jīng)常會(huì)出現(xiàn)大寫小不同和人名的完整度不同,人物的名字是最難識(shí)別準(zhǔn)確的實(shí)體,尤其容易出錯(cuò)。除了實(shí)體預(yù)測(cè)錯(cuò)誤,另一種預(yù)測(cè)錯(cuò)誤的情況是預(yù)測(cè)結(jié)果不在文本之中。以下是一個(gè)例子:
原文本:"Another gment shows the famous quence of Lyndon B. Johnson being sworn in as president; still another the television footage of Jack Ruby shooting Oswald."
正確三元組:<Jack Ruby, Kill, Oswald>
預(yù)測(cè)三元組:<Lee Harvey Oswald, kill, President John F. Kennedy>
可以看出,出現(xiàn)的問題是模型預(yù)測(cè)出了語音中沒有提到的實(shí)體或關(guān)系。這里文中講的杰克·魯比刺殺肯尼迪遇刺案嫌犯李·哈維·奧斯瓦爾德,可是預(yù)測(cè)的三元組確是李·哈維·奧斯瓦爾德刺殺了肯尼迪。雖然預(yù)測(cè)結(jié)果并沒有在文中提到肯尼迪,但兩者確實(shí)有所關(guān)聯(lián)。
經(jīng)過分析,可能是由神經(jīng)網(wǎng)絡(luò)記憶導(dǎo)致的。分為以下幾種情況:
神經(jīng)網(wǎng)絡(luò)的記憶力很強(qiáng)。神經(jīng)網(wǎng)絡(luò)記住了訓(xùn)練集中的實(shí)例,在生成時(shí)找不到生成的映射關(guān)系,因此直接生成出現(xiàn)過的實(shí)例。這種情況的原因可能是訓(xùn)練數(shù)據(jù)量太小,而模型太強(qiáng),模型沒學(xué)習(xí)到怎么抽取,但是學(xué)習(xí)了怎么背題。這種情況在生成模型格外容易遇到。
神經(jīng)網(wǎng)絡(luò)在“開小差”。雖然模型生成三元組的現(xiàn)實(shí)情況是對(duì)的,但是沒有在訓(xùn)練集出現(xiàn)過。比如文本在討論美國(guó)白宮,預(yù)測(cè)是美國(guó)總統(tǒng)是拜登。這種情況的原因是模型可能在預(yù)訓(xùn)練里遇到過類似的語句,而在生成序列時(shí)模型可能在“開小差”,回想起了之前學(xué)過的東西。在生成式模型中,基于文本的生成模型可以在文本中選詞復(fù)制,避免生成文本中沒有出現(xiàn)的單詞,但是語音信息沒有相應(yīng)的文本,因此語音模型更容易“開小差”。這種情況多來自于跨模態(tài)模型。
--
05
總結(jié)與展望
1. 工作總結(jié)
傳統(tǒng)的面向語音的關(guān)系抽取一般需要通過語音識(shí)別技術(shù)將語音數(shù)據(jù)轉(zhuǎn)錄為文本,然后進(jìn)行基于文本的關(guān)系抽取,這一流程可能會(huì)引起誤差累積問題。
為了解決上述問題,我們提出了一種端到端式語音關(guān)系抽取方法,經(jīng)過實(shí)驗(yàn),我們提出的方法在CoNLL04數(shù)據(jù)集上已經(jīng)超過了管線方法。雖然在TACRED數(shù)據(jù)集上離管線方法還有一定差距,但是經(jīng)過分析,在增加數(shù)據(jù)量的情況下,我們提出的模型仍有望超過管線方法。
2. 工作展望
這個(gè)工作是對(duì)于語音關(guān)系抽取任務(wù)的首次探索,在目前模型的效果上,后續(xù)工作有很大的提升空間。未來將會(huì)在我們提出的端到端式語音關(guān)系抽取模型的基礎(chǔ)上作出以下改進(jìn)和探索:
進(jìn)行遠(yuǎn)程監(jiān)督。基于這樣一個(gè)假設(shè):如果兩個(gè)實(shí)體在知識(shí)庫中存在某種關(guān)系,則包含該兩個(gè)實(shí)體的非結(jié)構(gòu)化句子均能表示出這種關(guān)系。因此,對(duì)于一個(gè)關(guān)系的兩個(gè)實(shí)體,在網(wǎng)絡(luò)中尋找擁有對(duì)應(yīng)兩個(gè)實(shí)體的文本,可以認(rèn)為文本中含有相同的關(guān)系,直接將文本和三元組添加到訓(xùn)練集中,這樣做的好處是可以快速擁有大量示例。
語音多樣性。目前使用的語音數(shù)據(jù)由人工合成,生成的語音聲音較為一致。可以在生成語音的時(shí)候生成不同性別不同年齡的聲音,或者使用真實(shí)語音數(shù)據(jù)并通過獲得偽標(biāo)簽的形式加入進(jìn)來。
結(jié)合語音和文本進(jìn)行關(guān)系抽取。使用多模態(tài)學(xué)習(xí)的方法,設(shè)計(jì)一個(gè)編碼器,讓模型既能接受文本也能接受語音,還可以同時(shí)接受文本+語音。
從我們的工作還可以引申出很多其他的工作,包括但不限于:
怎么從語音中抽取事件,以及聯(lián)合抽取事件和關(guān)系。在參考文[8],有關(guān)于從語音中做槽填充的工作,可以考慮擴(kuò)展我們的方法到槽填充。如何結(jié)合文本和語音兩個(gè)模態(tài)到數(shù)據(jù)做關(guān)系抽取和實(shí)體識(shí)別?如何從視頻中結(jié)合圖像、文本、語音做關(guān)系抽取?參考文獻(xiàn):
[1] 劉輝,江千軍,桂前進(jìn),張祺,王梓豫,王磊,王京景.實(shí)體關(guān)系抽取技術(shù)研究進(jìn)展綜述[J].計(jì)算機(jī)應(yīng)用研究,2020,37(S2):1-5.
[2] Nguyen D Q, Verspoor K. End-to-end neural relation extraction using deep biaffine attention[C]. European Conference on Information Retrieval. Springer, Cham, 2019: 729-738.
[3] Rodríguez E, Ruíz B, García-Crespo á, et al. Speech/speaker recognition using a HMM/GMM hybrid model[C]. International Conference on Audio-and Video-Bad Biometric Person Authentication. Springer, Berlin, Heidelberg, 1997: 227-234.
[4] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for lf-supervid learning of speech reprentations[J]. Advances in Neural Information Processing Systems, 2020, 33: 12449-12460.
[5] Eberts M, Ulges A. Span-Bad Joint Entity and Relation Extraction with Transformer Pre-Training[M]. ECAI 2020. IOS Press, 2020: 2006-2013.
[6] Lewis M, Liu Y, Goyal N, et al. Bart: Denoising quence-to-quence pre-training for natural language generation, translation, and comprehension[J]. arXiv preprint arXiv:1910.13461, 2019.
[7] Gállego G I, Tsiamas I, Escolano C, et al. End-to-End Speech Translation with Pre-trained Models and Adapters: UPC at IWSLT 2021[J]. arXiv preprint arXiv:2105.04512, 2021.
[8] Wang P, Su Y, Zhou X, et.al. Speech2Slot: A Limited Generation Framework with Boundary Detection for Slot Filling from Speech. INTERSPEECH 2022: 2748-2752.
今天的分享就到這里,謝謝大家。
關(guān)于我們
DataFun:專注于大數(shù)據(jù)、人工智能技術(shù)應(yīng)用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會(huì),已邀請(qǐng)超過2000位專家和學(xué)者參與分享。其公眾號(hào) DataFunTalk 累計(jì)生產(chǎn)原創(chuàng)文章800+,百萬+閱讀,15萬+精準(zhǔn)粉絲。
本文發(fā)布于:2023-02-28 20:05:00,感謝您對(duì)本站的認(rèn)可!
本文鏈接:http://www.newhan.cn/zhishi/a/167765483078569.html
版權(quán)聲明:本站內(nèi)容均來自互聯(lián)網(wǎng),僅供演示用,請(qǐng)勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請(qǐng)與我們聯(lián)系,我們將在24小時(shí)內(nèi)刪除。
本文word下載地址:video fixer(video fixer怎么用).doc
本文 PDF 下載地址:video fixer(video fixer怎么用).pdf
| 留言與評(píng)論(共有 0 條評(píng)論) |