video fixer(video fixer怎么用)

更新時(shí)間:2023-03-01 15:13:50 閱讀：評(píng)論：0

作者：吳桐桐，王貴濤，趙錦銘，劉昭然，漆桂林，李元放

論文發(fā)表：EMNLP2022

論文下載：https://arxiv.org/abs/2210.08759

文章來源：知乎@漆桂林

背景介紹

隨著大數(shù)據(jù)時(shí)代的到來，互聯(lián)網(wǎng)中每天都會(huì)產(chǎn)生海量的信息，且模態(tài)多樣化。多數(shù)的信息為半結(jié)構(gòu)或非結(jié)構(gòu)數(shù)據(jù)，沒有辦法被直接被計(jì)算機(jī)系統(tǒng)利用。因此，如何低成本地抽取出有效的信息變得越來越重要。信息抽取旨在從大規(guī)模半結(jié)構(gòu)或非結(jié)構(gòu)的自然語言文本中抽取出結(jié)構(gòu)化信息。關(guān)系抽取是信息抽取的重要子任務(wù)，目的是從文本中抽取實(shí)體之間存在的各類關(guān)系類別，構(gòu)成“實(shí)體-關(guān)系-實(shí)體”的三元組結(jié)構(gòu)化形式，是自然語言處理領(lǐng)域的重要研究方向[1]。

語音是日常生活中交流的主要媒介，同時(shí)，語音是一種富含信息的信號(hào)載體，它承載了語義、說話人、情緒、語種、方言等諸多信息。語音信息抽取類似于人類語言學(xué)習(xí)的思路，采用機(jī)器學(xué)習(xí)手段，讓機(jī)器通過“聆聽”大量的語音數(shù)據(jù)，并從語音數(shù)據(jù)中學(xué)習(xí)蘊(yùn)含其中的規(guī)律。

圖 1 包含關(guān)系信息的語音來源

盡管近年來關(guān)系抽取是一項(xiàng)探索性很強(qiáng)的任務(wù)，但大多數(shù)研究都是在文本數(shù)據(jù)集上進(jìn)行的，而非語音數(shù)據(jù)。然而，如圖1所示，語音里面同樣包含了大量的關(guān)系信息可以用來抽取，如面試、新聞、聊天、演講等等。經(jīng)典方法抽取內(nèi)容是先對(duì)語音進(jìn)行轉(zhuǎn)錄，然后根據(jù)轉(zhuǎn)錄后的文本進(jìn)行關(guān)系抽取，從語音到文本，再從文本到知識(shí)圖譜，可是這種方法會(huì)在中間的文本過程引入額外的誤差。我們首次提出一個(gè)端到端的方法，把前面的工作囊括起來，直接使用語音進(jìn)行關(guān)系抽取。這樣可以減少過程中的誤差，并提高關(guān)系抽取的效果。如圖2所示。因此，面向語音數(shù)據(jù)的端到端式關(guān)系抽取具有重要的研究意義。

圖 2 傳統(tǒng)基于文本的關(guān)系抽取、管線方法關(guān)系抽取和端到端式語音關(guān)系抽取的比較

相關(guān)工作

1. 關(guān)系抽取

關(guān)系抽取是信息抽取重要的子任務(wù)之一，關(guān)系抽取的目的是從文本中抽取實(shí)體之間存在的各類關(guān)系類別，構(gòu)成“實(shí)體-關(guān)系-實(shí)體”的三元組結(jié)構(gòu)化形式，是構(gòu)建知識(shí)圖譜，知識(shí)問答等系統(tǒng)重要的一部分。隨著計(jì)算機(jī)計(jì)算能力的增加，基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法達(dá)到了很好的效果，機(jī)器學(xué)習(xí)方法也成為了信息抽取中廣泛應(yīng)用的方法。機(jī)器學(xué)習(xí)可以看作映射，輸入為標(biāo)注語料，輸出為期望結(jié)果，在人工標(biāo)注數(shù)據(jù)集的基礎(chǔ)上訓(xùn)練模型分類器，使得模型學(xué)習(xí)不同關(guān)系類型語句的特征。

關(guān)系抽取任務(wù)通常遵循管道處理，稱為管線方法，將關(guān)系抽取任務(wù)拆分為命名實(shí)體識(shí)別和關(guān)系分類兩個(gè)子任務(wù)，先進(jìn)行實(shí)體識(shí)別，然后在實(shí)體識(shí)別完成的基礎(chǔ)上抽取實(shí)體之間關(guān)系。管線方法通常無法捕獲實(shí)體和關(guān)系類型之間的聯(lián)合特征，命名實(shí)體識(shí)別的誤差會(huì)累計(jì)到接下來的關(guān)系分類模型之中。因此又有將命名實(shí)體識(shí)別和關(guān)系分類結(jié)合起來的聯(lián)合抽取方法，2019年，Nguyen[2]提出了實(shí)體和關(guān)系的聯(lián)合抽取模型，緩解了誤差累計(jì)的問題，實(shí)現(xiàn)了當(dāng)時(shí)最佳的性能。實(shí)體和關(guān)系聯(lián)合抽取的方法基于神經(jīng)網(wǎng)絡(luò)的端到端模型，與管線方法相比，聯(lián)合學(xué)習(xí)方法能夠捕獲實(shí)體和關(guān)系之間的聯(lián)合特征。

2. 語音識(shí)別

傳統(tǒng)語音識(shí)別模型建立在似然和概率的理論基礎(chǔ)之上，多數(shù)采用隱馬爾科夫高斯混合模型[3]，在語音預(yù)處理階段需要對(duì)語音信號(hào)進(jìn)行抽樣組合，并使用線性預(yù)測(cè)的分析方法以預(yù)測(cè)信號(hào)。由于不同性別，不同的年齡，不同語言的人的發(fā)音不同，導(dǎo)致語音信息抽取十分復(fù)雜，傳統(tǒng)語音識(shí)別難以適應(yīng)這些不同場(chǎng)景。由于特征之間存在關(guān)聯(lián)，隨著深度學(xué)習(xí)的出現(xiàn)，模型可以將連續(xù)幀的語音特征組合后進(jìn)行訓(xùn)練，使語音識(shí)別的準(zhǔn)確率大幅提高。

語音領(lǐng)域有多種任務(wù)，基礎(chǔ)任務(wù)是語音識(shí)別，可以將語音轉(zhuǎn)化為詞向量。在此基礎(chǔ)上可以進(jìn)行更多種語音相關(guān)的任務(wù)：

語音識(shí)別+翻譯：將語音轉(zhuǎn)化為文本語音識(shí)別+意圖分類：可以對(duì)語音的內(nèi)容進(jìn)行分類語音識(shí)別+槽填充：把連續(xù)序列中每個(gè)詞賦予相應(yīng)的語義類別標(biāo)簽

基于語音的任務(wù)沒有關(guān)系抽取，而基于關(guān)系抽取的任務(wù)又只關(guān)注從文本到實(shí)體和關(guān)系，沒有考慮文本的其他來源，因此會(huì)在語音轉(zhuǎn)文本的過程中引入額外的誤差。

語音關(guān)系抽取

我們將語音關(guān)系抽取定義為一個(gè)聯(lián)合實(shí)體和關(guān)系抽取任務(wù)，它將一段語音作為輸入，并生成一組形式為<實(shí)體1，關(guān)系，實(shí)體2>的關(guān)系三元組作為輸出。

輸入: Speech Instance (.wav)

輸出: “[<entity1，relation，entity2>, …]”

例子：' Big Bang ' physicist Andrew Lange dead at 52 .

—> “[< Andrew Lange, person title, physicist >, < Andrew Lange, person age, 52 >]”

1. 任務(wù)難點(diǎn)

面向語音數(shù)據(jù)的端到端式關(guān)系抽取的關(guān)鍵問題就是讓計(jì)算機(jī)學(xué)會(huì)通過輸入語音數(shù)據(jù)，輸出正確的實(shí)體和相應(yīng)的關(guān)系。

難點(diǎn)一：長(zhǎng)度限制。基于文本的深度學(xué)習(xí)模型往往有有限的最大輸入長(zhǎng)度，如BERT的最大長(zhǎng)度是512，而語音數(shù)據(jù)的向量很長(zhǎng)，每秒一般有16000幀，幾秒的語音向量長(zhǎng)度能輕易達(dá)到十萬級(jí)別。如何抽取語音特征，縮短向量長(zhǎng)度是需要解決的問題。

難點(diǎn)二：跨模態(tài)對(duì)齊。模態(tài)指數(shù)據(jù)的存在形式，如文本、圖像、音頻、視頻等等。由于語音和文本是兩個(gè)不同的模態(tài)，語音的詞向量和文本的詞向量的表示往往并不相同，如何將兩者相結(jié)合是一個(gè)難點(diǎn)。

2. 數(shù)據(jù)集構(gòu)建

由于沒有現(xiàn)成的關(guān)系抽取語音數(shù)據(jù)集，本文從現(xiàn)有的文本關(guān)系抽取語料庫中合成語音數(shù)據(jù)。

語音合成分為兩個(gè)步驟，為文本轉(zhuǎn)頻譜和頻譜轉(zhuǎn)語音。本文兩個(gè)步驟均使用預(yù)訓(xùn)練模型。文本轉(zhuǎn)頻譜的步驟本文選擇3個(gè)不同的預(yù)訓(xùn)練模型，分別是Glow-TTS，Speedy-Speech-WN和Tacotron2-DCA，頻譜轉(zhuǎn)語音的步驟本文選擇2個(gè)不同的預(yù)訓(xùn)練模型，分別是Multiband-MelGAN和WaveGrad，將這五個(gè)模型排列組合，并人工比較生成的語音效果，如圖3所示。最終使用的模型是文本轉(zhuǎn)頻譜模型Tacotron2-DCA和聲學(xué)模型MultiBand-MelGAN，聲音效果最為自然。

圖 3 語音合成中不同預(yù)訓(xùn)練模型的選擇

3. 語音關(guān)系抽取方法

（1）管線方法

管線方法是將語音數(shù)據(jù)先翻譯為文本，然后利用文本進(jìn)行關(guān)系抽取。語音識(shí)別模型本文選擇了Wav2Vec 2.0[4]的預(yù)訓(xùn)練模型“wav2vec2-large-960h-lv60-lf”處理語音，并使用T5的預(yù)訓(xùn)練模型“t5-small-wav2vec2-grammar-fixer”處理生成的文字，添加標(biāo)點(diǎn)并改變大小寫。

關(guān)系抽取本文選擇了文本端到端關(guān)系抽取模型SpERT[5]。訓(xùn)練文本關(guān)系抽取模型需要有標(biāo)注的訓(xùn)練集，SpERT需要的是實(shí)體和其在文本中對(duì)應(yīng)的跨度信息，關(guān)系和其對(duì)應(yīng)的實(shí)體。由于翻譯后的文本可能會(huì)出現(xiàn)單詞數(shù)量的變動(dòng)，導(dǎo)致原來的跨度信息并沒有標(biāo)注到真實(shí)的實(shí)體，因此這里采用了相似度匹配算法來重新標(biāo)記數(shù)據(jù)集。

（2）端到端方法

仿照Gerard等人[7]提出的機(jī)器翻譯模型的框架，我們構(gòu)建了一個(gè)端到端式語音到文本模型SpeechRE，由兩個(gè)預(yù)訓(xùn)練模型和長(zhǎng)度適配器組成，如圖4所示。

模型的輸入是語音數(shù)據(jù)，輸出含有關(guān)系信息的線性化序列。我們的方法結(jié)合了Wav2Vec 2.0編碼器和BART[6]解碼器。當(dāng)結(jié)合這兩個(gè)模型時(shí)，在目標(biāo)句子長(zhǎng)度和編碼器輸出之間存在長(zhǎng)度差異。為此，有必要使用一個(gè)耦合模塊來縮短編碼器輸出，即長(zhǎng)度適配器。

圖 4 語音關(guān)系抽取模型結(jié)構(gòu)示意圖

實(shí)驗(yàn)

1. 數(shù)據(jù)集

在合成的語音關(guān)系抽取數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，包括適用于基于文本關(guān)系抽取的基準(zhǔn)數(shù)據(jù)集CoNLL04和TACRED數(shù)據(jù)集。

（1）CoNLL04

CoNLL04數(shù)據(jù)集由《華爾街日?qǐng)?bào)》和美聯(lián)社的新聞文章組成。CoNLL04定義了4種實(shí)體類型，包括位置（Loc）、組織（Org）、人（Peop）和其他（Other），以及5種關(guān)系類別，即坐落在（Locate_In）、基于組織的在（OrgBad_In）、住在（Live_In）、殺死（Kill）和工作在（Work_For）。CoNLL04 數(shù)據(jù)集的數(shù)據(jù)劃分如表1所示。

（2）TACRED

TACRED是一個(gè)大規(guī)模的關(guān)系抽取數(shù)據(jù)集，其中包含106264個(gè)示例，這些示例來自年度TAC知識(shí)庫群體（TAC KBP）挑戰(zhàn)中使用的語料庫的新聞線和Web文本。TACRED中的示例涵蓋TAC KBP挑戰(zhàn)中使用的41種關(guān)系類型，如果沒有建立定義的關(guān)系，則標(biāo)記為no_relation，其中79.5%的示例被標(biāo)記為no_relation。這些示例是通過組合來自人工注釋創(chuàng)建的。除去no_relation，TACRED數(shù)據(jù)集的劃分如表2所示。

表 2 TACRED數(shù)據(jù)集數(shù)據(jù)劃分

2. 評(píng)估指標(biāo)

由于實(shí)體需要嚴(yán)格匹配，一個(gè)字母的錯(cuò)誤或差異導(dǎo)致實(shí)體匹配失敗，進(jìn)而降低三元組的結(jié)果。因此，本文選取了命名實(shí)體識(shí)別和實(shí)體關(guān)系分類進(jìn)行評(píng)估。并采用適用于關(guān)系抽取的常見指標(biāo)，針對(duì)精確率、召回率以及F1值來進(jìn)行分析。

3. 實(shí)驗(yàn)結(jié)果

（1）各方法的實(shí)驗(yàn)結(jié)果對(duì)比

Text+SpERT：使用原始文本和SpERT模型進(jìn)行實(shí)驗(yàn)。

ASR+SpERT：使用語音翻譯將語音翻譯成文本再用SpERT進(jìn)行實(shí)驗(yàn)。

SpeechRE：使用端到端式語音關(guān)系抽取模型SpeechRE進(jìn)行實(shí)驗(yàn)。

表 3 CoNLL04數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表 4 TACRED數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

如表 3 和表 4 所示，使用語音作為數(shù)據(jù)的模型和文本的差距較大。分析發(fā)現(xiàn)，主要是由于命名實(shí)體識(shí)別的效果較差，這也是我們所預(yù)期到的現(xiàn)象。關(guān)系抽取任務(wù)一般都有自己相應(yīng)的領(lǐng)域，因此會(huì)有許多領(lǐng)域內(nèi)的實(shí)體需要進(jìn)行抽取，而這些實(shí)體往往都是不易翻譯的單詞，如人名和地名，這些會(huì)導(dǎo)致命名實(shí)體識(shí)別的效果很差，進(jìn)而影響關(guān)系抽取的效果。

在CoNLL04數(shù)據(jù)集上，我們提出的模型效果已經(jīng)超過了管線方法。然而，在TACRED數(shù)據(jù)集上，離管線方法還有一定的差距，分析原因如下：

TACRED數(shù)據(jù)集包含37000條左右的訓(xùn)練數(shù)據(jù)，總時(shí)長(zhǎng)80小時(shí)以上。可是，TACRED數(shù)據(jù)集有80%左右的數(shù)據(jù)標(biāo)記為沒有關(guān)系，除此之外擁有41個(gè)不同的關(guān)系，并且各個(gè)關(guān)系的數(shù)量差別較大，有的關(guān)系數(shù)量過多，有很多關(guān)系的數(shù)量很少，形成長(zhǎng)尾分布，如圖5所示。長(zhǎng)尾關(guān)系對(duì)模型來說是巨大的挑戰(zhàn)，語音模型對(duì)數(shù)據(jù)更為敏感。并且，經(jīng)過對(duì)CONLL04數(shù)據(jù)集的分析發(fā)現(xiàn)，很多同義句都有相同的實(shí)體和關(guān)系，這也降低了語音關(guān)系抽取的難度。

圖 5 TACRED關(guān)系分布

（2）不同數(shù)據(jù)量的模型效果對(duì)比

提高模型的數(shù)據(jù)量意味著數(shù)據(jù)增強(qiáng)，然而，語音領(lǐng)域里的數(shù)據(jù)增強(qiáng)和關(guān)系抽取不太相同。翻譯任務(wù)的數(shù)據(jù)增強(qiáng)方法往往是直接加數(shù)據(jù)，然而關(guān)系抽取有自己的領(lǐng)域，如果兩個(gè)數(shù)據(jù)集的領(lǐng)域不相同，很容易讓模型變得混亂。

由于CoNLL04數(shù)據(jù)集本身數(shù)據(jù)較少，不適合做實(shí)驗(yàn)，這里選擇了TACRED數(shù)據(jù)集關(guān)系數(shù)量最多的五個(gè)關(guān)系進(jìn)行實(shí)驗(yàn)，分別劃分了20%，40%，60%，80%的數(shù)據(jù)量和原數(shù)據(jù)集進(jìn)行對(duì)比。每次采樣均在上一次采樣的基礎(chǔ)上進(jìn)行，保證了訓(xùn)練數(shù)據(jù)的一致性。

由于命名實(shí)體識(shí)別效果普遍較差，這里展示的是關(guān)系分類的 F1值結(jié)果，僅僅統(tǒng)計(jì)關(guān)系是否分類準(zhǔn)確，可以看出模型是否學(xué)習(xí)到了文本中蘊(yùn)含的關(guān)系信息。

圖 6 TACRED前五個(gè)關(guān)系不同數(shù)據(jù)量關(guān)系分類F1值趨勢(shì)

如圖 6 所示實(shí)驗(yàn)結(jié)果表明，數(shù)據(jù)量的增強(qiáng)對(duì)文本沒有明顯影響，而對(duì)語音模型有著明顯的提升。這是基于語音的模型和基于文本模型的差別，語音模型需要大量的訓(xùn)練數(shù)據(jù)支撐，為了獲得更多的訓(xùn)練數(shù)據(jù)，可以采用數(shù)據(jù)增強(qiáng)的方法。雖然目前在TACRED上本文提出的模型結(jié)果不如管線方法，但是可以推測(cè)，在數(shù)據(jù)量足夠多的情況下，端到端式語音關(guān)系抽取模型的表現(xiàn)會(huì)優(yōu)于管線式語音關(guān)系抽取方法。

（3）錯(cuò)例分析

我們對(duì)模型預(yù)測(cè)錯(cuò)誤的情況進(jìn)行分析。分析中發(fā)現(xiàn)經(jīng)常會(huì)出現(xiàn)大寫小不同和人名的完整度不同，人物的名字是最難識(shí)別準(zhǔn)確的實(shí)體，尤其容易出錯(cuò)。除了實(shí)體預(yù)測(cè)錯(cuò)誤，另一種預(yù)測(cè)錯(cuò)誤的情況是預(yù)測(cè)結(jié)果不在文本之中。以下是一個(gè)例子：

原文本："Another gment shows the famous quence of Lyndon B. Johnson being sworn in as president; still another the television footage of Jack Ruby shooting Oswald."

正確三元組：<Jack Ruby, Kill, Oswald>

預(yù)測(cè)三元組：<Lee Harvey Oswald, kill, President John F. Kennedy>

可以看出，出現(xiàn)的問題是模型預(yù)測(cè)出了語音中沒有提到的實(shí)體或關(guān)系。這里文中講的杰克·魯比刺殺肯尼迪遇刺案嫌犯李·哈維·奧斯瓦爾德，可是預(yù)測(cè)的三元組確是李·哈維·奧斯瓦爾德刺殺了肯尼迪。雖然預(yù)測(cè)結(jié)果并沒有在文中提到肯尼迪，但兩者確實(shí)有所關(guān)聯(lián)。

經(jīng)過分析，可能是由神經(jīng)網(wǎng)絡(luò)記憶導(dǎo)致的。分為以下幾種情況：

神經(jīng)網(wǎng)絡(luò)的記憶力很強(qiáng)。神經(jīng)網(wǎng)絡(luò)記住了訓(xùn)練集中的實(shí)例，在生成時(shí)找不到生成的映射關(guān)系，因此直接生成出現(xiàn)過的實(shí)例。這種情況的原因可能是訓(xùn)練數(shù)據(jù)量太小，而模型太強(qiáng)，模型沒學(xué)習(xí)到怎么抽取，但是學(xué)習(xí)了怎么背題。這種情況在生成模型格外容易遇到。

神經(jīng)網(wǎng)絡(luò)在“開小差”。雖然模型生成三元組的現(xiàn)實(shí)情況是對(duì)的，但是沒有在訓(xùn)練集出現(xiàn)過。比如文本在討論美國(guó)白宮，預(yù)測(cè)是美國(guó)總統(tǒng)是拜登。這種情況的原因是模型可能在預(yù)訓(xùn)練里遇到過類似的語句，而在生成序列時(shí)模型可能在“開小差”，回想起了之前學(xué)過的東西。在生成式模型中，基于文本的生成模型可以在文本中選詞復(fù)制，避免生成文本中沒有出現(xiàn)的單詞，但是語音信息沒有相應(yīng)的文本，因此語音模型更容易“開小差”。這種情況多來自于跨模態(tài)模型。

總結(jié)與展望

1. 工作總結(jié)

傳統(tǒng)的面向語音的關(guān)系抽取一般需要通過語音識(shí)別技術(shù)將語音數(shù)據(jù)轉(zhuǎn)錄為文本，然后進(jìn)行基于文本的關(guān)系抽取，這一流程可能會(huì)引起誤差累積問題。

為了解決上述問題，我們提出了一種端到端式語音關(guān)系抽取方法，經(jīng)過實(shí)驗(yàn)，我們提出的方法在CoNLL04數(shù)據(jù)集上已經(jīng)超過了管線方法。雖然在TACRED數(shù)據(jù)集上離管線方法還有一定差距，但是經(jīng)過分析，在增加數(shù)據(jù)量的情況下，我們提出的模型仍有望超過管線方法。

2. 工作展望

這個(gè)工作是對(duì)于語音關(guān)系抽取任務(wù)的首次探索，在目前模型的效果上，后續(xù)工作有很大的提升空間。未來將會(huì)在我們提出的端到端式語音關(guān)系抽取模型的基礎(chǔ)上作出以下改進(jìn)和探索：

進(jìn)行遠(yuǎn)程監(jiān)督。基于這樣一個(gè)假設(shè)：如果兩個(gè)實(shí)體在知識(shí)庫中存在某種關(guān)系，則包含該兩個(gè)實(shí)體的非結(jié)構(gòu)化句子均能表示出這種關(guān)系。因此，對(duì)于一個(gè)關(guān)系的兩個(gè)實(shí)體，在網(wǎng)絡(luò)中尋找擁有對(duì)應(yīng)兩個(gè)實(shí)體的文本，可以認(rèn)為文本中含有相同的關(guān)系，直接將文本和三元組添加到訓(xùn)練集中，這樣做的好處是可以快速擁有大量示例。

語音多樣性。目前使用的語音數(shù)據(jù)由人工合成，生成的語音聲音較為一致。可以在生成語音的時(shí)候生成不同性別不同年齡的聲音，或者使用真實(shí)語音數(shù)據(jù)并通過獲得偽標(biāo)簽的形式加入進(jìn)來。

結(jié)合語音和文本進(jìn)行關(guān)系抽取。使用多模態(tài)學(xué)習(xí)的方法，設(shè)計(jì)一個(gè)編碼器，讓模型既能接受文本也能接受語音，還可以同時(shí)接受文本+語音。

從我們的工作還可以引申出很多其他的工作，包括但不限于：

怎么從語音中抽取事件，以及聯(lián)合抽取事件和關(guān)系。在參考文[8]，有關(guān)于從語音中做槽填充的工作，可以考慮擴(kuò)展我們的方法到槽填充。如何結(jié)合文本和語音兩個(gè)模態(tài)到數(shù)據(jù)做關(guān)系抽取和實(shí)體識(shí)別？如何從視頻中結(jié)合圖像、文本、語音做關(guān)系抽取？

參考文獻(xiàn)：

[1] 劉輝,江千軍,桂前進(jìn),張祺,王梓豫,王磊,王京景.實(shí)體關(guān)系抽取技術(shù)研究進(jìn)展綜述[J].計(jì)算機(jī)應(yīng)用研究,2020,37(S2):1-5.

[2] Nguyen D Q, Verspoor K. End-to-end neural relation extraction using deep biaffine attention[C]. European Conference on Information Retrieval. Springer, Cham, 2019: 729-738.

[3] Rodríguez E, Ruíz B, García-Crespo á, et al. Speech/speaker recognition using a HMM/GMM hybrid model[C]. International Conference on Audio-and Video-Bad Biometric Person Authentication. Springer, Berlin, Heidelberg, 1997: 227-234.

[4] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for lf-supervid learning of speech reprentations[J]. Advances in Neural Information Processing Systems, 2020, 33: 12449-12460.

[5] Eberts M, Ulges A. Span-Bad Joint Entity and Relation Extraction with Transformer Pre-Training[M]. ECAI 2020. IOS Press, 2020: 2006-2013.

[6] Lewis M, Liu Y, Goyal N, et al. Bart: Denoising quence-to-quence pre-training for natural language generation, translation, and comprehension[J]. arXiv preprint arXiv:1910.13461, 2019.

[7] Gállego G I, Tsiamas I, Escolano C, et al. End-to-End Speech Translation with Pre-trained Models and Adapters: UPC at IWSLT 2021[J]. arXiv preprint arXiv:2105.04512, 2021.

[8] Wang P, Su Y, Zhou X, et.al. Speech2Slot: A Limited Generation Framework with Boundary Detection for Slot Filling from Speech. INTERSPEECH 2022: 2748-2752.

今天的分享就到這里，謝謝大家。

關(guān)于我們

DataFun：專注于大數(shù)據(jù)、人工智能技術(shù)應(yīng)用的分享與交流。發(fā)起于2017年，在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會(huì)，已邀請(qǐng)超過2000位專家和學(xué)者參與分享。其公眾號(hào) DataFunTalk 累計(jì)生產(chǎn)原創(chuàng)文章800+，百萬+閱讀，15萬+精準(zhǔn)粉絲。

本文發(fā)布于:2023-02-28 20:05:00，感謝您對(duì)本站的認(rèn)可！

本文鏈接：http://www.newhan.cn/zhishi/a/167765483078569.html

版權(quán)聲明：本站內(nèi)容均來自互聯(lián)網(wǎng)，僅供演示用，請(qǐng)勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請(qǐng)與我們聯(lián)系，我們將在24小時(shí)內(nèi)刪除。

本文word下載地址：video fixer(video fixer怎么用).doc

本文 PDF 下載地址：video fixer(video fixer怎么用).pdf

上一篇：艾爾多戰(zhàn)記(艾爾多戰(zhàn)記破解版)

下一篇：返回列表

標(biāo)簽：video fixer

相關(guān)文章

留言與評(píng)論（共有 0 條評(píng)論）