2023年12月6日發(fā)(作者:生日賀詞大全)

基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法
作者:劉鋼,李宗晨,郭建偉
來源:《江蘇科技信息》 2018年第14期
0 引言
進入互聯(lián)網(wǎng)時代以來,各種技術快速發(fā)展,推動人們進入了信息時代。中國網(wǎng)民的規(guī)模在2016 年以來就達到了7.31億人,和全球的平均水平相比提高了3.1%[1]。隨著上網(wǎng)用戶的增多,人們在網(wǎng)絡上貢獻了各式各樣的文獻,這些文獻形成了海量的文本數(shù)據(jù),潛藏著巨大的價值。但是,文獻的文類和整理是一項非常具有挑戰(zhàn)性的工作,抽取文檔特征信息成了目前重要研究方向之一。
1 卷積神經(jīng)網(wǎng)絡模型和語言處理模型
1.1 卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡是由多個層次組成的,每一個層次是一個二維平面,多個獨立的神經(jīng)元是構成二維平面的基本組成單元[2]。在卷積神經(jīng)網(wǎng)絡模型中,根據(jù)是否采用補零法將其分為寬卷積和窄卷積兩個分類。寬卷積適合于濾波器和輸入向量相差較大時使用。一般形式為:
nout =(nin +2?npadding-nfilter)+1 (1)式中,nout是卷積的輸出長度,nin是卷積的輸入長度,npadding是在擴展矩陣以外的元素的長度,nfilter是濾波器的長度。本文使用窄卷積達到運行時間短,效率高的效果。
1.2 Word2vec語言處理模型
Word2vec是一個典型的基于深度學習思想的文本量化處理工具,和以往模型工具不同,它既能夠分析出語義,同時還能生成每個詞的詞向量表示,便于其他模型進行學習和挖掘[3]。通過Word2vec生成的詞向量,還可以進一步得到句子的向量[4]。目前,這個模型在文本處理上得到了很多應用[5]。在Word2vec 中,有兩種方式可以得到詞向量,分別是CBOW和Skipgram[6-7]。這兩種方法中,前者是根據(jù)上下文預測中心詞,后者是用中心詞預測上下文。
2 卷積神經(jīng)網(wǎng)絡文本特征提取模型
2.1 基于卷積神經(jīng)網(wǎng)絡的文本特征提取方法
文本數(shù)據(jù)由Word2vec計算后生產詞向量矩陣,矩陣有3個區(qū)域,每個區(qū)域有2個濾波器,卷積層的神經(jīng)元經(jīng)過卷積操作,設置步長和激活函數(shù),通過softmax分類器輸出文本特征結果,如圖1所示。
2.2 卷積神經(jīng)網(wǎng)絡的構建
2.2.1 模型結構
在本文的方法中,使用的神經(jīng)網(wǎng)絡模型中,包括了卷積層,池化層和全連接層。其中詳細的參數(shù)如表1所示,在全連接層,使用了dropout策略。聚類方法選擇了K-means方法。
圖1 基于卷積神經(jīng)網(wǎng)絡提取文本特征過程
表1 模型結構參數(shù)描述
2.2.2 Dropout與參數(shù)優(yōu)化
為了解決過擬合問題,本文的卷積神經(jīng)網(wǎng)絡模型采用Dropout 策略[8]。設置Dropout
的比例為50%。采用為Mini-batch SGD訓練方法,設置動量為0.9,學習速率為0.01,對Mini-batch計算梯度數(shù)值。
2.3 網(wǎng)絡訓練
基于卷積神經(jīng)網(wǎng)絡文本特征提取訓練過程如下:
(1)將語料數(shù)據(jù)樣本輸入到網(wǎng)絡模型中。
在實驗中可以發(fā)現(xiàn),準確率在實驗當中隨著迭代次數(shù)而改變。如表4所示,總結了不同迭代次數(shù)下的測試準確率。從表中可見,在搜狗語料數(shù)據(jù)和復旦語料數(shù)據(jù)上,當?shù)_到200次后本文方法的準確率變得穩(wěn)定;而在哈工大語料數(shù)據(jù)上,在250次迭代達到穩(wěn)定,同時也得到了最高的準確性。迭代次數(shù)和穩(wěn)定性并不是正比例增長的,因此實驗中需要按照不同數(shù)據(jù)集的情況找到合適的迭代次數(shù)。迭代次數(shù)不同下不同語料數(shù)據(jù)集的準確率對比如圖2所示。
圖2 迭代次數(shù)不同下不同語料數(shù)據(jù)集的準確率對比
表4 語料數(shù)據(jù)集不同迭代次數(shù)下的測試準確率(%)
4 結語
互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)時代的到來,每天都有海量的文本數(shù)據(jù)等待著挖掘,這些文本數(shù)據(jù)中包含著潛在的、有價值的信息。傳統(tǒng)方法對文本數(shù)據(jù)的特征提取時會遇到維度災難等問題。因此,本文使用了卷積神經(jīng)網(wǎng)絡進行特征提取,簡化了問題的復雜性。文中描述了文本數(shù)據(jù)提取特征的詳細過程,給出了卷積神經(jīng)網(wǎng)絡結構過程圖以及參數(shù)優(yōu)化等相關內容,通過復旦大學、搜狗和哈爾濱工業(yè)大學中文語料庫的實驗,K-means聚類算法結果作為驗證卷積神經(jīng)網(wǎng)絡提取文本特征衡量標準,實驗表明,卷積神經(jīng)網(wǎng)絡能夠有效地提取文本數(shù)據(jù)的特征,準確率比較高。
[1]中國國信網(wǎng).第39次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[EB/OL].(2018- 01- 22)[2018- 04- 26]./cnnic39/.
[2]許厚金,劉永炎,鄧成玉,等.基于相似中心的K-means文本聚類算法[J].計算機工程與設計,2010(8):1802-1805.
[3]朱磊.基于Word2vec詞向量的文本分類研究[D].重慶:西南大學,2017.
[4]張謙,高章敏,劉嘉勇.基于Word2vec的微博短文本分類研究[J].信息網(wǎng)絡安全,2017(1):57-62.
[5]唐明,朱磊,鄒顯春.基于Word2vec的一種文檔向量表示[J].計算機科學,2016(6):214-217,269.
[6]李躍鵬,金翠,及俊川.基于Word2vec的關鍵詞提取算法[J].科研信息化技術與應用,2015(4):54-59.
[7]熊富林,鄧怡豪,唐曉晟.Word2vec的核心架構及其應用[J].南京師范大學學報(工程技術版),2015(1):43-48.
[8]NG H W,NGUYEN V D,VONIKAKIS V,et learning for emotion
recognition on small datatsusing transfer learning[C].Washington:ACM
Interna?tional Conference on Multimodal Interaction,2015.
本文發(fā)布于:2023-12-06 03:05:12,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1701803113237050.html
版權聲明:本站內容均來自互聯(lián)網(wǎng),僅供演示用,請勿用于商業(yè)和其他非法用途。如果侵犯了您的權益請與我們聯(lián)系,我們將在24小時內刪除。
本文word下載地址:基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法.doc
本文 PDF 下載地址:基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法.pdf
| 留言與評論(共有 0 條評論) |