基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法

更新時間:2023-12-06 03:05:13 閱讀：評論：0

2023年12月6日發(fā)(作者：生日賀詞大全)

-

作者：劉鋼，李宗晨，郭建偉

來源：《江蘇科技信息》 2018年第14期

0 引言

進入互聯(lián)網(wǎng)時代以來，各種技術快速發(fā)展，推動人們進入了信息時代。中國網(wǎng)民的規(guī)模在2016 年以來就達到了7.31億人，和全球的平均水平相比提高了3.1%［1］。隨著上網(wǎng)用戶的增多，人們在網(wǎng)絡上貢獻了各式各樣的文獻，這些文獻形成了海量的文本數(shù)據(jù)，潛藏著巨大的價值。但是，文獻的文類和整理是一項非常具有挑戰(zhàn)性的工作，抽取文檔特征信息成了目前重要研究方向之一。

1 卷積神經(jīng)網(wǎng)絡模型和語言處理模型

1.1 卷積神經(jīng)網(wǎng)絡

卷積神經(jīng)網(wǎng)絡是由多個層次組成的，每一個層次是一個二維平面，多個獨立的神經(jīng)元是構成二維平面的基本組成單元［2］。在卷積神經(jīng)網(wǎng)絡模型中，根據(jù)是否采用補零法將其分為寬卷積和窄卷積兩個分類。寬卷積適合于濾波器和輸入向量相差較大時使用。一般形式為：

nout =(nin +2?npadding－nfilter)+1 （1）式中，nout是卷積的輸出長度，nin是卷積的輸入長度，npadding是在擴展矩陣以外的元素的長度，nfilter是濾波器的長度。本文使用窄卷積達到運行時間短，效率高的效果。

1.2 Word2vec語言處理模型

Word2vec是一個典型的基于深度學習思想的文本量化處理工具，和以往模型工具不同，它既能夠分析出語義，同時還能生成每個詞的詞向量表示，便于其他模型進行學習和挖掘［3］。通過Word2vec生成的詞向量，還可以進一步得到句子的向量［4］。目前，這個模型在文本處理上得到了很多應用［5］。在Word2vec 中，有兩種方式可以得到詞向量，分別是CBOW和Skipgram［6-7］。這兩種方法中，前者是根據(jù)上下文預測中心詞，后者是用中心詞預測上下文。

2 卷積神經(jīng)網(wǎng)絡文本特征提取模型

2.1 基于卷積神經(jīng)網(wǎng)絡的文本特征提取方法

文本數(shù)據(jù)由Word2vec計算后生產詞向量矩陣，矩陣有3個區(qū)域，每個區(qū)域有2個濾波器，卷積層的神經(jīng)元經(jīng)過卷積操作，設置步長和激活函數(shù)，通過softmax分類器輸出文本特征結果，如圖1所示。

2.2 卷積神經(jīng)網(wǎng)絡的構建

2.2.1 模型結構

在本文的方法中，使用的神經(jīng)網(wǎng)絡模型中，包括了卷積層，池化層和全連接層。其中詳細的參數(shù)如表1所示，在全連接層，使用了dropout策略。聚類方法選擇了K-means方法。

圖1 基于卷積神經(jīng)網(wǎng)絡提取文本特征過程

表1 模型結構參數(shù)描述

2.2.2 Dropout與參數(shù)優(yōu)化

為了解決過擬合問題，本文的卷積神經(jīng)網(wǎng)絡模型采用Dropout 策略［8］。設置Dropout

的比例為50%。采用為Mini-batch SGD訓練方法，設置動量為0.9，學習速率為0.01，對Mini-batch計算梯度數(shù)值。

2.3 網(wǎng)絡訓練

基于卷積神經(jīng)網(wǎng)絡文本特征提取訓練過程如下：

（1）將語料數(shù)據(jù)樣本輸入到網(wǎng)絡模型中。

在實驗中可以發(fā)現(xiàn)，準確率在實驗當中隨著迭代次數(shù)而改變。如表4所示，總結了不同迭代次數(shù)下的測試準確率。從表中可見，在搜狗語料數(shù)據(jù)和復旦語料數(shù)據(jù)上，當?shù)_到200次后本文方法的準確率變得穩(wěn)定；而在哈工大語料數(shù)據(jù)上，在250次迭代達到穩(wěn)定，同時也得到了最高的準確性。迭代次數(shù)和穩(wěn)定性并不是正比例增長的，因此實驗中需要按照不同數(shù)據(jù)集的情況找到合適的迭代次數(shù)。迭代次數(shù)不同下不同語料數(shù)據(jù)集的準確率對比如圖2所示。

圖2 迭代次數(shù)不同下不同語料數(shù)據(jù)集的準確率對比

表4 語料數(shù)據(jù)集不同迭代次數(shù)下的測試準確率（%）

4 結語

互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)時代的到來，每天都有海量的文本數(shù)據(jù)等待著挖掘，這些文本數(shù)據(jù)中包含著潛在的、有價值的信息。傳統(tǒng)方法對文本數(shù)據(jù)的特征提取時會遇到維度災難等問題。因此，本文使用了卷積神經(jīng)網(wǎng)絡進行特征提取，簡化了問題的復雜性。文中描述了文本數(shù)據(jù)提取特征的詳細過程，給出了卷積神經(jīng)網(wǎng)絡結構過程圖以及參數(shù)優(yōu)化等相關內容，通過復旦大學、搜狗和哈爾濱工業(yè)大學中文語料庫的實驗，K-means聚類算法結果作為驗證卷積神經(jīng)網(wǎng)絡提取文本特征衡量標準，實驗表明，卷積神經(jīng)網(wǎng)絡能夠有效地提取文本數(shù)據(jù)的特征，準確率比較高。

［1］中國國信網(wǎng).第39次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告［EB/OL］.（2018- 01- 22）［2018- 04- 26］./cnnic39/.

［2］許厚金，劉永炎，鄧成玉，等.基于相似中心的K-means文本聚類算法［J］.計算機工程與設計，2010（8）：1802-1805.

［3］朱磊.基于Word2vec詞向量的文本分類研究［D］.重慶：西南大學，2017.

［4］張謙，高章敏，劉嘉勇.基于Word2vec的微博短文本分類研究［J］.信息網(wǎng)絡安全，2017（1）：57-62.

［5］唐明，朱磊，鄒顯春.基于Word2vec的一種文檔向量表示［J］.計算機科學，2016（6）：214-217，269.

［6］李躍鵬，金翠，及俊川.基于Word2vec的關鍵詞提取算法［J］.科研信息化技術與應用，2015（4）：54-59.

［7］熊富林，鄧怡豪，唐曉晟.Word2vec的核心架構及其應用［J］.南京師范大學學報（工程技術版），2015（1）：43-48.

［8］NG H W，NGUYEN V D，VONIKAKIS V，et learning for emotion

recognition on small datatsusing transfer learning［C］.Washington：ACM

Interna?tional Conference on Multimodal Interaction，2015.