• <em id="6vhwh"><rt id="6vhwh"></rt></em>

    <style id="6vhwh"></style>

    <style id="6vhwh"></style>
    1. <style id="6vhwh"></style>
        <sub id="6vhwh"><p id="6vhwh"></p></sub>
        <p id="6vhwh"></p>
          1. 国产亚洲欧洲av综合一区二区三区 ,色爱综合另类图片av,亚洲av免费成人在线,久久热在线视频精品视频,成在人线av无码免费,国产精品一区二区久久毛片,亚洲精品成人片在线观看精品字幕 ,久久亚洲精品成人av秋霞

             首頁 > 專欄

            基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法

            更新時間:2023-12-06 03:05:13 閱讀: 評論:0

            2023年12月6日發(fā)(作者:生日賀詞大全)

            -

            基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法

            基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法

            作者:劉鋼,李宗晨,郭建偉

            來源:《江蘇科技信息》 2018年第14期

            0 引言

            進入互聯(lián)網(wǎng)時代以來,各種技術快速發(fā)展,推動人們進入了信息時代。中國網(wǎng)民的規(guī)模在2016 年以來就達到了7.31億人,和全球的平均水平相比提高了3.1%[1]。隨著上網(wǎng)用戶的增多,人們在網(wǎng)絡上貢獻了各式各樣的文獻,這些文獻形成了海量的文本數(shù)據(jù),潛藏著巨大的價值。但是,文獻的文類和整理是一項非常具有挑戰(zhàn)性的工作,抽取文檔特征信息成了目前重要研究方向之一。

            1 卷積神經(jīng)網(wǎng)絡模型和語言處理模型

            1.1 卷積神經(jīng)網(wǎng)絡

            卷積神經(jīng)網(wǎng)絡是由多個層次組成的,每一個層次是一個二維平面,多個獨立的神經(jīng)元是構成二維平面的基本組成單元[2]。在卷積神經(jīng)網(wǎng)絡模型中,根據(jù)是否采用補零法將其分為寬卷積和窄卷積兩個分類。寬卷積適合于濾波器和輸入向量相差較大時使用。一般形式為:

            nout =(nin +2?npadding-nfilter)+1 (1)式中,nout是卷積的輸出長度,nin是卷積的輸入長度,npadding是在擴展矩陣以外的元素的長度,nfilter是濾波器的長度。本文使用窄卷積達到運行時間短,效率高的效果。

            1.2 Word2vec語言處理模型

            Word2vec是一個典型的基于深度學習思想的文本量化處理工具,和以往模型工具不同,它既能夠分析出語義,同時還能生成每個詞的詞向量表示,便于其他模型進行學習和挖掘[3]。通過Word2vec生成的詞向量,還可以進一步得到句子的向量[4]。目前,這個模型在文本處理上得到了很多應用[5]。在Word2vec 中,有兩種方式可以得到詞向量,分別是CBOW和Skipgram[6-7]。這兩種方法中,前者是根據(jù)上下文預測中心詞,后者是用中心詞預測上下文。

            2 卷積神經(jīng)網(wǎng)絡文本特征提取模型

            2.1 基于卷積神經(jīng)網(wǎng)絡的文本特征提取方法

            文本數(shù)據(jù)由Word2vec計算后生產詞向量矩陣,矩陣有3個區(qū)域,每個區(qū)域有2個濾波器,卷積層的神經(jīng)元經(jīng)過卷積操作,設置步長和激活函數(shù),通過softmax分類器輸出文本特征結果,如圖1所示。

            2.2 卷積神經(jīng)網(wǎng)絡的構建

            2.2.1 模型結構

            在本文的方法中,使用的神經(jīng)網(wǎng)絡模型中,包括了卷積層,池化層和全連接層。其中詳細的參數(shù)如表1所示,在全連接層,使用了dropout策略。聚類方法選擇了K-means方法。

            圖1 基于卷積神經(jīng)網(wǎng)絡提取文本特征過程

            表1 模型結構參數(shù)描述

            2.2.2 Dropout與參數(shù)優(yōu)化

            為了解決過擬合問題,本文的卷積神經(jīng)網(wǎng)絡模型采用Dropout 策略[8]。設置Dropout

            的比例為50%。采用為Mini-batch SGD訓練方法,設置動量為0.9,學習速率為0.01,對Mini-batch計算梯度數(shù)值。

            2.3 網(wǎng)絡訓練

            基于卷積神經(jīng)網(wǎng)絡文本特征提取訓練過程如下:

            (1)將語料數(shù)據(jù)樣本輸入到網(wǎng)絡模型中。

            在實驗中可以發(fā)現(xiàn),準確率在實驗當中隨著迭代次數(shù)而改變。如表4所示,總結了不同迭代次數(shù)下的測試準確率。從表中可見,在搜狗語料數(shù)據(jù)和復旦語料數(shù)據(jù)上,當?shù)_到200次后本文方法的準確率變得穩(wěn)定;而在哈工大語料數(shù)據(jù)上,在250次迭代達到穩(wěn)定,同時也得到了最高的準確性。迭代次數(shù)和穩(wěn)定性并不是正比例增長的,因此實驗中需要按照不同數(shù)據(jù)集的情況找到合適的迭代次數(shù)。迭代次數(shù)不同下不同語料數(shù)據(jù)集的準確率對比如圖2所示。

            圖2 迭代次數(shù)不同下不同語料數(shù)據(jù)集的準確率對比

            表4 語料數(shù)據(jù)集不同迭代次數(shù)下的測試準確率(%)

            4 結語

            互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)時代的到來,每天都有海量的文本數(shù)據(jù)等待著挖掘,這些文本數(shù)據(jù)中包含著潛在的、有價值的信息。傳統(tǒng)方法對文本數(shù)據(jù)的特征提取時會遇到維度災難等問題。因此,本文使用了卷積神經(jīng)網(wǎng)絡進行特征提取,簡化了問題的復雜性。文中描述了文本數(shù)據(jù)提取特征的詳細過程,給出了卷積神經(jīng)網(wǎng)絡結構過程圖以及參數(shù)優(yōu)化等相關內容,通過復旦大學、搜狗和哈爾濱工業(yè)大學中文語料庫的實驗,K-means聚類算法結果作為驗證卷積神經(jīng)網(wǎng)絡提取文本特征衡量標準,實驗表明,卷積神經(jīng)網(wǎng)絡能夠有效地提取文本數(shù)據(jù)的特征,準確率比較高。

            [1]中國國信網(wǎng).第39次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[EB/OL].(2018- 01- 22)[2018- 04- 26]./cnnic39/.

            [2]許厚金,劉永炎,鄧成玉,等.基于相似中心的K-means文本聚類算法[J].計算機工程與設計,2010(8):1802-1805.

            [3]朱磊.基于Word2vec詞向量的文本分類研究[D].重慶:西南大學,2017.

            [4]張謙,高章敏,劉嘉勇.基于Word2vec的微博短文本分類研究[J].信息網(wǎng)絡安全,2017(1):57-62.

            [5]唐明,朱磊,鄒顯春.基于Word2vec的一種文檔向量表示[J].計算機科學,2016(6):214-217,269.

            [6]李躍鵬,金翠,及俊川.基于Word2vec的關鍵詞提取算法[J].科研信息化技術與應用,2015(4):54-59.

            [7]熊富林,鄧怡豪,唐曉晟.Word2vec的核心架構及其應用[J].南京師范大學學報(工程技術版),2015(1):43-48.

            [8]NG H W,NGUYEN V D,VONIKAKIS V,et learning for emotion

            recognition on small datatsusing transfer learning[C].Washington:ACM

            Interna?tional Conference on Multimodal Interaction,2015.

            -

            基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法

            本文發(fā)布于:2023-12-06 03:05:12,感謝您對本站的認可!

            本文鏈接:http://www.newhan.cn/zhishi/a/1701803113237050.html

            版權聲明:本站內容均來自互聯(lián)網(wǎng),僅供演示用,請勿用于商業(yè)和其他非法用途。如果侵犯了您的權益請與我們聯(lián)系,我們將在24小時內刪除。

            本文word下載地址:基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法.doc

            本文 PDF 下載地址:基于卷積神經(jīng)網(wǎng)絡的文檔特征提取方法.pdf

            留言與評論(共有 0 條評論)
               
            驗證碼:
            推薦文章
            排行榜
            Copyright ?2019-2022 Comsenz Inc.Powered by ? 實用文體寫作網(wǎng)旗下知識大全大全欄目是一個全百科類寶庫! 優(yōu)秀范文|法律文書|專利查詢|
            主站蜘蛛池模板: 中文字幕日韩精品亚洲一区| 日韩欧美视频一区二区三区| 人人妻人人做人人爽| 国产精品福利片在线观看| 国产在线观看91精品亚瑟 | 国产精品国产高清国产专区 | 国产成年码av片在线观看| 精品人妻一区二区| 国产精品18久久久久久麻辣| 色网av免费在线观看| 丁香五月亚洲综合在线国内自拍| 国产免费一区二区三区在线观看| 四虎国产精品久久免费精品| 日韩av一区二区三区不卡| 九九热爱视频精品视频| 亚洲色大成网站WWW永久麻豆| 撕开奶罩疯狂揉吮奶头| 国产成人精品午夜2022| 人妻无码AⅤ中文字幕视频| 国产午夜精品福利视频| 久久www视频| 亚洲av一区二区在线看| 国产综合AV一区二区三区无码| 999精品全免费观看视频| 一区二区亚洲人妻精品| 国产成人无码一区二区三区在线| 狠狠色噜噜狠狠狠狠888奇米| 精品人妻少妇嫩草av系列| 国产亚洲999精品AA片在线爽| 日本一区二区三本视频在线观看| 蜜臀AⅤ永久无码精品| 大香伊蕉在人线国产免费| 在线A毛片免费视频观看| 亚洲视频免| 国产精品中文字幕一区| 久久久久人妻一区精品果冻| 中文字幕日韩有码av| 免费三A级毛片视频| 久久精产国品一二三产品| 中文字幕日本在线免费| 国产高清一区二区三区视频|