• <em id="6vhwh"><rt id="6vhwh"></rt></em>

    <style id="6vhwh"></style>

    <style id="6vhwh"></style>
    1. <style id="6vhwh"></style>
        <sub id="6vhwh"><p id="6vhwh"></p></sub>
        <p id="6vhwh"></p>
          1. 国产亚洲欧洲av综合一区二区三区 ,色爱综合另类图片av,亚洲av免费成人在线,久久热在线视频精品视频,成在人线av无码免费,国产精品一区二区久久毛片,亚洲精品成人片在线观看精品字幕 ,久久亚洲精品成人av秋霞

             首頁 > 試題

            民國報紙數字化加工流程研究

            更新時間:2025-12-15 05:26:49 閱讀: 評論:0

            2024年3月26日發(作者:中華孔子學會)

            龍源期刊網

            民國報紙數字化加工流程研究

            作者:張瑋

            來源:《科學與信息化》2019年第14期

            龍源期刊網

            龍源期刊網

            摘 要 民國報紙數字化加工不僅實現了報紙圖像數字化,還對篇目標題進行了文字識別。

            本文對民國報紙數字化加工流程進行研究,對數字化加工流程中的版式分析、OCR識別兩個

            步驟進行重點介紹,并附圖給予詳細說明。

            關鍵詞 民國報紙;數字化加工;版式分析;OCR識別

            前言

            由于報紙酸性大、存儲難、學者使用率低、科研價值高等原因,民國報紙數字化成為當下

            解決問題的主要途徑。國家圖書館自2014年啟動民國報紙外包數字化項目以來,本著便于讀

            者檢索、提供多樣服務的原則,在對民國報紙進行圖像掃描外,還增加了篇目標題OCR文字

            識別。

            龍源期刊網

            民國報紙數字化加工流程,是一個環環相扣的過程,每一道工序都需要嚴格把關,外包公

            司通過不斷的技術更新及人員監控,提交高質量的民國報紙數字化加工成果。大致的加工流程

            包括:民國報紙轉化為數字圖像(數字圖像是由國家圖書館提供)、外包公司導入圖像并整理

            歸檔、圖像糾偏、格式轉換等處理、版式分析、OCR文字識別、排版輸出成品數據、質檢成

            品數據、提交成品數據。外包公司具體的數字化加工流程見圖1:

            1 加工前準備工作

            民國報紙數字化加工前期工作包括:民國報紙掃描成數字化圖像、外包公司接收到圖像后

            進行圖像整理、圖像處理。

            民國報紙數字化圖像是由國家圖書館縮微部門以8位灰度、300dpi的參數掃描民國報紙縮

            微膠片得來的。

            外包公司接收到圖像后,需要對原始圖像進行清點,將殘缺、模糊、缺版等情況與館方確

            認并形成數據清單。

            圖像數據無誤后,需要人工分析報紙的版面特性,制定適合該報紙的模板尺寸,利用制定

            好的模板進行圖像處理。外包公司應用圖像處理工具,自動檢查整理圖像的DPI與圖像模式,

            自動批量進行圖像傾斜校對,去除報紙黑邊、擴展畫布白邊,進行圖像格式轉換(如:TIFF

            格式轉換成JPG格式)、圖像重命名等。圖像處理工具會提示疑似錯誤的處理,并標紅,需要

            人工檢查修改。

            2 版式分析

            民國報紙數字化圖像經過前期準備工作之后,進入第一個重要環節:版式分析,該工序是

            民國報紙數字化加工中特別重要的一個環節,直接影響下一步OCR識別的內容,也影響報紙

            數字化的質量。外包公司有專業軟件進行版式分析,如:漢王科技采用公司自己開發的漢王

            OCR-版面分析識別終端。

            版式分析主要是對民國報紙的版面進行切分,劃定欄目;篇目引題、標題、副題;正文;作者;

            圖片標題、圖片作者、廣告等信息,標記需要OCR識別的內容。版式分析主要采用版面分析

            識別軟件進行機器切分,人工輔助調整完成。

            2.1 機器切分

            版面分析識別軟件會根據設定的程序切分出引題、標題、副題、正文等信息,以不同的顏

            色、標記標識,如圖2所示,紅色框代表標題部分,需要OCR文字識別;綠色框代表正文、圖

            片等,不需要OCR文字識別。

            龍源期刊網

            標記部分代表的意思解釋:第一個數字標記代表該版面中第幾個篇目,篇目順序一般按版

            面從右到左、從上到下的順序依次識別,如遇特殊情況或者人工調整可不按此規則。第二個數

            字標記代表該篇目的第幾個框,篇目中畫框一般依據引題、標題、副題、正文的順序標記。第

            三個字母標記J代表是機器切分,第四個字母標記:YT代表引題、BT代表標題、FT代表副

            題、ZW代表正文、GG代表廣告、LT代表欄目;第五個字母標記:V代表垂直方向上從右到左

            的順序識別、H代表水平方向上從左到右識別、I代表圖像;有的篇目有第六個標記*,代表主

            要校對項,需要重點檢查。例如:3 3-3 J FT V *,3代表此版面中按順序識別的第3個篇目、

            3-3代表第3個篇目內容的第3個框、J代表機器識別、FT代表框中的內容為副題、V代表此

            篇目的標題識別順序為垂直排版,從右到左依次識別引題、標題、副題、*代表此副題需要重

            點校對。

            機器切分存在的問題:篇目由切分部分合成為一個完整篇目時出現框線鋸齒、報紙傾斜等

            原因導致相鄰篇目框線壓字、遺漏篇目未切分等,這些問題需要人工自行調整。

            2.2 人工調整

            對于遺漏篇目,版面分析識別軟件提供快速劃分工具,只需點一下快捷按鈕選中相應內

            容,即生成該部分符號標記;對切分好的框線,也可由操作員拖動框線手動調整框線范圍。

            考慮美觀和完整性,篇目框線應該包含篇目所有內容,不壓字,且不存在鋸齒,但如果由

            于報紙傾斜導致篇目框線如不存在鋸齒就會壓字,以保證框的篇目內容完整為原則,可以存在

            鋸齒的情況。

            3 OCR文字識別

            版式分析且質檢無誤后,進入下一個重要環節:OCR文字識別。文字識別要求按照原篇

            目內容引題、標題、副題的順序原貌識別,關于作者的識別雖不用單獨切分成框,按照甲乙雙

            方簽訂的合同也是需要識別出來的。

            OCR文字識別主要采用機器自動識別,人工糾正為輔。

            3.1 機器識別

            機器識別根據用戶需求開發的,能夠進行后臺自動識別文字,主要分為三個步驟:切分、

            校對;聚類挑字;改字。

            切分是把需要文字識別的部分進行細化分割[1],拆成一字一框的形式,見圖3所示,綠色

            代表機器認為切分正確,紅色代表機器懷疑切分錯誤,需人工確認。在文字切分識別后需要進

            行文字拼合,為保證合成的文字內容的原坐標位置不變,使后期PDF文字層與圖像層對位準

            確,這一步增加后臺校對功能。

            龍源期刊網

            聚類挑字是把一批次中所有同一個字的字形聚集到一起,選出與標準字庫不一樣的那一個

            進行標記,為下一步錯字修改做準備,同時也能通過不斷學習逐步完善標準字庫。例如:點通

            采用四家機器人對文字做識別處理,參見圖4,第一個字是標準字,也就是機器應該識別成的

            字,后面的字都是字圖,字圖中的字和該標準字的字形相近,也即該標準字的懷疑字,懷疑字

            是機器對至少近五期的報紙識別統計后選出的,也是四家機器人識別碰撞后趨同的字(四家機

            器人識別結果都一樣的字直接跳過挑字和改字;四家機器人識別結果都不一樣的

            則直接跳過挑字,進入改字階段;四家機器人識別結果趨同,則進入挑字階段)。

            改字是對四家機器人識別結果都不一樣的字和挑字過程中挑出來的錯別字進行修正,見圖

            5改字界面,改字時系統程序提供一些備選字,改字人員從中選出正確的字,或者直接輸入正

            確的字,必要時還可以調用報紙版面原圖,通過原文內容對文字進行輔助修正。

            3.2 人工識別

            人工錄入主要適用于報紙版面混亂、版面不清晰、OCR識別效果不理想的情況。人工錄

            入分為人工切分、人工錄入、人工比較(質檢)三個階段,其中人工錄入階段采用兩人同時并

            行錄入同一部分內容,兩人錄入完成后由第三人對錄入結果進行比較,找出錄入結果不同的字

            進行修正。

            所有識別后的文字都要再經過一步質檢,檢查文字識別是否正確、標點是否符合原貌實況

            等,如合格進入下一步導出成品數據,不合格返回人工錄入進行修改。

            4 導出成品數據及驗收

            導出成品數據之前需要進行排版,主要分文本排版和PED排版。排版無誤后導出成品數

            據。

            文本排版主要對合成的文字段落進行排版處理,恢復文字原貌,即引題、標題、副題的分

            段,添加空格,添加標點符號等,在進行文本排版的過程中也可以進行文字的校對,發現錯誤

            隨時修改。

            PED排版主要對生成的PED進行人工處理,優化文字的覆蓋和重合效果,保證文字和報

            紙原圖在位置上的對應。PED排版是一個中間過程,最終生成雙層PDF。

            導出的成品數據還要再經過一步全面質檢,主要檢查報紙元數據及篇目框線、篇目內容識

            別等信息[2],質檢無誤即可提交給國家圖書館。

            5 結束語

            龍源期刊網

            民國報紙數字化加工不僅實現民國報紙圖像數字化,還對標題類文字進行原貌識別,主要

            經過版式分析和OCR識別兩步,隨著技術的不斷更新,民國報紙數字化加工流程也會不斷簡

            化和智能化。

            參考文獻

            [1] 孫羽菲.低質量文本圖像OCR技術的研究[D].北京:中國科學院,2005.

            [2] 肖紅,槐燕.民國報紙數字化實踐中的質檢問題探析[J].圖書館學研究,2017,(7):

            61-78.

            本文發布于:2024-03-26 22:19:38,感謝您對本站的認可!

            本文鏈接:http://www.newhan.cn/zhishi/a/88/60692.html

            版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。

            本文word下載地址:民國報紙數字化加工流程研究.doc

            本文 PDF 下載地址:民國報紙數字化加工流程研究.pdf

            標簽:識別   報紙   進行
            留言與評論(共有 0 條評論)
               
            驗證碼:
            推薦文章
            排行榜
            Copyright ?2019-2022 Comsenz Inc.Powered by ? 實用文體寫作網旗下知識大全大全欄目是一個全百科類寶庫! 優秀范文|法律文書|專利查詢|
            主站蜘蛛池模板: 国产成人精品久久一区二区 | 在线免费观看| 奇米四色7777中文字幕| 国产专区综合另类日韩一区| 人妻 日韩 欧美 综合 制服| 国产97在线 | 亚洲| 久久精品成人免费看| 蜜桃一区二区三区免费看| 亚洲国产日韩一区三区| 国产精品一区二区国产主播| 國产AV天堂| 亚洲AV午夜成人无码电影| 人妻少妇久久中文字幕| 天天拍夜夜添久久精品大| 老熟妇乱子交视频一区| 日本一区三区高清视频| 国产精品偷乱一区二区三区| 亚洲大尺度无码专区尤物| 欧美饥渴熟妇高潮喷水| 9丨精品国产高清自在线看| 色窝窝无码一区二区三区| 国产在热线精品视频| 亚洲国产综合自在线另类| 亚洲欧洲日产国码久在线| 国产系列高清精品第一页| 国产精品中文字幕日韩| 亚洲成av人片一区二区 | 尹人香蕉久久99天天拍欧美p7| 久久人妻无码一区二区三区av | 一个添下面两个吃奶把腿扒开| 久久久久久a亚洲欧洲av| 国产精品毛片一区视频播| 亚洲av中文久久精品国内| 国产亚洲国产精品二区| 国产精成人品日日拍夜夜免费| 国产免费一区二区三区在线观看| 久久人人爽人人爽人人片dvd| 国产AV一区二区精品凹凸| 激情综合网激情综合| 99麻豆久久精品一区二区| 亚洲日本精品一区二区|