2024年3月26日發(作者:中華孔子學會)
龍源期刊網
民國報紙數字化加工流程研究
作者:張瑋
來源:《科學與信息化》2019年第14期
龍源期刊網
龍源期刊網
摘 要 民國報紙數字化加工不僅實現了報紙圖像數字化,還對篇目標題進行了文字識別。
本文對民國報紙數字化加工流程進行研究,對數字化加工流程中的版式分析、OCR識別兩個
步驟進行重點介紹,并附圖給予詳細說明。
關鍵詞 民國報紙;數字化加工;版式分析;OCR識別
前言
由于報紙酸性大、存儲難、學者使用率低、科研價值高等原因,民國報紙數字化成為當下
解決問題的主要途徑。國家圖書館自2014年啟動民國報紙外包數字化項目以來,本著便于讀
者檢索、提供多樣服務的原則,在對民國報紙進行圖像掃描外,還增加了篇目標題OCR文字
識別。
龍源期刊網
民國報紙數字化加工流程,是一個環環相扣的過程,每一道工序都需要嚴格把關,外包公
司通過不斷的技術更新及人員監控,提交高質量的民國報紙數字化加工成果。大致的加工流程
包括:民國報紙轉化為數字圖像(數字圖像是由國家圖書館提供)、外包公司導入圖像并整理
歸檔、圖像糾偏、格式轉換等處理、版式分析、OCR文字識別、排版輸出成品數據、質檢成
品數據、提交成品數據。外包公司具體的數字化加工流程見圖1:
1 加工前準備工作
民國報紙數字化加工前期工作包括:民國報紙掃描成數字化圖像、外包公司接收到圖像后
進行圖像整理、圖像處理。
民國報紙數字化圖像是由國家圖書館縮微部門以8位灰度、300dpi的參數掃描民國報紙縮
微膠片得來的。
外包公司接收到圖像后,需要對原始圖像進行清點,將殘缺、模糊、缺版等情況與館方確
認并形成數據清單。
圖像數據無誤后,需要人工分析報紙的版面特性,制定適合該報紙的模板尺寸,利用制定
好的模板進行圖像處理。外包公司應用圖像處理工具,自動檢查整理圖像的DPI與圖像模式,
自動批量進行圖像傾斜校對,去除報紙黑邊、擴展畫布白邊,進行圖像格式轉換(如:TIFF
格式轉換成JPG格式)、圖像重命名等。圖像處理工具會提示疑似錯誤的處理,并標紅,需要
人工檢查修改。
2 版式分析
民國報紙數字化圖像經過前期準備工作之后,進入第一個重要環節:版式分析,該工序是
民國報紙數字化加工中特別重要的一個環節,直接影響下一步OCR識別的內容,也影響報紙
數字化的質量。外包公司有專業軟件進行版式分析,如:漢王科技采用公司自己開發的漢王
OCR-版面分析識別終端。
版式分析主要是對民國報紙的版面進行切分,劃定欄目;篇目引題、標題、副題;正文;作者;
圖片標題、圖片作者、廣告等信息,標記需要OCR識別的內容。版式分析主要采用版面分析
識別軟件進行機器切分,人工輔助調整完成。
2.1 機器切分
版面分析識別軟件會根據設定的程序切分出引題、標題、副題、正文等信息,以不同的顏
色、標記標識,如圖2所示,紅色框代表標題部分,需要OCR文字識別;綠色框代表正文、圖
片等,不需要OCR文字識別。
龍源期刊網
標記部分代表的意思解釋:第一個數字標記代表該版面中第幾個篇目,篇目順序一般按版
面從右到左、從上到下的順序依次識別,如遇特殊情況或者人工調整可不按此規則。第二個數
字標記代表該篇目的第幾個框,篇目中畫框一般依據引題、標題、副題、正文的順序標記。第
三個字母標記J代表是機器切分,第四個字母標記:YT代表引題、BT代表標題、FT代表副
題、ZW代表正文、GG代表廣告、LT代表欄目;第五個字母標記:V代表垂直方向上從右到左
的順序識別、H代表水平方向上從左到右識別、I代表圖像;有的篇目有第六個標記*,代表主
要校對項,需要重點檢查。例如:3 3-3 J FT V *,3代表此版面中按順序識別的第3個篇目、
3-3代表第3個篇目內容的第3個框、J代表機器識別、FT代表框中的內容為副題、V代表此
篇目的標題識別順序為垂直排版,從右到左依次識別引題、標題、副題、*代表此副題需要重
點校對。
機器切分存在的問題:篇目由切分部分合成為一個完整篇目時出現框線鋸齒、報紙傾斜等
原因導致相鄰篇目框線壓字、遺漏篇目未切分等,這些問題需要人工自行調整。
2.2 人工調整
對于遺漏篇目,版面分析識別軟件提供快速劃分工具,只需點一下快捷按鈕選中相應內
容,即生成該部分符號標記;對切分好的框線,也可由操作員拖動框線手動調整框線范圍。
考慮美觀和完整性,篇目框線應該包含篇目所有內容,不壓字,且不存在鋸齒,但如果由
于報紙傾斜導致篇目框線如不存在鋸齒就會壓字,以保證框的篇目內容完整為原則,可以存在
鋸齒的情況。
3 OCR文字識別
版式分析且質檢無誤后,進入下一個重要環節:OCR文字識別。文字識別要求按照原篇
目內容引題、標題、副題的順序原貌識別,關于作者的識別雖不用單獨切分成框,按照甲乙雙
方簽訂的合同也是需要識別出來的。
OCR文字識別主要采用機器自動識別,人工糾正為輔。
3.1 機器識別
機器識別根據用戶需求開發的,能夠進行后臺自動識別文字,主要分為三個步驟:切分、
校對;聚類挑字;改字。
切分是把需要文字識別的部分進行細化分割[1],拆成一字一框的形式,見圖3所示,綠色
代表機器認為切分正確,紅色代表機器懷疑切分錯誤,需人工確認。在文字切分識別后需要進
行文字拼合,為保證合成的文字內容的原坐標位置不變,使后期PDF文字層與圖像層對位準
確,這一步增加后臺校對功能。
龍源期刊網
聚類挑字是把一批次中所有同一個字的字形聚集到一起,選出與標準字庫不一樣的那一個
進行標記,為下一步錯字修改做準備,同時也能通過不斷學習逐步完善標準字庫。例如:點通
采用四家機器人對文字做識別處理,參見圖4,第一個字是標準字,也就是機器應該識別成的
字,后面的字都是字圖,字圖中的字和該標準字的字形相近,也即該標準字的懷疑字,懷疑字
是機器對至少近五期的報紙識別統計后選出的,也是四家機器人識別碰撞后趨同的字(四家機
器人識別結果都一樣的字直接跳過挑字和改字;四家機器人識別結果都不一樣的
則直接跳過挑字,進入改字階段;四家機器人識別結果趨同,則進入挑字階段)。
改字是對四家機器人識別結果都不一樣的字和挑字過程中挑出來的錯別字進行修正,見圖
5改字界面,改字時系統程序提供一些備選字,改字人員從中選出正確的字,或者直接輸入正
確的字,必要時還可以調用報紙版面原圖,通過原文內容對文字進行輔助修正。
3.2 人工識別
人工錄入主要適用于報紙版面混亂、版面不清晰、OCR識別效果不理想的情況。人工錄
入分為人工切分、人工錄入、人工比較(質檢)三個階段,其中人工錄入階段采用兩人同時并
行錄入同一部分內容,兩人錄入完成后由第三人對錄入結果進行比較,找出錄入結果不同的字
進行修正。
所有識別后的文字都要再經過一步質檢,檢查文字識別是否正確、標點是否符合原貌實況
等,如合格進入下一步導出成品數據,不合格返回人工錄入進行修改。
4 導出成品數據及驗收
導出成品數據之前需要進行排版,主要分文本排版和PED排版。排版無誤后導出成品數
據。
文本排版主要對合成的文字段落進行排版處理,恢復文字原貌,即引題、標題、副題的分
段,添加空格,添加標點符號等,在進行文本排版的過程中也可以進行文字的校對,發現錯誤
隨時修改。
PED排版主要對生成的PED進行人工處理,優化文字的覆蓋和重合效果,保證文字和報
紙原圖在位置上的對應。PED排版是一個中間過程,最終生成雙層PDF。
導出的成品數據還要再經過一步全面質檢,主要檢查報紙元數據及篇目框線、篇目內容識
別等信息[2],質檢無誤即可提交給國家圖書館。
5 結束語
龍源期刊網
民國報紙數字化加工不僅實現民國報紙圖像數字化,還對標題類文字進行原貌識別,主要
經過版式分析和OCR識別兩步,隨著技術的不斷更新,民國報紙數字化加工流程也會不斷簡
化和智能化。
參考文獻
[1] 孫羽菲.低質量文本圖像OCR技術的研究[D].北京:中國科學院,2005.
[2] 肖紅,槐燕.民國報紙數字化實踐中的質檢問題探析[J].圖書館學研究,2017,(7):
61-78.
本文發布于:2024-03-26 22:19:38,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/88/60692.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:民國報紙數字化加工流程研究.doc
本文 PDF 下載地址:民國報紙數字化加工流程研究.pdf
| 留言與評論(共有 0 條評論) |