OCR
Optical Character Recognition,光學字符識別,一種通過掃描后將文本轉換為可編輯數字文本的技術。通過使用圖像處理和機器學習等技術,OCR可以將印刷文本轉換為計算機可讀的數字文本,從而實現對文本的數字化處理和自動化識別。
字符集
Character set,用于表示所有可識別字符的特定字符集合。每個字符集包含的字符個數不同,有些字符集只包含基本的字母和數字,而有些則包含大量的符號和特殊字符。
分段
Segmentation,圖像預處理的一個步驟,將文本塊從整個圖像中分離出來。
二值化
Binarization,將文本圖像轉換為只包含黑色和白色像素的圖像。這種處理方法的優點是能夠簡化圖像處理過程,提高處理效率。
預處理
Preprocessing,識別前對文本圖像進行處理的過程,包括去除噪聲、增強對比度等。
切割
Snapping,將圖像中的字符切割成單獨的字符,方便后續的字符識別和處理。
識別率
Recognition rate,OCR系統正確識別字符的比率。識別率的計算公式為:(正確識別的字符數 / 總字符數) × 100%。識別率越高,說明OCR系統的性能越好,識別效果越準確。在實際應用中,識別率是評價OCR系統性能的重要標準之一,也是用戶選擇OCR系統的重要依據之一。
矩形化
Rectification,對文本圖像進行矯正,使字符出現在一個水平或垂直的矩形內。通過矩形化處理,文本圖像中的字符可以被統一到一個標準的排列方式,有助于提高OCR系統的識別準確率和處理速度。同時,矩形化處理還可以消除由于拍攝角度、紙張彎曲等因素導致的字符傾斜、扭曲等問題,使得后續的字符識別更加準確和可靠。
特征提取
Feature extraction,指從原始圖像中提取出一些具有代表性的特征,這些特征可以用于描述圖像的內容和結構。在文本圖像識別中,特征提取是關鍵步驟之一,它可以幫助機器更好地理解和識別文本信息。
文本框檢測
Text frame detection,在圖像中識別和定位文本框的位置和大小的過程,可以幫助確定需要識別的文本區域,使OCR只檢測感興趣區域,從而減少OCR系統的計算量和誤差。
字符識別
Character recognition,使用OCR技術將掃描的文本圖像轉換為數字文本的過程。
逐字識別
Character by character recognition,OCR系統按照文本圖像中字符的順序,逐個字符進行識別的過程。在逐字識別中,OCR系統通常會處理單個字符的圖像,因此可以更加細致地處理每個字符的細節和特征。它可以提高字符識別的準確率和可靠性,并且方便進行校對和修正。
神經網絡
Neural network,一種模擬人腦神經元結構的計算模型,由多個神經元組成,通過訓練和學習進行模式識別和預測等任務,常用于OCR中的字符識別。
語言模型
Language Model,對于自然語言處理(NLP)任務,如OCR,區分不同單詞的語法和上下文規則的統計模型。
改寫
Rewriting,通過重新排列和連接字符來識別單個字符的技術,可以有效地識別出單個字符,并且在遇到不同的字符和字體時具有良好的適應性。
同形異義
Homophone,在OCR中,指具有相同發音但含義不同的單詞。
最小編輯距離(Minimum edit distance):在OCR中,用于計算已知單詞和OCR結果之間的差異。
形態學處理
Morphological processing,一種基于數學形態學的圖像處理方法,用于分析和處理圖像中的形狀和結構。在OCR圖像處理中,形態學處理可以采用腐蝕、膨脹等方式去除噪聲和細節,從而提高OCR識別的準確性和可靠性。
腐蝕操作可以將圖像中的每個像素與其周圍的像素進行比較,如果周圍的像素值比當前像素值小,則將當前像素值降低。腐蝕操作可以用來消除小的噪聲點和突出的細節,使圖像更加平滑。膨脹操作是將圖像中的每個像素與其周圍的像素進行比較,如果周圍的像素值比當前像素值大,則將當前像素值提高。膨脹操作可以用來擴大圖像中的亮區域,使得一些小的連通區域合并成一個大的連通區域。
字符序列
Character sequence,在OCR中,將多個字符組合在一起,以建立單詞和句子的概念。