OCR 은 영어 Optical Character Recognition 의 약어로, 중국어로 번역하는 것은 광학 기술을 통해 문자를 인식하는 것을 의미하며, 기술 연구와 응용 분야의 중요한 측면을 자동으로 인식하는 것이다. 컴퓨터에 텍스트 자동 인식을 입력할 수 있는 소프트웨어 기술로 스캐너와 함께 제공되는 주요 소프트웨어로 키보드가 아닌 입력 범주에 속하며 이미지 입력 장치는 주로 스캐너와 함께 사용해야 합니다. 현재 OCR 은 주로 문자인식 소프트웨어를 가리킨다. 1996 년 청화자광이 중국어 인식 소프트웨어와 매치하기 전까지는 시중에 나와 있는 스캐너와 OCR 소프트웨어가 별도로 판매되고, 전문 OCR 소프트웨어가 노임되고 있다. 탱자강? 두꺼비 k 과부? 탱이가 직원 실젖에 빚을 졌나? CR 소프트웨어도 계속 업그레이드되고 있으며, 스캐너 업체는 현재 전문 OCR 소프트웨어를 자체 제작된 스캐너와 함께 판매하고 있습니다. OCR 기술의 급속한 발전은 스캐너의 광범위한 사용과 불가분의 관계에 있으며, 최근 2 년 동안 스캐너가 보편화되고 OCR 기술이 개선되면서 OCR 은 대부분의 스캐너 사용자에게 효과적인 도우미가 되었습니다.
첫째, OCR 기술 개발
1960 년대 초반부터 1 세대 OCR 제품이 출현한 이후 30 여 년간의 지속적인 발전을 거쳐 필기체의 다양한 OCR 기술에 대한 연구가 눈에 띄는 성과를 거두었습니다. OCR 제품에 대한 기능 요구 사항도 원래의 단순한 인식율에서 전체 OCR 시스템에 대한 인식 속도, 사용자 인터페이스의 친숙성, 조작의 간편성, 제품의 안정성, 적응성, 적응성으로 발전했다.
IBM 은 최초로 OCR 제품을 개발했고, 1965 년 뉴욕 세계 박람회에서 IBM 의 OCR 제품인 ——IBMl287 을 선보였다. 당시 이 제품은 인쇄체의 숫자, 영문자, 일부 기호만 인식할 수 있었으며 지정된 글꼴이어야 했습니다. 1960 년대 말 히타치 회사와 후지쯔도 각각 각자의 OCR 제품을 개발했다. 세계 최초의 필기체 우편 번호 인식을 실현하는 서신자동분류 시스템은 일본 도시바 회사에서 개발했으며, 2 년 후 NEC 도 같은 시스템을 선보였다. 1974 년에는 편지의 자동분류율이 약 92% 에 달하며 우편시스템에 광범위하게 적용돼 좋은 역할을 하고 있다. 1983 년 일본 도시바는 인쇄체 일본어 한자를 인식하는 OCR 시스템 OCRV595 를 발표했습니다. 인식 속도는 초당 70 ~100 자, 인식률은 99.5% 입니다. 이후 도시바는 또 필기체 일본어 한자 인식 연구를 시작했다.
중국의 OCR 기술 연구는 상대적으로 늦게 시작되었고, 1970 년대에야 숫자, 영문자, 기호의 인식 기술에 대한 연구가 시작되었고, 1970 년대 말부터 한자 인식 연구가 시작되었다. 1986 년 국가 863 프로그램 정보 분야 과제는 칭화대, 베이징정보공학대학, 선양자동화소 3 개 기관이 공동으로 중국어 OCR 소프트웨어 개발을 진행했다. 1989 년까지 칭화대는 국내 최초의 중국어 OCR 소프트웨어인 칭화문통 TH-OCR10/. 칭화 OCR 인쇄체 한자 인식 소프트웨어는 이어 TH-OCR 92 고성능 실용 간략/번체, 다중 글꼴, 다기능 인쇄한자 인식 시스템을 출시하여 인쇄체 한자 인식 기술에 큰 진전을 이뤘다. ~ 1994 년 내놓은 TH-OCR 94 고성능 한영 혼행 인쇄 텍스트 인식 시스템은 "국내외에서 처음 선보이는 한영 혼행 인쇄 텍스트 인식 시스템으로 전반적으로 국제 선두에 있다" 고 전문가들에 의해 감정됐다. 1990 년대 중후반 청화대 전자공학과는 한자 인식 종합 연구를 통해 한자 인식 기술이 인쇄체 텍스트, 온라인 자필 한자 인식, 오프라인 자필 한자 인식, 오프라인 자필 디지털 기호 인식 등 분야에서 중요한 성과를 거두었다. 대표적인 성과는 TH-OCR 97 통합 한자 인식 시스템으로 다문종 (한, 영, 일) 인쇄 텍스트, 온라인 자필 한자, 오프라인 자필 한자, 자필 숫자의 인식 입력을 완성할 수 있다. 몇 년 동안 칭화문통 TH-OCR 외에도 상서 SH-OCR 과 같은 다양한 스타일의 OCR 소프트웨어도 잇따라 출시되어 중국어 OCR 시장이 꾸준히 확대되어 사용자가 전 세계에 널리 퍼져 있다.
현재 인쇄체 OCR 의 인식 기술이 이미 높은 수준에 이르렀다고 할 수 있다. OCR 제품은 이전에 지정된 인쇄체 숫자, 영문자 및 일부 기호만 인식할 수 있었던 것으로 자동 레이아웃 분석, 표 인식, 혼합 문자, 다중 글꼴, 다중 크기, 가로 세로 혼합 인식을 위한 강력한 컴퓨터 정보 빠른 입력 도구로 발전했습니다. 인쇄체 한자에 대한 인식률은 98% 이상이며, 인쇄 품질이 좋지 않은 문자에 대한 인식률도 95% 이상에 이른다. 송체, 흑체, 해서체, 모조 송체 등 다양한 글꼴의 간략화, 번체를 인식할 수 있으며, 다양한 글꼴, 다양한 크기의 혼합 조판을 인식할 수 있어 필기체 한자의 인식률이 70% 이상에 달한다. 특히 우리나라의 한자 OCR 기술은 10 여 년의 노력 끝에 시작이 늦고 한자 문자 세트가 비정상적으로 방대하다는 등의 어려움을 극복했으며, 단어의 인식 속도 (단위 시간 내에 완료된 특징에서 인식 결과 출력까지 추출한 글자 수 참조) 는 70 자/초 이상에 이를 수 있다. 인쇄체 OCR 한자 인식 기술이 성숙해짐에 따라 OCR 제품은 뉴스, 인쇄, 출판, 도서관, 사무 자동화 등 다양한 업종에 널리 사용되고 있다.
전문 OCR 제품은 주로 특정 업종을 대상으로 합니다. 즉, 매일 대량의 양식 정보 입력을 처리해야 하는 부서 (예: 우편, 세금, 세관, 통계 등) 에 적용됩니다. 특정 업종을 위한 이 전문적인 OCR 시스템은 형식이 비교적 고정되어 있고 인식된 문자 세트가 상대적으로 작으며 전용 입력 장치와 함께 자주 사용되기 때문에 메일 자동 분류 시스템과 같은 빠르고 효율적인 특징을 가지고 있습니다.
필기 원고의 인식은 1996, 1997 년에야 제품이 출시되기 시작했으며, 인쇄본 인식 제품의 추가 기능으로 제공되었다. 사람이 글을 쓰는 습관이 천차만별이기 때문에 자유필기체 인식을 실현하는 것은 상당히 어렵기 때문에 필기체 OCR 기술의 사용 분야는 온라인 필기체 인식, 즉 사람이 쓰면서 컴퓨터를 인식하는 실시간 인식 방식이다.
둘째, OCR 의 기본 원리
간단히 말해서, OCR 의 기본 원칙은 스캐너를 통해 한 원고의 이미지를 컴퓨터에 입력한 다음 컴퓨터에서 각 문자의 이미지를 꺼내서 한자 인코딩으로 변환하는 것입니다. 구체적인 작업 과정은 스캐너가 한자 원고를 전하 커플러 CCD 를 통해 원고의 광신호를 전기 신호로 변환하고 아날로그/디지털 변환기를 통해 디지털 신호로 변환하여 컴퓨터로 전송하는 것이다. 컴퓨터는 원고의 디지털 이미지를 받아들인다. 그 이미지의 한자는 인쇄된 한자일 수도 있고, 손으로 쓴 한자일 수도 있고, 그 안에 있는 한자를 식별할 수도 있다. 인쇄체 문자의 경우 먼저 광학 방식으로 문서 자료를 원본 흑백 래스터 이미지 파일로 변환한 다음 인식 소프트웨어를 통해 이미지의 문자를 텍스트 형식으로 변환하여 워드 프로세싱 소프트웨어를 추가로 처리합니다. 여기서 문자 인식은 OCR 의 중요한 기술입니다.
1.ocr 인식의 두 가지 방법
다른 정보 데이터와 마찬가지로 컴퓨터의 모든 스캐너에서 캡처한 그래픽 정보는 0, 1 이라는 두 숫자로 기록되고 인식되며 모든 정보는 0, 1 에 저장된 일련의 점 또는 샘플 점으로만 인식됩니다. OCR 인식 프로그램은 페이지의 문자 정보를 인식하며, 주로 셀 패턴 일치 방법과 피쳐 추출 방법을 통해 문자를 인식합니다.
셀 패턴 일치 인식 (Pattern Matching) 은 각 문자를 표준 글꼴 및 크기 비트맵이 저장된 파일과 엄격하게 비교하지 않습니다. 응용 프로그램에 문자가 저장된 큰 데이터베이스가 있는 경우 응용 프로그램은 정확한 일치를 위해 적합한 문자를 선택합니다. 소프트웨어는 가장 유사한 일치를 찾기 위해 몇 가지 처리 기술을 사용해야 합니다. 일반적으로 동일한 문자의 다른 버전을 계속 테스트하여 비교해야 합니다. 일부 소프트웨어는 텍스트 한 페이지를 스캔하고 새 글꼴을 정의하는 모든 문자를 식별할 수 있습니다. 일부 소프트웨어는 자체 인식 기술을 사용하여 페이지의 문자를 인증하고 인식할 수 없는 문자를 수동으로 선택하거나 직접 입력합니다.
피쳐 추출 인식 (Feature Extraction) 은 각 문자를 슬래시, 수평선, 곡선 등 여러 가지 다른 문자 피쳐로 분해하는 것입니다. 그런 다음 이러한 특징을 이해 (인식) 한 문자와 일치시킵니다. 간단한 예를 들어, 응용 프로그램이 두 개의 수평선을 인식하면 해당 문자가 "2" 일 수 있다고 "생각" 합니다. 피쳐 추출법의 장점은 중국어 서예체와 같은 다양한 글꼴을 인식할 수 있다는 것입니다. 예를 들어, 중국어 서예체는 피쳐 추출법을 사용하여 문자 인식을 실현한다는 것입니다.
대부분의 OCR 응용 프로그램에는 인식률을 더욱 높이는 구문 스마트 검사 기능이 포함되어 있습니다. 주로 컨텍스트 검사법을 통해 철자와 문법을 교정합니다. 문자 인식 시 OCR 응용 프로그램은 프로그램에 이미 있는 구문, 고정된 단어 순서, 해당 검사 문자열의 단어 등을 기준으로 여러 차례 컨텍스트 컨버전스 검사를 수행합니다. 고급 응용 프로그램은 자동으로 잘못된 단어를 "옳다고 생각하는" 단어로 교체하고 문장의 의미를 수정합니다.
2. 텍스트 인식의 몇 가지 단계
문자 인식은 그림 입력, 사전 처리, 단어 인식, 사후 처리 등의 단계로 구성됩니다.
(1) 그래픽 입력
입력 장치를 통해 컴퓨터에 문서를 입력하는 것, 즉 원본을 디지털화하는 것을 말합니다. 현재 비교적 보편적으로 사용되는 설비는 스캐너이다. 문서 이미지의 스캔 품질은 OCR 소프트웨어가 올바르게 인식하기 위한 전제 조건입니다. 스캔 해상도 및 관련 매개변수를 적절히 선택하는 것이 문자가 명확하고 피쳐가 손실되지 않도록 하는 열쇠입니다. 또한 사전 처리 감지의 기울기 각도가 작도록 문서를 가능한 한 정확하게 배치하여 기울기 보정 후 문자 이미지의 변형이 적습니다. 이러한 간단한 조작은 시스템의 인식 정확도를 높일 수 있다. 반대로, 부적절한 스캔 설정으로 인해 문자가 너무 많이 끊어지면 문자 반쪽의 이미지가 체크 아웃될 수 있습니다. 문자 부러진 펜과 획이 접착되면 일부 특징이 손실될 수 있으며, 해당 특징을 피쳐 라이브러리와 비교할 때 피쳐 거리가 커지고 인식 오류율이 높아집니다.
(2) 전처리
간단한 인쇄된 문서의 이미지를 스캔하여 각 텍스트 이미지를 인식 모듈 인식에 체크 아웃하는 프로세스를 이미지 사전 처리라고 합니다. 사전 처리는 이미지 정화 처리, 원본 이미지에서 눈에 띄는 소음 제거 (간섭) 등 문자 인식 전 준비 작업을 말합니다. 주요 임무는 문서 배치의 경사각을 측정하고, 문서를 레이아웃 분석하고, 선택한 텍스트 필드의 조판 확인, 가로/세로 문자 행 분할, 각 행의 문자 이미지 분리, 구두점 구분 등을 측정하는 것입니다. 이 단계의 작업은 매우 중요하며, 처리의 효과는 문자 인식의 정확도에 직접적인 영향을 미친다.
레이아웃 분석은 문서의 모든 텍스트 블록을 체크 아웃하고 텍스트 단락과 조판 순서, 이미지, 표 영역을 구분하는 텍스트 이미지에 대한 전반적인 분석입니다. 각 문자 블록의 도메인 경계 (이미지의 필드 시작점, 끝점 좌표), 도메인 내의 속성 (가로, 세로) 및 각 문자 블록의 연결 관계를 데이터 구조로 식별 모듈에 자동으로 인식합니다. 텍스트 영역 직접 인식 처리, 표 영역에 대한 전용 표 분석 및 인식 처리, 이미지 영역에 대한 압축 또는 간단한 저장 줄 문자 분할은 큰 이미지를 먼저 줄로 자른 다음 이미지 줄에서 단일 문자를 분리하는 과정입니다.
(3) 단어 인식
단어 인식은 OCR 텍스트 인식을 반영하는 핵심 기술입니다. 스캔한 텍스트에서 체크 아웃된 텍스트 이미지는 컴퓨터에서 그래픽, 이미지를 텍스트로 변환하는 표준 코드로, 컴퓨터를 "인식" 하는 열쇠, 즉 인식 기술이다. 인간의 뇌가 문자를 아는 것처럼, 문자의 구조, 문자의 획 등과 같은 다양한 특징이 인간의 뇌에 이미 보존되어 있기 때문이다. (윌리엄 셰익스피어, 햄릿, 언어명언) 컴퓨터가 문자를 인식하게 하려면 먼저 문자의 특징 등 정보를 컴퓨터에 저장해야 하지만, 어떤 정보를 저장해야 하는지, 그 정보를 어떻게 얻을 수 있는지는 매우 복잡한 과정이며, 매우 높은 인식률을 달성해야 요구 사항을 충족시킬 수 있다. (윌리엄 셰익스피어, 윈스턴, 컴퓨터명언) (윌리엄 셰익스피어, 윈스턴, 컴퓨터명언) 일반적으로 문자의 획, 특징점, 투영 정보, 점의 영역 분포 등을 기준으로 분석하는 것이 일반적입니다.
중국 한자가 자주 쓰는 것은 수천 개이다. 인식 기술은 특징 비교 기술이다. 인식 기능 라이브러리와의 비교를 통해 가장 비슷한 특징을 찾아 해당 문자의 표준 코드를 추출하는 것이 바로 인식 결과다. (윌리엄 셰익스피어, 윈스턴, 한자, 한자, 한자, 한자, 한자, 한자, 한자, 한자) 비교는 사람들이 사물을 인식하는 기본적인 방법이다. 한자 식별도 비교를 통해 한자 간의 동일, 유사성, 차이를 찾아내 그 양과 질의 관계, 시간과 공간의 관계 등을 파악하는 것이다. 큰 문자 세트의 한자는 일반적으로 다단계 분류, 다특징, 전방위적 동적 일치를 통해 분류율이 높고 적응성이 뛰어나며 안정성이 좋다는 것을 보장합니다. 세밀한 분류는 유사 세트의 차이 일치, 가중 처리, 구조적 차별, 정량, 정성 분석, 전후 조인어의 관계, 그리고 최종적으로 판별하는 데 중점을 두고 있다. 한자 인식은 본질적으로 비교 과학이나 인지과학이 인공지능에 응용되는 것으로, 그 핵심 기술은 특징고를 식별하는 것이다. 컴퓨터에는 이런 특징 라이브러리가 있어야 글자를 인식하는 기능을 완성할 수 있다.
이미지 문서의 레이아웃에는 문자, 그림, 때로는 테이블이 있습니다. 인식된 테이블을 디지타이즈하기 위해서는 레이아웃 분석 중 테이블 필드를 특별히 처리해야 합니다. 여기에는 테이블 선의 구조 정보 추출, 테이블 내 문자 필드 검사, 테이블 선 및 문자 필드 인식 완료, 테이블 선의 디지털화에 따라 다른 파일 형식 생성 등이 포함됩니다 문서의 표는 임의성이 크고 형식이 다양하며 폐쇄적이고 개방적입니다. 특히 양식의 슬래시는 테이블 분석에 어느 정도 어려움이 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 문서명언)
(4) 사후 처리
후처리란 인식된 단어나 여러 식별 결과를 구 방식으로 위아래로 일치시키는 것을 말합니다. 즉, 단어 인식의 결과를 분사하고 어휘의 구와 비교하여 시스템 인식률을 높이고 오인률을 줄이는 것입니다.
한자 문자 인식은 문자 인식 분야에서 가장 어려운 문제이며 패턴 인식, 이미지 처리, 디지털 신호 처리, 자연어 이해, 인공지능, 모호수학, 정보론, 컴퓨터, 중국어 정보 처리 등의 학과를 포괄하는 종합 기술이다. 최근 몇 년 동안 인쇄 한자 인식 시스템의 단어 인식 정확도는 이미 95% 를 넘어섰으며, 시스템의 전반적인 인식률을 더욱 높이기 위해 스캔 이미지, 이미지 사전 처리 및 인식 후 처리 등의 기술도 심도 있는 연구를 거쳤으며, 장족의 진전을 이루어 인쇄 한자 인식 시스템의 전반적인 성능을 효과적으로 향상시켰다. 칭화대는 이 방면에서 연구 성과가 두드러져 이미 세계에서 가장 권위 있는 기관 중 하나가 되었다. 현재 청화자광의 전체 스캐너 시리즈에는 칭화OCR 밀레니엄 버전 소프트웨어가 장착되어 있어 인식률, 표 인식, 심지어 필기체 인식까지 모두 높은 수준에 이르렀다.
셋째, OCR 텍스트 인식 기술
최근 몇 년 동안 OCR 인식 기술은 스캐너의 보급과 함께 급속도로 발전해 왔으며, 스캔, 인식 소프트웨어의 성능은 계속 강해지고 지능화로 업그레이드되고 있습니다. 그러나 정확한 스캔 결과를 빨리 얻고 효율적인 문자 입력을 얻으려면 관련 지식을 열심히 공부하고 실무 경험과 결합해 자신의 전체 솔루션을 모색해야 한다. 때때로 우리는 문자 인식 작업을 할 때 인식률이 매우 낮아서 소프트웨어가 말하는 95% 이상에 미치지 못할 때가 있습니다. 먼저 하드웨어나 소프트웨어를 탓하지 마십시오. 사실 스캔 및 OCR 인식 기술을 제대로 파악하지 못한 이유입니다.
다음은 문자 인식 작업에서 일반적으로 사용되는 몇 가지 방법과 기술입니다.
1.해상도 설정은 문자 인식을 위한 중요한 전제 조건입니다. 일반적으로 스캐너는 더 많은 이미지 정보를 제공하므로 인식 소프트웨어가 인식 결과를 쉽게 얻을 수 있습니다. 그러나 스캔 해상도가 높게 설정된 것도 아니고 인식 정확도도 높아진다. 대부분의 문서 스캔에 적합한 300dpi 또는 400dpi 해상도를 선택합니다. 텍스트 원본의 스캔 인식을 주의해서 스캔 해상도를 설정할 때 스캐너의 광학 해상도를 초과하지 않도록 해야 합니다. 그렇지 않으면 득실할 수 있습니다. 다음은 몇 가지 일반적인 설정이며 정보 제공만을 목적으로 합니다.
(1) 1, 2, 3 번 문장 세그먼트, 200dpi 권장.
(2)4, 4, 5 자 문장 세그먼트, 300dpl 권장
(3) 5, 6 자 작은 문장 세그먼트, 400dpl 권장
(4)7, 8 번 문장 세그먼트, 600dpi 사용을 권장합니다.
2. 스캔할 때 밝기와 대비 값을 적절히 조정하여 스캔 파일을 흑백으로 뚜렷하게 합니다. 인식률에 미치는 영향이 가장 중요합니다. 스캔 밝기와 대비 값 설정은 스캔한 이미지에서 한자의 획이 가늘지만 계속 열리는 것을 관찰하는 원칙입니다. 인식하기 전에 스캔한 이미지에서 문자 품질이 어떤지 살펴보고, 이미지에 검은 점이나 검은 반점이 있을 때 또는 문자 선이 굵고 검고, 선을 구분할 수 없을 때 밝기 값이 너무 작다는 것을 알 수 있습니다. 밝기 값을 증가시켜 시험해 보아야 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언) 문자선이 울퉁불퉁하고, 선이 끊어지거나, 심지어 이미지에서 한자 윤곽이 심하게 손상되었을 경우 밝기 값이 너무 크다는 것을 알 수 있으므로 밝기를 줄인 후 다시 시도해야 한다.
3. 스캔 소프트웨어를 선택합니다. 자신에게 적합한 OCR 소프트웨어를 선택하는 것은 문자 인식 작업의 기초입니다. 일반적으로 스캐너와 함께 제공되는 OEM 소프트웨어를 사용하지 마십시오. OEM 의 OCR 소프트웨어는 기능이 적고, 효과가 나쁘며, 중국어 인식도 없습니다. 비교해 보면 청화자광 OCR2003 프로페셔널 및 상서 OCR6.0 텍스트 자동 인식 입력 시스템의 인식 능력과 사용 기능이 더 두드러진다고 생각합니다. 이미지 소프트웨어를 하나 더 선택하는데 OCR 소프트웨어에 스캔 인터페이스가 있지 않나요? 왜 이미지 소프트웨어도 찾으세요? 첫째, OCR 소프트웨어는 모든 스캐너를 인식하지 못합니다. 둘째, 가장 중요한 것은 이미지 소프트웨어의 스캔 인터페이스를 사용하여 스캔한 이미지를 쉽게 처리할 수 있다는 것입니다. 일반적으로 PHOTOSHOP 을 사용합니다.
4. 진행중인 텍스트가 굵게, 기울임꼴, 첫 줄 들여쓰기 등 포맷되어 있는 경우 일부 OCR 소프트웨어가 인식하지 못하고 서식이 손실되거나 깨질 수 있습니다. 서식이 있는 텍스트를 스캔해야 하는 경우 사용 중인 인식 소프트웨어가 텍스트 형식의 스캔을 지원하는지 미리 확인해야 합니다. 또한 글꼴 및 글꼴 형식에 관계없이 올바른 문자를 찾는 데 집중할 수 있도록 스타일 인식 시스템을 끌 수 있습니다.
중국 OCR 정보 네트워크
또한 역장단에는 제품구매가 있어 저렴하고 보증이 있다.