OCR 이란 무엇입니까?
OCR 장치를 설치했거나 다운로드한 OCR 설치 프로그램을 설치했을 수 있습니다.
ocr (optical character recognition, 광학 문자 인식) 은 PR (Pattern Recognition) 에 속하는 학문이다. 그 목적은 컴퓨터가 무엇을 보았는지, 특히 문자자료를 컴퓨터가 알 수 있도록 하는 것이다. (존 F. 케네디, 컴퓨터명언)
OCR 은 인식률과 줄다리기를 하는 기술이기 때문에, 어떻게 디버그하거나 보조정보를 이용하여 인식정확도를 높이는 것이 OCR 의 가장 중요한 과제이며, ICR (Intelligent Character Recognition) 의 명사도 생겨났다. 텍스트 데이터의 미디어 미디어에 따라, 그리고 이러한 데이터를 얻는 방법에 따라, 다양 한, 다양 한 다른 응용 프로그램이 파생 됩니다.
OCR 에 대한 기본 소개는 여기에 있습니다. 여기에는 기술 소개 및 적용 소개가 포함됩니다.
1, OCR 의 발전
같은 네모난 문자를 가진 일본을 예로 들면, 1960 년경부터 OCR 의 기본 인식 이론을 연구하기 시작했고, 초기에는 숫자를 대상으로 1965 년부터 1970 년까지는 인쇄문자의 우편 번호 인식 시스템, 우편물의 우편 번호 식별, 우체국이 지역 분신 작업을 하는 데 도움이 되는 간단한 제품들이 있었다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 자기관리명언) 그래서 지금까지 우편번호는 각국이 제창한 주소 쓰기 방식이었다.
< P > < P > OCR 은 불확실한 기술 연구라고 할 수 있습니다. 정확도는 무한한 접근 함수와 같습니다. 접근 값을 알고 있지만 접근 할 수는 없습니다. 항상 100 과 톱질하고 있습니다. 너무 많은 요인들이 관련되어 있기 때문에, 저자의 습관이나 문서 인쇄 품질, 스캐너의 스캔 품질, 인식된 방법, 학습 및 테스트된 샘플 ... 등등 어느 정도 정확도에 영향을 미칠 수 있기 때문에 OCR 제품은 강력한 식별 핵심을 필요로 하는 것 외에 제품의 조작 사용 편의성, 제공되는 디버깅 기능 및 방법을 필요로 합니다.
OCR 인식 시스템의 목적은 간단합니다. 이미지를 변환하여 이미지 내의 그래픽을 계속 보존하고, 테이블 내의 데이터와 이미지 내의 텍스트를 항상 컴퓨터 텍스트로 변환하여 이미지 데이터의 저장 용량을 줄이고, 식별된 텍스트를 재사용 및 분석할 수 있으며, 물론 키보드를 절약할 수 있습니다
이미지에서 결과 출력까지 이미지 입력, 이미지 사전 처리, 텍스트 피쳐 추출, 일치 인식, 최종 수동 수정을 통해 잘못된 텍스트 수정을 거쳐 결과를 출력해야 합니다.
여기에 하나씩 소개:
영상 입력: OCR 을 통해 처리할 표지물은 이미지 스캐너, 팩스 기계 또는 모든 사진 장비와 같은 광학 기기를 통해 컴퓨터로 이미지를 가져와야 합니다. 기술의 진보, 스캐너 등의 입력 장치는 점점 더 정교하게 만들어졌고, 얇고, 짧고, 품질도 높아졌으며, OCR 에 상당한 도움이 되며, 스캐너의 해상도는 이미지를 더 선명하게 하고, 청소 속도를 높여 OCR 처리의 효율성을 높인다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 과학명언)
이미지 사전 처리: 이미지 사전 처리는 OCR 시스템에서 가장 많은 문제를 해결해야 하는 모듈입니다. 검은색이나 흰색이 아닌 이진화 이미지, 회색조, 컬러 이미지, 독립적인 텍스트 이미지 프로세스에 이르기까지 이미지 사전 처리에 속합니다. 이미지 정규화, 노이즈 제거, 이미지 보정 등의 이미지 처리, 그래픽 분석, 텍스트 줄 및 단어 분리 문서 사전 처리가 포함되어 있습니다.
영상 처리 분야에서는 학리와 기술 방면에서 이미 성숙 단계에 이르렀기 때문에 시중이나 웹사이트에서 사용할 수 있는 링크 라이브러리가 많이 있습니다. 문서 사전 처리 방면에서, 각 능력에 따라; 이미지는 먼저 그림, 표 및 텍스트 영역을 분리해야 하며, 문장 레이아웃 방향, 문장 제목 및 내용 주체를 구분할 수 있으며, 텍스트의 크기와 텍스트의 글꼴은 원본 문서처럼 판단할 수 있습니다.
문자 피쳐 추출: 인식률만으로 피쳐 추출은 OCR 의 핵심이라고 할 수 있습니다. 어떤 특징, 어떻게 추출할지, 인식의 좋고 나쁨에 직접적인 영향을 미치기 때문에 OCR 연구 초기에는 피쳐 추출에 대한 연구 보고서가 특히 많았습니다. 특징은 인식된 칩이라고 할 수 있습니다. 간단한 구분은 두 가지 범주로 나눌 수 있습니다. 하나는 문자 영역 내의 검은색/흰색 점 비율과 같은 통계적 특징이고, 문자가 여러 영역으로 구분되면 이 영역의 검은색/흰색 점 비율 조합이 공간의 숫자 벡터가 되며, 비교할 때 기본 수학 이론은 충분히 대처할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 과학명언) 또 다른 특징은 문자 이미지가 가는 선과 같은 구조적 특징이다. 글자의 스트로크 끝, 교차의 수 및 위치, 또는 스트로크 세그먼트를 특징으로하는 특수한 비교 방법과 일치한다. 시중에 나와 있는 온라인 필기 입력 소프트웨어의 인식 방법은 이런 구조를 위주로 하는 경우가 많다.
데이터베이스 비교: 문자를 입력한 후 통계 또는 구조의 특징에 관계없이 일치하는 데이터베이스 또는 피쳐 데이터베이스가 있어야 하며, 데이터베이스 내용에는 입력 문자와 동일한 피쳐 추출 방법을 기준으로 인식할 모든 문자 세트 문자가 포함되어야 합니다.
비교 인식: 수학 연산 이론을 충분히 발휘할 수 있는 모듈로서, 특징 특성에 따라 다른 수학 거리 함수를 선택할 수 있습니다. 더 유명한 비교 방법은 유럽식 공간 비교 방법, 릴랙스 비교 방법, 동적 프로그램 비교 방법 (Dynation) 입니다. 그리고 신경 네트워크의 데이터베이스 구축 및 비교, HMM (HIDDEN Markov Model) ... 등 유명한 방법으로, 식별의 결과를 더욱 안정시키기 위해 이른바 전문가 시스템 (Experts System) 이 제시되어 다양한 특징 비교 방법의 상이한 보완성을 이용하여 식별된 결과를 만들어 내고 있다.
단어 사후 처리: OCR 의 인식률이 100% 에 미치지 못하거나 일치의 정확성과 신뢰 값을 강화하고자 하기 때문에 일부 디버깅 또는 수정을 돕는 기능도 OCR 시스템에서 필요한 모듈이 됩니다. 단어 사후 처리는 일치하는 식별 텍스트와 가능한 유사 후보 그룹을 사용하여 앞뒤 식별 문자를 기준으로 가장 논리적인 단어를 찾아 수정하는 기능입니다.
단어 데이터베이스: 단어 포스트 프로세싱을 위해 설정된 어휘.
수동 보정: OCR 의 마지막 수준. 이전에는 사용자가 마우스를 들고 소프트웨어 디자인의 리듬에 따라 작동하거나 보기만 할 수 있었습니다. 여기서는 특히 사용자의 정신과 시간을 들여 OCR 오류일 수 있는 장소를 수정하거나 찾아야 할 수도 있습니다. 오류 비율을 줄이기 위해 안정적인 이미지 처리 및 인식 코어를 갖춘 좋은 OCR 소프트웨어로서, 수동으로 보정된 작업 흐름과 기능은 OCR 의 처리 효율성에 영향을 미칩니다. 따라서 텍스트 이미지와 식별 텍스트의 비교, 화면 정보 배치 위치, 각 식별 텍스트의 후보 기능, 문자 거부 기능 및 단어 사후 처리 후 특별히 표시됩니다. 사용자를 위해 가능한 한 키보드를 적게 사용하도록 설계된 기능이다. 물론 시스템에 표시되지 않은 텍스트가 반드시 정확하다고 할 수 있는 것은 아니다. 완전히 키보드로 입력된 스태프도 오류가 있을 때와 같다. 이때 다시 한 번 교정하거나 약간의 잘못을 허용할 수 있도록 해야 한다. 사용 단위의 요구에 전적으로 달려 있다.
결과 출력: 실제 출력은 간단하지만 사용자가 OCR 을 사용하는 이유에 따라 달라집니다. 어떤 사람들은 텍스트 파일을 일부 텍스트 재사용으로 사용하기만 하면, 일반 텍스트 파일, 어떤 사람이 예뻐야 하는 것, 입력 파일과 똑같기 때문에 원문이 재현되는 기능이 있고, 어떤 사람은 표 안의 텍스트를 중시하기 때문에 Excel 과 같은 소프트웨어와 결합해야 한다. 아무리 변해도 출력 파일 형식의 변화일 뿐이다.
보충: 사용하지 않으면 당연히 삭제할 수 있습니다!