언어 문자 인식 및 변환, 추출 사이트 추천

요즘은 외국어에 대한 두려움이 없어져서 그런지 해외 쇼핑몰을 이용하시는 분들도 많아졌습니다. 특히 가격이 저렴하고 배송기간이 길지 않아서인지 알리바바나 타오바오 같은 중국 쇼핑몰을 이용하는 분들도 많은데요, 번역앱을 이용하면 어렵지 않게 중국어로 된 상품정보를 이해할 수 있게 되었습니다. 그러나 문제가 전혀 없는 것은 아닙니다. 텍스트로 된 문장은 번역앱으로 쉽게 뜻을 파악할 수 있지만 쇼핑몰의 상세페이지는 대부분 이미지로 만들어져 있기 때문에 번역앱을 이용할 수 없는 것이 현실입니다. 번역앱은 이미지에 있는 문장까지 변환할 수 없기 때문입니다. 그래도 상품정보를 가장 빨리 알아볼 수 있는 방법은 여전히 번역앱을 이용하는 것입니다. 다만 번역앱을 사용하여 번역하려면 우리는 우선 이미지에 있는 문장을 번역앱에 넣을 수 있는 텍스트 형태로 추출해야 합니다. 이럴 때 쓸 수 있는 것이 OCR입니다. 오늘은 OCR에 대해 알아보고 중국어 뿐만 아니라 언어의 문자를 인식해서 텍스트로 바꾸어주고 추출할 수 있는 사이트를 소개해 드리고 사용방법을 간단하게 알아보도록 하겠습니다. 

OCR 외국어 문자 인식 변환 추출 사이트, 컨버티오(Convertio)의 첫 화면

OCR이란? 

OCR은 ‘광학 문자 인식(Optical character recognition, OCR)’이라는 뜻으로 스캔한 문서나 사진에서 텍스트를 인식하고 편집 가능한 형식으로 변환하는 기술입니다. OCR을 사용하면 컴퓨터가 이미지 파일에 있는 단어를 읽고 검색하고 저장할 수 있습니다. OCR은 다양한 언어와 글자체를 지원하는 서비스들이 있습니다.

언어 문자 인식 및 텍스트 추출 사이트, 컨버티오

제가 소개해드리려고 하는 사이트는 컨버티오(Convertio) 입니다. 백문이 불여일견, 아래를 클릭하시면 바로 접속하실 수 있습니다.

로 이동하기

위 링크를 클릭하시면 Convertio의 홈페이지가 열리는데 첫 페이지에 “OCR (Optical Character Recognition). Online & Free”라고 안내해 놓은 것을 보면 알 수 있듯이 이 프로그램은 따로 설치 없이 온라인에서 작업이 가능하고 어느 정도는 무료로 이용할 수 있습니다. 컨버티오에서 인식할 수 있는 언어는 한국어, 영어, 중국어, 독일어, 네덜란드어, 프랑스어, 이탈리아어 등 70여 가지가 넘습니다.

사용방법

그럼, 지금부터 컨버티오의 사용방법에 대해 설명해 드리겠습니다. 우선 사이트에 접속하시면 기본적으로 10페이지까지 사용 가능한데 더 많은 페이지를 인식시키려면 회원가입을 하시면 됩니다.

Convertio는 추출하고자 하는 언어 문자가 들어있는 파일을 업로드하면 이것을 인식하여 내가 원하는 형식으로 출력해 주는 사이트입니다. 그래서 업로드할 파일의 형식은 이미지 파일이어야 합니다. 위 이미지에서 안내한 것과 같이 지원되는 파일 형식은 PDF, JPG, BMP, GIF, JP2, JPEG, PCX, PGM, PNG, PPM, TGA, TIFF, WBMP 입니다. 따라서 언어 문장이 들어간 이미지 파일이 있다면 바로 업로드하시면 되는데요, 빨간색의 파일 선택 버튼을 누르거나 파일을 빨간 선택 버튼쪽으로 드래그 앤 드롭을 하시면 됩니다.

저는 테스트를 위해서 한 웹사이트에서 캡처를 해서 윈도우의 보조프로그램인 그림판을 이용해 PNG파일을 만들어 보았습니다. 혹시 저와 똑같이 테스트를 해보고 싶어하시는 분들을 위해서 아래에 파일을 올려드릴테니 필요하시면 다운받아서 테스트해보시기 바랍니다.

이제 위에서 설명드린대로 파일을 드래그 앤 드롭을 하시거나 빨간 선택 버튼을 클릭한 뒤 나오는 팝업창에서 해당 파일을 클릭하여 업로드를 해주세요. 그리고 업로드가 완료될 때까지 기다리셔야 합니다. 파일 용량에 따라 시간이 걸리는데 아래 이미지 ①과 같이 “준비된” 상태가 되면 업로드가 완료된 것입니다.

업로드가 되면 위 이미지 ②와 같이 언어를 선택하시면 됩니다. 문서에 1가지 언어만 있으면 해당 언어 1개만 선택하시면 되고 2가지 언어라면 오른쪽에 있는 추가 언어를 선택을 클릭하셔서 선택을 해주시면 됩니다. 또한 위 이미지 ③과 같이 출력 형식도 선택하실 수 있습니다. 출력 형식에는 MS 워드, 엑셀, 파워포인트, PDF 등 다양하게 있는데 저는 메모장의 기본 형식인 TXT 파일로 저장해 보겠습니다. 마지막으로 위 이미지 ④와 같이 ‘을 인식하기’라고 되어 있는 빨간 버튼을 클릭하시면 원하시는 출력형식으로 변환이 됩니다.

변환이 끝나면 위 이미지 ①과 같이 “끝마친” 상태가 됩니다. 이 파일의 이름은 ②와 같이 파일 이름에 ocr이 추가된 형태로 변경이 됩니다. ③의 다운로드 버튼을 클릭하면 다운받으실 수 있습니다.

위 이미지는 변환된 파일을 메모장으로 연 것을 캡처한 것입니다. 보시는 것처럼 원본 그대로 깔끔하게 변환이 되었습니다.

OCR은 이미지의 해상도나 상태에 따라 인식률이 많이 차이가 나지만 테스트해보니 Convertio의 인식률은 상당히 좋은 편이라고 생각되었습니다. 제가 영어 뿐만 아니라 한국어와 중국어도 여러 번 테스트를 해봤는데 오탈자 없이 잘 변환이 되는 것을 확인할 수 있었습니다.

컨버티오는 사이트 구성이 복잡하지 않고 직관적으로 디자인되어 있어서 처음 쓰시는 분들도 그리 어렵지 않게 사용하실 수 있을 것입니다. 쓰시다가 궁금하신 점이 있으면 댓글로 남겨주시기 바랍니다.

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Scroll to Top