본문 바로가기

어도비/애크로뱃

PDF 편집 프로그램 어도비 애크로뱃, OCR 활용 방법, PDF 텍스트 추출하기

반응형

업무를 하다 보면 논문, 소스 코드 등 각종 문서를 활용해야 하는 경우가 종종 있습니다. 그리고 이런 문서들의 특징이 읽기만 가능한  PDF 문서가 대부분이라는 것입니다.

 


그래서 논문, 소스 코드 등 각종 자료에서 발췌를 해야​할 땐 한쪽에 펼쳐놓고 보면서 옮겨적는 분들이 많습니다. 개인적으로 굉장히 비효율적인 일이라고 생각하는데요. 이럴 땐 PDF 편집 프로그램 어도비 애크로뱃의 OCR 기능을 활용하면 간편하게 PDF 텍스트 추출을 할 수 있습니다.

 

애크로뱃 설치하기
 

온라인에서 무료 PDF 편집 툴로 PDF 편집 | Adobe Acrobat

간단한 온라인 툴을 사용하여 PDF를 편집하세요. 온라인에서 텍스트와 주석을 추가하고, PDF 파일에서 그릴 수 있습니다.

www.adobe.com

 그럼 직접 PDF 텍스트 추출을 해보기 위해​ 어도비 애크로뱃을 설치합니다.

 

설치 후 PDF 파일을 끌어다 놓고, 상단 메뉴 중 '모든 도구' 또는 '변환' 에서 '스캔 및 OCR'을 클릭합니다.

그러면 OCR 관련 기능을 볼 수 있습니다. 만약 OCR 기능을 쓰려는 문서가 페이퍼 스캔본이나 카메라로 촬영한 파일이라면 '스캔 파일 향상과 '카메라 이미지 향상' 기능으로 인식률을 높이는 게 가능합니다.

PDF 텍스트 추출하기 위해 '이 파일에서'를 눌러 페이지 범위, 언어를 선택하고 '텍스트 인식'을 클릭합니다. 언어가 복합적으로 사용되었다면 문서에서 가장 비중이 높은 언어를 선택하면 됩니다.

 

그리고 변환이 완료 될 때까지 잠시 기다리면 됩니다. 페이지 수에 따라 걸리는 시간이 천차만별이니 느긋하게 기다려보시길 바랍니다.

 

변환이 완료되고 나면 아까까지만 해도 선택할 수 없었던 글자가 이렇게 표, 그림 등 다양한 서식 안에 포함되어 있는 글자들까지 전부 선택되는 걸 확인할 수 있습니다. 복사 및 붙여넣기도 가능해요.

 

만약 출력된 프린트물이거나 손으로 종이에 직접 쓴 문서라면 Adobe Scan 앱으로 촬영을 하면 별도의 변환 과정 없이 PDF 텍스트 추출이 가능한 문서로 저장할 수 있습니다. 종이로만 보관하고 있는 서류들을 디지털화 할 때 편리하게 활용할 수 있는 방법입니다.

그리고 변환해야 하는 문서가 여러 개일 땐 '여러 파일' 메뉴를 이용하면 번거롭게 하나씩 체크하지 않아도 다른 일을 하면서 편하게 변환시킬 수 있습니다.

원본 문서를 덮어쓸 것인지, 다른으로 저장을 할 것인지 등도 설정할 수 있는데요. 혹시 모를 사태를 예방하는 차원에서 덮어쓰기를 하는 것보다는 '원래 파일 이름에 추가'를 선택하고 앞/뒤에 문자를 추가하여 원본 파일명과 별개의 파일명으로 저장하는 게 좋습니다.

완성된 자료는 내 컴퓨터나 외장하드 같은데다가 저장을 해도 됩니다. 그런데 애크로뱃을 구독하면 Adobe 클라우드 스토리지를 쓸 수 있어서, 여기에 업로드를 해놓으면 때와 장소에 관계 없이 인터넷이 되는 곳이라면 언제 어디서든 자료에 접근이 가능한 편의성도 챙길 수 있어요.

​레퍼런스 소스 코드나 몇 번씩 다시 볼 필요가 있는 중요한 논문 등을 올려둔다면 너무 편리하게 활용할 수 있겠죠? 뿐만 아니라 폴더링 기능도 지원하여 보기 좋게 관리할 수 있는데다 강력한 보안 시스템까지 갖춰 이러한 용도 외에도 중요한 자료를 체계적으로 보관하고 싶을 때도 유용합니다.

 

좋은 레퍼런스가 난무하고 AI가 코딩도 척척해주는 지금 시대에 이렇게 유용한 자료들을 OCR 기능으로 손쉽게 텍스트 추출 후, 클라우드 스토리지에 올려두고 필요할 때마다 언제 어디서든 꺼내 쓸 수 있는 환경 갖추는 건 개발자의 자산이자 실력이라고 생각합니다. 

 ​PDF 편집 프로그램 애크로뱃은 첫 이용 시 7일간 무료 체험을 할 수 있습니다. 따라서 사용해 볼 의향이 있는 분이라면 한 번 써보고 나서 쓸지말지 여부를 결정하면 될 것 같아요.

 

본 포스팅은 어도비로부터 소정의 원고료를 지원받아 작성하였습니다.

반응형