HWP/HWPX 파일에 포함되어 있는 "표, 도형, 이미지 처리" 등은 AI가 인식하기 어려운 듯 한데 어떻게 문서 작업을 하는게 좋을까요?
우리가 흔히 사용하는 한글(HWP, HWPX)이나 워드(DOC, DOCX) 파일은 단순히 글자만 들어 있는 파일이 아닙니다.
문서 그대로 AI에게 입력할 수도 있지만 문서파일은 문서의 모양을 꾸미는 서식, 표, 이미지 등 방대한 정보를 포함하고 있어
AI에게 가공되지 않은 문서 데이터 전체를 그대로 입력하는 것은 비효율적입니다.
이 때문에 AI가 정보를 빠르고 정확하게 학습할 수 있도록, 문서 데이터를 미리 깔끔하게 정리하는 전처리 과정이 필수입니다.
ex) 표나 이미지가 삽입된 경우 문서 본문 내용에 표, 이미지등을 AI가 인지할 수 있도록 설명 내용을 추가하는 등의 전처리 과정
한글과컴퓨터는 AI가 데이터를 더 쉽게 활용할 수 있도록 데이터 추출이 용이한 HWPX 포맷을 도입하였습니다.
또한 한글 문서 서식에 최적화된 데이터 추출도구(DataLoader)를 개발하여 제공하여 AI친화적인 문서 생태계를 구축하기 위해 노력하고 있습니다.
그 대표적인 예로 '한컴 데이터로더'라는 솔루션이 있습니다.
만약 솔루션 도입을 원하실 경우 아래 링크를 통해 도입 문의를 남겨주시기 바랍니다.