HWP 파일, AI가 읽을 수 없는 이유
HWP 바이너리 파일의 내부 구조를 해부합니다. 왜 AI가 HWP를 직접 처리할 수 없는지, 마크다운과 무엇이 다른지 기술적으로 비교합니다.
마크다움 팀
AI에게 HWP 파일을 주면 어떻게 될까?
실험을 해봅시다. 같은 내용의 문서를 HWP와 마크다운으로 각각 저장한 뒤, AI에게 "이 문서를 요약해줘"라고 요청합니다.
마크다운 파일(.md): AI가 즉시 내용을 읽고, 3초 만에 요약을 생성합니다.
HWP 파일(.hwp): AI가 파일을 열 수 없습니다. "지원하지 않는 파일 형식"이라는 오류가 나오거나, 깨진 문자열만 나열됩니다.
왜 이런 차이가 발생할까요? 답은 파일의 내부 구조에 있습니다.
HWP 파일의 내부 구조 — 바이너리의 세계
HWP 파일을 메모장에서 열어보면 이런 결과를 볼 수 있습니다:
ÐÏà¡á±á þÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
ì¥Á ` ÈÉ ¸ À...
사람이 읽을 수 없는 것은 물론이고, AI도 이것을 이해할 수 없습니다. 이것이 바이너리 파일입니다.
HWP 파일은 Microsoft의 OLE(Object Linking and Embedding) 컨테이너 형식을 사용합니다. 이 안에는 텍스트 뿐만 아니라 서식 정보, 이미지, 메타데이터, 암호화 정보 등이 복잡하게 얽혀 있습니다. 텍스트만 추출하려면 이 구조를 완벽하게 이해하는 전용 파서(parser)가 필요합니다.
HWP 바이너리 구조의 문제점
- 비공개 사양 — HWP 파일 형식의 전체 스펙은 공개되어 있지 않습니다. 파싱 라이브러리도 제한적입니다
- 복합 구조 — 텍스트, 서식, 이미지, 스크립트가 하나의 바이너리 안에 섞여 있습니다
- 인코딩 문제 — 한글 인코딩 방식이 버전마다 다를 수 있습니다
- 구조 정보 손실 — 제목, 본문, 각주의 구분이 서식 정보(폰트 크기, 굵기)에만 의존합니다
마크다운 파일의 내부 구조 — 텍스트의 세계
같은 문서를 마크다운으로 저장하면 이렇게 보입니다:
# 2026년 하반기 업무계획
## 1. 추진 배경
디지털 전환 가속화에 따른 업무 프로세스 개선 필요.
## 2. 주요 과제
- 공문서 마크다운 전환 시범 운영
- AI 기반 문서 분류 시스템 도입
- 부서 간 협업 플랫폼 구축
## 3. 추진 일정
| 과제 | 일정 | 담당 |
|------|------|------|
| 마크다운 전환 | 7~9월 | 정보화담당관실 |
| AI 문서 분류 | 9~11월 | 데이터정책과 |
메모장에서 열어도, AI에게 넘겨도, 브라우저에서 렌더링해도 — 내용이 그대로 보입니다. 이것이 텍스트 파일의 힘입니다.
마크다운이 AI 친화적인 이유
- 구조가 명시적 —
#은 제목,##은 소제목,-는 목록. 추측할 필요가 없습니다 - 순수 텍스트 — 추가 파서 없이 바로 읽을 수 있습니다
- 표준화 — CommonMark 스펙으로 전 세계 동일한 해석이 가능합니다
- 경량 — 같은 내용 기준 HWP 대비 파일 크기가 1/10 수준입니다
같은 문서, 다른 처리 과정
AI가 문서를 처리하는 과정을 비교하면 차이가 극명합니다:
| 단계 | HWP 파일 | 마크다운 파일 |
|---|---|---|
| 1. 파일 읽기 | 바이너리 → 전용 파서 필요 | 텍스트 → 바로 읽기 가능 |
| 2. 텍스트 추출 | 서식·이미지와 텍스트 분리 필요 | 분리 불필요 (이미 텍스트) |
| 3. 구조 파악 | 폰트 크기로 제목 추측 | # 기호로 즉시 인식 |
| 4. 의미 이해 | 추측 기반 (오류 가능) | 명시적 (정확) |
| 5. 처리 시간 | 수 초~수십 초 | 밀리초 단위 |
| 6. 정확도 | 파서 품질에 의존 | 거의 100% |
정부가 보유한 공문서는 연간 수백만 건입니다. 이 문서들을 AI로 자동 분류하고, 검색하고, 요약하려면 파일당 수 초씩 걸리는 변환 과정을 거칠 수 없습니다. 마크다운이라면 밀리초 단위로 처리할 수 있습니다.
실제 파싱 비교 — 같은 문서의 AI 처리 결과
HWP → AI 요약 결과
HWP 파일을 텍스트로 변환한 뒤 AI에 넘기면, 서식 정보가 섞여 나옵니다:
"제목 (16pt 굵게): 2026년 하반기 업무계획
본문 (11pt): 디지털 전환 가속화에 따른...
[표 데이터 일부 누락]
[이미지 alt 텍스트 없음]"
폰트 크기 정보가 불필요하게 포함되고, 표 데이터가 누락되며, 이미지 정보가 사라집니다.
마크다운 → AI 요약 결과
마크다운 파일을 AI에 넘기면:
"# 2026년 하반기 업무계획
## 주요 과제 3건:
1. 공문서 마크다운 전환 시범 운영 (7~9월, 정보화담당관실)
2. AI 기반 문서 분류 시스템 도입 (9~11월, 데이터정책과)
3. 부서 간 협업 플랫폼 구축"
구조가 완벽하게 보존됩니다. 제목, 소제목, 표 데이터까지 모두 정확하게 인식합니다.
그래서 정부가 전환하기로 한 것입니다
국가AI전략위원회가 공공문서 마크다운 전환을 발표한 것은 기술적 유행이 아닙니다. AI 시대에 정부 데이터가 기계에 의해 처리되려면, 기계가 읽을 수 있는 형식이 필수라는 판단입니다.
HWP는 30년간 한국 공문서의 표준이었습니다. 인쇄와 서식에 최적화된 훌륭한 도구입니다. 하지만 AI가 이해하기 위해 설계된 포맷은 아닙니다. HWP와 마크다운의 전체 비교는 이전 글에서 자세히 다루었습니다.
마크다운은 인간과 기계 모두에게 읽히는 포맷입니다. 그리고 이 특성이 AI 시대 공문서의 새로운 요구사항과 정확히 일치합니다.
"문서가 기계에게도 읽힌다는 것은, 행정의 자동화가 가능해진다는 뜻입니다."