평소 가끔 논문을 찾아보며 읽어보는 편인데,
흥미로운 주제임에도 불구하고 내용이 지나치게 어렵고 진입 장벽이 높다는 문제를 느꼈다.
- 전문 용어가 많고
- 문장이 길며
- 핵심 내용이 어디에 있는지 파악하기 어려움
이러한 문제를 해결하기 위해
논문을 기반으로 질문하면 쉽게 설명해주는 시스템을 만들고자 본 주제를 선정하였다.
논문 PDF를 그대로 사용하지 않고,
RAG 성능을 높이기 위해 다음과 같은 전처리 과정을 거친다.
- 불필요한 줄바꿈 제거
- 연속된 공백 정리
- 문장 흐름이 끊기지 않도록 정규화
- 논문 구조를 최대한 유지하기 위해 문단 단위로 분리
- 의미 단위가 유지되도록 처리
- 문단 기반 + 토큰 제한 방식
- 현재 문단과 다음 문단을 합쳤을 때
토큰 수가 제한을 초과하면 새로운 청크 생성 - 문맥 손실을 줄이기 위해 overlap 적용
이를 통해 검색 정확도와 문맥 이해도를 동시에 향상시켰다.
- 사용자가 질문을 입력하면
- 업로드된 논문 내용을 기반으로 관련 문서를 검색
- 검색된 내용을 바탕으로 답변 생성
- 논문에 등장하는 단어나 개념을 질문할 경우
- 일반적인 정의가 아니라
- 해당 논문에서 사용된 맥락을 기준으로 설명
논문 이해에 직접적으로 도움이 되는 답변 제공
- 어려운 논문을 더 쉽게 이해하기 위한 시스템
- 문단 기반 전처리와 청크 설계로 RAG 성능 향상
- 논문 중심 질문·답변으로 학습 효율 개선