Skip to content

allium0917/wintercamp_project

Repository files navigation

주제 선정 이유

평소 가끔 논문을 찾아보며 읽어보는 편인데,
흥미로운 주제임에도 불구하고 내용이 지나치게 어렵고 진입 장벽이 높다는 문제를 느꼈다.

  • 전문 용어가 많고
  • 문장이 길며
  • 핵심 내용이 어디에 있는지 파악하기 어려움

이러한 문제를 해결하기 위해
논문을 기반으로 질문하면 쉽게 설명해주는 시스템을 만들고자 본 주제를 선정하였다.


전처리 과정 소개

논문 PDF를 그대로 사용하지 않고,
RAG 성능을 높이기 위해 다음과 같은 전처리 과정을 거친다.

공백 / 줄바꿈 정리

  • 불필요한 줄바꿈 제거
  • 연속된 공백 정리
  • 문장 흐름이 끊기지 않도록 정규화

문단 기준 분리

  • 논문 구조를 최대한 유지하기 위해 문단 단위로 분리
  • 의미 단위가 유지되도록 처리

청크 생성 로직

  • 문단 기반 + 토큰 제한 방식
  • 현재 문단과 다음 문단을 합쳤을 때
    토큰 수가 제한을 초과하면 새로운 청크 생성
  • 문맥 손실을 줄이기 위해 overlap 적용

이를 통해 검색 정확도와 문맥 이해도를 동시에 향상시켰다.


백엔드 기능 소개 및 시연

논문 기반 질의응답

  • 사용자가 질문을 입력하면
  • 업로드된 논문 내용을 기반으로 관련 문서를 검색
  • 검색된 내용을 바탕으로 답변 생성

단어/개념 질문 기능

  • 논문에 등장하는 단어나 개념을 질문할 경우
  • 일반적인 정의가 아니라
  • 해당 논문에서 사용된 맥락을 기준으로 설명

논문 이해에 직접적으로 도움이 되는 답변 제공


정리

  • 어려운 논문을 더 쉽게 이해하기 위한 시스템
  • 문단 기반 전처리와 청크 설계로 RAG 성능 향상
  • 논문 중심 질문·답변으로 학습 효율 개선

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors