본문 바로가기

프로젝트/논문크롤러 프로젝트

논문크롤러 프로젝트 (1) - 프로젝트 개요

대학원생들은 논문을 쓰기 위해, 항상 본인 연구 분야와 관련된 논문들을 읽고 쓰게 된다.

그러다보니, 수년전의 논문부터 최신 논문까지 연구동향을 검색하고 공부하는 것이 가장 중요한 부분이라고 할 수 있다.

 

근데 생각보다 논문을 찾고 검색하는 일이 쉽지만은 않다. ( 내가 게으른 것일수도 있지만.. )

다른 전공의 대학원생이었다면, 시간을 투자해서 매일 혹은 주기적으로 논문을 직접 찾았겠지만, 나는 개발자가 아닌가?

 

더 효율적으로, 이 조차도 자동화로 처리하고 싶었다...

 

그래서 간단한 프로젝트로, 매일 주기적으로 논문을 직접 검색하고 저장해주는 논문크롤러 프로젝트를 생각했다.

간단한 마이크로 프로젝트로 시작하여, 단순히 입력한 검색어로 검색되는 논문들을 날짜별로 저장해주는 것부터 구현한다.

그 후, 계속해서 살을 붙여 최종적으로는, word2vec같은 딥러닝 모델을 적용하여 카테고리를 나누어 대충이라도 분류해주는 프로젝트로 키워나가고 싶다. (일단은 머나먼 이야기가 아닐까.. )

 

논문은 내 전공 특성상 IEEE Xplore에서만 주로 검색하게 되므로, IEEE Xplore사이트에서 검색되는 논문만을 크롤링할것이고, 그렇기때문에 IEEE Xplore에서 논문을 다운받기 위해, 본 프로젝트는 완성 이후에 학교IP의 서버에서 돌아가게 될 것이다. 

 

상업적인 목적이 전혀없으며, 순수하게 내 연구를 위해서 개인적으로 사용되기때문에, 저작권 등의 문제가 없을것으로 생각되지만.. 혹시모르니 찾아보긴 해야겠다.

 

프로젝트의 예상 환경은 아래와 같다.

  • 우분투 환경 ( 학교 IP로 갖고 있는 서버가 우분투 18.04LTS )
  • 파이썬 환경 ( 가장 무난한 크롤러 )
  • Selenium + BeautifulSoup을 이용
  • Flask Framework ( 언제든지 키워드의 추가 및 저장된 pdf파일을 열람할 수 있도록, 웹 서버또한 구현 )

위와 같은 흐름으로 구현할 예정이다. 다음 포스팅부터 차근차근 Selenium과 BeautifulSoup 등을 이용하여 단계별로 구현/정리하도록 하겠다.