논문크롤러 프로젝트 (1) - 프로젝트 개요

대학원생들은 논문을 쓰기 위해, 항상 본인 연구 분야와 관련된 논문들을 읽고 쓰게 된다.

그러다보니, 수년전의 논문부터 최신 논문까지 연구동향을 검색하고 공부하는 것이 가장 중요한 부분이라고 할 수 있다.

근데 생각보다 논문을 찾고 검색하는 일이 쉽지만은 않다. ~~( 내가 게으른 것일수도 있지만.. )~~

다른 전공의 대학원생이었다면, 시간을 투자해서 매일 혹은 주기적으로 논문을 직접 찾았겠지만, 나는 개발자가 아닌가?

더 효율적으로, 이 조차도 자동화로 처리하고 싶었다...

그래서 간단한 프로젝트로, 매일 주기적으로 논문을 직접 검색하고 저장해주는 논문크롤러 프로젝트를 생각했다.

간단한 마이크로 프로젝트로 시작하여, 단순히 입력한 검색어로 검색되는 논문들을 날짜별로 저장해주는 것부터 구현한다.

그 후, 계속해서 살을 붙여 최종적으로는, word2vec같은 딥러닝 모델을 적용하여 카테고리를 나누어 대충이라도 분류해주는 프로젝트로 키워나가고 싶다. ~~(일단은 머나먼 이야기가 아닐까.. )~~

논문은 내 전공 특성상 IEEE Xplore에서만 주로 검색하게 되므로, IEEE Xplore사이트에서 검색되는 논문만을 크롤링할것이고, 그렇기때문에 IEEE Xplore에서 논문을 다운받기 위해, 본 프로젝트는 완성 이후에 학교IP의 서버에서 돌아가게 될 것이다.

상업적인 목적이 전혀없으며, 순수하게 내 연구를 위해서 개인적으로 사용되기때문에, 저작권 등의 문제가 없을것으로 생각되지만.. 혹시모르니 찾아보긴 해야겠다.

프로젝트의 예상 환경은 아래와 같다.

위와 같은 흐름으로 구현할 예정이다. 다음 포스팅부터 차근차근 Selenium과 BeautifulSoup 등을 이용하여 단계별로 구현/정리하도록 하겠다.

Virtualenv 가상 환경 옮기기 (0)	2019.07.24
논문크롤러 프로젝트(2) - 개발 환경 설정 (Ubuntu 18.04 LTS + Python + Selenium + BeautifulSoup + Flask + Virtualenv 설치) (0)	2019.07.15

개발자 철이의 노트