본문 바로가기

크롤링

논문크롤러 프로젝트(2) - 개발 환경 설정 (Ubuntu 18.04 LTS + Python + Selenium + BeautifulSoup + Flask + Virtualenv 설치) 앞선 포스팅에서 설명하였듯이, 이번 프로젝트를 파이썬을 이용하여 개발하기로 결정, 크게 2가지 부분으로 나누었다. 키워드 등록 요청을 받고, 저장되어있는 논문을 요청하면 전달해주는 Flask기반의 웹서버 하나의 키워드를 기반으로 크롤링을 실제로 진행하는 크롤러 전체적인 프로젝트의 개요는 위의 사진과 같다. 크게 웹서버와 크롤러로 나눌수 있는데, 웹 서버는 주기적으로 ( 1일에 1번 혹은 키워드가 등록되었을 때 ) 크롤러에게 크롤링 명령을 내린다. 그러면, 크롤러는 명령을 받고 ( 명령에는 키워드/User 등이 포함되어 있음 ) IEEE Xplore에서 논문을 크롤링하여 User별로, keyword별로 디렉토리를 나누어 저장한다. 개발환경은 다음과 같다. OS : Ubuntu 18.04 LTS 개발 사용 .. 더보기
논문크롤러 프로젝트 (1) - 프로젝트 개요 대학원생들은 논문을 쓰기 위해, 항상 본인 연구 분야와 관련된 논문들을 읽고 쓰게 된다. 그러다보니, 수년전의 논문부터 최신 논문까지 연구동향을 검색하고 공부하는 것이 가장 중요한 부분이라고 할 수 있다. 근데 생각보다 논문을 찾고 검색하는 일이 쉽지만은 않다. ( 내가 게으른 것일수도 있지만.. ) 다른 전공의 대학원생이었다면, 시간을 투자해서 매일 혹은 주기적으로 논문을 직접 찾았겠지만, 나는 개발자가 아닌가? 더 효율적으로, 이 조차도 자동화로 처리하고 싶었다... 그래서 간단한 프로젝트로, 매일 주기적으로 논문을 직접 검색하고 저장해주는 논문크롤러 프로젝트를 생각했다. 간단한 마이크로 프로젝트로 시작하여, 단순히 입력한 검색어로 검색되는 논문들을 날짜별로 저장해주는 것부터 구현한다. 그 후, 계속.. 더보기