크롤링/scrapy

scrapy(스크래피) 프로젝트 생성방법

개발자J군 2020. 9. 18. 18:31

1. cmd 또는 아나콘다 프롬프트 등에서 프로젝트를 만들고 싶은 폴더로 이동

 

2. 명령 창에 scrapy startproject 폴더명  -> 폴더 생김

ex : scrapy startproject naver

 

3. 스파이더 만들기 

명령 창에 scrapy genspider 스파이더명 url주소

ex : scrapy genspider test1 www.naver.com   

 

http를 붙일 경우 http://http://가 될 수 있기에 http는 생략 가능. 

 

생성된 test1.py 파일
생성된 폴더

여기까지 수행하면 위와 같이 naver 폴더와 test1.py 파일이 생성된다.

참고로 test1.py의
allowed_domains은 해당 주소가 포함된 url만 크롤링 하겠다는 것으로 옵션임 (없어도 됨)

4. 스파이더 실행하기 

import scrapy


class Test1Spider(scrapy.Spider):
    name = 'test1'
    allowed_domains = ['http://naver.com']
    start_urls = ['http://naver.com/']

    def parse(self, response):

        print(response.text)
        print("END")

pass 를 지우고 제대로 작동되는 확인하기위해 html을 프린트 문으로 출력

 

명령창에 scrapy crawl test1

그럼 스크래피가 실행되고 크롤링 후  

print(response.text)

print("END")

실행 확인됨.

반응형