1. cmd 또는 아나콘다 프롬프트 등에서 프로젝트를 만들고 싶은 폴더로 이동
2. 명령 창에 scrapy startproject 폴더명 -> 폴더 생김
ex : scrapy startproject naver
3. 스파이더 만들기
명령 창에 scrapy genspider 스파이더명 url주소
ex : scrapy genspider test1 www.naver.com
http를 붙일 경우 http://http://가 될 수 있기에 http는 생략 가능.
여기까지 수행하면 위와 같이 naver 폴더와 test1.py 파일이 생성된다.
참고로 test1.py의
allowed_domains은 해당 주소가 포함된 url만 크롤링 하겠다는 것으로 옵션임 (없어도 됨)
4. 스파이더 실행하기
import scrapy
class Test1Spider(scrapy.Spider):
name = 'test1'
allowed_domains = ['http://naver.com']
start_urls = ['http://naver.com/']
def parse(self, response):
print(response.text)
print("END")
pass 를 지우고 제대로 작동되는 확인하기위해 html을 프린트 문으로 출력
명령창에 scrapy crawl test1
그럼 스크래피가 실행되고 크롤링 후
print(response.text)
print("END")
실행 확인됨.
반응형
'크롤링 > scrapy' 카테고리의 다른 글
scrapy(스크래피) 크롤링 실전 (csv 저장까지) (0) | 2020.09.24 |
---|---|
scrapy 동일한 url Request (0) | 2020.09.24 |
scrapy[스크래피] mongo db 인서트 (0) | 2020.09.24 |
[scrapy] 엑셀(csv) 필드 정렬, 순서대로 저장, 한글 깨짐 현상 (1) | 2020.09.22 |
scrapy shell 접속, 크롤링 (0) | 2020.09.22 |