본문 바로가기

전체 글

(2)

[python/파이썬] 크롤링 초보가 겪은 위기 정리 파이썬을 통해 약 50개의 페이지를 크롤링하면서 겪었던 어려운 점을 정리하려고 한다. 1. 로그인이나 클릭해야 팝업창으로 뜨는 경우 크롤링 입문시, 보통 Beautifulsoup방식으로 배운다. 환경세팅없이 라이브러리만 설치해서 쓰는 간편함과 Selenium보다 속도가 빠르다는 장점이 있지만 모든 페이지를 커버할 수가 없다. 이 경우 중 보편적인 형식이 로그인, 검색 등의 원하는 정보를 입력 또는 클릭해야하는 경우이다. 실제로 해보면 soup을 이용해 가져왔는데도 원하는 html이 없다면 거의 위의 경우에 속한다. 이럴땐 Selenium을 이용해 동적페이지로 가져와야한다. 그리고 태그 접근 규칙은 xpath로 하면 거의 문제가 없다. 관련 설명은 전에 정리해놓은 포스팅을 참고하자. 2. 페이지번호가 ur..

[Python/파이썬] BeautifulSoup, Selenium으로 웹크롤링 매장 홈페이지에서 정보를 스크래핑해야할 일이 많았다. 이 경험으로 깨달은 것들을 정리해보려 한다. 1. 크롤링하기 전에 내가 원하는 URL로 아래 코드를 먼저 돌려보기! res = requests.post('https://www.elandretail.com/store02.do) res.encoding = 'etf-8' # 또는 'euc-kr' html = res.text soup = BeautifulSoup(html, 'html.parser') soup - 위 코드를 돌리면 결과가 내가 원하는 태그가 포함되어 나오는 경우가 있고, 아닌 경우가 있다. 예를 들어, 추출 정보가 팝업창 형태로 되어있고, 클릭해도 URL주소가 바뀌지 않는 경우에는 보이는 URL로 가져오기가 어렵다. 이럴 땐 밑의 두 가지 방법..

이전 1 다음

티스토리툴바