본문 바로가기
AWS

[AWS] Cloud9 에서 Selenium 으로 크롤링하기 (Amazon Linux2)

by bryan.oh 2023. 9. 12.
반응형

 

aws 에 접속해서

Cloud9 에서 새로운 환경 생성.

 

플랫폼은 Amazon Linux2

 

생성되면 환경으로 접속 후 터미널에서 아래 명령어 실행

chrome 설치

sudo yum update -y

wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

sudo yum install -y ./google-chrome-stable_current_x86_64.rpm

 

링크 설정

sudo ln -s /usr/bin/google-chrome-stable /usr/bin/chromium

 

설치가 잘 되었다면 버전확인 했을 때 메시지가 나옴.

다음 명령어로 설치 여부 확인

 

 

터미널에서 google-chrome CLI 로 크롤링 동작 확인

google-chrome-stable --headless --disable-gpu --print-to-pdf https://hello-bryan.tistory.com/513

좌측 파일에 output.pdf 가 생성되고, 더블클릭 해서 내용을 봤을 때 블로그 내용이 보인다면 성공.

 

 

Selenium python 코드 작성 및 실행

python library 설치

requirements.txt 작성
selenium==4.10.0 
webdriver_manager==4.0.0
설치
pip3 install -r requirements.txt

 

코드 (main.py) 작성

from selenium import webdriver

from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options


if __name__ == '__main__':
    
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    
    print(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)

    page_data = ''
    
    driver.get('https://hello-bryan.tistory.com/category/AI')
    # 검색어 입력
    title_list = driver.find_elements(by=By.CSS_SELECTOR, value="span.title")
    for title in title_list:
        print(title.text)
            
    driver.quit()

 

크롤러 실행

python main.py

728x90
반응형

댓글