본문 바로가기
AWS

AWS Cloud9 에서 Selenium 으로 크롤링 하기(Amazon Linux2)

by bryan.oh 2023. 8. 1.
반응형

Cloud9 에서 Selenium 으로 크롤링 하기(Amazon Linux2)

 

좀 더 자세한 설명은 이전 글을 참고하세요.

[AWS] - Cloud9 에서 Selenium 으로 크롤링 하기 (Ubuntu)

여기에서는 Amazon Linux2 에서 환경 설정만 하겠습니다.

 

1. 클라우드9 에서 환경생성

  - 생성 시 플랫폼을 Amazon Linux2 로 선택

2. 클라우드로 접속해서 터미널에서 아래 명령어들을 차례대로 실행
    (설치 중 Is this ok [y/d/N]: 나오면 y 입력)

sudo yum update -y

wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

sudo yum install ./google-chrome-stable_current_x86_64.rpm -y

sudo ln -s /usr/bin/google-chrome-stable /usr/bin/chromium

3. 버전 확인

google-chrome -version

 

4. 터미널에서 CLI 로 크롤링 테스트

google-chrome-stable --headless --disable-gpu --print-to-pdf https://hello-bryan.tistory.com/513

 

5. python library : Selenium 설치

- requirements.txt 에 다음과 같이 작성

selenium==4.10.0 
webdriver_manager==4.0.0

다음 명령어로 설치

pip3 install -r requirements.txt

 

6. 테스트 코드 작성 (main.py) 및 실행

from selenium import webdriver

from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options


if __name__ == '__main__':
    
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    
    print(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)

    page_data = ''
    
    driver.get('https://hello-bryan.tistory.com/category/AI')
    # 검색어 입력
    title_list = driver.find_elements(by=By.CSS_SELECTOR, value="span.title")
    for title in title_list:
        print(title.text)
            
    driver.quit()

 

python 실행

python3 main.py

 

 

 

 

728x90
반응형

댓글