반응형
Cloud9 에서 Selenium 으로 크롤링 하기(Amazon Linux2)
좀 더 자세한 설명은 이전 글을 참고하세요.
[AWS] - Cloud9 에서 Selenium 으로 크롤링 하기 (Ubuntu)
여기에서는 Amazon Linux2 에서 환경 설정만 하겠습니다.
1. 클라우드9 에서 환경생성
- 생성 시 플랫폼을 Amazon Linux2 로 선택
2. 클라우드로 접속해서 터미널에서 아래 명령어들을 차례대로 실행
(설치 중 Is this ok [y/d/N]: 나오면 y 입력)
sudo yum update -y
wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm
sudo yum install ./google-chrome-stable_current_x86_64.rpm -y
sudo ln -s /usr/bin/google-chrome-stable /usr/bin/chromium
3. 버전 확인
google-chrome -version
4. 터미널에서 CLI 로 크롤링 테스트
google-chrome-stable --headless --disable-gpu --print-to-pdf https://hello-bryan.tistory.com/513
5. python library : Selenium 설치
- requirements.txt 에 다음과 같이 작성
selenium==4.10.0
webdriver_manager==4.0.0
다음 명령어로 설치
pip3 install -r requirements.txt
6. 테스트 코드 작성 (main.py) 및 실행
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
if __name__ == '__main__':
chrome_options = Options()
chrome_options.add_argument('--headless')
print(ChromeDriverManager().install())
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
page_data = ''
driver.get('https://hello-bryan.tistory.com/category/AI')
# 검색어 입력
title_list = driver.find_elements(by=By.CSS_SELECTOR, value="span.title")
for title in title_list:
print(title.text)
driver.quit()
python 실행
python3 main.py
728x90
반응형
'AWS' 카테고리의 다른 글
[AWS] Python 으로 CloudWatch Log 쓰기 (Feat. FastAPI) (1) | 2023.08.14 |
---|---|
AWS - RDS - MySQL 사용해보기 (외부접속 설정) (0) | 2023.08.12 |
AWS Cloud9 에서 Selenium 으로 크롤링 하기 (Ubuntu) (0) | 2023.08.01 |
[AWS] Cloud9 으로 Stable-Diffusion WebUI 띄워서 접속하기 (0) | 2023.03.26 |
[Cloud9] Amazon Linux 2 에서 no space left on device 해결 (4) | 2023.03.25 |
댓글