반응형
aws 에 접속해서
Cloud9 에서 새로운 환경 생성.
플랫폼은 Amazon Linux2
생성되면 환경으로 접속 후 터미널에서 아래 명령어 실행
chrome 설치
sudo yum update -y
wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm
sudo yum install -y ./google-chrome-stable_current_x86_64.rpm
링크 설정
sudo ln -s /usr/bin/google-chrome-stable /usr/bin/chromium
설치가 잘 되었다면 버전확인 했을 때 메시지가 나옴.
다음 명령어로 설치 여부 확인
터미널에서 google-chrome CLI 로 크롤링 동작 확인
google-chrome-stable --headless --disable-gpu --print-to-pdf https://hello-bryan.tistory.com/513
좌측 파일에 output.pdf 가 생성되고, 더블클릭 해서 내용을 봤을 때 블로그 내용이 보인다면 성공.
Selenium python 코드 작성 및 실행
python library 설치
requirements.txt 작성
selenium==4.10.0
webdriver_manager==4.0.0
설치
pip3 install -r requirements.txt
코드 (main.py) 작성
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
if __name__ == '__main__':
chrome_options = Options()
chrome_options.add_argument('--headless')
print(ChromeDriverManager().install())
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
page_data = ''
driver.get('https://hello-bryan.tistory.com/category/AI')
# 검색어 입력
title_list = driver.find_elements(by=By.CSS_SELECTOR, value="span.title")
for title in title_list:
print(title.text)
driver.quit()
크롤러 실행
python main.py
728x90
반응형
'AWS' 카테고리의 다른 글
[AWS] Elasticache Redis 사용하기 (0) | 2023.12.16 |
---|---|
[AWS] "cannot import name 'DEFAULT_CIPHERS' from 'urllib3.util.ssl_'" on AWS Lambda using a layer (0) | 2023.09.16 |
[AWS Lambda] post 로 파라메터 받기 (0) | 2023.08.30 |
[Amazon] AWS SES 사용해서 Lambda 에서 E-mail 보내기 (0) | 2023.08.25 |
[AWS] Python 으로 CloudWatch Log 쓰기 (Feat. FastAPI) (1) | 2023.08.14 |
댓글