본문 바로가기
반응형

AI20

SmoothQuant 추론 기법이란 SmoothQuant 추론 기법이란?SmoothQuant(스무스퀀트)은 AI 모델(특히 트랜스포머 기반 모델)의 추론 속도를 높이고 메모리 사용량을 줄이기 위한 양자화 기법입니다. 특히 FP32(32비트 부동소수점)에서 INT8(8비트 정수)로 변환하는 과정에서 성능 손실을 최소화하는 것이 핵심입니다.왜 SmoothQuant이 필요할까?딥러닝 모델, 특히 LLM(대형 언어 모델)과 같은 트랜스포머 모델은 메모리를 많이 사용하고 연산량이 큽니다.이를 해결하는 대표적인 방법이 양자화(Quantization)인데, 일반적인 양자화 방식에서는:정수(INT8)로 변환하면 연산 속도는 빨라지지만, 정확도가 크게 떨어질 수 있음특히 어텐션(Attention) 연산에서 가중치(W)와 활성화값(A)의 크기 차이가 너무 .. 2025. 1. 31.
모델 서빙 솔루션 비교 vLLM, TensorRT-LLM, Ollama 비교 60B 대형 모델 서빙 솔루션 비교: vLLM, TensorRT-LLM, Ollama최근 인공지능(AI) 모델이 급격히 커지면서, 대형 언어 모델(LLM)을 효과적으로 서빙하는 방법이 점점 중요해지고 있습니다. 특히 60B 정도 크기의 모델을 서빙할 때, 성능과 효율성을 극대화하는 게 관건이죠. 오늘은 이런 대형 모델을 서빙하는 세 가지 솔루션인 vLLM, TensorRT-LLM, 그리고 Ollama를 비교해볼게요! 🤖1. vLLM개요vLLM은 대형 언어 모델의 메모리 사용과 처리 성능을 극대화하기 위한 오픈소스 프레임워크힙니다.. 주로 NLP 애플리케이션에서 다수의 사용자 요청을 실시간으로 처리해야 할 때 유용한데요, 비동기 텐서 할당이라는 독특한 메모리 최적화 기술을 사용합니다.장점 👍메모리 효율.. 2024. 9. 5.
DeepL 자꾸 실수해... AI 카테고리에 쓰는건 좀 이상하지만, DeepL 관련 내용이니까.. 제가 DeepL 을 많이 쓰는데요, 번역에 상당히 심각한 오류들이 몇번 나와서 글 남겨봅니다. 그 예로, 최근에 번역했던 내용입니다. Which of the following animals is the LEAST ferocious? a. a killer whale b. a wolf c. a cheetah d. a goat DeepL 의 번역 papago 의 번역 google 의 번역 DeepL 만 완전 반대되는 질문을 하고 있네요. 이번 한번이 아니라 저렇게 질문을 반대로 해석하는 경우가 정말 종종 있습니다. 번역 비용은 잴 비싼데, 저런 오류가 자주 보여서 사용을 해야할지 고민이 되네요. 이 글은 참고, 선택은 자유, 2024. 2. 12.
[Stable Diffusion] Sampling Steps 에 따른 결과 보기 # prompt a close up portrait photo of 26 y.o woman in wastelander clothes, long haircut, pale skin, slim body, background is city ruins, (high detailed skin:1.2), 8k uhd, dslr, soft lighting, high quality, film grain, Fujifilm XT3 # Negative prompt (deformed iris, deformed pupils, semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime, mutated hands and fingers:1.4), (deformed, distort.. 2023. 3. 23.
Hugging Face txt2img 인기모델 리스트 및 링크 (모델 링크 업데이트 2024-09-17)Realistic_Vision_V5.1.safetensors, Realistic_Vision_V5.1-inpainting.safetensorsanything-v4.5-vae-swapped.safetensorssd-v1-5-inpaintingmdjrny-v4moDi-v1-pruneddreamlike-photoreal-2.0(링크는 hugging face repository 주소입니다)어떤 모델이 좋다고 할수 없는게, 상황에 따라서 써야 할것 같고 prompt 를 어떻게 입력하고 sampling method 와 steps 등.. 설정에 따라 결과물이 많이 바뀝니다.여기에 controlnet 과 lora 를 사용하면 만족할 만한 결과물을 얻을 수 있을 것 같습니다.시간.. 2023. 3. 23.
[Stable Diffusion] Anything V4 prompt 로그 이하 Negative prompt 추가 Negative prompt: lowers, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name 2023. 3. 23.
[Stable Diffusion] AnythingV3 생성 sample Sampling Method : Euler a 2023. 3. 22.
[Stable Diffusion] Sampling method 에 따른 이미지 생성 결과 로그성 포스팅입니다. 별 내용없이 생성된 이미지 비교하려고 작성했습니다. 아래는 여러 커뮤니티에서 주워들은 이야기 입니다. PLMS, DPM++ 2M Karras 또는 LMS/Keras 을 사용하면 속도가 빠르다더라 txt2img의 경우 Euler를, img2img의 경우 LMS 를 쓴다더라 Euler a와 DDIM 두 개만 사용한다더라 같은 프롬프트에 Sampling Method 만 바꿔서 생성한 이미지들을 쌍으로 올려보겠습니다. Mac 은 하나 생성 시 10~15초 정도 걸리는듯 합니다.. Windows 에서 더 해봐야겠네요. 결론 많이 해보지는 않았지만, txt2img 만 변환해봤는데 LMS 보다는 Euler 이 더 잘 나오는 것 같습니다. LMS 는 뭔가 언발란스한.. LMS 는 txt2txt 해.. 2023. 3. 22.
[Stable Diffusion] Prompt 에 따른 생성 이미지 예제 Stable Diffusion 여러가지 prompt 를 입력하고, 결과를 확인하기 위해서 작성한 로그성 포스트 입니다. prompt {{{masterpiece}}}, {{{best quality}}}, {{ultra-detailed}}, {cinematic lighting}, {illustration}, {beautiful detailed eyes}, {1girl}, upper body, looking at viewer, depth of field Negative prompt: lowers, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, no.. 2023. 3. 22.
[Stable Diffusion] WebUI Mac M1 에서 실행해보기 제 Mac 에서 webui 실행해서 생성한 이미지 입니다. 1. Brew 설치는 이전 글 참고https://hello-bryan.tistory.com/223 [Mac] brew install . brew 설치하기Linux의 apt-get 이나 yum 같은 패키지 매니저입니다. Brew site https://brew.sh/index_ko Homebrew The Missing Package Manager for macOS (or Linux). brew.sh 위 사이트에 설명이 다 나와있지만 간단히 설명하면 아래 명령어를hello-bryan.tistory.com 2. 필요한 것들 설치터미널을 열어서 아래 명령어 실행.arch -arm64 brew install cmake protobuf rust python.. 2023. 3. 22.
728x90
반응형