EKS에서 발견한 GPU driver container image not found 에러
EKS에서 gpu operator로 nvidia driver를 설치하려고 했습니다. gpu operator를 helm으로 릴리즈했습니다.
helm repo add nvdp https://nvidia.github.io/k8s-device-plugin
helm repo update
helm install \
--version=v25.3.0 \
--namespace nvidia-gpu-operator \
--create-namespace \
nvdp/nvidia-device-plugin \
--set toolkit.enabled=false \
--set driver.enabled=true
그런데 GPU driver를 설치하는 daemonset pod에서 ImagePullBackOff에러가 발생했습니다. 컨테이너 이미지가 없어 에러가 발생했습니다.
github issue를 찾아보니 2025.6월 기준으로 nvidia gpu operator는 amazon linux를 지원하지 않아, 컨테이너 이미지가 없었습니다.
- github issue: https://github.com/NVIDIA/gpu-operator/issues/686
GPU Operator does not support driver containers for Amazon Linux. We recommend installing the drivers on the node
실제로 nvidia 컨테이너 이미지 목록을 찾아보니 AWS AMI는 ubuntu만 지원했습니다. 참고로 저의 인스턴스는 g6.large였습니다.
해결방법
해결 방법은 3가지 입니다.
첫번째, 직접 노드에 gpu driver를 설치하는 방법입니다. 문제는 GPU가 karpenter 또는 CAS때문에 GPU 노드가 오토스케일링 되면, 오토스케일링된 노드마다 직접 설치해야 합니다. amazon linux에 gpu driver설치는 EKS optimized AMI template을 참고하면 좋습니다.
- EKS AMI template: https://github.com/awslabs/amazon-eks-ami/blob/main/templates/al2023/provisioners/install-nvidia-driver.sh
두번째, GPU 드라이버가 설치된 golden AMI를 만듭니다. packer 등을 사용하여 nvidia GPU driver가 설치된 AMI를 만드는 방법입니다.
세번째, GPU EKS optimized AMI를 사용하는 것입니다. 두번째 방법과 동일한 방법인데 내가 관리하는대신 아마존이 직접 AMI를 관리합니다. EKS optimized AMI에 대한 내용은 저의 이전 블로그를 참고하면 좋습니다.
- EKS optimized AMI: https://malwareanalysis.tistory.com/837
최신 패치가 즉각 필요하다면 내가 직접 관리하는 2번째 방법이 좋고 최신 패치가 필요없다면 EKS optimized AMI를 사용하는게 좋습니다.
참고자료
- nvidia GPU operator github issue: https://github.com/NVIDIA/gpu-operator/issues/686
- nvidia GPU operator helm chart: https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/getting-started.html
- nvidia GPU driver image list: https://catalog.ngc.nvidia.com/orgs/nvidia/containers/driver/tags
'전공영역 공부 기록' 카테고리의 다른 글
kubernetes pod가 GPU를 사용하는 원리 그리고 쿠버네티스 설정 (0) | 2025.06.22 |
---|---|
nvidia-smi 명령어로 nvidia GPU 상태 모니터링 (0) | 2025.06.19 |
EKS에서 AIOps를 하기 위한 로드맵 (2) | 2025.06.15 |
운영의 필수 기능 "Alarm" (1) | 2025.06.10 |
kubernetes 1.33 알파기능 - kuberc (0) | 2025.06.03 |