전공영역 공부 기록 435

nvidia GPU operator는 Amazon Linux에 GPU driver설치를 지원하지 않는다.

EKS에서 발견한 GPU driver container image not found 에러EKS에서 gpu operator로 nvidia driver를 설치하려고 했습니다. gpu operator를 helm으로 릴리즈했습니다.helm repo add nvdp https://nvidia.github.io/k8s-device-pluginhelm repo updatehelm install \ --version=v25.3.0 \ --namespace nvidia-gpu-operator \ --create-namespace \ nvdp/nvidia-device-plugin \ --set toolkit.enabled=false \ --set driver.enabled=true 그런데 GPU d..

EKS에서 AIOps를 하기 위한 로드맵

EKS환경에서 AIOps를 하기 위한 로드맵이 AWS EKS문서에 쉽게 설명이 되어 있습니다.문서링크: https://docs.aws.amazon.com/ko_kr/eks/latest/userguide/machine-learning-on-eks.html kubernetes와 EKS와 차이점은 컴퓨팅 자원, 네트워크, 스토리지가 다릅니다. 그리고 EKS는 Sagemaker 등 AWS 리소스 연동하여 할 수 있는 작업이 있습니다. EKS 또는 kubernetes에서 AIOps를 하기 위한 큰 범주는 대규모 모델 훈련, 실시간 온라인 추론 실행, 생성형 AI 애플리케이션이 배포가 있습니다. AI 개발자와 커뮤니케이션 하기 위한 AI 도메인 지식이 간단히 필요하고 파이프라인과 옵저벌리티를 위한 여러 오픈소스 ..

운영의 필수 기능 "Alarm"

개요이 글에서는 AWS cloudwatch를 사용하여 alarm(경보)을 설정하고 테스트하는 과정을 설명합니다. alarm은 시스템의 이상 징후를 빠르게 감지하는 도움을 줍니다. 서비스 운영에 있어서 alarm은 필수항목입니다.alarm 이란어느 기준을 넘으면 alarm이 발생했다라고하며 기준보다 낮아지면 alarm이 해소되었다라고 합니다. alarm이 발생하면 나쁜 조건이 발생한 것입니다. 예를 들어서 disk full 등이 있습니다. alarm 기준 설정막상 alarm을 설정하려면 어떤 것을 기준으로 alarm을 설정할지 고민이 됩니다. 기준을 아직 모를 때는 이전 블로그에 언급한것 처럼 RED method와 USE method로 시작하면 좋습니다.RED method와 USE method: https..

kubernetes 1.33 알파기능 - kuberc

kuberc란?쿠버네티스 1.33에서 kuberc기능이 알파로 추가되었습니다. kuberc는 bashrc처럼 kubectl설정을 하는 파일입니다. kuberc를 사용하려면 환경변수 KUBECTL_KUBERC를 true로 설정해야 합니다. kuberc 디폴트 파일위치는 ~/.kube/kuberc입니다.예시 1번overrides설정은 kubectl명령어를 실행할 때 오버라이딩합니다. 아래 예시는 kubectl delete명령어를 사용할 때 대화형으로 yes/no를 강제로 선택하게 합니다.apiVersion: kubectl.config.k8s.io/v1alpha1kind: Preferenceoverrides:- command: delete flags: - name: interactive default..

AWS 최신 자료를 볼때 영어문서를 봐야 하는 이유

최신 뉴스는 영어 문서를 봐야 하는 이유AWS 업데이트 내역, 신규 기능 등 최신 자료를 볼 때는 영어자료 보는 것을 추천합니다. 영어 문서가 먼저 업데이트 되고 며칠 지나서 한국 문서가 업데이트되기 때문입니다.예제 1: EKS 신규 버전 출시 날짜2025.5.29기준 EKS 1.33 버전 출시 확정날짜는 한국문서에는 없고 영어 문서에 있습니다.예제 2: 애드온 버전2025.5.29기준 EKS 애드온 버전 설명에서 한국문서는 1.32가 마지막이고 영어문서는 1.33이 마지막입니다.

쿠버네티스 cgroup과 request.cpu, limit.cpu 관계를 잘 설명한 글

안녕하세요. 이 글은 빅토리아메트릭 기술블로그에서 좋은 글이 있어 소개드립니다. kubernetes의 request.cpu, limit.cpu를 설정이 리눅스 운영체제에서 어떻게 동작하는지 원리, 수식, 시각화 설명이 되어 있습니다.링크: https://victoriametrics.com/blog/kubernetes-cpu-go-gomaxprocs/이전 저의 블로그에도 다뤘지만 resource request/limit cpu는 코어를 사용하는게 아니라 cpu시간을 사용하겠다는 개념입니다.이전 블로그 글: https://malwareanalysis.tistory.com/773 cpu 경합이 발생할 때 request.cpu에 설정한 값을 보장해준다는 뜻입니다. cpu 경합이 없으면 설정한 값보다 더 사용할 ..