전체 글 789

맥북 M3에서 kubeflow을 테스트 해보니...

저는 맥북 M3를 사용하고 있습니다. 맥북에서 kubeflow를 며칠동안 테스트를 하고 있고 지금도 테스트하고 있는데, 맥북이 엄청 버벅거립니다. 파이프라인 실행도 안하는데 엄청 버벅거리는데, 알 수 없는 영역에서 성능이 과부하 걸린 것 같습니다. 그리고 맥북 M3는 ARM을 사용하기 때문에 tensorflow 등 ARM을 지원하지 않는 오픈소스를 사용할 수 없습니다. 억지로 사용하려면 ARM이 호돤되는 컨테이너 이미지를 직접 만들어야 합니다. AMD 컨테이너를 실행할 수 있도록 Rosetta 옵션을 활성화 했지만 실행이 안됩니다. ㅜ.ㅜ 맥북에서 며칠동안 kubeflow 등 MLOps를 테스트해보니, MLOps 입문자에게 맥북은 MLOps에 부적합한 것 같습니다. 그래서 저는 집에 있는 nvidia ..

회고모음 2025.08.24

오류있는 pod를 10시간 디버깅해보니, 원인은 ARM64 미호환

kubeflow동작을 이해하기 위해 열심히 만든 AI모델을 kserver로 배포했었습니다.apiVersion: serving.kserve.io/v1beta1kind: InferenceServicemetadata: annotations: sidecar.istio.io/inject: "false" name: mnist-model-registry namespace: kubeflow-user-example-comspec: predictor: timeout: 600 tensorflow: storageUri: "..." serviceAccountName: serving kserver가 실행한 pod는 계속 오류가 있어 10시간동안 열심히 삽질을 했습니다. container가 R..

kubeflow model registry ui는 ARM을 지원하지 않는다.

model registry를 배포하려고 했던 이유kubeflow model registry에 저장된 AI모델을 웹 브라우저에서 확인하고 싶어 model registry ui를 배포했습니다. 하지만 ARM을 지원하는 컨테이너 이미지가 없다.2025.8.18(월)기준 head 브랜치에 있는 kubeflow model registry ui를 배포했지만, pod에서 이미지를 찾을 수 없다는 에러가 났습니다.Failed to pull image "ghcr.io/kubeflow/model-registry/ui:v0.2.21": rpc error: code = NotFound desc = failed to pull and unpack image "ghcr.io/kubeflow/model-registry/ui:v0.2..

kubeflow에서 illegal instruction (core dump)에러 해결방법

에러 발생이유MacOS 또는 ARM CPU를 사용할때, kubeflow에서 illegal instruction (core dump)에러가 발생할 수 있습니다. 이 에러는 사용하는 컨테이너 이미지가 ARM을 지원하지 않을 때 발생합니다. 대표적으로 tensorflow가 ARM을 지원하지 않습니다.@dsl.component( base_image='tensorflow/tensorflow:2.19.0')def load_and_preprocess_data( 해결방법커스텀 컨테이너 이미지를 만들어서 해결해야 합니다.- 예시 PR: https://github.com/choisungwook/portfolio/pulls

쿠버네티스와 오픈소스를 활용한 AI모델 사용환경 구축(with openwebUI)

개요이 글은 쿠버네티스 환경에서 사내 데이터과학자 만든 AI모델을, 사내에서 같이 사용할 수 있는 방법을 설명합니다.데모 영상(19초)에서 보는 것 처럼, chatGPT와 거의 비슷한 웹 페이지에 사내에서 개발한 AI모델을 공유함으로써, 회사원들이 쉽게 사내 AI를 사용하는게 목표입니다.데모영상: https://youtu.be/zmH1NWH8GbU?feature=shared&t=19 이전 글에서 설명한 것처럼 LM studio 등을 사용하면 AI 모델을 로컬에서 사용할 수 있습니다. 하지만 회사는 혼자서 일하는게 아니고 다른 사람과 협업을 하기 때문에, LM studio같이 AI 모델을 같이 사용할 수 있는 환경이 필요합니다.LM studio 설명: https://malwareanalysis.tisto..

ISMS-P 인증 심사 인터뷰 후기

25년 7월 우연히 제팀이 관리하는 서비스 중 하나가 ISMS-P 인증 대상이어서, 심사 인터뷰를 하로 갔습니다. ISMS-P 인증은 정보보호 및 개인정보보호 관리체계 인증을 의미하며, 기업이나 기관의 정보보호 및 개인정보보호를 위한 일련의 조치와 활동이 인증기준에 적합함을 한국인터넷진흥원(KISA) 또는 인증기관이 증명하는 제도입니다. 진행방식은 정말 면접처럼 진행했습니다. 서비스에 대해 소개를 하면 심사위원이 소개받은 서비스에 대해 한개한개 물어봅니다. 그리고 약관이 매우 중요합니다. 예를 들어 회원가입 약관을 모두 읽어보시고 법적으로 지켜야하는 약관을 전부 체크하십니다. 필수/선택 약관이 있는지, 개인정보처리수탁자가 명시되어 있는지 등을 봅니다. 기대했던 것 중에 암호 알고리즘 등을 물어볼 줄 알았..

Github Copilot으로 Pull Request에서 쿠버네티스 설정 리뷰 받는 방법

들어가며안녕하세요. 이 글은 Github Pull Request에서 올라간 파일 중에 쿠버네티스 설정이 있으면, Github Copilot으로 리뷰 받는 방법을 설명합니다. Github Copilot code review를 사용하고 있다는 전제로 설명합니다. 요약copilot-instructions.md파일에 검사 받고 싶은 규칙을 마크다운 포맷으로 적으면, Copilot이 마크다운에 명시된 규칙대로 쿠버네티스 설정을 리뷰합니다.Pull Request예제는 저의 github repo에서 확인할 수 있습니다.Pull Request 리뷰 예제: https://github.com/choisungwook/portfolio/pull/210 원리Github copilot은 copilot-instructions...

애플리케이션 에러가 없는데 서비스 장애라구요?

아침 7시 40분쯤 메신저에서 긴급이라는 메세지가 보였습니다. 서비스 장애가 생겼다는 메세지였습니다. 출근하기 위해 현관문 앞까지 나갔는데 장애라는 키워드를 보자마자 다시 집에 들어가서 노트북을 열었습니다. 실제 서비스 장애가 있었지만 애플리케이션 에러가 없어 조금 늦게 장애를 발견했습니다. 장애가 난 아키텍처는 아래 그림과 같습니다. 애플리케이션은 스프링부트이고 EKS pod에서 실행되고 있었습니다. 클라이언트는 on premise에 위치하고 EKS pod API를 호출하기 위해 public ALB를 사용합니다. 몇십분이 지나서야 EKS에는 이상이 없는 것을 확인했습니다. 대신 ALB에 메트릭 이상현상이 있었습니다. ALB requests가 어느 순간부터 0이었습니다. ALB설정은 수정을 안했는데 어느..

회고모음 2025.07.08

Datadog cloudwatch 메트릭기반 알람의 주의사항

주의사항Datadog에서 cloudwatch 메트릭기반으로 알람을 설정하면 실시간이 보장이 되지 않습니다. 그 이유를 예제와 함께 살펴보시죠.예제Datadog에서 AWS Cloudwatch ALB메트릭을 기반으로 알람을 설정했습니다. 알람은 1분마다 평가하고 평가지연 등 다른 옵션을 설정하지 않았습니다.만약 12:05분에 ALB Error Rate 알람 조건이 만족한다면, Datadog에서는 알람이 언제 울릴까요? 정답과 그 이유정답은 12:10이나 12:20분입니다.Datadog은 기본 설정으로 10분마다 cloudwatch 메트릭을 수집합니다. 따라서 12:05분의 ALB메트릭은 12:10이 지나야 datadog에 cloudwatch메트릭이 있습니다. 만약, cloudwatch 자체 지연이 발생한다..