분류 전체보기 772

Kubeflow pipeline

Kubeflow pipeline이란?kubeflow pipeline은 workflow를 실행하고 상태를 관리합니다. workflow는 목표를 달성하기 위한 작업의 묶음을 말합니다. AI생태계에서는 데이터 수집, 데이터 전처리, AI모델 학습 등을 pipeline으로 실행합니다. 아래 그림은 AI모델을 만들고 model registry에 업로드하는 pipeline입니다.pipeline 사용은 필수가 아니지만 단점보다 장점이 많기 때문에, pipeline을 사용하지 않은 것 상황보다 pipeline을 사용하는 상황이 많습니다.pipeline을 사용하면 여러가지 장점이 있지만 대표적인 2가지 장점을 소개합니다.1. 이력관리 그리고 재현성 확보: pipeline을 다시 실행하면 동일한 결과를 얻을 수 있는 재현..

kubeflow volume이란?

kubeflow volume이란?kubeflow는 kubernetes pvc를 대시보드에서 관리(생성, 수정, 삭제)할 수 있습니다. 또한, pvc에 있는 데이터를 조회할 수 있고 업로드, 다운로드 기능을 제공합니다. pvc는 kubeflow에서 volume이라고 부릅니다. volume이 필요한 이유volume은 notebook에서 작업할때 작업 데이터를 영구 저장할때 필요합니다. notebook이외에 데이터셋을 영구저장할 때 사용합니다. volume 생성과 notebook에 volume 마운트volume 생성은 매우 쉽습니다. 이름, 용량, access mode를 설정하면 됩니다. 생성한 볼륨은 notebook 생성 또는 기존 notebook에 설정페이지에서 existing volume 메뉴에서 설정..

kubeflow - notebook이란?

kubeflow notebook이란?Kubeflow notebook은 코드를 작성하고 실행할 수 있는 환경을 제공합니다. jupyter lab, vscode, R studio 3가지 중 한개를 선택하고 웹 브라우저로 접속해야 합니다. notebook은 pod로 실행됩니다. notebook 장점사용자는 kubeflow 대시보드에서 notebook이 사용할 컨테이너 이미지, 자원(cpu, memory, gpu), volume, affinity, toleration을 손쉽게 설정할 수 있습니다. affinity, toleration은 kubeflow 관리자가 미리 설정한 값만 지정할 수 있습니다. notebook 실행 원리notebook은 notebook controller가 CRD로 관리합니다. 사용자..

맥북 M3에서 kubeflow을 테스트 해보니...

저는 맥북 M3를 사용하고 있습니다. 맥북에서 kubeflow를 며칠동안 테스트를 하고 있고 지금도 테스트하고 있는데, 맥북이 엄청 버벅거립니다. 파이프라인 실행도 안하는데 엄청 버벅거리는데, 알 수 없는 영역에서 성능이 과부하 걸린 것 같습니다. 그리고 맥북 M3는 ARM을 사용하기 때문에 tensorflow 등 ARM을 지원하지 않는 오픈소스를 사용할 수 없습니다. 억지로 사용하려면 ARM이 호돤되는 컨테이너 이미지를 직접 만들어야 합니다. AMD 컨테이너를 실행할 수 있도록 Rosetta 옵션을 활성화 했지만 실행이 안됩니다. ㅜ.ㅜ 맥북에서 며칠동안 kubeflow 등 MLOps를 테스트해보니, MLOps 입문자에게 맥북은 MLOps에 부적합한 것 같습니다. 그래서 저는 집에 있는 nvidia ..

회고모음 2025.08.24

오류있는 pod를 10시간 디버깅해보니, 원인은 ARM64 미호환

kubeflow동작을 이해하기 위해 열심히 만든 AI모델을 kserver로 배포했었습니다.apiVersion: serving.kserve.io/v1beta1kind: InferenceServicemetadata: annotations: sidecar.istio.io/inject: "false" name: mnist-model-registry namespace: kubeflow-user-example-comspec: predictor: timeout: 600 tensorflow: storageUri: "..." serviceAccountName: serving kserver가 실행한 pod는 계속 오류가 있어 10시간동안 열심히 삽질을 했습니다. container가 R..

kubeflow model registry ui는 ARM을 지원하지 않는다.

model registry를 배포하려고 했던 이유kubeflow model registry에 저장된 AI모델을 웹 브라우저에서 확인하고 싶어 model registry ui를 배포했습니다. 하지만 ARM을 지원하는 컨테이너 이미지가 없다.2025.8.18(월)기준 head 브랜치에 있는 kubeflow model registry ui를 배포했지만, pod에서 이미지를 찾을 수 없다는 에러가 났습니다.Failed to pull image "ghcr.io/kubeflow/model-registry/ui:v0.2.21": rpc error: code = NotFound desc = failed to pull and unpack image "ghcr.io/kubeflow/model-registry/ui:v0.2..