전공영역 공부 기록

오류있는 pod를 10시간 디버깅해보니, 원인은 ARM64 미호환

악분 2025. 8. 22. 00:58
반응형

kubeflow동작을 이해하기 위해 열심히 만든 AI모델을 kserver로 배포했었습니다.

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  annotations:
    sidecar.istio.io/inject: "false"
  name: mnist-model-registry
  namespace: kubeflow-user-example-com
spec:
  predictor:
    timeout: 600
    tensorflow:
      storageUri: "..."
    serviceAccountName: serving

 

kserver가 실행한 pod는 계속 오류가 있어 10시간동안 열심히 삽질을 했습니다. container가 Running상태여서 ARM은 당연히 호환될지 알았습니다.

 

메뉴얼과 여러 예제를 열심히 찾아봤지만 잘되야하는 예제가 안되서 10시간 넘게 열심히 삽질을 했습니다. 너무 이상해서 docker 명령어로 디버깅을 했는데, docker pull은 되고 docker run에서 ARM미지원 에러가 떴습니다.

 

docker manifest inspect명령어로 컨테이너 이미지가 지원하는 플랫폼을 확인했습니다. platform이 명시가 안되어 있습니다.

 

docker hub에 직접확인해보니, AMD만 사용가능하고 ARM은 사용하지 못한 것을 확인했습니다.

 

10시간 넘게 시간을 소비하고 얻은 인사이트는 "docker pull이 성공하더라도, 해당 컨테이너 이미지가 ARM을 지원하지 않을 수 있다"입니다.

반응형