회고모음 49

컨테이너 이미지가 immutable 하지 않아서 겪은 이슈

사용하고 있는 SaaS 컨테이너 이미지가 immutable하지 않아 겪었던 이슈를 이야기해보려고 합니다. 컨테이너 이미지가 immutable이라는 의미는 컨테이너 이미지 내용이 변하지 않는 것을 보장합니다. 항상 같은 컨테이너 이미지 태그를 사용하면 어디서 실행하던지 내용은 같다는 뜻입니다. 하지만 최근 immutable하지 않은 이미지로 개발환경에서 이슈를 겪었고 동일 증상이 운영환경에서도 일어날 수 있는 것을 확인했습니다.  이슈의 시작은 개발환경에서 crashloopbackoff에서 시작합니다. 해당 pod는 init container와 애플리케이션 컨테이너가 있었고, init container오류로 pod가 crashloopbackoff였습니다. init container는 약 한달동안 이슈가 없..

회고모음 2025.01.14

회고 - 개발환경에서 테스트할 수 없어, 운영환경에 바로 적용했는데 장애

드물게 개발 또는 검수(QA)환경이 없는 시스템이 있습니다. 운영환경에 바로 작업을 해야 합니다. 기능을 수정하거나 추가할 때, 작업자는 작업이 성공적으로 끝나길 기도할 수 밖에 없습니다.최근에 저도 운영환경에 바로 적용해야 할 때가 있었는데, 작업이 잘 안 안되었고 서비스 장애가 났었습니다. 약 20분정도 걸려 장애를 복구 했습니다. 작업이 끝나고, 운영환경  밖에 없는 시스템에서 어떻게 기능을 적용할지 많은 고민이 들었습니다.

회고모음 2025.01.12

2024년 회고

저의 2024년의 우연이 모여 필연이 되었습니다. 계획하지 않았으며 전혀 예상을 못한 우연들이 모여 좋은 2024년 추억을 만들어줬습니다. 1. AWS Seoul Summit 발표우연히 2024년 AWS Seoul Summit 커뮤니티 섹션에 발표를 했습니다. 주제는 IPv6였습니다. 다른 세션하고 다르게 커뮤니티 섹션은 경험을 공유하는 자리였고 저는 IPv6 PoC 경험을 공유했습니다. AWS Seoul Summit은 참여자가 주제를 공모하고 AWS코리아에서 주제를 선정합니다. 저도 1월쯤에 신청을 했었고 2월쯤에 당첨되었다는 연락을 받았습니다. 그리고 팀원의 배려로 3월 약 2~4주동안 발표자료를 만들고 약 3번의 리허설을 진행하였습니다. 발표는 총 2명이서 40분을 진행했었는데 정말 우연히도 스터..

회고모음 2024.12.25

정보보안의 시작 - 자산 식별

어느 날, A팀에게 이메일로 요청을 받았습니다. 모든 AWS 계정의 EC2 인스턴스에 OOO 소프트웨어를 설치해 달라는 내용이었습니다. 소프트웨어 OOO은 자산 식별을 위한 도구였으며, 이 요청을 받고 자산 식별이 무엇인지 찾아보게 되었습니다. ISMS-P에서는 자산 식별을 다음과 같이 명시하고 있습니다."정보 자산의 분류 기준을 수립하고, 정보 보호 및 개인정보 보호 관리체계 범위 내의 모든 자산을 식별하여 목록으로 관리하여야 한다." 자산 식별의 정의를 보고 정보 보안에 대한 새로운 관점을 가지게 되었습니다. 이전까지는 정보 보안을 기술적인 측면에서만 생각해왔지만, 기술보다 더 중요한 것은 내 자산이 무엇인지 명확히 식별하는 것임을 깨달았습니다. 이번 경험은 정보 보안의 기본이 자산의 정의와 식별에 ..

회고모음 2024.11.02

쿠버네티스 관리자가 혼자 쿠버네티스 업그레이드 할 수 있을까?

24.10 3주차에 EKS를 업그레이드를 하고 느낀 것들을 이 글에 적습니다. 쿠버네티스 소개제 팀이 관리하는 쿠버네티스는 1개가 넘는데 이 글에서 언급하는 쿠버네티스는 여러 팀이 같이 사용하는 쿠버네티스 입니다.  선택한 업그레이드 전략올해 저는 1개 클러스터를 in-place로 업그레이드 한 적이 있습니다. 그리고 몇 개 클러스터는 blue/green방식으로 진행했습니다. 이 글에서 언급하는 쿠버네티스는 blue/green을 선택했습니다. 처음에는 in-place를 선택했지만 "롤백" 우선순위가 높다는 것을 생각하여 blue/green으로 선택했습니다. 그리고 실제로 쿠버네티스 업그레이드 후 롤백했습니다. 쿠버네티스 업그레이드는 잘 되었다. 하지만,쿠버네티스 업그레이드는 잘 되었지만 롤백을 했습니..

회고모음 2024.10.27

디버깅 과정에서 직관력이 방해되었던 경험

이번주 24년 10월 2주차 금요일, 약 18:00경에 디버깅을 했던 경험을 공유하고자 합니다.  A팀에서 운영배포를 하고 있었고 애플리케이션이 실행될 때 performance_shcema관련 에러가 발생했습니다. 다행히도 서비스에 영향은 없없지만 에러 메세지가 보였기 때문에 디버깅을 잠시 했었습니다. performance_shcema라는 키워드를 보자마자 저는 경험에 의존하여 datadog계정에 권한 부족이라고 바로 생각했습니다. 오류 메세지를 검색하지 않고 datadog라고 판단한거죠. 몇 분뒤 팀원이 오류 메세지를 검색한 후, 애플리케이션이 사용하는 라이브러리에서 문제가 있다는 것을 찾았습니다. 제 직관이 오히려 문제 해결을 방해했던 순간이었습니다. 몇 시간 뒤 퇴근을 하면서 저는 2년 차 때 스..

회고모음 2024.10.14