kiku99
diff --git a/‎content/problems/kubernetes/024-init-container-stuck.md‎
Lines changed: 104 additions & 0 deletions b/‎content/problems/kubernetes/024-init-container-stuck.md‎
Lines changed: 104 additions & 0 deletions
diff --git a/‎content/problems/kubernetes/025-sidecar-crash.md‎
Lines changed: 99 additions & 0 deletions b/‎content/problems/kubernetes/025-sidecar-crash.md‎
Lines changed: 99 additions & 0 deletions
diff --git a/‎content/problems/kubernetes/026-rollback-bad-image.md‎
Lines changed: 82 additions & 0 deletions b/‎content/problems/kubernetes/026-rollback-bad-image.md‎
Lines changed: 82 additions & 0 deletions
diff --git a/‎content/problems/kubernetes/027-hpa-no-metrics.md‎
Lines changed: 104 additions & 0 deletions b/‎content/problems/kubernetes/027-hpa-no-metrics.md‎
Lines changed: 104 additions & 0 deletions
@@ -0,0 +1,104 @@
+---
+id: "kubernetes-024"
+title: "Init Container가 완료되지 않아 Pod가 시작되지 않는 문제"
+category: "kubernetes"
+difficulty: 1
+tags: ["init-container", "pending", "pod", "debugging"]
+hints:
+  - "kubectl describe pod 출력에서 Init Containers 섹션의 State를 확인하세요."
+  - "Init Container의 로그를 확인해 어떤 명령이 실행 중인지 살펴보세요."
+  - "Init Container가 대기하는 대상 서비스가 실제로 존재하는지 확인하세요."
+---
+
+## 상황
+
+신규 마이크로서비스를 배포했는데 Pod가 `Init:0/1` 상태에서 멈춰 있습니다. 메인 컨테이너가 시작되지 않아 서비스 전체가 동작하지 않습니다. 제공된 정보를 분석하여 원인을 찾으세요.
+
+## 데이터
+
+### kubectl get pods 출력
+
+```bash
+NAME                            READY   STATUS     RESTARTS   AGE
+order-service-5c8d7f9b6-tn4k2  0/1     Init:0/1   0          8m
+order-service-5c8d7f9b6-gx7m3  0/1     Init:0/1   0          8m
+```
+
+### kubectl describe pod order-service-5c8d7f9b6-tn4k2 (발췌)
+
+```yaml
+Init Containers:
+  wait-for-db:
+    Image:   busybox:1.36
+    Command:
+      - sh
+      - -c
+      - until nslookup postgres-primary.database.svc.cluster.local; do echo "Waiting for DB..."; sleep 2; done
+    State:       Running
+      Started:   Mon, 20 Jan 2025 09:10:00 +0000
+    Ready:       False
+Containers:
+  order-api:
+    Image:   registry.example.com/order-service:v3.0.1
+    State:   Waiting
+      Reason: PodInitializing
+Events:
+  Type    Reason     Age   From               Message
+  ----    ------     ----  ----               -------
+  Normal  Scheduled  8m    default-scheduler  Successfully assigned default/order-service-5c8d7f9b6-tn4k2
+  Normal  Pulled     8m    kubelet            Container image "busybox:1.36" already present on machine
+  Normal  Created    8m    kubelet            Created container wait-for-db
+  Normal  Started    8m    kubelet            Started container wait-for-db
+```
+
+### kubectl logs order-service-5c8d7f9b6-tn4k2 -c wait-for-db (최근 출력)
+
+```log
+Server:    10.96.0.10
+Address 1: 10.96.0.10 kube-dns.kube-system.svc.cluster.local
+
+nslookup: can't resolve 'postgres-primary.database.svc.cluster.local'
+Waiting for DB...
+nslookup: can't resolve 'postgres-primary.database.svc.cluster.local'
+Waiting for DB...
+nslookup: can't resolve 'postgres-primary.database.svc.cluster.local'
+Waiting for DB...
+```
+
+### kubectl get svc -n database 출력
+
+```bash
+NAME              TYPE        CLUSTER-IP     EXTERNAL-IP   PORT(S)    AGE
+postgres-main     ClusterIP   10.96.45.120   <none>        5432/TCP   30d
+```
+
+## 해설
+
+### 원인 분석
+
+Init Container `wait-for-db`는 `postgres-primary.database.svc.cluster.local` DNS가 해석될 때까지 무한 대기하도록 설정되어 있습니다. 그러나 `database` 네임스페이스의 실제 Service 이름은 `postgres-main`이지 `postgres-primary`가 아닙니다.
+
+Init Container가 존재하지 않는 Service를 찾고 있어 DNS 조회가 계속 실패하고, Init Container가 영원히 완료되지 않으므로 메인 컨테이너도 시작되지 않습니다.
+
+### 해결 방법
+
+```bash
+# 1. database 네임스페이스의 실제 Service 이름 확인
+kubectl get svc -n database
+
+# 2. Deployment의 Init Container 명령을 올바른 서비스 이름으로 수정
+kubectl edit deployment order-service
+# Init Container의 nslookup 대상을 수정:
+# postgres-primary.database.svc.cluster.local
+# → postgres-main.database.svc.cluster.local
+
+# 3. 롤아웃 상태 확인
+kubectl rollout status deployment order-service
+
+# 4. Pod가 정상 Running인지 확인
+kubectl get pods
+```
+
+### 실무 팁
+
+Init Container로 의존 서비스 대기 패턴을 구현할 때는, 서비스 이름을 하드코딩하지 말고 환경 변수나 ConfigMap으로 관리하세요. 또한 무한 대기 대신 타임아웃을 설정하면(`timeout 120 sh -c 'until ...'`) Init Container가 영원히 멈추는 것을 방지할 수 있습니다.
@@ -0,0 +1,99 @@
+---
+id: "kubernetes-025"
+title: "사이드카 컨테이너 크래시로 Pod 전체가 불안정한 문제"
+category: "kubernetes"
+difficulty: 2
+tags: ["sidecar", "multi-container", "crashloopbackoff", "logs"]
+hints:
+  - "Pod 안에 컨테이너가 여러 개일 때 kubectl logs -c 옵션으로 특정 컨테이너 로그를 확인하세요."
+  - "사이드카 컨테이너의 마운트 경로와 메인 컨테이너의 로그 경로가 일치하는지 확인하세요."
+  - "사이드카가 참조하는 볼륨이 Pod 스펙에 정의되어 있는지 살펴보세요."
+---
+
+## 상황
+
+로그 수집을 위해 Fluentd 사이드카를 추가한 뒤 Pod가 반복적으로 재시작됩니다. 메인 애플리케이션 컨테이너는 정상이지만 사이드카 컨테이너가 CrashLoopBackOff 상태입니다. 제공된 정보를 분석하여 원인을 찾으세요.
+
+## 데이터
+
+### kubectl get pods 출력
+
+```bash
+NAME                          READY   STATUS             RESTARTS      AGE
+web-app-6f9d8c4b7-r2p5k      1/2     CrashLoopBackOff   4 (18s ago)   3m
+```
+
+### kubectl describe pod web-app-6f9d8c4b7-r2p5k (발췌)
+
+```yaml
+Containers:
+  app:
+    Image:       nginx:1.25
+    State:       Running
+    Ready:       True
+    Mounts:
+      /var/log/nginx from app-logs (rw)
+  log-collector:
+    Image:       fluent/fluentd:v1.16
+    State:       Waiting
+      Reason:    CrashLoopBackOff
+    Last State:  Terminated
+      Reason:    Error
+      Exit Code: 1
+    Mounts:
+      /var/log/app from nginx-logs (ro)
+Volumes:
+  app-logs:
+    Type: EmptyDir
+Events:
+  Warning  BackOff  12s (x8 over 2m40s)  kubelet  Back-off restarting failed container log-collector
+```
+
+### kubectl logs web-app-6f9d8c4b7-r2p5k -c log-collector
+
+```log
+2025-01-20 09:15:01 +0000 [info]: init supervisor logger path=nil rotate_age=nil rotate_size=nil
+2025-01-20 09:15:01 +0000 [info]: parsing config file is succeeded path="/fluentd/etc/fluent.conf"
+2025-01-20 09:15:01 +0000 [error]: config error file="/fluentd/etc/fluent.conf" error_class=Errno::ENOENT error="No such file or directory @ rb_sysopen - /var/log/app/access.log"
+2025-01-20 09:15:01 +0000 [error]: Worker 0 finished with error. Shutting down.
+```
+
+## 해설
+
+### 원인 분석
+
+두 가지 문제가 동시에 발생하고 있습니다.
+
+1. **볼륨 이름 불일치**: 메인 컨테이너 `app`은 `app-logs` 볼륨을 `/var/log/nginx`에 마운트하고 있지만, 사이드카 `log-collector`는 `nginx-logs`라는 **존재하지 않는 볼륨**을 마운트하려 합니다. Pod 스펙의 Volumes에는 `app-logs`만 정의되어 있습니다.
+
+2. **경로 불일치**: 메인 컨테이너는 `/var/log/nginx`에 로그를 쓰고, 사이드카는 `/var/log/app`에서 읽으려 합니다. 같은 볼륨을 공유하더라도 경로가 달라 파일을 찾지 못합니다.
+
+결과적으로 사이드카가 로그 파일을 찾지 못해 시작 직후 크래시합니다.
+
+### 해결 방법
+
+```bash
+# 1. Deployment 수정
+kubectl edit deployment web-app
+
+# 사이드카의 볼륨 마운트를 수정:
+# - 볼륨 이름: nginx-logs → app-logs (실제 존재하는 볼륨)
+# - 마운트 경로: /var/log/app → /var/log/nginx (메인 컨테이너와 동일)
+
+# 수정 후 사이드카 컨테이너 스펙:
+#   volumeMounts:
+#     - name: app-logs        # 올바른 볼륨 이름
+#       mountPath: /var/log/nginx  # 메인 컨테이너와 동일한 경로
+#       readOnly: true
+
+# 2. Fluentd 설정도 경로에 맞게 확인
+# fluent.conf의 path가 /var/log/nginx/access.log를 가리키도록 수정
+
+# 3. 롤아웃 확인
+kubectl rollout status deployment web-app
+kubectl get pods
+```
+
+### 실무 팁
+
+멀티 컨테이너 Pod에서 볼륨을 공유할 때는 모든 컨테이너가 **동일한 볼륨 이름**을 참조하는지 반드시 확인하세요. 또한 Fluentd 같은 로그 수집기 사이드카는 경로가 없을 때 즉시 종료하지 않도록 `read_from_head true`와 `follow_inodes true` 옵션을 설정하는 것이 안정적입니다.
@@ -0,0 +1,82 @@
+---
+id: "kubernetes-026"
+title: "잘못된 이미지 배포 후 롤링 업데이트 실패 복구"
+category: "kubernetes"
+difficulty: 1
+tags: ["deployment", "rollback", "rollout", "image", "rolling-update"]
+hints:
+  - "kubectl rollout status 명령으로 현재 롤아웃 상태를 확인하세요."
+  - "kubectl rollout history로 이전 배포 이력을 확인할 수 있습니다."
+  - "정상이었던 이전 revision으로 롤백하는 방법을 찾아보세요."
+---
+
+## 상황
+
+프로덕션 환경에서 API 서버 이미지를 `v2.4.0`에서 `v2.5.0`으로 업데이트했는데, 새 Pod들이 모두 ImagePullBackOff 상태입니다. 기존 v2.4.0 Pod는 아직 살아 있지만 점차 교체되고 있어 빠른 조치가 필요합니다. 제공된 정보를 분석하여 상황을 파악하세요.
+
+## 데이터
+
+### kubectl get pods -l app=api-server 출력
+
+```bash
+NAME                          READY   STATUS             RESTARTS   AGE
+api-server-7b8c9d6f5-h4k2n   1/1     Running            0          2d
+api-server-7b8c9d6f5-j9m3p   1/1     Running            0          2d
+api-server-5a3f8e7d2-w2x4q   0/1     ImagePullBackOff   0          4m
+api-server-5a3f8e7d2-v6y8r   0/1     ImagePullBackOff   0          4m
+```
+
+### kubectl rollout status deployment/api-server 출력
+
+```log
+Waiting for deployment "api-server" rollout to finish: 2 old replicas are pending termination...
+```
+
+### kubectl rollout history deployment/api-server 출력
+
+```bash
+REVISION  CHANGE-CAUSE
+1         initial deployment v2.3.0
+2         image update to v2.4.0
+3         image update to v2.5.0
+```
+
+### kubectl describe pod api-server-5a3f8e7d2-w2x4q (Events 발췌)
+
+```log
+Events:
+  Type     Reason     Age                From               Message
+  ----     ------     ----               ----               -------
+  Normal   Scheduled  4m                 default-scheduler  Successfully assigned production/api-server-5a3f8e7d2-w2x4q
+  Normal   Pulling    2m (x3 over 4m)    kubelet            Pulling image "registry.example.com/api-server:v2.5.O"
+  Warning  Failed     2m (x3 over 4m)    kubelet            Failed to pull image "registry.example.com/api-server:v2.5.O": tag does not exist
+  Warning  Failed     2m (x3 over 4m)    kubelet            Error: ImagePullBackOff
+```
+
+## 해설
+
+### 원인 분석
+
+Events의 이미지 태그를 주의 깊게 보면 `v2.5.O`로 되어 있습니다. 마지막 문자가 숫자 `0`(영)이 아니라 영문 대문자 `O`입니다. 존재하지 않는 태그이므로 이미지 풀에 실패합니다.
+
+롤링 업데이트 전략에 의해 새 Pod가 Ready가 될 때까지 기존 Pod를 유지하고 있지만, `maxUnavailable` 설정에 따라 기존 Pod도 곧 제거될 수 있어 빠른 롤백이 필요합니다.
+
+### 해결 방법
+
+```bash
+# 1. 즉시 이전 정상 버전으로 롤백
+kubectl rollout undo deployment/api-server --to-revision=2
+
+# 2. 롤백 완료 확인
+kubectl rollout status deployment/api-server
+
+# 3. 모든 Pod가 정상 Running인지 확인
+kubectl get pods -l app=api-server
+
+# 4. 이후 올바른 태그로 재배포
+kubectl set image deployment/api-server api=registry.example.com/api-server:v2.5.0
+```
+
+### 실무 팁
+
+이미지 태그 오타는 발견하기 어려운 실수입니다. CI/CD 파이프라인에서 이미지 태그를 변수로 관리하고, 배포 전에 `docker manifest inspect` 또는 레지스트리 API로 태그 존재 여부를 검증하는 단계를 추가하면 예방할 수 있습니다. 또한 `kubectl rollout undo` 명령을 숙지해 두면 장애 시 빠른 복구가 가능합니다.
@@ -0,0 +1,104 @@
+---
+id: "kubernetes-027"
+title: "HPA가 메트릭을 읽지 못해 스케일링하지 않는 문제"
+category: "kubernetes"
+difficulty: 2
+tags: ["hpa", "autoscaling", "metrics-server", "resource-requests"]
+hints:
+  - "kubectl describe hpa 출력에서 Metrics 섹션의 에러 메시지를 확인하세요."
+  - "metrics-server가 설치되어 있고 정상 동작하는지 확인하세요."
+  - "HPA가 메트릭을 읽으려면 대상 Pod에 resource requests가 설정되어 있어야 합니다."
+---
+
+## 상황
+
+트래픽 증가에 대비해 HPA(HorizontalPodAutoscaler)를 설정했지만 CPU 사용률이 90%를 넘어도 Pod가 스케일아웃되지 않습니다. HPA의 현재 상태가 `<unknown>/50%`로 표시됩니다. 제공된 정보를 분석하여 원인을 찾으세요.
+
+## 데이터
+
+### kubectl get hpa 출력
+
+```bash
+NAME          REFERENCE                TARGETS         MINPODS   MAXPODS   REPLICAS   AGE
+web-app-hpa   Deployment/web-app       <unknown>/50%   2         10        2          15m
+```
+
+### kubectl describe hpa web-app-hpa (발췌)
+
+```yaml
+Metrics:
+  Resource  cpu on pods (as a percentage of request):  <unknown> / 50%
+Conditions:
+  Type            Status  Reason                   Message
+  ----            ------  ------                   -------
+  AbleToScale     True    SucceededGetScale        the HPA controller was able to get the target's current scale
+  ScalingActive   False   FailedGetResourceMetric  the HPA was unable to compute the replica count: failed to get cpu utilization: missing request for cpu in container "web" of Pod "web-app-6d8f9c4b7-k3m2n"
+Events:
+  Type     Reason                        Age                From                       Message
+  ----     ------                        ----               ----                        -------
+  Warning  FailedComputeMetricsReplicas  12s (x15 over 14m) horizontal-pod-autoscaler  failed to get cpu utilization: missing request for cpu
+```
+
+### Deployment 스펙 (발췌)
+
+```yaml
+spec:
+  replicas: 2
+  template:
+    spec:
+      containers:
+      - name: web
+        image: registry.example.com/web-app:v1.2.0
+        ports:
+        - containerPort: 8080
+        resources:
+          limits:
+            cpu: "500m"
+            memory: "256Mi"
+          # requests 섹션 없음
+```
+
+### kubectl top pods 출력
+
+```bash
+NAME                       CPU(cores)   MEMORY(bytes)
+web-app-6d8f9c4b7-k3m2n   456m         180Mi
+web-app-6d8f9c4b7-r8n5p   478m         175Mi
+```
+
+## 해설
+
+### 원인 분석
+
+HPA의 에러 메시지가 원인을 정확히 알려줍니다:
+
+> `missing request for cpu in container "web"`
+
+HPA는 CPU 사용률을 **requests 대비 백분율**로 계산합니다. Deployment 스펙을 보면 `resources.limits`는 설정되어 있지만 `resources.requests`가 **누락**되어 있습니다. requests가 없으면 HPA가 "현재 CPU가 목표 대비 몇 %인지"를 계산할 수 없어 `<unknown>`으로 표시됩니다.
+
+`kubectl top pods`에서 실제 CPU 사용량이 456m~478m으로 높은 상태임에도 불구하고, HPA는 메트릭을 읽지 못해 스케일링 결정을 내릴 수 없습니다.
+
+### 해결 방법
+
+```bash
+# 1. Deployment에 resource requests 추가
+kubectl edit deployment web-app
+# containers[0].resources에 requests 추가:
+#   resources:
+#     requests:
+#       cpu: "200m"
+#       memory: "128Mi"
+#     limits:
+#       cpu: "500m"
+#       memory: "256Mi"
+
+# 2. Pod가 재생성된 후 HPA 상태 확인
+kubectl get hpa web-app-hpa
+
+# 3. 정상적으로 TARGETS에 백분율이 표시되는지 확인
+# 예: 228%/50% → 즉시 스케일아웃 시작
+```
+
+### 실무 팁
+
+HPA를 사용할 때는 반드시 대상 컨테이너에 `resources.requests`를 설정하세요. requests 없이 limits만 설정하면 HPA뿐 아니라 스케줄러의 리소스 할당도 예측하기 어려워집니다. 일반적으로 requests는 평균 사용량, limits는 최대 허용량으로 설정하는 것이 좋습니다.