[태그:] Troubleshooting

Infrastructure

systemd 서비스가 갑자기 멈췄을 때 — status=126, ExecStart 권한 문제 트러블슈팅

📌 핵심 요약 systemd 서비스가 status=126 또는 Main process exited, code=exited, status=203/EXEC로 실패하고 있다면, ExecStart에 지정된 스크립트의 실행 권한(+x)이 사라졌을 가능성을 먼저 확인하세요. git checkout, git reset, 파일 재생성 등이 원인일 수 있습니다. 상황 어느 날 아침, 매시간 돌아야 할 데이터 수집 파이프라인이 약 8시간째 멈춰있다는 걸 발견했습니다. $ systemctl status data-pipeline.service ● data-pipeline.service – […]

Bell 
Infrastructure Kubernetes

Ingress Controller 전환 시 WebSocket 장애 사례 — 60초마다 끊기는 연결의 원인 추적

📌 📌 핵심 요약 Kubernetes 환경에서 NGINX Inc Ingress Controller에서 커뮤니티 ingress-nginx로 전환 후, 방화벽 장애 복구 이후 Mattermost WebSocket 연결이 정확히 60초마다 재연결을 반복한 인시던트. 근본 원인은 어노테이션 호환성 문제로, 기존 nginx.org/websocket-services 어노테이션이 ingress-nginx에서 무시되면서 proxy timeout이 기본값(60초)으로 동작해 WebSocket idle 연결이 끊긴 것으로 확인됨. 1. 환경 및 배경 인프라 구성 플랫폼: Kubernetes (자체 […]

Bell