
이찬주
Private Cloud 운영, GitOps 기반 배포, EKS 운영 경험을 바탕으로 서비스의 배포 자동화와 운영 안정성을 개선하는 DevOps 엔지니어입니다.
OpenStack/Ceph 기반 Private Cloud를 운영하며 Linux 네트워크와 가상화 환경을 다뤘고, Shell 기반 네트워크 및 Ceph 점검과 Kolla-Ansible 기반 배포 자동화 경험을 쌓았습니다.
Witt에서는 GitHub Actions 기반 CI/CD 검증 루프를 구성하고, EKS, Argo Rollouts, Datadog, k6로 배포 후 병목과 사용자 영향 확인 기준을 만들었습니다.
경력
Witt는 카페 공간에서 고객 반응 수집, 예약·구매·결제, 운영 데이터를 다룬 O2O 서비스입니다.
창업팀 초기 멤버로 백엔드와 AWS 인프라를 함께 맡으며, CI/CD 검증 루프와 배포 영향 확인 기준을 정리했습니다.
GitHub Actions 기반 CI/CD 검증 루프
Witt · GitHub Actions / Jib / Docker Compose / Argo CD
개인Java/Spring 백엔드에서 jar build 성공만으로는 MariaDB·Redis 연결, actuator health, 주요 HTTP 흐름, Kubernetes manifest 반영 여부를 배포 전에 확인하기 어려웠습니다.
GitHub Actions에서 PR Gradle test, Jib image build/push, Docker Compose 기반 API·MariaDB·Redis 런타임 검증, Postman CLI 기반 백엔드 통합 테스트, manifest repo 갱신 흐름을 구성했습니다.
commit SHA image tag와 Datadog Git metadata를 manifest에 연결해 배포 버전과 rollback 기준을 추적 가능하게 만들고, Dockerfile/buildx에서 Jib로 전환해 샘플 실행 기준 workflow 시간을 2분 30초대에서 1분 안팎으로 줄였습니다.
EKS GitOps 운영 안정화와 배포 영향 판단
Witt · EKS / Argo Rollouts / Datadog / k6
개인기존 AWS ALB와 네트워크 자산을 유지하면서도 애플리케이션 운영은 EKS와 GitOps 기준으로 옮기고, 배포 중 사용자 영향 여부를 판단할 기준이 필요했습니다.
Argo CD + Kustomize, AWS Load Balancer Controller, TargetGroupBinding, Argo Rollouts, Karpenter, Sealed Secrets, Datadog을 연결해 환경별 배포 구조와 변경 이력 관리 기준을 정리했습니다.
k6 부하 테스트와 Datadog 지표를 함께 보며 RDS connection pool 병목을 확인했고, ALB 5xx, target latency, healthy target, readiness, restart, APM error rate를 배포 승격·중단 판단 신호로 정리했습니다.
프로젝트
AODS (Aolda Orchestration Deployment System)
GitOps 운영 포털 Go · Kubernetes / Flux / Vault / GHCR
개인내부 앱을 배포할 때마다 사용자가 중앙 GitOps 인프라 저장소에 직접 변경을 넣고, 운영자가 이미지, 실행 방식, Secret, 노출 설정을 반복 검토해야 하는 부담이 있었습니다.
각 서비스 GitHub repo의 `aolda_deploy.json`에서 image, port, replicas, strategy를 읽어 Kubernetes 배포 기준으로 변환하고, Secret과 권한은 AODS 운영 흐름에서 별도로 관리하도록 구성했습니다.
그 결과 배포 요청이 운영자 승인 대기 흐름에 묶이지 않고 서비스 repo 중심의 셀프서비스 CD로 바뀌었고, 운영자는 앱별 리소스 사용과 런타임 상태를 기준으로 인프라를 관리할 수 있게 됐습니다.
OpenStack 위 Kubernetes 플랫폼 통합
Private Cloud Integration · Kubernetes / OpenStack
개인내부 툴·QA·개발용 워크로드가 여러 VM과 개별 Docker HA 구성으로 나뉘어 있어, 서비스마다 리소스 관리와 배포 기준이 흩어졌습니다.
kubeadm 기반 3 Master HA 클러스터를 구성하고, OpenStack Cloud Controller Manager, Octavia, Cinder CSI를 연동해 Kubernetes LoadBalancer와 PVC 요청이 실제 OpenStack 리소스로 이어지도록 검증했습니다.
Kubernetes 기반 컨테이너 환경으로 모으면서 워크로드당 기본 할당 기준을 2 vCPU·4GB VM에서 평균 1 vCPU·2GB Pod로 낮춰, CPU·메모리 기본 점유량을 약 50% 줄일 수 있었습니다.
Ceph · OpenStack HA Private Cloud
LinkLinux / Virtualization / Kolla-Ansible Infrastructure
개인기존 OpenStack/Ceph 환경은 역할은 나뉘어 있었지만 HA까지 고려된 구조는 아니었고, 단일 장애점과 백업·복구 플랜 부재로 운영 중 장애 대응 기준이 부족했습니다.
제한된 3개 노드에서 Kolla-Ansible 기반 OpenStack과 Ceph를 구성하고, 모든 노드가 control, storage, compute 역할을 함께 가지도록 설계해 특정 역할이 한 노드에만 묶이지 않게 했습니다.
MariaDB 메타데이터와 Ceph RBD 데이터를 별도 복구 대상으로 보고, 주간 Full·일간 Incremental 백업과 `mariadb-recovery` 흐름, Ceph 복제 상태·RBD 데이터 확인 기준을 복구 플랜에 포함했습니다.
결과적으로 단일 노드 장애가 곧 서비스 중단으로 이어지던 SPOF 구조를 벗어나, 한 노드가 빠져도 나머지 노드가 OpenStack 제어면·스토리지·컴퓨트 역할을 이어받을 수 있는 3노드 HA 구조로 개선했습니다. Ceph 3-copy, VM 라이브 마이그레이션, MariaDB/Ceph 백업·복구 기준도 함께 문서화했습니다.
GCD (GitOps Click Deploy)
LinkCloud 배포 자동화 · Terraform / Ansible / Tekton / Argo CD
팀 2명GitHub 저장소 URL·토큰·AWS IAM 정보를 입력하면 EKS 기반 GitOps CI/CD 환경을 만들 수 있게 하는 플랫폼을 구현했습니다.
Terraform으로 EKS·EFS를 구성하고, Ansible과 Helm으로 Tekton·Argo CD 설치 절차를 자동화해 cloud provisioning과 deployment bootstrap을 나눴습니다.
반복적인 배포 파이프라인 초기 설정을 사용자 입력, IaC 적용, workflow 생성, GitOps sync 확인 단계로 나눈 자동화 프로젝트로 구현하며, 인프라 생성과 배포 도구 bootstrap의 책임 경계를 설계했습니다.
오픈소스 기여 경험
rabbitmq/rabbitmq-server
PR / IssueOpenStack 운영 중 노드가 maintenance mode 상태일 때 rabbitmq-diagnostics status 명령이 nil 값을 처리하지 못해 실패하는 버그를 발견했습니다.
문제를 재현하고 원인을 분석해 issue #15678과 수정 방향을 담은 PR #15679를 제출했습니다.
maintainer가 이를 바탕으로 더 넓은 범위의 nil-safe 처리를 반영한 PR #15680을 열어 병합하며, commit에 original author로 기여를 인정받았습니다.
수상 및 발표
아올다라는 소학회의 시작부터, 네트워크 설정, MicroCeph·OpenStack HA 기반 Private Cloud 구축 및 운영 경험을 발표했습니다.
군 복무
대한민국 육군 병장 만기 전역
JSA 경비대대 통신소대
학력
아주대학교
소프트웨어학과