최근 AWS를 활용하여 엔터프라이즈급 AI 플랫폼을 설계하고 구축하는 기회가 있었습니다. 본 포스트에서는 다이어그램을 통해 설계한 아키텍처의 주요 구성 요소와 설계 의도를 공유하고자 합니다.

1. 전체 아키텍처 개요

1.1 멀티 계정 전략 (PRD/DEV 분리)

이 아키텍처의 목표는 엔터프라이즈 금융권 환경에서 AI Agent 기반 서비스를 안정적으로 운영하는 것이었습니다.
이를 위해 아래 네 가지 축을 중심으로 설계했습니다. 프로덕션과 개발 환경을 완전히 분리하여 운영의 안정성과 보안성을 확보했습니다.
 

  • 멀티 계정 + 멀티 AZ 인프라
    • PRD / DEV 계정 분리, 각 계정 내에서 2개 AZ 활용
    • VPC, 서브넷, 보안 정책까지 환경별 완전 분리
  • EKS 기반 컨테이너 런타임
    • CPU 노드 / GPU 노드 / DB 서브넷 / Endpoint 서브넷 분리
    • Agent 서비스, RAG 서비스, 관리 오퍼레이터 등을 각각 네임스페이스 단위로 분리
  • AWS Bedrock 기반 RAG + Agent 오케스트레이션
    • 문서 → 임베딩 → Vector 검색 → Bedrock LLM 응답까지 end-to-end 파이프라인
    • Step Functions / EventBridge / SQS를 이용해 에이전트 간 플로우를 제어
  • GitOps + 관측성(Observability)
    • ArgoCD + CodePipeline/CodeBuild를 이용한 GitOps 배포
    • Prometheus + Grafana + CloudWatch로 멀티 레이어 모니터링 구성

 

그림 1: PRD Account와 DEV Account를 분리한 멀티 계정 아키텍처

주요 특징

  • PRD Account: 프로덕션 환경으로 고가용성과 확장성을 고려한 설계
  • DEV Account: 개발/테스트 환경으로 비용 최적화를 위한 단일 노드/GPU 서버 구성
  • Transit Gateway: 두 계정 간 안전한 네트워크 연결
  • Direct Connect: 온프레미스 환경과의 전용 연결

1.2 온프레미스 연동

기존 온프레미스 인프라와의 하이브리드 클라우드 구성을 지원합니다.


그림 2: 온프레미스와 AWS 클라우드 간 통합 아키텍처

구성 요소

  • Direct Connect: 전용 네트워크 연결
  • Transit Gateway: 중앙 집중식 네트워크 허브
  • Route 53: DNS 관리 및 라우팅
  • On-Premise 데이터: 여신/대출 시스템, 업무 DB (IBIS) 등

2. AI 에이전트 오케스트레이션 아키텍처

2.1 에이전트 워크플로우


그림 3: AI 에이전트 오케스트레이션 워크플로우

데이터 플로우:

Application → API Gateway → Agent Orchestrator (Step Functions) 
→ EventBridge/SQS → [Agent #1, Agent#2, New Tech Agent]

핵심 구성 요소

  1. API Gateway
    • 외부 요청의 진입점
    • 인증/인가 처리
    • 요청 라우팅 및 제한
  2. Agent Orchestrator (Step Functions)
    • 워크플로우 오케스트레이션
    • 에이전트 간 작업 조율
    • 상태 관리 및 에러 핸들링
  3. EventBridge/SQS
    • 비동기 메시지 큐잉
    • 에이전트 간 이벤트 기반 통신
    • 작업 분산 및 부하 분산

3. EKS 기반 컨테이너 인프라

3.1 고가용성 구성

두 개의 Availability Zone에 걸쳐 고가용성을 보장합니다.


그림 5: EKS 클러스터 고가용성 구성

네트워크 구성

  • Private Subnet: 워커 노드 및 Pod 배치
  • ALB (Application Load Balancer): 트래픽 분산
  • EKS Cluster: Kubernetes 오케스트레이션
  • Agent Pods: 각 에이전트를 Pod로 배포

서브넷 구조:

  • Private lb subnet: 로드 밸런서 전용
  • Node subnet: EKS 워커 노드
  • GPU subnet: GPU 가속이 필요한 워크로드
  • DB subnet: RDS, Redis Cache
  • Endpoint Subnet: VPC Endpoint를 통한 AWS 서비스 접근

3.2 GitOps 배포 전략

ArgoCD를 활용한 GitOps 기반 배포 파이프라인을 구성했습니다.


그림 6: ArgoCD를 활용한 GitOps 배포

배포 프로세스:

  1. 코드 변경이 Git 저장소에 푸시
  2. ArgoCD가 변경사항 감지
  3. 자동으로 EKS 클러스터에 동기화
  4. 여러 서비스에 일관된 배포

4. RAG (Retrieval-Augmented Generation) 파이프라인

4.1 RAG 아키텍처

AWS Bedrock을 활용한 RAG 시스템을 구축했습니다.


그림 7: RAG 파이프라인 아키텍처

구성 요소

  1. S3: 원본 문서 저장
  2. RAG Pipeline
    • 문서 처리 및 청킹
    • 벡터 임베딩 생성
    • Vector DB 저장
  3. Vector DB: 임베딩 벡터 저장
  4. RDS: 메타데이터 및 관계형 데이터
  5. RAG Service / Retrieval API: EKS에서 실행되는 검색 서비스
  6. AWS Bedrock
    • Embedding Model: 텍스트를 벡터로 변환
    • Converse API: 대화형 AI 인터페이스
    • Rerank Model: 검색 결과 재순위화

4.2 데이터 플로우

문서 업로드 (S3) 
→ RAG Pipeline (문서 처리, 임베딩 생성) 
→ Vector DB + RDS 저장 
→ RAG Service (검색 및 컨텍스트 생성) 
→ AWS Bedrock (답변 생성)

5. 모니터링 및 CI/CD

5.1 모니터링 스택


그림 8: 모니터링 스택 구성

모니터링 도구:

  • CloudWatch: AWS 서비스 메트릭 및 로그 수집
  • Prometheus: Kubernetes 메트릭 수집
  • Grafana: 시각화 및 대시보드

5.2 CI/CD 파이프라인


그림 9: CI/CD 파이프라인

구성 요소:

  • CodePipeline: CI/CD 파이프라인 오케스트레이션
  • CodeBuild: 소스 코드 빌드
  • CodeDeploy: 배포 자동화
  • EKS: 최종 배포 타겟

6. PRD vs DEV 환경 차이점

6.1 프로덕션 환경 (PRD)

  • Multi-AZ 구성: 두 개의 Availability Zone에 걸친 고가용성
  • Auto Scaling: 워크로드에 따른 자동 스케일링
  • Multi-Instance: 여러 노드 및 GPU 서버 구성
  • Enhanced Monitoring: 상세한 모니터링 및 알림

6.2 개발 환경 (DEV)

  • Single Node: 단일 노드 사용으로 비용 절감
  • Single GPU Server: 단일 GPU 서버로 개발/테스트
  • Reduced Monitoring: 필수 모니터링만 구성
  • Cost Optimization: 개발 환경에 맞춘 리소스 최적화

7. 보안 고려사항

7.1 네트워크 보안

  • VPC 격리: PRD와 DEV VPC 완전 분리
  • Private Subnet: 모든 워커 노드와 Pod는 Private Subnet에 배치
  • VPC Endpoint: AWS 서비스 접근을 위한 프라이빗 연결
  • Security Groups: 세밀한 네트워크 접근 제어

7.2 데이터 보안

  • 암호화: 전송 중 및 저장 시 암호화
  • Secrets Management: AWS Secrets Manager 활용
  • IAM 역할: 최소 권한 원칙 적용

본 아키텍처를 통해 다음과 같은 경험을 얻었습니다.

  1. 멀티 계정 전략: 환경 분리를 통한 운영 안정성 확보
  2. AI 에이전트 오케스트레이션: Step Functions와 EventBridge를 활용한 유연한 워크플로우
  3. EKS 기반 인프라: 확장 가능하고 안정적인 컨테이너 플랫폼
  4. RAG 파이프라인: AWS Bedrock을 활용한 지능형 검색 및 생성 시스템
  5. GitOps 배포: ArgoCD를 통한 자동화된 배포 프로세스

 
이 아키텍처는 금융권 수준의 규제·보안 요구사항을 만족하면서 여러 도메인 Agent를 빠르게 추가·변경·배포할 수 있는 LLMOps 플랫폼을 목표로 설계했습니다.
온프레미스 시스템과의 하이브리드 연동, 멀티 계정/멀티 AZ, GitOps, RAG, Bedrock 등을 하나의 구조 안에 통합함으로써
“안정성·보안·확장성·운영 효율” 네 가지를 동시에 달성하고자 하였습니다. 앞으로도 이러한 설계 경험을 기반으로, 규제 산업 특성에 맞는 보안·거버넌스와 민첩한 AI 서비스 확장을 동시에 만족하는 LLMOps 아키텍처를 지속적으로 고도화하여, 엔터프라이즈 환경에서 신뢰할 수 있는 AI 플랫폼 운영 표준을 만들어가겠습니다.