AWS 기반 AI 플랫폼 아키텍처(Bedrock·RAG·GitOps 통합형 AI 에이전트) 설계

AWS

AWS 기반 AI 플랫폼 아키텍처(Bedrock·RAG·GitOps 통합형 AI 에이전트) 설계

merinTA ㅣ 2025. 11. 22. 01:12

최근 AWS를 활용하여 엔터프라이즈급 AI 플랫폼을 설계하고 구축하는 기회가 있었습니다. 본 포스트에서는 다이어그램을 통해 설계한 아키텍처의 주요 구성 요소와 설계 의도를 공유하고자 합니다.

1. 전체 아키텍처 개요

1.1 멀티 계정 전략 (PRD/DEV 분리)

이 아키텍처의 목표는 엔터프라이즈 금융권 환경에서 AI Agent 기반 서비스를 안정적으로 운영하는 것이었습니다.
이를 위해 아래 네 가지 축을 중심으로 설계했습니다. 프로덕션과 개발 환경을 완전히 분리하여 운영의 안정성과 보안성을 확보했습니다.

멀티 계정 + 멀티 AZ 인프라
- PRD / DEV 계정 분리, 각 계정 내에서 2개 AZ 활용
- VPC, 서브넷, 보안 정책까지 환경별 완전 분리
EKS 기반 컨테이너 런타임
- CPU 노드 / GPU 노드 / DB 서브넷 / Endpoint 서브넷 분리
- Agent 서비스, RAG 서비스, 관리 오퍼레이터 등을 각각 네임스페이스 단위로 분리
AWS Bedrock 기반 RAG + Agent 오케스트레이션
- 문서 → 임베딩 → Vector 검색 → Bedrock LLM 응답까지 end-to-end 파이프라인
- Step Functions / EventBridge / SQS를 이용해 에이전트 간 플로우를 제어
GitOps + 관측성(Observability)
- ArgoCD + CodePipeline/CodeBuild를 이용한 GitOps 배포
- Prometheus + Grafana + CloudWatch로 멀티 레이어 모니터링 구성

그림 1: PRD Account와 DEV Account를 분리한 멀티 계정 아키텍처

주요 특징

PRD Account: 프로덕션 환경으로 고가용성과 확장성을 고려한 설계
DEV Account: 개발/테스트 환경으로 비용 최적화를 위한 단일 노드/GPU 서버 구성
Transit Gateway: 두 계정 간 안전한 네트워크 연결
Direct Connect: 온프레미스 환경과의 전용 연결

1.2 온프레미스 연동

기존 온프레미스 인프라와의 하이브리드 클라우드 구성을 지원합니다.

그림 2: 온프레미스와 AWS 클라우드 간 통합 아키텍처

구성 요소

Direct Connect: 전용 네트워크 연결
Transit Gateway: 중앙 집중식 네트워크 허브
Route 53: DNS 관리 및 라우팅
On-Premise 데이터: 여신/대출 시스템, 업무 DB (IBIS) 등

2. AI 에이전트 오케스트레이션 아키텍처

2.1 에이전트 워크플로우

그림 3: AI 에이전트 오케스트레이션 워크플로우

데이터 플로우:

Application → API Gateway → Agent Orchestrator (Step Functions) 
→ EventBridge/SQS → [Agent #1, Agent#2, New Tech Agent]

핵심 구성 요소

API Gateway
- 외부 요청의 진입점
- 인증/인가 처리
- 요청 라우팅 및 제한
Agent Orchestrator (Step Functions)
- 워크플로우 오케스트레이션
- 에이전트 간 작업 조율
- 상태 관리 및 에러 핸들링
EventBridge/SQS
- 비동기 메시지 큐잉
- 에이전트 간 이벤트 기반 통신
- 작업 분산 및 부하 분산

3. EKS 기반 컨테이너 인프라

3.1 고가용성 구성

두 개의 Availability Zone에 걸쳐 고가용성을 보장합니다.

그림 5: EKS 클러스터 고가용성 구성

네트워크 구성

Private Subnet: 워커 노드 및 Pod 배치
ALB (Application Load Balancer): 트래픽 분산
EKS Cluster: Kubernetes 오케스트레이션
Agent Pods: 각 에이전트를 Pod로 배포

서브넷 구조:

Private lb subnet: 로드 밸런서 전용
Node subnet: EKS 워커 노드
GPU subnet: GPU 가속이 필요한 워크로드
DB subnet: RDS, Redis Cache
Endpoint Subnet: VPC Endpoint를 통한 AWS 서비스 접근

3.2 GitOps 배포 전략

ArgoCD를 활용한 GitOps 기반 배포 파이프라인을 구성했습니다.

그림 6: ArgoCD를 활용한 GitOps 배포

배포 프로세스:

코드 변경이 Git 저장소에 푸시
ArgoCD가 변경사항 감지
자동으로 EKS 클러스터에 동기화
여러 서비스에 일관된 배포

4. RAG (Retrieval-Augmented Generation) 파이프라인

4.1 RAG 아키텍처

AWS Bedrock을 활용한 RAG 시스템을 구축했습니다.

그림 7: RAG 파이프라인 아키텍처

구성 요소

S3: 원본 문서 저장
RAG Pipeline
- 문서 처리 및 청킹
- 벡터 임베딩 생성
- Vector DB 저장
Vector DB: 임베딩 벡터 저장
RDS: 메타데이터 및 관계형 데이터
RAG Service / Retrieval API: EKS에서 실행되는 검색 서비스
AWS Bedrock
- Embedding Model: 텍스트를 벡터로 변환
- Converse API: 대화형 AI 인터페이스
- Rerank Model: 검색 결과 재순위화

4.2 데이터 플로우

문서 업로드 (S3) 
→ RAG Pipeline (문서 처리, 임베딩 생성) 
→ Vector DB + RDS 저장 
→ RAG Service (검색 및 컨텍스트 생성) 
→ AWS Bedrock (답변 생성)

5. 모니터링 및 CI/CD

5.1 모니터링 스택

그림 8: 모니터링 스택 구성

모니터링 도구:

CloudWatch: AWS 서비스 메트릭 및 로그 수집
Prometheus: Kubernetes 메트릭 수집
Grafana: 시각화 및 대시보드

5.2 CI/CD 파이프라인

그림 9: CI/CD 파이프라인

구성 요소:

CodePipeline: CI/CD 파이프라인 오케스트레이션
CodeBuild: 소스 코드 빌드
CodeDeploy: 배포 자동화
EKS: 최종 배포 타겟

6. PRD vs DEV 환경 차이점

6.1 프로덕션 환경 (PRD)

Multi-AZ 구성: 두 개의 Availability Zone에 걸친 고가용성
Auto Scaling: 워크로드에 따른 자동 스케일링
Multi-Instance: 여러 노드 및 GPU 서버 구성
Enhanced Monitoring: 상세한 모니터링 및 알림

6.2 개발 환경 (DEV)

Single Node: 단일 노드 사용으로 비용 절감
Single GPU Server: 단일 GPU 서버로 개발/테스트
Reduced Monitoring: 필수 모니터링만 구성
Cost Optimization: 개발 환경에 맞춘 리소스 최적화

7. 보안 고려사항

7.1 네트워크 보안

VPC 격리: PRD와 DEV VPC 완전 분리
Private Subnet: 모든 워커 노드와 Pod는 Private Subnet에 배치
VPC Endpoint: AWS 서비스 접근을 위한 프라이빗 연결
Security Groups: 세밀한 네트워크 접근 제어

7.2 데이터 보안

암호화: 전송 중 및 저장 시 암호화
Secrets Management: AWS Secrets Manager 활용
IAM 역할: 최소 권한 원칙 적용

본 아키텍처를 통해 다음과 같은 경험을 얻었습니다.

멀티 계정 전략: 환경 분리를 통한 운영 안정성 확보
AI 에이전트 오케스트레이션: Step Functions와 EventBridge를 활용한 유연한 워크플로우
EKS 기반 인프라: 확장 가능하고 안정적인 컨테이너 플랫폼
RAG 파이프라인: AWS Bedrock을 활용한 지능형 검색 및 생성 시스템
GitOps 배포: ArgoCD를 통한 자동화된 배포 프로세스

이 아키텍처는 금융권 수준의 규제·보안 요구사항을 만족하면서 여러 도메인 Agent를 빠르게 추가·변경·배포할 수 있는 LLMOps 플랫폼을 목표로 설계했습니다.
온프레미스 시스템과의 하이브리드 연동, 멀티 계정/멀티 AZ, GitOps, RAG, Bedrock 등을 하나의 구조 안에 통합함으로써
“안정성·보안·확장성·운영 효율” 네 가지를 동시에 달성하고자 하였습니다. 앞으로도 이러한 설계 경험을 기반으로, 규제 산업 특성에 맞는 보안·거버넌스와 민첩한 AI 서비스 확장을 동시에 만족하는 LLMOps 아키텍처를 지속적으로 고도화하여, 엔터프라이즈 환경에서 신뢰할 수 있는 AI 플랫폼 운영 표준을 만들어가겠습니다.

TechnicalArchitect merin

TechnicalArchitect merin

분류 전체보기