코스 개요

Kafka 관리의 핵심

  • 현대 데이터 플랫폼에서 Kafka의 위치와 일반적인 프로덕션 책임
  • 운영자에게 필요한 핵심 개념: 브로커, 토픽, 파티션, 오프셋, 소비자 그룹
  • 복제 기초: 리더와 팔로워, 동기화된 복제본, 가용성 교환
  • Kafka 운영의 핵심 사항과 런북에서 사용되는 일반적인 용어

KRaft 모드와 클러스터 설계

  • KRaft 기초: 컨트롤러, 메타데이터 쿼럼, 선거, 운영적 의미
  • 배포 계획: 처리량, 파티션, 보존, 성장에 대한 크기 조정
  • 노드 역할과 레이아웃: 병합된 컨트롤러와 독립적인 컨트롤러, 고장 도메인 고려 사항
  • 실험실: KRaft 메타데이터 검사, 쿼럼 건강 상태 확인, 컨트롤러 로그 해석

설치, 구성 및 일상 운영

  • 설치 방법 (패키지, tarball, 컨테이너)와 기업 환경에서 표준화할 사항
  • 신뢰성을 영향받는 핵심 브로커 구성: 리스너, 복제, 로그 디렉토리, 보존
  • 안전한 서비스 운영: 시작 순서, 우아한 종료, 검증 절차
  • 실험실: 다중 노드 클러스터 배포, 브로커 등록 확인, 기본 생성 및 소비 확인

토픽, 파티션, 데이터 배치 관리

  • Kafka CLI를 사용한 토픽 생명주기: 생성, 설명, 구성 업데이트, 삭제
  • 실제 작업에 대한 파티션과 복제 요인 선택, 일반적인 잘못된 패턴
  • 재할당 및 균형: 파티션 이동 시기와 안전한 진행 확인 방법
  • 실험실: 토픽 생성, 파티션 재할당 트리거, 브로커 중단 시뮬레이션, 복구 확인

프로덕션을 위한 Kafka 보안

  • 클라이언트 및 브로커 간 트래픽에 대한 TLS: 인증서, 신뢰 사슬, 검증 절차
  • SASL을 사용한 인증: 일반 메커니즘 선택과 잘못된 구성 피하기
  • ACLs를 사용한 권한 부여: 관리자, 생성자, 소비자에 대한 최소 권한 패턴
  • 실험실: TLS 및 SASL 활성화, 클라이언트 연결 검증, 애플리케이션 역할을 위한 ACL 적용

가시성, 신뢰성, 문제 해결

  • 모니터링 핵심 사항: 컨트롤러 건강 상태, 복제되지 않은 파티션, 요청 지연 시간, 디스크 및 네트워크 포화도
  • 로그와 메트릭: 브로커 로그 읽기 및 JMX 엑스포터를 사용한 일반적인 가시성 스택 노출
  • 운영 프레이블북: 롤링 재시작, 안전한 구성 변경, 디스크 공간 부족 및 ISR 문제 처리
  • 실험실: 최소 경고 세트 구축, 저하된 클러스터 진단, 건강한 복제 회복

업그레이드 및 재해 복구 대비

  • Kafka 업그레이드 계획: 호환성 검사, 스테이징, 롤백 접근 방식
  • 백업 및 복구 기대치: 백업 가능한 것, 불가능한 것, 구성 복구 기본 사항
  • 클러스터 간 복제 개요와 DR 및 마이그레이션을 위해 MirrorMaker 2 사용 시기
  • 종합: 운영 체크리스트, 인수 문서, 프로덕션 롤아웃 다음 단계

요건

  • 기본 Linux 관리에 대한 이해 (사용자, 서비스, 파일, 권한)
  • TCP/IP 네트워킹 개념 (DNS, 포트, 방화벽, 로드 밸런서) 경험
  • 일상적인 운영 작업을 위한 기본 스크립팅 경험 (Bash, PowerShell 또는 유사)

대상자

  • Kafka 클러스터를 운영하는 Kafka 관리자와 플랫폼 엔지니어
  • 스트리밍 플랫폼을 지원하는 사이트 신뢰성 엔지니어와 DevOps 엔지니어
  • 새로운 KRaft 기반 Kafka 클러스터를 배포하거나 ZooKeeper에서 이전하는 인프라 및 운영 팀
 21 시간

참가자 수


참가자별 가격

회원 평가 (5)

예정된 코스

관련 카테고리