
1통의 재난 문자로 시작한 카지노 토토 도전기 - 40배 이상 트래픽도 막아라!
코드너리 | 2021. 11. 17
카지노 토토
모니터링
장애 대응
사용된 기술:




https://tv.naver.com/v/23652569
목차
1. 들어가며
- 서비스를 운영하는 개발자에게 사이트 신뢰성 엔지니어링(Site Reliability Engineering)의 의미는?
- 네이버 UGC 서비스가 카지노 토토를 통해 서비스 품질을 높였던 경험 공유
2. Accident
- 퀴즈쇼/재난 문자는 왜 장애를 유발했나?
- 카지노 토토 관점에서 문제점/개선 포인트 도출
3. 카지노 토토 - Monitoring
- 기존 서비스 모니터링의 한계 - 측정할 수 없다면 개선할 수 없다
- SLI/SLO 정의 및 SLI Metric 수집하기 - 카지노 토토의 빵과 버터 만들기
- 모니터링 대시보드 - 모든 것을 측정하고 실시간으로 인사이트를 얻기
4. 카지노 토토 - Availability, Traffic Management
- 서비스 가용성 확대를 위한 노력 - 통찰을 통해 개선 전략을 수립하다
- 주요 트래픽 제어 기술
5. 카지노 토토 - Incident Response
- Incident Response의 의미 - 신뢰성을 높게 유지하는 방법
- 장애대응체계
- 알람 고도화 - 즉각적인 이슈 대응부터, 장기적인 대응까지
- 배포 고도화 - 기민한 배포를 통한 빠른 회복
- Slack 기반의 ChatOps 통합 환경 - 가시성 확보 및 빠른 장애 대응
6. 마무리 - 신뢰성 있는 서비스 만들기 위한 추가적인 노력들
- 테스트 강화 - 선제적 장애 예방
- 마무리 - 카지노 토토는 서비스의 신뢰성을 어떻게 높이는가