GCP Operations Suite

https://cloudonair.withgoogle.com/events/korea-operation-suite-workshop-may2021 교육 내용 중심으로 정리

모니터링 : 통계, 대쉬보드, 알림

로깅 : 로그취합, 분석, 오류 보고

APM : 분산추적, 디버깅, 프로파일링

모니터링

workspace 구성

서비스별 대시보드 구성

권장 알림정책

MQL (monitoring query language)

stack docter

모니터링 에이전트 : 프로세스 등 모니터링. collected 기반.

ops 에이전트 : 모니터링+로깅 함께 기능 제공

gcp의 Agent Policy 통해서 여러대의 서버에 설치가 가능함.

gcp 메트릭은 무료. Non GCP 메트릭은 유료.

경고 Alert

모니터링 보관기관이 있음

BindPlane 을 이용하여 다양한 메트릭 모니터링 가능. (추가비용 없음. 메트릭, 로그수집 등)

로깅

기본 보관 기관 수정 가능함.

fluentd 기반임.

BindPlane 통합

로그 라우터

로그 내보내기(싱크 서비스): cloud storage의 경우 날짜별로 쌓임

여러 개의 project : log bucket 활용하여 모을 수 있음

구조화된 로깅 제공(내용 잘 이해 안 감)

로깅 메트릭

error reporting

로그트리거 해서 Cloud function 에서 처리 가능함.

APM

Cloud debugger

스냅샷 기능.

LogPoint : 서비스 재배포없이 로깅 기능 제공. agent 설치 필요.

Cloud Trace

분산 추척 도구.

OpenCensus+OpenTracing 이 합쳐져서 OpenTelemetry 오픈소스 표준으로 정립되고 있음.

OpenCensus : Open Census 는 애플리케이션 메트릭 및 분산 추적 을 수집한 다음 원하는 백엔드로 실시간으로 데이터를 전송할수 있는 다양한 언어용 라이브러리 세트입니다. 이 데이터는 개발자와 관리자가 분석하여 애플리케이션의 상태를 이해하고 문제를 디버그할 수 있습니다.

https://opentracing.io/ : 분산 추적을 위한 공급업체 중립 API 및 계측

OpenTelemetry : OpenTelemetry는 도구, API 및 SDK 모음입니다. 이를 사용하여 원격 측정 데이터(메트릭, 로그 및 추적)를 계측, 생성, 수집 및 내보내 소프트웨어의 성능 및 동작을 분석할 수 있습니다.

Cloud profiler

cpu, memory 등 확인 가능. agent 필요

언어에 따라 profile type 다름. 성능에 미치는 영향은 5%이내 이어서 운영환경에 적용하여 사용 가능.