클라우드&서버/GCP
GCP 빅데이터 및 모니터링
JDLee
2022. 5. 31. 16:03
!! 해당 글은 GCP Google Cloud Fundamentals: Core Infrastructure 과정을 정리한 내용 입니다.
GCP Bigdata and Machine learning
Cloud Dataproc
- Hadoop 매니지드 서비스
- Hadoop은 MapReduce 프로그래밍 모듈을 기반으로 만들어짐
- 병렬로 방대한 데이터 세트를 처리하고 중간 결과를 reduce함수로 전달하여 처리
- Hadoop, Spark, Hive, Pig GCP에서 실행 가능
- 클러스터를 요청하면 90초 이내 클러스터가 자동으로 생성
- 처리능령을 필요에 따라 스케일링 할 수 있다
- StackDriver에서 모니터링 가능
- Haddop 작업 시작할 때 초기비용을 절감할 수 있음
- 1초단위 과금 이며 최소 1분 이상 사용 사용해야함
- 데이터 셋의 크기가 명확한 경우, 클러스터 크기를 직접 관리하는 경우 유용
Cloud Dataflow
- 실시간 데이터 및 데이터의크기와 비율을 예측할 수 없는 경우 활용
- 광범위한 데이터 처리 패턴을 개발하고 실행 가능
- 추출, 변환, 판독, 배치계산, 실시간 계산 등 모두 활용 가능
- 클러스터 시작이나 인스턴스 크기 조정이 필요하지 않음
- 리소스 관리 및 성능 최적화 등의 작업이 필요 없음
- 범용 ETL 도구(Extract/Transform/Load)
BigQuery
- 페타바이트 규모의 저렴한 완전 관리 데이터 웨어하우스
- 인프라 관리 없이 데이터 분석에 전념 가능
- SQL 문법 사용 가능
- 종량 과금제 모델
- Cloud Storage 및 Cloud Datastore에서 로드
- 테라바이트 단위의 데이터를 단 몇 초만에 SQL 쿼리 실행
- Cloud Dataflow, Hadoop, Spark를 사용하여 데이터를 쉽게 처리
- 작은 크기의 조직은 매월 프리티어, 큰 조직에는 원활할 스케일링과 99.9%의 가용성 보장
- 데이터를 저장한 리전을 정할 수 있음
- 데이터에 사용자 액세스 제어 및 프로젝트 간 공유 가능
- 데이터를 공유한 경우 쿼리를 실행한 대상에게 요금 지불
- 장기간 저장된 데이터는 장기 보존 할인 요금이 자동으로 적용(90일 기준)
Pub/Sub
- Publishers / Subscribers의 약자
- 스트림 분석을 위한 간단하고 안정적인 스케일링 가능한 인프라
- 구축한 개별 앱 간의 메시지를 보내고 받을 수 있음
- 앱이 분할되기 때문에 독립적으로 스케일링 가능
- at least onece 전송을 통해 낮은 대기시간으로 수행(메시지가 여러번 전송 될 수 있음)
- 요구에 따라 스케일을 조절 할 수 있음
- 초당 100만건 이상 메시지 처리 가능
- 빈도가 높은 예측 불가능한 양의 데이터를 처리하는 앱에서 중요한 역할
- Dataflow와 조합하여 사용 가능
- GCP의 컴퓨팅 플랫폼에서 활용 가능
- BigQuery, Compute Engine, Cloud Storage와 통합되어 데이터 엑세스가 용이
Cloud Machine Learning Platform

- 사전 훈련된 모델 및 맞춤형 모델 생성 가능
- TensorFlow를 활용하여 오픈소스화 한 서비스
- TensorFlow의 TPU 활용 가능
- 요금은 온디멘드 형식으로 과금 되므로 초기 진입 비용 최소화
Cloud Vision API
- 고급 ML 모델 내장
- 이미지 카탈로그 메타데이터 작성
- 이미지 감정 분석
- 부적절한 콘텐츠 관리 등
Cloud Natural Language API
- 음성 명령 컨트롤 사용
- 음성 파일 문자화
- 구문 분석을 통해 단어 간의 관계를 파악
- 텍스트 블록의 감정을 추정
- 여러 언어로 사용 가능
Cloud Transtaion API
- 모든 문자열 지원으로 번역 가능
Cloud Video Intelligence API
- 동영상 콘텐츠 검색 가능