티스토리

정대리의 자유공간

클라우드&서버/GCP

GCP 빅데이터 및 모니터링

JDLee 2022. 5. 31. 16:03

!! 해당 글은 GCP Google Cloud Fundamentals: Core Infrastructure 과정을 정리한 내용 입니다.

GCP Bigdata and Machine learning

Cloud Dataproc

Hadoop 매니지드 서비스
Hadoop은 MapReduce 프로그래밍 모듈을 기반으로 만들어짐
병렬로 방대한 데이터 세트를 처리하고 중간 결과를 reduce함수로 전달하여 처리
Hadoop, Spark, Hive, Pig GCP에서 실행 가능
클러스터를 요청하면 90초 이내 클러스터가 자동으로 생성
처리능령을 필요에 따라 스케일링 할 수 있다
StackDriver에서 모니터링 가능
Haddop 작업 시작할 때 초기비용을 절감할 수 있음
1초단위 과금 이며 최소 1분 이상 사용 사용해야함
데이터 셋의 크기가 명확한 경우, 클러스터 크기를 직접 관리하는 경우 유용

Cloud Dataflow

실시간 데이터 및 데이터의크기와 비율을 예측할 수 없는 경우 활용
광범위한 데이터 처리 패턴을 개발하고 실행 가능
추출, 변환, 판독, 배치계산, 실시간 계산 등 모두 활용 가능
클러스터 시작이나 인스턴스 크기 조정이 필요하지 않음
리소스 관리 및 성능 최적화 등의 작업이 필요 없음
범용 ETL 도구(Extract/Transform/Load)

BigQuery

페타바이트 규모의 저렴한 완전 관리 데이터 웨어하우스
인프라 관리 없이 데이터 분석에 전념 가능
SQL 문법 사용 가능
종량 과금제 모델
Cloud Storage 및 Cloud Datastore에서 로드
테라바이트 단위의 데이터를 단 몇 초만에 SQL 쿼리 실행
Cloud Dataflow, Hadoop, Spark를 사용하여 데이터를 쉽게 처리
작은 크기의 조직은 매월 프리티어, 큰 조직에는 원활할 스케일링과 99.9%의 가용성 보장
데이터를 저장한 리전을 정할 수 있음
데이터에 사용자 액세스 제어 및 프로젝트 간 공유 가능
데이터를 공유한 경우 쿼리를 실행한 대상에게 요금 지불
장기간 저장된 데이터는 장기 보존 할인 요금이 자동으로 적용(90일 기준)

Pub/Sub

Publishers / Subscribers의 약자
스트림 분석을 위한 간단하고 안정적인 스케일링 가능한 인프라
구축한 개별 앱 간의 메시지를 보내고 받을 수 있음
앱이 분할되기 때문에 독립적으로 스케일링 가능
at least onece 전송을 통해 낮은 대기시간으로 수행(메시지가 여러번 전송 될 수 있음)
요구에 따라 스케일을 조절 할 수 있음
초당 100만건 이상 메시지 처리 가능
빈도가 높은 예측 불가능한 양의 데이터를 처리하는 앱에서 중요한 역할
Dataflow와 조합하여 사용 가능
GCP의 컴퓨팅 플랫폼에서 활용 가능
BigQuery, Compute Engine, Cloud Storage와 통합되어 데이터 엑세스가 용이

Cloud Machine Learning Platform

사전 훈련된 모델 및 맞춤형 모델 생성 가능
TensorFlow를 활용하여 오픈소스화 한 서비스
TensorFlow의 TPU 활용 가능
요금은 온디멘드 형식으로 과금 되므로 초기 진입 비용 최소화

Cloud Vision API

고급 ML 모델 내장
이미지 카탈로그 메타데이터 작성
이미지 감정 분석
부적절한 콘텐츠 관리 등

Cloud Natural Language API

음성 명령 컨트롤 사용
음성 파일 문자화
구문 분석을 통해 단어 간의 관계를 파악
텍스트 블록의 감정을 추정
여러 언어로 사용 가능

Cloud Transtaion API

모든 문자열 지원으로 번역 가능

Cloud Video Intelligence API

동영상 콘텐츠 검색 가능