data engineering (36) 썸네일형 리스트형 Google Bigquery -3 (최적화 기법 - 파티셔닝, 클러스터링, 캐싱, 쿼리 튜닝) https://nani-log.tistory.com/168 Google Bigquery -2 (아키텍처)https://nani-log.tistory.com/167 Google Bigquery -1 (설계적 특성 - OLAP, Columnar, MPP, Serverless)https://nani-log.tistory.com/161 Amazon Redshift -1 (설계적 특성 - OLAP, Columnar, MPP, Provisioning)Amazon Redshift는 직접 하둡 클러스nani-log.tistory.com 앞서 Bigquery는 서버리스로 제공되기 때문에 인프라에 관련한 고민은 구글에 맡겨두고 데이터 웨어하우스를 구축할 수 있다는 장점이 있어 사용자 입장에선 쿼리 비용(슬롯 사용량)과 스.. Google Bigquery -2 (아키텍처) https://nani-log.tistory.com/167 Google Bigquery -1 (설계적 특성 - OLAP, Columnar, MPP, Serverless)https://nani-log.tistory.com/161 Amazon Redshift -1 (설계적 특성 - OLAP, Columnar, MPP, Provisioning)Amazon Redshift는 직접 하둡 클러스터를 운영하지 않아도 클라우드상에서 데이터 웨어하우스를 운영할 수 있게 해nani-log.tistory.com 앞서 Bigquery의 설계적 특성에 대해 살펴봤다. 이번 포스트에서는 Bigquery의 아키텍처를 뜯어보고자 한다 Bigquery는 크게 스토리지 레이어(colussus file system), 컴퓨팅 레이어(dr.. Google Bigquery -1 (설계적 특성 - OLAP, Columnar, MPP, Serverless) https://nani-log.tistory.com/161 Amazon Redshift -1 (설계적 특성 - OLAP, Columnar, MPP, Provisioning)Amazon Redshift는 직접 하둡 클러스터를 운영하지 않아도 클라우드상에서 데이터 웨어하우스를 운영할 수 있게 해준다. 데이터 웨어하우스는 대규모의 데이터를 분석하기 위해 설계되었기 때문에nani-log.tistory.com Google Bigquery는 서버리스 데이터 웨어하우스 제품이다. Redshift와 마찬가지로 대규모 데이터를 저장하고 분석하기 위한 데이터 웨어하우스의 공통적인 여러 설계적 특성을 지니고 있다 OLAP(Online Analytics Processing), Columnar Storage, 컬럼별 압축Re.. Apache Hive -1 (핵심 구성 요소와 개념) https://nani-log.tistory.com/160 Hadoop Ecosystem 쓱 보기 -3 (Hive)https://nani-log.tistory.com/159?category=720053 Hadoop Ecosystem -2 (Mapreduce2, YARN)https://nani-log.tistory.com/158 Hadoop Ecosystem -1 (HDFS, MapReduce1)데이터 웨어하우스를 공부하다보니, 분산시스템의 근간인 하둡 에코시nani-log.tistory.com Hadoop Ecosystem 쓱 보기를 통해 Hive의 대략적인 구성요소를 살펴봤다. 이번 포스트에선 조금 더 깊이 Hive에 대해 알아보자 1. 설계실행 엔진Hive의 기본 실행 엔진은 Mapreduce다. 실.. Hadoop Ecosystem 쓱 보기 -4 (Hive의 대안. Impala) https://nani-log.tistory.com/160 Hadoop Ecosystem 쓱 보기 -3 (Hive)https://nani-log.tistory.com/159?category=720053 Hadoop Ecosystem -2 (Mapreduce2, YARN)https://nani-log.tistory.com/158 Hadoop Ecosystem -1 (HDFS, MapReduce1)데이터 웨어하우스를 공부하다보니, 분산시스템의 근간인 하둡 에코시nani-log.tistory.com 앞서 Hive는 Mapreduce를 기반으로해 실시간 분석 쿼리엔 적합하지 않아 대안들인 프레임워크가 개발되었다고 언급했다. 그중 하나가 Impala다. Impala는 클라우데라에서 개발한 SQL 기반의 실시간 쿼.. Amazon Redshift -4 (워크로드 관리) https://nani-log.tistory.com/163 Amazon Redshift -3 (최적화 기법 - 분산/정렬/캐싱)https://nani-log.tistory.com/162 Amazon Redshift -2 (아키텍처와 리소스를 관리하는 방법)https://nani-log.tistory.com/161 Amazon Redshift -1 (OLAP, Columnar Storage, MPP)Amazon Redshift는 직접 하둡 클러스터를 운용하지 않아도nani-log.tistory.com 앞서 포스트에선 Redshift 최적화 기법에 대해 살펴봤다. 데이터 웨어하우스는 다수의 사용자가 다수의 데이터 처리를 요청할 때 각 쿼리의 우선순위를 염두에 두고 처리하는 것이 정말 중요한데, 오늘은 쿼리 .. Amazon Redshift -3 (최적화 기법 - 분산, 정렬, 캐싱) https://nani-log.tistory.com/162 Amazon Redshift -2 (아키텍처)https://nani-log.tistory.com/161 Amazon Redshift -1 (설계적 특성 - OLAP, Columnar Storage, MPP)Amazon Redshift는 직접 하둡 클러스터를 운영하지 않아도 클라우드상에서 데이터 웨어하우스를 운영할 수 있게 해준다.nani-log.tistory.com 앞선 포스트에선 Redshift의 아키텍처에 대해 살펴봤다. Redshift가 가지고 있는 리소스로 병렬성과 효율을 극대화하려면 사실 테이블을 생성해 데이터를 각 노드에 저장하는 것부터 정말 중요하다. 이번 포스트에선 Redshift가 최적화하는 방법인 분산과 정렬, 그리고 캐싱에 .. Amazon Redshift -2 (아키텍처) https://nani-log.tistory.com/161 Amazon Redshift -1 (설계적 특성 - OLAP, Columnar Storage, MPP)Amazon Redshift는 직접 하둡 클러스터를 운영하지 않아도 클라우드상에서 데이터 웨어하우스를 운영할 수 있게 해준다. 하둡 에코시스템에서 살펴봤던 그림 중 Redshift가 포괄하고 있는 개념을 살펴nani-log.tistory.com 앞선 포스트에서는 OLAP, Columnar, MPP라는 설계적 특성을 살펴봤다. 이번 포스트에서는 Redshift가 어떻게 구성되어있는지 살펴볼 것이다 Redshift 아키텍처는 다음과 같다 하나의 클러스터는 하나의 리더 노드와 1~128개의 컴퓨팅 노드로 구성할 수 있다. 컴퓨팅 노드의 갯수는 조정할.. 이전 1 2 3 4 5 다음