본문 바로가기

data engineering/hadoop

(5)
Apache Hive -1 (핵심 구성 요소와 개념) https://nani-log.tistory.com/160 Hadoop Ecosystem 쓱 보기 -3 (Hive)https://nani-log.tistory.com/159?category=720053 Hadoop Ecosystem -2 (Mapreduce2, YARN)https://nani-log.tistory.com/158 Hadoop Ecosystem -1 (HDFS, MapReduce1)데이터 웨어하우스를 공부하다보니, 분산시스템의 근간인 하둡 에코시nani-log.tistory.com Hadoop Ecosystem 쓱 보기를 통해 Hive의 대략적인 구성요소를 살펴봤다. 이번 포스트에선 조금 더 깊이 Hive에 대해 알아보자 1. 설계실행 엔진Hive의 기본 실행 엔진은 Mapreduce다. 실..
Hadoop Ecosystem 쓱 보기 -4 (Hive의 대안. Impala) https://nani-log.tistory.com/160 Hadoop Ecosystem 쓱 보기 -3 (Hive)https://nani-log.tistory.com/159?category=720053 Hadoop Ecosystem -2 (Mapreduce2, YARN)https://nani-log.tistory.com/158 Hadoop Ecosystem -1 (HDFS, MapReduce1)데이터 웨어하우스를 공부하다보니, 분산시스템의 근간인 하둡 에코시nani-log.tistory.com 앞서 Hive는 Mapreduce를 기반으로해 실시간 분석 쿼리엔 적합하지 않아 대안들인 프레임워크가 개발되었다고 언급했다. 그중 하나가 Impala다. Impala는 클라우데라에서 개발한 SQL 기반의 실시간 쿼..
Hadoop Ecosystem 쓱 보기 -3 (Hive) https://nani-log.tistory.com/159?category=720053 Hadoop Ecosystem -2 (Mapreduce2, YARN)https://nani-log.tistory.com/158 Hadoop Ecosystem -1 (HDFS, MapReduce1)데이터 웨어하우스를 공부하다보니, 분산시스템의 근간인 하둡 에코시스템을 대체해 사용자가 관리하는 부분을 데이터 웨어하우스가 대nani-log.tistory.com   앞선 1,2 포스트에서는 하둡을 개발하게 된 계기와 함께 hdfs, mapreduce, yarn을 살펴봤다. 이번 포스트에서는 하둡의 사용성을 높이기 위한 노력 중 하나였던 Hive에 대해 알아보고자 한다 mapreduce의 코드를 본 적이 있다면 알겠지만, 개발..
Hadoop Ecosystem 쓱 보기 -2 (Mapreduce2, YARN) https://nani-log.tistory.com/158 Hadoop Ecosystem -1 (HDFS, MapReduce1)데이터 웨어하우스를 공부하다보니, 분산시스템의 근간인 하둡 에코시스템을 대체해 사용자가 관리하는 부분을 데이터 웨어하우스가 대신해주고 테이블을 생성하고 쿼리를 튜닝하는 부분만nani-log.tistory.com  이번 포스트에서는 Mapreduce2와 YARN에 중점을 두고 살펴보고자 한다. Hadoop 1.0이 2.0으로 발전하면서, Mapreduce1의 단점을 보완하고자 YARN이 등장했다. 앞선 포스트에서 언급했듯이 Mapreduce1은 클라이언트가 하나의 Job인 데이터 처리를 요청하면 Job Tracker가 여러개의 태스크로 나누고 여러 Task Tracker들에게 일을..
Hadoop Ecosystem 쓱 보기 -1 (HDFS, MapReduce1) 데이터 웨어하우스를 공부하다보니, 분산시스템의 근간인 하둡 에코시스템을 대체해 사용자가 관리하는 부분을 데이터 웨어하우스가 대신해주고 테이블을 생성하고 쿼리를 튜닝하는 부분만 신경쓰게 해준다는 것을 알게 됐다. 데이터 웨어하우스를 구축할땐 비록 하둡의 개념이 쓸모없어 보이지만, '분산 시스템을 이해하고 데이터 웨어하우스를 구축하는 것과 이해하지 않고 그저 구축하는 것은 눈에 보이지 않는 차이를 낳지 않을까?'싶다 하둡을 직접 운용하는 것은 어렵지만, 각각의 컴포넌트들이 왜 필요하게 됐는지를 살펴보고자 한다. 오늘 멘토님이 하둡과 Hive, HiveQL, Impala, trino 등이 왜 필요하게 됐는지 전체적인 그림으로 설명해 주셨는데 그 그림을 토대로 이야기를 풀어가보고자 한다  HDFS하나의 파일이 ..