1. 다양한 시각화 툴
- 대시보드 혹은 BI(Business Intelligence) 툴
- 목표
- KPI(Key Performance Indicator) 즉, 회사의 중요한 지표를 데이터 기반으로 계산/분석/표시해주는 툴
- 의사 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 하게 함
- 데이터 기반 결정(Data-Driven Decision)
- 데이터 참고 결정(Data-Informed Decision)
- 종류
- Excel, Google Spreadsheet
- Python - 데이터 특성 분석(EDA. Exploratory Data Analysis)에 더 적합
- Looker
- Tableau
- Power BI
- Apache Superset
- Mode Analytics, ReDash
- Google Studio
- AWS Quicksight
- 어떤 시각화 툴을 선택할 것인가?
- 추세는 Looker, Tableau
- 중요한 포인트는 셀프서비스 대시보드를 만드는 것 → 안그러면 매번 사람의 노동이 필요해짐
- 60%-70% 정도의 질문을 셀프서비스 대시보드로 할 수 있다면 대성공
- 사용하기 쉬워야 현업 인력들이 직접 대시보드를 만들 수 있음
- 데이터 민주화, 데이터 탈중앙화
- 데이터 품질이 점점 더 중요해지며, 데이터 거버넌스가 필요한 이유가 됨
- 이런 측면에서 Looker는 더 좋은 선택이지만 가격이 상당히 비쌈
2. Superset
- 특징
- 다양한 형태의 visualization과 손쉬운 인터페이스 지원
- 대시보드 공유 지원
- 엔터프라이즈 수준의 보안과 권한 제어 기능 제공
- SQLAlchemy와 연동 - 다양한 데이터베이스 지원
- Druid.id와 연동해 실시간 데이터 시각화 가능
- API와 플러그인 아키텍처 제공으로 인한 확장성이 좋음
- 구조
- Flask와 React JS로 구성됨
- 기본으로 sqlite을 메타데이터 데이터베이스로 사용
- Redis를 캐싱 레이어로 사용
- SQLAlchemy가 백엔드 DB 접근에 사용됨
- 용어
- Database - 관계형 데이터베이스(예. Redshift)
- Dataset - 테이블
- Dashboard - 하나 이상의 chart로 구성
3. 만드려는 대시보드 소개
- 두 개의 차트와 하나의 대시보드
- 차트 1) Monthly Active User - dataset은 analytics.user_session_summary
- 차트 2) Monthly Cohort - dataset은 analytics.cohort_summary
- Cohort
- 정의
- 특정 기간동안 공통된 특성이나 경험을 갖는 사용자 집단
- 보통 특성은 사용자의 서비스 등록월이 사용됨
- 분석
- 코호트를 기반으로, 사용자의 이탈률, 잔존률, 총 소비금액 등 계산 가능
- 코호트 기반 사용자 잔존률(Retention)
- 월 기반으로 시각화하는 것이 일반적임
- 정의
4. Docker
- 특정 프로그램과 (그 프로그램을 실행하는데) 필요한 기타 소프트웨어들을 하나의 패키지로 만듬으로써 해당 프로그램의 개발과 사용을 도와주는 오픈소스 플랫폼
- 이 패키지를 먼저 파일 시스템 형태로 만드는데, 이를 Docker Image라고 함
- Docker Image는 다른이들과 공유 가능하며, 공유소를 Docker Registry(Docker Hub)라고 부름
- Docker Image를 실행시킨 것을 Docker Container(=가상 컴퓨터)라고 부르며, 이 안에서 해당 프로그램이 실행됨 - 이때 Docker Engine이 먼저 실행되어 있어야함
'dev course - DE > TIL' 카테고리의 다른 글
[데브코스] TIL 42일차 (0) | 2024.05.26 |
---|---|
[데브코스] TIL 41일차 (0) | 2024.05.21 |
[데브코스] TIL 34일차 (0) | 2024.05.10 |
[데브코스] TIL 33일차 (0) | 2024.05.09 |
[데브코스] TIL 32일차 (0) | 2024.05.08 |