본문 바로가기

dev course - DE/특강

[특강] 데이터 거버넌스/카탈로그, 좋은 피드백

발표자 - 한기용(max)

일자 - 2024/05/10(금)

특강 후기
1. 맥스님은 언제나 특강때 지금 현 순간만이 아닌, 롱런할 수 있는 재료들을 많이 주시려는 것 같다
2. 관심있는 조직들이 데이터 거버넌스/카탈로그를 어떻게 운영하고 관리하는지를 케이스 스터디해보는 것도 좋은 것 같다

3. 연구실 생활할때 여러 피드백을 주고 받는게 비일비재했는데, 피드백을 안좋은 형태로 주고 받는 것을 많이 목격했고 이로 인해 좋은 피드백의 필요성이 너무너무너무너무 필요하다고 느꼈다. 타인과 일을 할 때 너무너무너무 중요한 부분이라 생각이 들어서 이 점을 긁어주신게 정말 감사했다
4. 너무 당연하지만 너무 당연하게도 무시되는 것들이 있는지 다시 한번 생각하게 된다. 정말 유익한 강의였다

 

1. 현대 조직

  • 특징
    • 기술과 자동화로 매뉴얼 프로세스를 대체함
    • 빠르고 손쉬운 의사소통 채널의 존재 - 슬랙 등
    • 의사결정이 더 분산되어 있음 - 조직별로 다른 툴과 프로세스 사용
    • 업무 환경과 커리어 전환이 더 동적으로 변함 - 내부 직무 전환 제도, 원격 근무
  • 이로 인한 데이터 이슈들
    • 데이터 ownership 분산
    • 데이터 액세스와 활용의 민주화
      • 하나의 팀이 데이터를 분석하고 결정하는게 아닌 역량이 되는 팀이 알아서 함
      • BI tool, SQL 등은 점점 더 기본 역량이 됨
      • 하지만 이로써 데이터 디스커버리 이슈, 개인정보 이슈, 비용 등을 낳음
    • 데이터 관련 역할의 수렴

 

 

 

2. 데이터 거버넌스

  • 궁극적으로 데이터 품질을 높이고 개인정보 보호를 위한 것

 

 

 

3. 데이터 카탈로그

  • 데이터의 메타데이터를 저장해놓은 중앙 저장소 = 우리에게 무슨 데이터가 있는지 아는 것
    • 첫 걸음은, 데이터 거버넌스 툴로 사용하거나 데이터 카탈로그 위에 커스텀 기능을 구현함
  • 기능
    • (반)자동화된 메타데이터 수집
    • 데이터 보안으로 보통 메타 데이터만 읽어옴

 

 

 

 

4. 다양한 회사 데이터 카탈로그/거버넌스 적용

  • Uber
    • 데이터 스택
      • Build → Buy로 기조 변화중
      • 오픈 소스 기반
      • Hive/Presto/Spark/Airflow
      • Dashboard는 Tableau, Google studio
    • 데이터 조직 구조
      • 플랫폼 조직은 중앙화
      • 조직마다 DE가 존재함
        • Mobility, Delivery, Freight
      • 분석/모델링 조직은 분산되어 있음
    • 데이터 거버넌스
      • 내부 툴인 Databook, QueryBuilder 두 종류를 사용
      • 데이터 티켓팅 시스템 - 툴별로 slack 채널이 존재해, 온콜 담당자와 FAQ, 티켓 생성 workflow 존재
      • 데이터 마다 티어가 존재해, 중요 데이터는 completeness, freshness, duplicates를 체크함
  • Airbnb
    • 데이터 스택
      • 오픈 소스 기반
      • Hive/Presto/Airflow
      • Superset
    • 조직 구조
      • 여러 차례 변화됨
      • 데이터 엔지니어들의 경우, 질문을 최대한 안받고 셀프 서비스할 수 있게 함
    • 데이터 거버넌스
      • Dataportal이란 내부 툴을 데이터 카탈로그로 사용
      • 데이터 티켓팅 시스템 - Slack+JIRA 사용
      • 데이터 품질 체크
  • Affirm
    • 데이터 스택
      • S3, Snowflake, DynamoDB
      • Spark, DBT, Airflow
      • Looker, Snowsight(snowflake 제공)
    • 조직 구조
      • 분산 구조(silo)에서 하이브리드로 변화중
    • 데이터 거버넌스
      • PII를 제외한 다른 부분에 대한 거버넌스는 딱히 존재하지 않음
      • Monte Carlo 사용
      • 데이터 티켓팅 시스템 - slack/JIRA (팀별로 채널이 존재해 문제가 됨)
      • 데이터 품질 - 딱히 보는 중앙 지표는 없음

 

 

 

5. Dataops

  • 데이터 적시성과 품질을 개선하기 위함
  • Data observability

 

 

 

 

6. 어려운 대화하기

  • 신뢰가 있는 조직 만들기
    • 서로 알아가기
    • 공동의 목표를 찾아내기
  • 피드백 주기
    • 피드백이 필요한 이유
      • 완벽한 사람은 없음
      • 어느 레벨이건 필요함
      • 이전의 성공이 새로운 환경에서의 성공을 보장하지 않음. What got you here won't get you there
    • 피드백 종류
      • 스킬셋 피드백 vs. 행동양식 피드백
        • 스킬셋 피드백 - 주니어에서 시니어로 갈 때 더 중요
        • 행동양식 피드백 - 시니어에서 조금 더 중요. 개인에서 그룹으로 영향력을 증대하는 방향으로 가야함. comfort zone에서 나와야댕...
      • 긍정적인 피드백 vs. 건설적인 피드백
        • 신뢰가 바탕이 되어야 하고, 매니저가 불편함을 견딜 수 있어야함
        • 레벨이 올라갈수록 행동양식에 대한 건설적인 피드백이 중요함
      • 건설적인 피드백을 주는 법
        • 감정을 섞지 말고, 사람보다 일에 포커스를 맞춰라
        • 결과론적인 생각으로 판단을 내려버리지 말고, 묻기
        • 기대(Expectation), 관찰(Observation), 갭(Gap)
    • 좋은 피드백이란?
      • 상대방과의 신뢰가 중요
        • Five dysfunctions of a team
        • 신뢰가 있다면, 건강한 충돌이 생길거고, 그에 대한 헌신이 생길 것
      • 상대방에 대한 관심이 중요 - 상대에게 의미가 있는 의미가 필요함
      • 내 의견과 관찰에 기반한 직접적 피드백이 중요
      • 어려운 대화가 아닌 자연스러운 대화

 

'dev course - DE > 특강' 카테고리의 다른 글

[특강] 사용자 행동 데이터의 수집과 분석  (0) 2024.05.20
[특강] ChatGPT  (0) 2024.03.28