글을 쓰게 된 배경
데이터 거버넌스라는 단어는 익히 들어 알고 있지만, 정확히 무엇을 의미하는지에 대해서는 깊게 고민해 본 적은 없었다. 그저 막연하게 '나에게는 어려운 것'과 '언젠가는 해야 하는 것'이라고 생각했다.
나는 데이터 분석가로서, 데이터를 통해서 인사이트를 도출하고, 액션 아이템을 찾아내 비즈니스 임팩트에 기여하는 것에 더 고민을 해왔다. 하지만, 업무를 하다 보니 새로운 pain point가 존재했고, 이 문제가 데이터 거버넌스와 연관되었다는 것을 알게 됐다. 따라서, 거버넌스 이 녀석이 대체 어떤 것인지, 그리고 지금 내가 할 수 있는 거버넌스에 초점을 두고 내용을 정리해보고자 한다.
데이터 거버넌스 정의
데이터 거버넌스란 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업을 가리킵니다. 여기에는 사람이 취해야 하는 조치, 따라야 하는 프로세스, 데이터의 전체 수명 주기 동안 이를 지원하는 기술이 포함됩니다.
위는 구글에서 정의하는 데이터 거버넌스의 정의다. 모든 작업이라는 표현이 굉장히 모호하고 폭넓게 들린다.

- 데이터를 얼마나 확보하고 있는지?
- 데이터를 얼마나 사용하고 있는지?
- 데이터를 책임지는 조직이 있는지?
위 질문의 대답에 따라서 데이터를 활용할 수 있는 기대효과와 현재의 효과 간의 차이가 발생한다.
저 모든 단계를 지금 한 번에 해결하는 것은 불가능하겠지만, 현재 느끼는 문제를 정의하고 퀘스트를 깨듯 하나씩 해나간다면, 그게 지금 내가 할 수 있는 데이터 거버넌스 구축이 아닐까?
문제 정의 (데이터 거버넌스가 필요한 이유)
1. 데이터 퀄리티
- 기준이 상이하다: 현업, IR, PR, 마케팅, 고객 제공 자료 등 각 조직에서 필요한 데이터들을 추출해 주는데, 이때 서로 정의하는 기준, 작업자가 달라서 같은 용어도 결과가 전부 달라 레거시가 쌓일수록 혼란하다. ➡️ 데이터에 대한 신뢰도 하락
- 데이터의 정확성: 분석할 때 데이터 정합성 먼저 체크해야해서, 분석 속도가 느리다.
- 비어있는 데이터: 분석에 쓸만한 데이터가 없다.
2. 사용성
- 계속되는 요청: 어떤 데이터가 어디있는지 정확하게 알지 못하는 구성원들로부터 추출 요청이 몰린다.
- 데이터 문의: 데이터 정합성에 대한 문의와 요청 이후의 핑퐁으로 리소스가 할애된다.
3. 인프라
- 데이터 안정성: 데이터가 제때 업데이트 되지 않는다. (대시보드, 보고서 등)
- 하루종일 돌아가는 쿼리: 데이터 추출이 느려서 분석이 자유롭지 못하다.
이 같은 문제는 숙련도와 데이터 분석가의 수와는 별개로, 업무 부채를 끊임없이 증가시킬 것이기 때문에 근본적인 해결책이 필요하다.
해결 방안
1. 기준의 통일
전사적으로 사용하는 기준을 통일한다. 지표에 대한 정의가 같더라도, 원천 데이터의 수준에서 데이터 추출을 할 경우 작업자에 따라서 쓰는 쿼리문이 미세한 차이를 불러올 수 있다. 이를 해결하기 위해서 기준을 컨플루언스에 업데이트하고, redash 등을 활용해서 표준 쿼리를 공유해 상이한 기준을 통일시킨다.
2. 데이터 마트의 활용
해당 방법을 설명하기 위해선, 데이터 파이프라인에 대한 약간의 이해가 필요하다.


1) 데이터 레이크(Data Lake)
데이터 레이크는 원천(일반적으로 AWS의 S3와 같은 분산 파일 시스템과 같은 객체 스토리지 서비스)에서 발생한 데이터를 다양한 형태 그대로 한 곳에 저장하는 공간이다. 이 데이터는 전처리가 되지 않았거나 조금 되었으며, 장점은 데이터에서 실행할 쿼리 종류를 미리 결정할 필요가 없다는 것이다. 필요에 따라 ETL이 포함된 테이블을 세우기만 하면 Presto와 같은 쿼리 엔진을 사용하여 SQL로 여러 S3 버킷(기본적으로 분산 파일 시스템)에 분산된 데이터를 쿼리 할 수 있다.
2) 데이터 웨어하우스(Data Warehouse)
다양한 원천에서 발생하는 데이터를 소비자에게 전달하기 전에 통합하여 저장하는 구조화된 공간이다. 데이터 웨어하우스가 PostgreSQL 프로덕션 데이터베이스의 복제본일 뿐인 경우에도 프로덕션 데이터베이스와 구별된다. 응용 프로그램이나 서비스의 요구 사항이 아니라 분석을 위해 데이터를 보관하기 위한 장소다. 통합되는 과정에서 데이터를 정제하는 비용과 버려지는 데이터가 발생하기 때문에, 데이터 레이크와는 차별점이 있다.
3) 데이터 마트(Data Mart)
데이터 마트는 기본적으로 특정 현업에서 데이터를 활용하는 담당자가 데이터를 활용하기 위한 형태 거의 그대로 보관하는 공간이다. 즉, 데이터 마트는 팀 또는 분석 도메인을 위해 선별된 데이터 웨어하우스 또는 레이크의 일부를 해당 데이터를 분석하는 대시보드 및 시각화와 결합해 사용할 수 있다.
각 개념을 더 깊게 살펴보면 분류 내에서도 여러 가지 종류로 나눠볼 수 있지만, 나는 최대한 간단히 (감당할 수 있을 정도로) 정리했다. 위 그림과 내용을 보면 얼추 파이프라인에 대략적인 이해를 할 수 있는데, 여기서 내가 말하고 싶은 것은 데이터 마트의 활용이다. 데이터 마트는 앞선 두 개념에 비해서 데이터 분석가가 비교적 쉽게 접근하고 핸들링할 수 있는 영역이다.
데이터 마트의 구축에도 엔지니어링적인 요소가 필요하지만, 내가 속한 회사에서는 Tableau Prep과 Tableau Server를 잘 활용하고 있기 때문에 이를 통해서 간단하게 마트를 구축할 수 있다. (CTO님의 높은 태블로 활용도 🫡)

Tableau Prep은 '흐름'이라는 개념으로 위와 같은 화면에서 쉽게 데이터의 전처리가 가능하다. 최종 결과물을 Tableau Server에 적재하여 대시보드와 연동하거나, 외부 데이터베이스에 적재하는 것도 가능하다. 스케쥴링을 통해 업데이트도 가능하다.
참고) 태블로 프렙 빌더 프로세스
흐름 출력을 외부 데이터베이스에 저장하는 경우 Tableau Prep은 다음을 수행합니다.
행을 생성하고 데이터베이스에 대해 SQL 명령을 실행합니다.
출력 데이터베이스의 임시 테이블(또는 Snowflake로 출력하는 경우 준비 영역)에 데이터를 씁니다.
작업이 성공적인 경우 임시 테이블(또는 Snowflake의 준비 영역)의 데이터가 대상 테이블로 이동합니다.
데이터를 데이터베이스에 쓴 후 실행하려는 SQL 명령을 실행합니다.
데이터 마트를 통해서 얻을 수 있는 기대효과
- 데이터 마트에서 쉽게 추출하는 것(비교적 간결한 쿼리문으로)이 가능해지기 때문에 데이터 접근성이 높아진다.
- 전처리된 데이터를 바탕으로 쿼리를 실행하기 때문에 속도가 향상된다.
- 1번에서 언급한 기준의 통일을 전처리 과정에서 미리 적용해 두어, 데이터 표준화에 기여할 수 있다.
Tableau Prep에서는 테이블의 이름도 정의하는 것이 가능해서 한글로도 정의가 가능하고, 표준만 정한다면 한글로 구성한 컬럼 이름을 바탕으로 구성원들이 더 데이터를 어렵지 않게 다룰 수 있다. 다만, 여러 가지 흐름을 활용해서 각 현업에서 쓸 데이터들이 표준화를 고민하며 데이터의 불필요한 중복이 없도록 구성하는 것이 중요하다.
데이터 마트 만들 때 고려할 점
- 도메인 마트 간 key값 만들기
- 기준을 통일하고, 세부 기준은 확장성을 고려하여 필터를 거는 등 조건이 필요
- 인수인계가 원활하도록 데이터 카탈로그를 작성할 것
3. 데이터 카탈로그
데이터 카탈로그는 사용자가 필요한 정보를 빠르게 찾을 수 있도록 하는 회사의 데이터 자산 목록

쉽게 말해서 데이터 카탈로그는 찾고자 하는 데이터의 테이블 위치, 해당 테이블의 컬럼 등에 대한 설명을 검색 / 활용할 수 있게 만드는 데이터 목록이다. 여기서 중요한 점은 카탈로그의 '자동화'인데, 사람이 수기로 업데이트하는 것에는 반드시 한계가 존재하고 데이터 확장에 따른 관리의 어려움이 있기 때문이다. 따라서 수기로 입력하지 않아도 자동으로 관련 내용이 업데이트되는 프로세스의 구축이 필요하다.
사실 카탈로그에 대한 개념을 모르고 수기로 진행을 하려다가, 이 개념을 알게 된 후 관련 레퍼런스를 찾아보는 중이다.
결론: Step by step
글을 쓰면서도 이게 데이터 거버넌스인지, 데이터 파이프라인에 관한 것인지 헷갈렸다. 그러나, 데이터 거버넌스는 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업이라는 글 도입부의 정의를 근거로 봤을 때 이 모든 것은 데이터 거버넌스를 구축하기 위한 한 걸음이라고 말할 수 있다.
조직이 성장할수록 데이터의 규모는 끊임없이 확장되고, 데이터 거버넌스를 인지하고 있는 것과 모르고 있는 것이 훗날 나비효과로 다가올 것이다. 이 한 걸음 한 걸음을 모아 더 나은 데이터 거버넌스를 구축하고, 더 양질의 퍼포먼스를 낼 수 있는 환경을 만들고 싶다.
글을 쓰는데 참고한 자료
- Chartio Data Tutorials
- Hitachi Vantara
- 더자람컴퍼니: 데이터드리븐 리더 실전
- Meta base Database Fundamentals
'데이터 > 데이터 거버넌스' 카테고리의 다른 글
| 데이터 분석가는 어떻게 조직이 '행동'하게 할 수 있을까? (1) | 2023.06.18 |
|---|---|
| 데이터 분석가가 조직의 제갈공명으로 거듭나는 방법 (0) | 2023.04.23 |