서론
데이터 거버넌스는 기업이 적극적으로 데이터베이스를 사용하게 된 시점부터 주요하게 떠오르는 주제였습니다. ISO 국제 표준을 보더라도 데이터 관리와 보안에 관련한 내용이 다수 포함되어 있는 것을 보면 거버넌스는 예전부터 주요한 논점이였다는 것을 쉽게 알 수 있습니다. 하지만 데이터 거버넌스의 주목도가 높아진 것은 최근입니다. 처리하는 데이터가 많아지고 다양해졌으며, 데이터를 통해 얻고자 하는 인사이트가 다양해진 지금 데이터 거버넌스는 회사의 성장에 있어 너무나도 큰 요인이 되고 있습니다.
데이터 거버넌스는 회사에서 데이터를 활용하는 모든 상황에 대해 영향을 미칩니다.
- 특정한 비즈니스 성과를 측정하고자 할 때
- 새로운 프로젝트를 설계하며, 그 성과를 추정하고자 할 때
- 성과 및 성능을 모니터링 할 때
- AI 모델을 개발 할 때
- 보안 측면에서의 데이터 관리
- 등
이렇듯 데이터 거버넌스의 중요도는 데이터의 활용이 심화되고 넓어 질 수록 더 떠오르는 가치가 될 것입니다. 실제로 데이터를 활용하는 많은 회사에서 현재 데이터 거버넌스 지식을 가진 데이터 엔지니어 및 전문가를 적극적으로 채용하기 위해 노력하고 있습니다.
상당히 모호한 의미를 가지고 있지만 책에서는 데이터 거버넌스의 프레임워크를 다음으로 정의합니다.
- 데이터 발견 및 평가
- 데이터 분류 및 조직화
- 데이터 카탈로그화 및 메타데이터 관리
- 데이터 품질 관리
- 데이터 접근 관리
- 감사
- 데이터 보호
위의 프레임워크를 염두하고 앞으로 써내려 갈 책의 내용을 잘 이해해주시면 감사드리겠습니다.
데이터 거버넌스란
데이터 거버넌스는 조직이 수집 한 데이터의 품질, 무결성, 보안, 사용성을 보장하는 하나의 데이터 관리 기능입니다. 이러한 관리는 데이터가 수집/생성되어 폐기하거나 보관하는 전체 라이프사이클 내내 작동되며 모든 이해관계자가 이러한 과정에 대해서 쉽게 이해 할 수 있도록 하는 것입니다.
신뢰성을 높이기 위한 방안
데이터 거버넌스의 목적 중 큰 요소는 “이해관계자가 데이터를 신뢰” 할 수 있도록 하는 것 입니다. 아래 그림은 책에서 말하고자하는 데이터의 신뢰성을 높이기 위한 키워드를 나타냅니다.
제한
분류 및 접근 제한
구성원 모두에게 데이터를 노출하는 것에 대해서 많은 갑론을박이 있었습니다. 모두가 모든 데이터에 접근 및 제어 할 수 있다면, 회사 내에서는 많은 혼란이 발생 할 가능성이 높습니다. 예를들면, 동료 직원의 연봉 정보를 볼 수 있는 환경이라면 사내 분위기에 얼마나 치명적인 영향을 끼칠 것 이라는 것을 쉽게 알 수 있습니다.
연봉 데이터에는 오직 임금을 담당하는 팀원만이 접근 할 수 있도록 제한하고, 이와 유사하게 특정 데이터의 담당자만이 데이터를 변환 할 수 있는 권한을 주며 데이터를 활용 할 팀에 읽기 권한을 별도로 구분 할 수 있습니다.
이렇게 데이터를 다룬다면 서로 각자의 데이터를 조회 및 관리 할 수 있는 권한을 가지면서 다른 데이터를 조회하는 등의 동작을 할 수 있습니다. 이러한 제한은 데이터에 대한 정확한 이해관계자가 작업을 진행 할 수 있도록 도와줌으로써 데이터의 신뢰도를 높일 수 있습니다.
하지만 접근 제한은 “데이터 사일로”를 만드는 요인이기도 합니다. 데이터 사일로란 “데이터가 격리되어 특정 조직/부서/단위에서만 정보 접근 및 공유가 가능하여 다른 조직/부서/단위에서는 데이터가 격리되는 현상”으로 많은 데이터가 생산되고 활용되는 현대사회에서 이러한 문제는 데이터의 중복, 활용성 저하, 협력의 어려움을 야기합니다. 조직이 커질수록 이러한 문제는 더욱 부각됩니다.
이럴 때 데이터 카탈로그가 잘 구성되어 있으면 문제를 해결 할 수 있습니다.
다른 서적에서는 이러한 내용을 “수평적 데이터 표현”이라고 말하기도 합니다. 실제 데이터를 조회하는 것이 아닌 해당 데이터가 어떤 데이터인지에 대한 메타 정보만을 볼 수 있고, 실제 데이터에 대한 접근은 제한하는 방식입니다.
만약 접근 권한이 없는 팀에서 메타데이터를 보고 해당 데이터를 활용하고자 한다면, 얼마든지 데이터 팀에 요청하여 데이터를 활용 할 수 있게 됩니다. 이러한 형태의 데이터 활용 프레임워크가 구성된다면 데이터 활용도는 비약적으로 증가 할 것 입니다.
데이터 취급에 대한 규제 및 법규
데이터를 취급하는 시점에서 주요한 규제는 GDPR과 CCPA, 그리고 국내에서는 ISMS 정도로 볼 수 있을 것 같습니다.
각 사항은 데이터의 보안에 대한 내용 및 관리에 대해서 포함하고 있지만, 대부분 개인정보 유출에 대한 안정성을 보장하기위해 노력하는 규제입니다.
발견성, 보안, 설명책임성
- 데이터 수집은 목적이 명확해야 한다. 또한 가능한 좁은 범위의 조각들로 나누어서 저장하는 것이 좋습니다.
- 데이터 웨어하우스에 조직 수준 감사 로그를 활성화해야 합니다..
- 모든 열린 포트에 주기적인 보안 감사를 수행해야 합니다.
- 민감 데이터에 대해 보안 계층을 추가해야 합니다.
품질
데이터 거버넌스의 존재 의의는 “신뢰성 있는 데이터”이기에 품질 관리도 중요합니다. 데이터의 이동 및 정제 과정에서 이러한 품질은 떨어지게 되어 있습니다.
데이터의 가공이 많아질수록 신뢰성은 떨어진다는 말이 괜히 나온 말이 아닙니다.
대략 이러한 그림의 형태를 가지고 있습니다. 데이터의 가공 정도는 데이터의 신뢰성과 Tradeoff 관계에 있으며, 수집 및 가공 단계에서 우리가 데이터를 신뢰 할 수 있어야 합니다.