꾸준함이 중요한 Lion2me의 기술블로그

데이터 거버넌스 사람, 기술, 도구, 프로세스 - 데이터 거버넌스란

31 Aug 2024
DE

서론

데이터 거버넌스는 기업이 적극적으로 데이터베이스를 사용하게 된 시점부터 주요하게 떠오르는 주제였습니다. ISO 국제 표준을 보더라도 데이터 관리와 보안에 관련한 내용이 다수 포함되어 있는 것을 보면 거버넌스는 예전부터 주요한 논점이였다는 것을 쉽게 알 수 있습니다. 하지만 데이터 거버넌스의 주목도가 높아진 것은 최근입니다. 처리하는 데이터가 많아지고 다양해졌으며, 데이터를 통해 얻고자 하는 인사이트가 다양해진 지금 데이터 거버넌스는 회사의 성장에 있어 너무나도 큰 요인이 되고 있습니다.

데이터 거버넌스는 회사에서 데이터를 활용하는 모든 상황에 대해 영향을 미칩니다.

  • 특정한 비즈니스 성과를 측정하고자 할 때
  • 새로운 프로젝트를 설계하며, 그 성과를 추정하고자 할 때
  • 성과 및 성능을 모니터링 할 때
  • AI 모델을 개발 할 때
  • 보안 측면에서의 데이터 관리

이렇듯 데이터 거버넌스의 중요도는 데이터의 활용이 심화되고 넓어 질 수록 더 떠오르는 가치가 될 것입니다. 실제로 데이터를 활용하는 많은 회사에서 현재 데이터 거버넌스 지식을 가진 데이터 엔지니어 및 전문가를 적극적으로 채용하기 위해 노력하고 있습니다.

상당히 모호한 의미를 가지고 있지만 책에서는 데이터 거버넌스의 프레임워크를 다음으로 정의합니다.

  • 데이터 발견 및 평가
  • 데이터 분류 및 조직화
  • 데이터 카탈로그화 및 메타데이터 관리
  • 데이터 품질 관리
  • 데이터 접근 관리
  • 감사
  • 데이터 보호

위의 프레임워크를 염두하고 앞으로 써내려 갈 책의 내용을 잘 이해해주시면 감사드리겠습니다.

데이터 거버넌스란

데이터 거버넌스는 조직이 수집 한 데이터의 품질, 무결성, 보안, 사용성을 보장하는 하나의 데이터 관리 기능입니다. 이러한 관리는 데이터가 수집/생성되어 폐기하거나 보관하는 전체 라이프사이클 내내 작동되며 모든 이해관계자가 이러한 과정에 대해서 쉽게 이해 할 수 있도록 하는 것입니다.

신뢰성을 높이기 위한 방안

데이터 거버넌스의 목적 중 큰 요소는 “이해관계자가 데이터를 신뢰” 할 수 있도록 하는 것 입니다. 아래 그림은 책에서 말하고자하는 데이터의 신뢰성을 높이기 위한 키워드를 나타냅니다.

ex_screenshot

제한

분류 및 접근 제한

구성원 모두에게 데이터를 노출하는 것에 대해서 많은 갑론을박이 있었습니다. 모두가 모든 데이터에 접근 및 제어 할 수 있다면, 회사 내에서는 많은 혼란이 발생 할 가능성이 높습니다. 예를들면, 동료 직원의 연봉 정보를 볼 수 있는 환경이라면 사내 분위기에 얼마나 치명적인 영향을 끼칠 것 이라는 것을 쉽게 알 수 있습니다.

연봉 데이터에는 오직 임금을 담당하는 팀원만이 접근 할 수 있도록 제한하고, 이와 유사하게 특정 데이터의 담당자만이 데이터를 변환 할 수 있는 권한을 주며 데이터를 활용 할 팀에 읽기 권한을 별도로 구분 할 수 있습니다.

ex_screenshot

이렇게 데이터를 다룬다면 서로 각자의 데이터를 조회 및 관리 할 수 있는 권한을 가지면서 다른 데이터를 조회하는 등의 동작을 할 수 있습니다. 이러한 제한은 데이터에 대한 정확한 이해관계자가 작업을 진행 할 수 있도록 도와줌으로써 데이터의 신뢰도를 높일 수 있습니다.

하지만 접근 제한은 “데이터 사일로”를 만드는 요인이기도 합니다. 데이터 사일로란 “데이터가 격리되어 특정 조직/부서/단위에서만 정보 접근 및 공유가 가능하여 다른 조직/부서/단위에서는 데이터가 격리되는 현상”으로 많은 데이터가 생산되고 활용되는 현대사회에서 이러한 문제는 데이터의 중복, 활용성 저하, 협력의 어려움을 야기합니다. 조직이 커질수록 이러한 문제는 더욱 부각됩니다.

이럴 때 데이터 카탈로그가 잘 구성되어 있으면 문제를 해결 할 수 있습니다.

다른 서적에서는 이러한 내용을 “수평적 데이터 표현”이라고 말하기도 합니다. 실제 데이터를 조회하는 것이 아닌 해당 데이터가 어떤 데이터인지에 대한 메타 정보만을 볼 수 있고, 실제 데이터에 대한 접근은 제한하는 방식입니다.

ex_screenshot

만약 접근 권한이 없는 팀에서 메타데이터를 보고 해당 데이터를 활용하고자 한다면, 얼마든지 데이터 팀에 요청하여 데이터를 활용 할 수 있게 됩니다. 이러한 형태의 데이터 활용 프레임워크가 구성된다면 데이터 활용도는 비약적으로 증가 할 것 입니다.

데이터 취급에 대한 규제 및 법규

데이터를 취급하는 시점에서 주요한 규제는 GDPR과 CCPA, 그리고 국내에서는 ISMS 정도로 볼 수 있을 것 같습니다.

각 사항은 데이터의 보안에 대한 내용 및 관리에 대해서 포함하고 있지만, 대부분 개인정보 유출에 대한 안정성을 보장하기위해 노력하는 규제입니다.

발견성, 보안, 설명책임성

  • 데이터 수집은 목적이 명확해야 한다. 또한 가능한 좁은 범위의 조각들로 나누어서 저장하는 것이 좋습니다.
  • 데이터 웨어하우스에 조직 수준 감사 로그를 활성화해야 합니다..
  • 모든 열린 포트에 주기적인 보안 감사를 수행해야 합니다.
  • 민감 데이터에 대해 보안 계층을 추가해야 합니다.

품질

데이터 거버넌스의 존재 의의는 “신뢰성 있는 데이터”이기에 품질 관리도 중요합니다. 데이터의 이동 및 정제 과정에서 이러한 품질은 떨어지게 되어 있습니다.

데이터의 가공이 많아질수록 신뢰성은 떨어진다는 말이 괜히 나온 말이 아닙니다.

ex_screenshot

대략 이러한 그림의 형태를 가지고 있습니다. 데이터의 가공 정도는 데이터의 신뢰성과 Tradeoff 관계에 있으며, 수집 및 가공 단계에서 우리가 데이터를 신뢰 할 수 있어야 합니다.