꾸준함이 중요한 Lion2me의 기술블로그

Data Catalog 만들기 - Frontend 주요 기능

14 Apr 2024
DE

Data Catalog 만들기 - Frontend 주요 기능

이 내용은 Data Catalog 만들기 책을 읽고 3장(Data Catalog 주요 기능 만들기)의 일부를 읽고 리뷰하는 글 입니다.

Data Catalog란 무엇인가?

이 책의 저자는 Data Catalog라는 용어에 대해서 다음과 같은 문장으료 표현합니다.

  • 사용자의 데이터 전달 플랫폼
  • 데이터 자산화 도구
  • 다양한 데이터 서비스 간의 연계자

Data Catalog는 데이터 사용자들이 필요로 하는 데이터에 대한 접근을 쉽게 도와주고, 단순히 파일 혹은 스키마와 같이 범용적인 형태로 저장되어 있는 데이터를 통합적으로 관리 할 수 있는 자산으로서 변환해주고, 다양한 데이터 서비스에서의 접근을 용이하게 하고 그 결과를 다시 Catalog화 하여 연계하는 역할을 합니다.

Data Catalog 주요 기능 중 Frontend에 담긴 내용

Frontend 주요 기능에 대해서 알아보면서 우리가 중점적으로 알아야 할 내용은 “사용자 측면에서 있어야 하는 기능 및 지식”입니다. 사용자가 접근 할 Frontend 단의 기능이기에 우리는 이 궁금증에 대해서 더 자세하게 알 수 있을 것 입니다.

카탈로그 검색

Data Catalog의 가장 핵심적인 기능인 검색에 대해 알아보도록 하겠습니다. 크게 분류를 나누면 다음과 같습니다.

  • 키워드 기반 통합검색
  • 카테고리 검색
    • 비즈니스 카테고리 검색
    • 데이터 유형 카테고리 검색

키워드 기반 통합검색

키워드 기반 통합검색의 경우 사용자가 가장 많이 사용하는 기술이면서 가장 많은 데이터 객체에서 원하는 데이터를 검색하는 방법입니다. 가장 많이 사용되기에 그만큼 적절한 기능 구현과 높은 사용성이 필요합니다.

자동완성 기능

범위가 가장 넓기 때문에 이를 해결하기 위한 자동완성 기능이 필요 할 수 있습니다.

데이터 검색 속도

마찬가지로 범위가 가장 넓은 검색 방법이기 때문에 속도가 느릴 가능성이 있습니다. 사용자 측면에서 원하는 데이터의 검색 속도는 매우 중요하기에 주의를 기울일 필요가 있습니다.

상세 검색 기능

데이터를 검색하다보면 같은 키워드(자주 사용되는 컬럼 명 등)의 이유 등으로 유사한 데이터 객체가 매우 많이 검색 될 가능성이 있습니다. 이 경우에는 카테고리 내 검색, 결과 내 검색 등의 고급 검색 기능을 추가하는 젓이 좋습니다.

키워드 범위 확장 및 세부 설정

가장 중요한 부분으로 검색이 가능하려면 검색의 키워드의 범위가 넓어야 하며, 또는 가중치가 적절해야합니다. 비즈니스 도메인마다 활용하는 용어는 모두 다르기 때문에 우리가 만약 도메인 용어를 통해 검색을 하고 싶을 경우에는 이 정보가 태그나 설명 등에 포함되어 있어야 합니다.

카테고리 검색 - 비즈니스

카테고리 검색은 비즈니스를 기준으로 데이터를 분류하고, 그 계층을 따라 데이터를 검색하는 방법입니다.

최 상단의 분류인 Level 1 부터 시작해서 하위 계층으로 나아가면서 데이터는 명확하게 세분화되는 방향성을 지니는 카테고리가 필요합니다. 이 부분은 각 비즈니스 도메인에 맞게 잘 설계하는 것이 가장 중요 한 것 같습니다.

카테고리 검색 - 데이터 유형

데이터 유형 별 카테고리 검색은 말그대로 파일 및 데이터베이스 등 특정 유형을 기반으로 카테고리화 하는 것 입니다.

카탈로그 조회

Data Catalog에 포함되어야 하는 정보에 대해서 간략하게 적을 수 있을 것 같습니다.

  • 데이터베이스
    • 데이터베이스는 목적과 활용 및 정보를 담고 있기 때문에 활용 할 가치가 있습니다.
  • 스키마
    • 스키마는 목적,활용,정보의 범위를 나누는 단위가 될 가능성이 높습니다.
  • 테이블
    • 가장 많이 조회 할 카탈로그입니다.
  • 컬럼
  • 파일시스템
  • 폴더
  • 파일
  • 이벤트 메시지
  • 토픽
  • 쿼리
  • Data API
  • 보고서/대시보드
  • 지식

그 외

데이터 수집 요청

데이터의 수집에 대한 요청을 즉시 할 수 있으면 좋습니다. 이 경우 적절한 Owner 지정이 필요합니다.

데이터 스케줄러 연결

적절한 위치의 데이터 스케줄러를 연결하여 빠르게 ETL 등을 시작하면 좋습니다.