I.DW모델링의 개요
가.DW모델링의 정의
-대용량의 데이터를 다양한 관점에서 빠른 성능으로 분석할 수 있도록 구성하는 데이터분석관점의 모델링기법임
나.DW모델링의 특징
- DW자체에 대한 데이터모델을 일반적인 ERD형태로 표현할 수도 있고 Star Schema 와 Snow Flake Schema로 표현할수도 있음.일반적으로는 Star Schema와 Snow Flake Schema등의 다차원모델링 기법을 사용하여 설계함
다. DW모델링 유형
1) EDW : ER모델링 기법을 적용하지만 차이점은 운영계시스템으로부터 Reverse Modeling과정을 거침
2) Data Mart : 다차원 모델링 기법 적용
라. Reverse Modeling의 목적
- 현행 시스템의 형상화로 운영계 시스템의 데이터실체와 데이터구조 파악가능
- 사용되고 있는 물리적인 스키마로부터 리버스 모델링을 수행하는 과정에서 변경,추가된 항목을 도출가능
- EDW Data Model의 기초자료로 이용하여 분석작업의 효율화를 이룰 수 있음
II. DW모델링시 고려사항
- 운영DB나 업무규칙을 바탕으로 정확한 Business Rule을 추출하여 데이터웨어하우스 데이터모델의 기본 골격을 결정.
- 정보요구나 보고서를 바탕으로 데이터의 정보요건을 추출.
- DW 데이터모델이 데이터마트의 정보요건을 적절히 지원할 수 있도록 모델 정비
III.DW 역공학 적용과정
1)Subject Area 선정: <- 요구사항 정의서
2)운영계 대상시스템 선정: Subject Area와 관련 대상시스템 상관도 작성
3)테이블 목록등 자료수집: <- 현행 기능명세서, 테이블 목록및 정의서
4)AS-IS엔티티정의서와 속성정의서 작성: SQL로 실재 데이터확인
5)현업과의 Interview:
6)테이블을 엔티티로 매핑: Reverse ERD
IV. Reverse Modeling의 고려사항
- 대부분의 경우 형상관리가 철저히 이루어지지 않고 있어 최종 상태를 반영한 case 드물며
잘못 그려진 경우도 있어 검증 과정으로서 이루어 질 수 있음
- 데이터 값들의 의미등 실체를 파악하기 위한 수단으로서도 필요한 과정
- To-be 모델을 반영해서는 안되면 단지 현상태를 그대로 나타내되 오기부분에 대한 수정만 행함
V.다차원 모델링
가. 정의: 관계형 데이터베이스로 다차원 데이터를 구현하는데 사용되는 기법으로 Data Warehouse의 요소기술
나. 종류
- Star Schema: 정규화된 Fact Table을 중심으로 비정규화된 Dimension Table들이 배치되는 형태의 모델링기법
-> 반정규화된 모델, 모델단순,자료불일치 위험, 중복데이터 포함
- Snowflake Schema: 정규화된 Fact Table을 중심으로 정규화된(제3정규형) Dimension Table들이 배치되는 형태
의 모델링 기법 -> 정규화된 모델, 데이터 무결성 용이, 구조복잡, 조인으로 인해 응답성능저하
다. 특징
- 사실(Fact): 사업의 특정 단면이나 활동을 수치로 표현한 값
- 차원(Dimension): 주어진 사실에 대한 추가적인 관점(view)를 제공하는 특성
- 속성(Attribute): 각 차원 테이블이 가지고 있는 속성
- 속성계층(Hierarchies): 차원내에 정의된 속성들 간에 존재하는 속성