2023. 5. 18. 14:11ㆍ카테고리 없음
1. 데이터 이해
01. 데이터의 이해
(1) 데이터와 정보
# 데이터의 유형
- 정량적 데이터 : 수치, 도형, 기호
- 정상적 데이터 : 언어, 문자
# DIKW 피라미드
- 데이터 : 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실
- 정보 : 데이터의 가공, 상관관계 간 이해를 토대로 패턴을 인식하고 그 의미 부여한 데이터 지식 도출할 때 사용하는 데이터
- 지식 : 상호 연결된 정보의 패턴 이해를 기반으로 예측한 결과물
ex.사야겠다 - 지혜 : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
ex.대체로
(2) 데이터베이스의 정의와 특징
# DBMS
관계형 | - 데이터 모델은 간단하여 이해하기 쉬우며 데이터의 저장 위치와 접근 방법은 DBMS가 결정 - 행과 열로 구성된 2차원 테이블에 데이터 저장 |
계층형 | - 데이터를 레코드와 링크로 구성된 트리 형태로 표현 - 부모와 자식 노드는 일 대 다 관계로 구성 |
네트워크형 | - 그래프 구조에 기반을 두며 레코드를 노드로, 레코드와 레코드 간의 관계는 간선으로 표현 - 레코드와 레코드 간 관계는 다 대 다 관계 |
객체지향형 | - 복잡한 데이터 구조의 정보 모델링이 가능하고 사용자 정의 타입, 비정형 정보 타입 지원 |
(3) 데이터베이스 활용
# 블록체인
: 관리 대상이 되는 데이터를 P2P 방식 기반으로 생성된 연결된 형태의 연결고리 기반의 분산 데이터 저장 환경에 저장하여, 누구도 임의로 수정할 수 없고 누구나 변경된 결과를 열람할 수 있는 분산 컴퓨팅 기술 기반의 원장 관리 기술
# DW
- 데이터베이스 시스템에서 사용자의 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 읽기 전용의 데이터베이스
- DW에서 관리하는 데이터들은 시간의 흐름에 따른 변경을 항상 반영
- 데이터의 일관성을 유지하면서 전사적 관점에서 하나로 통합되는 특징
- 적재가 완료되면 읽기 전용 형태의 스냅샷 형태로 존재
# 데이터 웨어하우스 DW
- 주제 지향적(=중심적)
- 통합적
- 시계열적
- 비휘발적
# ITS
: 교통 부분의 사회기반 구조의 데이터베이스 솔루션
02. 데이터의 가치와 미래
(1) 빅데이터의 이해
#빅데이터 출현 배경
- 고객 데이터 축적
- 대량 데이터를 활용하는 과학의 확산
- 관련 기술의 발달
# 정형 반정형 비정형
- 정형
- 인스타그램 게시물
- 물류 창고 재고 데이터
- SCM
- 반정형
- XML
- HTML
- 기상청 날씨 데이터
- IoT에서 제공하는 센서데이터
- 비정형
- 이메일 전송 데이터
- 음성 파일
- QR 코드
- 영상 데이터
#빅데이터의 성공 사례
- 구글의 자동번역 시스템 ➡ 규모
(2) 빅데이터의 가치와 영향
# 빅데이터의 가치 산정이 어려운 이유
- 데이터 활용 방식의 다양화 ➡ 데이터의 재사용, 데이터의 재조합, 다목적용 데이터 개발 등
- 새로운 가치 창출
- 분석기술의 급속한 발전 ➡ 저렴한 비용
(3) 비즈니스 모델
(4) 위기 요인과 통제 방안
# 빅데이터 위기 요인과 통제 방안
- 사생활 침해 ➡ 동의에서 책임으로
- 책임 원칙 훼손 ➡ 결과 기반의 책임 원칙 고수
- 데이터 오용 ➡ 알고리즘 접근 허용
(5) 미래의 빅데이터
03. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
(1) 빅데이터 분석과 전략 인사이트
# 전략 인사이트 일차적인 분석
운송업 | 일정 관리, 노선 배정, 수익관리 |
소매업 | 판촉, 매대 관리, 수요예측, 재고 보충, 가격 및 제조 최적화 |
에너지 | 트레이딩, 공급 및 수요예측 |
(2) 전략 인사이트 도출을 위한 필요 역량
# 분석으로 다룰 수 있는 핵심 질문
과거 | 현재 | 미래 | |
정보 | 리포팅(보고서) | 경고 | 추출 |
통찰력 | 모델링, 실험 설계 | 권고 | 예측, 최적화, 시뮬레이션 |
# 데이터 사이언스의 구성요소
IT 영역 | 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 분산 컴퓨팅 |
분석 영역 | 수학, 머신러닝, 확률 모델, 분석학 |
비즈니스 컨설팅 영역 | 커뮤니케이션, 프레젠테이션, 시각화, 스토리텔링 |
(3) 빅데이터 그리고 데이터 사이언스의 미래
2. 데이터 분석 기획
01. 데이터 분석 기획의 이해
(1) 분석 기획 방향성 도출
# 대상별 분석 기획 유형
분석의 대상 What | |||
Known | Un-Known | ||
분석의 방법 How |
Known | 최적화 | 통찰력 |
Un-Known | 솔루션 | 발견 |
# 분석 기획 시 고려 사항
- 가용 데이터
- 적절한 유스케이스
- 분석 과제수행을 위한 장애 요소
(2) 분석 방법론
# 데이터 분석 방법론의 구성요소
- 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
# 프로토타입 모델
- 신속하게 해결책 모형 제시
- 시행착오를 통한 문제 해결을 위해 사용하는 방법
- 상향식 접근 방식
- 가설을 생성하고 프로토타입을 보고 완성시킨 결과물을 통해 가설 확인 가능
# CRISP-DM 분석 방법론의 분석 절차
- 업무 이해
: 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수리 - 데이터 이해
: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 - 데이터 준비
: 분석용 데이터 세트 선택, 데이터 정제, 분석용 데이터 세트 편성, 데이터 통합, 데이터 포맷팅 - 모델링
: 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 - 평가
: 분석 결과 평가, 모델링 과정 평가, 모델 적용셩 평가 - 전개
: 전개 계획 수립, 모네터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
# 빅데이터 분석 방법론
- 분석 기획 ➡ 데이터 준비 ➡ 데이터 분석 ➡ 시스템 구현 ➡ 평가 및 전개
- 데이터 준비 ~ 데이터 분석 : 단계 간 피드백이 반복적으로 많이 발생하는 부분
# 모델링
: 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군 집 등의 기능을 수행하는 모델을 만드는 과정
# 빅데이터 시스템 구현 단계
- 시스템 설계 및 구현, 시스템 테스트 및 운영이 주로 고려 사항
- 시스템 설계서를 바탕으로 BI 패키지를 활용하거나 새롭게 프로그램 코딩을 통하여 시스템 구축
- 정보 보호 및 시스템 성능은 시스템 구현 단계에 해당하지 않음
(3) 분석 과제 발굴
# 분석 유스케이스
- 현재의 비즈니스 모델 및 유사.동종사례 탐색을 통해 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기 위해 필요
- 풀어야 할 문제에 대한 상세한 서렴ㅇ 및 해당 문제를 해결했을 때 발생하는 효과를 명시하여 데이터 분석 문제로의 전환 및 적합성 평가에 활용 가능
# 하향식 접근 방식을 통한 분석 과제 발굴 절차
- 문제 탐색 : 분석 유스케이스 사용
- 문제 정의 : 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
- 해결 방안 탐색
- 타당성 검토
- 선택
# 디자인 사고
: 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 확산적 사고와 주어진 상황에 대한 제일 나은 방법을 찾는 수렴적 사고의 반복을 통해 혁신적 결과를 도출하는 창의적 문제 해결하는 상향식 접근 방법
# 디자인 사고 절차
- 공감
- 정의
- 아이디어화
- 프로토타입 만들기
- 테스트
# 비즈니스 모델 캔버스 기반 문제 탐색
- 문제 발굴
- 업무
- 제품 : 제품 및 서비스를 개선하기 위한 관련 주제 도출
- 고객
- 관리
- 규제 및 감사
- 지원 인프라
(4) 분석 프로젝트 관리 방안
# 분석 과제의 주요 5가지 특성 및 관리 영역
- 데이터 크기
- 데이터 복잡성
- 속도
- 분석 복잡성
- 정확도와 정밀도
: 분석의 활용 측면에서는 정확도가 중요, 모델의 안정성 측면에서는 정밀도가 중요
# 분석 프로젝트 관리방안
- 통합
- 이해관계자
- 범위
- 자원
- 시간
- 원가
- 리스크
- 품질
- 조달
- 의사소통
02. 분석 마스터플랜
(1) 마스터플랜 수립
# 데이터 분석 과제 우선순위 고려 요소
- 전략적 중요도 및 목표 가치
- 비즈니스 성과 및 ROI
- 실행 용이성
# 데이터 분석 과제 적용 범위/방식 고려 요소
- 업무 내재화 적용 수준
- 분석 데이터 적용 수준
- 기술 적용 수준
# 우선순위 평가 기준
- 시급성
- 전략적 중요도와 목표 가치에 부합하는지에 따른 시급성이 가장 중요한 기준
- 시급성의 판단 기준은 전략적 중요도
- 비즈니스 효과 - 가치
- 난이도
- 과제의 범위와 데이터의 적용 범위에 따라 고려
- 투자비용 요소 - 크기, 다양성, 속도
# ISP
- 기업의 경영목표 달성에 필요한 전략적 주요 정보를 확인하고, 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출함, 이를 수행하기 위한 전략 및 실행 계획을 수행하는 전사적인 종합 추진 계획
- 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜 수립하는 절차
(2) 분석 거버넌스 체계 수립
# 분석 거버넌스 체계 구성요소
조직 | 분석 기획 및 관리 수행 조직 |
프로세스 | 과제 기획 및 운영 프로세스 |
시스템 | 분석 관련 IT 시스템 및 프로그램 |
데이터 | 데이터 거버넌스 |
인적 자원 | 분석 관련 교육 및 마인드 육성 체계 |
# 분석 업무 파악
- 발생한 사실
- 예측
- 시뮬레이션
- 최적화 분석
- 분석업무 정기적 개선
# 데이터 분석 준비도 프레임워크
- 분석업무 파악
- 인력 및 조직
- 분석기법
- 분석 데이터
- 분석 문화
- IT 인프라
# CMMI
- 정의
: 소프트웨어공학에서 소프트웨어 개발 및 전신장비 운영 업체들이 업무 능력 및 조직의 성숙도에 대한 평가를 하기 위한 모델 - 단계
- 도입
- 활용 : 전문 담당 부서에서 수행, 분석기법 도입, 미래 결과 예측
- 확산 : 분석 CoE 조직 운영, 빅데이터 관리 환경, 시뮬레이션, 최적화, 비주얼 분석
- 최적화 단계
# CoE 분석 전문가 조직
: 구성원들이 비즈니스 역량, IT 역량 및 분석 역량을 고루 갖추어야 하며, 협업 부서 및 IT 부서와의 지속적인 커뮤니케이션을 수행하는 조직 내 분석 전문 조직
# 플랫폼
- 비즈니스 측면에서 일반적으로 '공동 활용의 목적으로 구축된 유무형의 구조물'
- 단순한 분석 응용프로그램뿐만 아니라 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템 의미
- 일반적으로 하드웨어에 탑재되어서 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공하는 역할
# 협의의 분석 플랫폼
- 데이터처리 프레임워크
- 분석 엔진
- 분석 라이브러리
# 데이터 거버넌스
- 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 활동
- 관리 대상 : 마스터 데이터, 메타 데이터, 데이터 사전
# 데이터 거버넌스 구성요소
- 원칙
- 조직
- 프로세스
# 데이터 거버넌스 체계
데이터 표준화 | 데이터 표준 용어 설정, 명명 규칙, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성 |
데이터 관리 체계 | 메타 데이터와 데이터 사전의 관리 원칙 수립 |
데이터 저장소 관리 | 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성 |
표준화 활동 | 데이터 거버넌스 체계 구축 이후 표준 준수 여부를 주기적으로 점검 및 모니터링 시행 |
# 빅데이터 거버넌스
: 데이터 거버넌스의 체계에 빅데이터의 효율적인 관리, 다양한 데이터의 관리체계, 데이터 최적화, 정보보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자 지정
# 분석 조직구조
- 집중 구조
- 전사 분석업무를 별도의 분석 전담 조직에서 담당
- 전략적 중요도에 따라 분석 조직이 우선순위를 정해서 진행 가능
- 현업 업무부서의 분석업무와 중복 및 이원화 가능성이 큼
- 기능 구조
- 일반적인 형태로 별도 분석 조직이 없고 해당 부서에서 분석 수행
- 전사적 핵심 분석이 어려우며 과거에 국한된 분석 수행
# 분석 관제 관리 프로세스
- 과제 발굴 단계
- 과제 수행 및 모니터링
: 팀 구성 후 분석 과제 실행, 분석 과제 진행 관리와 과제 결과를 공유하고 개선하는 절차 수행
3. 데이터 분석
01. R 기초와 데이터 마트
(1) R 기초
# 벡터
- R에서 벡터는 하나 이상의 스칼라 원소들을 갖는 집합
- 문자형이 아닌 벡터를 합칠 때 문자형 벡터가 포함되면 합쳐지는 벡터는 문자형 벡터형이 됨
(2) 데이터 마트
(3) 결측값 처리와 이상값 검색
# 이상값 검색 활용 응용 시스템
: 부정사용 방지 시스템