0518목 ADsP 틀린 것

2023. 5. 18. 14:11카테고리 없음

1. 데이터 이해

01. 데이터의 이해

(1) 데이터와 정보

# 데이터의 유형

  • 정량적 데이터 : 수치, 도형, 기호
  • 정상적 데이터 : 언어, 문자

# DIKW 피라미드

  • 데이터 : 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실
  • 정보 : 데이터의 가공, 상관관계 간 이해를 토대로 패턴을 인식하고 그 의미 부여한 데이터 지식 도출할 때 사용하는 데이터
  • 지식 : 상호 연결된 정보의 패턴 이해를 기반으로 예측한 결과물
    ex.사야겠다
  • 지혜 : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
    ex.대체로

(2) 데이터베이스의 정의와 특징

# DBMS

관계형 - 데이터 모델은 간단하여 이해하기 쉬우며 데이터의 저장 위치와 접근 방법은 DBMS가 결정
- 행과 열로 구성된 2차원 테이블에 데이터 저장
계층형 - 데이터를 레코드와 링크로 구성된 트리 형태로 표현
- 부모와 자식 노드는 일 대 다 관계로 구성
네트워크형 - 그래프 구조에 기반을 두며 레코드를 노드로, 레코드와 레코드 간의 관계는 간선으로 표현
- 레코드와 레코드 간 관계는 다 대 다 관계
객체지향형 - 복잡한 데이터 구조의 정보 모델링이 가능하고 사용자 정의 타입, 비정형 정보 타입 지원

(3) 데이터베이스 활용

# 블록체인
관리 대상이 되는 데이터를 P2P 방식 기반으로 생성된 연결된 형태의 연결고리 기반의 분산 데이터 저장 환경에 저장하여, 누구도 임의로 수정할 수 없고 누구나 변경된 결과를 열람할 수 있는 분산 컴퓨팅 기술 기반의 원장 관리 기술

 

# DW

  • 데이터베이스 시스템에서 사용자의 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 읽기 전용의 데이터베이스
  • DW에서 관리하는 데이터들은 시간의 흐름에 따른 변경을 항상 반영
  • 데이터의 일관성을 유지하면서 전사적 관점에서 하나로 통합되는 특징
  • 적재가 완료되면 읽기 전용 형태의 스냅샷 형태로 존재

# 데이터 웨어하우스 DW

  • 주제 지향적(=중심적)
  • 통합적
  • 시계열적
  • 비휘발적

# ITS

교통 부분의 사회기반 구조의 데이터베이스 솔루션

02. 데이터의 가치와 미래

(1) 빅데이터의 이해

#빅데이터 출현 배경

  • 고객 데이터 축적
  • 대량 데이터를 활용하는 과학의 확산
  • 관련 기술의 발달

# 정형 반정형 비정형

  • 정형
    • 인스타그램 게시물
    • 물류 창고 재고 데이터
    • SCM
  • 반정형
    • XML
    • HTML
    • 기상청 날씨 데이터
    • IoT에서 제공하는 센서데이터
  • 비정형
    • 이메일 전송 데이터
    • 음성 파일
    • QR 코드
    • 영상 데이터

#빅데이터의 성공 사례

  • 구글의 자동번역 시스템 ➡ 규모 

(2) 빅데이터의 가치와 영향

# 빅데이터의 가치 산정이 어려운 이유

  • 데이터 활용 방식의 다양화 ➡ 데이터의 재사용, 데이터의 재조합, 다목적용 데이터 개발 등
  • 새로운 가치 창출
  • 분석기술의 급속한 발전 ➡ 저렴한 비용 

(3) 비즈니스 모델

(4) 위기 요인과 통제 방안

# 빅데이터 위기 요인과 통제 방안

  • 사생활 침해 ➡ 동의에서 책임으로
  • 책임 원칙 훼손 ➡ 결과 기반의 책임 원칙 고수
  • 데이터 오용 ➡ 알고리즘 접근 허용

(5) 미래의 빅데이터

03. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

(1) 빅데이터 분석과 전략 인사이트

# 전략 인사이트 일차적인 분석

운송업 일정 관리, 노선 배정, 수익관리
소매업 판촉, 매대 관리, 수요예측, 재고 보충, 가격 및 제조 최적화
에너지 트레이딩, 공급 및 수요예측

(2) 전략 인사이트 도출을 위한 필요 역량

# 분석으로 다룰 수 있는 핵심 질문

  과거 현재 미래
정보 리포팅(보고서) 경고 추출
통찰력 모델링, 실험 설계 권고 예측, 최적화, 시뮬레이션

# 데이터 사이언스의 구성요소

IT 영역 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 분산 컴퓨팅
분석 영역 수학, 머신러닝, 확률 모델, 분석학
비즈니스 컨설팅 영역 커뮤니케이션, 프레젠테이션, 시각화, 스토리텔링

(3) 빅데이터 그리고 데이터 사이언스의 미래

 

2. 데이터 분석 기획

01. 데이터 분석 기획의 이해

(1) 분석 기획 방향성 도출

# 대상별 분석 기획 유형

    분석의 대상 What
    Known Un-Known
분석의 방법
How
Known 최적화 통찰력
Un-Known 솔루션 발견

# 분석 기획 시 고려 사항

  • 가용 데이터
  • 적절한 유스케이스
  • 분석 과제수행을 위한 장애 요소

(2) 분석 방법론

# 데이터 분석 방법론의 구성요소

  • 절차
  • 방법
  • 도구와 기법
  • 템플릿과 산출물

# 프로토타입 모델

  • 신속하게 해결책 모형 제시
  • 시행착오를 통한 문제 해결을 위해 사용하는 방법
  • 상향식 접근 방식
  • 가설을 생성하고 프로토타입을 보고 완성시킨 결과물을 통해 가설 확인 가능

# CRISP-DM 분석 방법론의 분석 절차

  • 업무 이해
    : 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수리
  • 데이터 이해
    : 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
  • 데이터 준비
    : 분석용 데이터 세트 선택, 데이터 정제, 분석용 데이터 세트 편성, 데이터 통합, 데이터 포맷팅
  • 모델링
    : 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
  • 평가
    : 분석 결과 평가, 모델링 과정 평가, 모델 적용셩 평가
  • 전개
    : 전개 계획 수립, 모네터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

# 빅데이터 분석 방법론

  • 분석 기획 ➡ 데이터 준비 ➡ 데이터 분석 ➡ 시스템 구현 ➡ 평가 및 전개
  • 데이터 준비 ~ 데이터 분석 : 단계 간 피드백이 반복적으로 많이 발생하는 부분

# 모델링
: 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군 집 등의 기능을 수행하는 모델을 만드는 과정

 

# 빅데이터 시스템 구현 단계

  • 시스템 설계 및 구현, 시스템 테스트 및 운영이 주로 고려 사항
  • 시스템 설계서를 바탕으로 BI 패키지를 활용하거나 새롭게 프로그램 코딩을 통하여 시스템 구축
  • 정보 보호 및 시스템 성능은 시스템 구현 단계에 해당하지 않음

(3) 분석 과제 발굴

# 분석 유스케이스

  • 현재의 비즈니스 모델 및 유사.동종사례 탐색을 통해 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기 위해 필요
  • 풀어야 할 문제에 대한 상세한 서렴ㅇ 및 해당 문제를 해결했을 때 발생하는 효과를 명시하여 데이터 분석 문제로의 전환 및 적합성 평가에 활용 가능

# 하향식 접근 방식을 통한 분석 과제 발굴 절차

  • 문제 탐색 : 분석 유스케이스 사용
  • 문제 정의 : 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
  • 해결 방안 탐색
  • 타당성 검토
  • 선택

# 디자인 사고
: 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 확산적 사고와 주어진 상황에 대한 제일 나은 방법을 찾는 수렴적 사고의 반복을 통해 혁신적 결과를 도출하는 창의적 문제 해결하는 상향식 접근 방법

# 디자인 사고 절차

  • 공감
  • 정의
  • 아이디어화
  • 프로토타입 만들기
  • 테스트

# 비즈니스 모델 캔버스 기반 문제 탐색

  • 문제 발굴
    • 업무
    • 제품 : 제품 및 서비스를 개선하기 위한 관련 주제 도출
    • 고객
  • 관리
    • 규제 및 감사
    • 지원 인프라

(4) 분석 프로젝트 관리 방안

# 분석 과제의 주요 5가지 특성 및 관리 영역

  • 데이터 크기
  • 데이터 복잡성
  • 속도
  • 분석 복잡성
  • 정확도와 정밀도
    : 분석의 활용 측면에서는 정확도가 중요, 모델의 안정성 측면에서는 정밀도가 중요

# 분석 프로젝트 관리방안

  • 통합
  • 이해관계자
  • 범위
  • 자원
  • 시간
  • 원가
  • 리스크
  • 품질
  • 조달
  • 의사소통

02. 분석 마스터플랜

(1) 마스터플랜 수립

# 데이터 분석 과제 우선순위 고려 요소

  • 전략적 중요도 및 목표 가치
  • 비즈니스 성과 및 ROI
  • 실행 용이성

# 데이터 분석 과제 적용 범위/방식 고려 요소

  • 업무 내재화 적용 수준
  • 분석 데이터 적용 수준
  • 기술 적용 수준

# 우선순위 평가 기준

  • 시급성
    • 전략적 중요도와 목표 가치에 부합하는지에 따른 시급성이 가장 중요한 기준
    • 시급성의 판단 기준은 전략적 중요도
    • 비즈니스 효과 - 가치
  • 난이도
    • 과제의 범위와 데이터의 적용 범위에 따라 고려
    • 투자비용 요소 - 크기, 다양성, 속도

# ISP

  • 기업의 경영목표 달성에 필요한 전략적 주요 정보를 확인하고, 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출함, 이를 수행하기 위한 전략 및 실행 계획을 수행하는 전사적인 종합 추진 계획
  • 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜 수립하는 절차

(2) 분석 거버넌스 체계 수립

# 분석 거버넌스 체계 구성요소

조직 분석 기획 및 관리 수행 조직
프로세스 과제 기획 및 운영 프로세스
시스템 분석 관련 IT 시스템 및 프로그램
데이터 데이터 거버넌스
인적 자원 분석 관련 교육 및 마인드 육성 체계

# 분석 업무 파악

  • 발생한 사실
  • 예측
  • 시뮬레이션
  • 최적화 분석
  • 분석업무 정기적 개선

# 데이터 분석 준비도 프레임워크

  • 분석업무 파악
  • 인력 및 조직
  • 분석기법
  • 분석 데이터
  • 분석 문화
  • IT 인프라

# CMMI

  • 정의
    : 소프트웨어공학에서 소프트웨어 개발 및 전신장비 운영 업체들이 업무 능력 및 조직의 성숙도에 대한 평가를 하기 위한 모델
  • 단계
    • 도입
    • 활용 : 전문 담당 부서에서 수행, 분석기법 도입, 미래 결과 예측
    • 확산 : 분석 CoE 조직 운영, 빅데이터 관리 환경, 시뮬레이션, 최적화, 비주얼 분석
    • 최적화 단계

 

# CoE 분석 전문가 조직
: 구성원들이 비즈니스 역량, IT 역량 및 분석 역량을 고루 갖추어야 하며, 협업 부서 및 IT 부서와의 지속적인 커뮤니케이션을 수행하는 조직 내 분석 전문 조직

 

# 플랫폼

  • 비즈니스 측면에서 일반적으로 '공동 활용의 목적으로 구축된 유무형의 구조물'
  • 단순한 분석 응용프로그램뿐만 아니라 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템 의미
  • 일반적으로 하드웨어에 탑재되어서 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공하는 역할

# 협의의 분석 플랫폼

  • 데이터처리 프레임워크
  • 분석 엔진
  • 분석 라이브러리

# 데이터 거버넌스

  • 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 활동
  • 관리 대상 : 마스터 데이터, 메타 데이터, 데이터 사전

# 데이터 거버넌스 구성요소

  • 원칙
  • 조직
  • 프로세스

# 데이터 거버넌스 체계

데이터 표준화 데이터 표준 용어 설정, 명명 규칙, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성
데이터 관리 체계 메타 데이터와 데이터 사전의 관리 원칙 수립
데이터 저장소 관리 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성
표준화 활동 데이터 거버넌스 체계 구축 이후 표준 준수 여부를 주기적으로 점검 및 모니터링 시행

# 빅데이터 거버넌스

: 데이터 거버넌스의 체계에 빅데이터의 효율적인 관리, 다양한 데이터의 관리체계, 데이터 최적화, 정보보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자 지정

 

# 분석 조직구조

  • 집중 구조
    • 전사 분석업무를 별도의 분석 전담 조직에서 담당
    • 전략적 중요도에 따라 분석 조직이 우선순위를 정해서 진행 가능
    • 현업 업무부서의 분석업무와 중복 및 이원화 가능성이 큼
  • 기능 구조
    • 일반적인 형태로 별도 분석 조직이 없고 해당 부서에서 분석 수행
    • 전사적 핵심 분석이 어려우며 과거에 국한된 분석 수행

# 분석 관제 관리 프로세스

  • 과제 발굴 단계
  • 과제 수행 및 모니터링
    : 팀 구성 후 분석 과제 실행, 분석 과제 진행 관리와 과제 결과를 공유하고 개선하는 절차 수행

 

3. 데이터 분석

01. R 기초와 데이터 마트

(1) R 기초

# 벡터

  • R에서 벡터는 하나 이상의 스칼라 원소들을 갖는 집합
  • 문자형이 아닌 벡터를 합칠 때 문자형 벡터가 포함되면 합쳐지는 벡터는 문자형 벡터형이 됨

(2) 데이터 마트

(3) 결측값 처리와 이상값 검색

# 이상값 검색 활용 응용 시스템
: 부정사용 방지 시스템