카테고리 없음

230515 ADsP 틀린 것 모음

오리는짹짹 2023. 5. 15. 20:36

1. 데이터 이해

01. 데이터의 이해

(1) 데이터와 정보

# 데이터의 정의

  • 개별 데이터 자체로서 의미가 중요하지 않은 객관적 사실
  • 객관적 사실이라는 존재적 특성 있음
  • 다른 데이터와의 상관관계 없음
  • 추론과 추정의 근거를 이루는 사실

# 데이터의 유형

  • 정량적 데이터 : 수치, 도형, 기호
  • 정상적 데이터 : 언어, 문자

# DIKW 피라미드

  • 데이터 : 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실
  • 정보 : 데이터의 가공, 상관관계 간 이해를 토대로 패턴을 인식하고 그 의미 부여한 데이터 지식 도출할 때 사용하는 데이터
  • 지식 : 상호 연결된 정보의 패턴 이해를 기반으로 예측한 결과물
  • 지혜 : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
    ex.대체로

# 데이터 비식별화 처리기법

가명 처리 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
총계처리 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법
데이터값 삭제 개인정보 식별이 가능한 특정 데이터값 삭제 처리
범주화 단일 식별 정보를 해당 그룹의 대푯값으로 변환
데이터 마스킹 개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값 (공백, "*", 노이즈 등)으로 변환

(2) 데이터베이스의 정의와 특징

(3) 데이터베이스 활용

# 유통 부분 기업 내부 데이터베이스 솔루션

  • CRM
    : 고객별 구매 이력 데이터베이스
  • SCM
    : 공급업체
  • KMS
    : 인적 자원 & 개별적인 지식

# 기업 내부 데이터베이스 솔루션

  • ERP
    : 회사의 모든 정보뿐만 아니라, 공급망 관리, 고객의 주문정보까지 포함하여 통합적으로 관리하는 시스템

# 데이터 웨어하우스 DW

  • 주제 지향적(=중심적)
  • 통합적
  • 시계열적
  • 비휘발적

02. 데이터의 가치와 미래

(1) 빅데이터의 이해

# 빅데이터의 성공 사례

  • 구글의 자동번역 시스템 ➡ 규모 

(2) 빅데이터의 가치와 영향

# 빅데이터의 가치 산정이 어려운 이유

  • 데이터 활용 방식의 다양화 ➡ 데이터의 재사용, 데이터의 재조합, 다목적용 데이터 개발 등
  • 새로운 가치 창출
  • 분석기술의 급속한 발전 ➡ 저렴한 비용 

(3) 비즈니스 모델

(4) 위기 요인과 통제 방안

(5) 미래의 빅데이터

# 빅데이터 활용에 필요한 기본적인 3요소

  • 데이터
  • 기술
  • 인력

# 빅데이터를 통한 각 분야의 변화 방향

  • 데이터 : 사물인터넷, 웨어러블 단말,  CCTV
  • 기술 : 진화하는 알고리즘, 인공지능
  • 인력 : 데이터 사이언티스트, 알고리즈미스트

03. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

(1) 빅데이터 분석과 전략 인사이트

# 전략 인사이트 일차적인 분석

운송업 일정 관리, 노선 배정, 수익관리
소매업 판촉, 매대 관리, 수요예측, 재고 보충, 가격 및 제조 최적화
에너지 트레이딩, 공급 및 수요예측

(2) 전략 인사이트 도출을 위한 필요 역량

# 데이터 사이언티스트의 요구 역량

  • 소프트 스킬
    : 다분야 간 협력, 통찰력 있는 분석, 설득력 있는 전달
  • 하드 스킬
    : 분석기술에 대한 숙련, 빅데이터 관련 이론적 지식

# 데이터 사이언티스트에게 요구되는 역량

  • 소프트 스킬
    : 스토리텔링
  • 하드 스킬
    : 데이터 엔지니어링, 머신 러닝, 고성능 컴퓨터

# 분석으로 다룰 수 있는 핵심 질문

  과거 현재 미래
정보 리포팅(보고서) 경고 추출
통찰력 모델링, 실험 설계 권고 예측, 최적화, 시뮬레이션

# 데이터 사이언스의 구성요소

IT 영역 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 분산 컴퓨팅
분석 영역 수학, 머신러닝, 확률 모델, 분석학
비즈니스 컨설팅 영역 커뮤니케이션, 프레젠테이션, 시각화, 스토리텔링

(3) 빅데이터 그리고 데이터 사이언스의 미래

# 데이터의 양을 측정하는 크기 단위

KB ➡ MB ➡ GB ➡ TB ➡ PB ➡ EB ➡ ZB ➡ YB

 

2. 데이터 분석 기획

01. 데이터 분석 기획의 이해

(1) 분석 기획 방향성 도출

# 대상별 분석 기획 유형

    분석의 대상 What
    Known Un-Known
분석의 방법
How
Known 최적화 통찰력
Un-Known 솔루션 발견

# 분석 기획 시 고려 사항

  • 가용 데이터
  • 적절한 유스케이스
  • 분석 과제수행을 위한 장애 요소

(2) 분석 방법론

# 데이터 분석 방법론의 구성요소

  • 절차
  • 방법
  • 도구와 기법
  • 템플릿과 산출물

# 프레이밍 효과

기업의 합리적인 의사결정을 저해하는 장애 요소 중의 하나이며, 동일한 사건이나 상황임에도 불구하고 문제의 표현 방식에 따라 개인의 판단이나 선택이 달라질 수 있는 현상

# 프로토타입 모델

  • 신속하게 해결책 모형 제시
  • 시행착오를 통한 문제 해결을 위해 사용하는 방법
  • 상향식 접근 방식
  • 가설을 생성하고 프로토타입을 보고 완성시킨 결과물을 통해 가설 확인 가능

# DRISP-DM 분석 방법론의 분석 절차

  • 업무 이해
    : 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수리
  • 데이터 이해
    : 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
  • 데이터 준비
    : 분석용 데이터 세트 선택, 데이터 정제, 분석용 데이터 세트 편성, 데이터 통합, 데이터 포맷팅
  • 모델링
    : 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
  • 평가
    : 분석 결과 평가, 모델링 과정 평가, 모델 적용셩 평가
  • 전개
    : 전개 계획 수립, 모네터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

# 빅데이터 분석 방법론

분석 기획 ➡ 데이터 준비 ➡ 데이터 분석 ➡ 시스템 구현 ➡ 평가 및 전개

 

# 빅데이터 분석 방법론의 분석 기획 단계 절차
비즈니스 이해 및 범위 설정 ➡ 프로젝트 정의 및 계획 수립 ➡ 프로젝트 위험 계획 수립

# 프로젝트 위험 대응 방법

  • 회피
  • 전가
  • 완화
  • 수용

# 모델링
: 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군 집 등의 기능을 수행하는 모델을 만드는 과정

(3) 분석 과제 발굴

# 거시적 관점 분석 모델

  • 사회
  • 기술
  • 경제
  • 환경
  • 정치

# 시장의 니즈 탐색 관점 분석 모델

  • 고객
  • 채널
  • 영향자

# 상향식 접근 방식
: 문제 정의 자체가 어려워 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속해서 개선하는 분석 과제 발굴 방식

# 하향식 접근 방식을 통한 분석 과제 발굴 절차

  • 문제 탐색
  • 문제 정의
  • 해결 방안 탐색
  • 타당성 검토
  • 선택

# 디자인 사고
: 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 확산적 사고와 주어진 상황에 대한 제일 나은 방법을 찾는 수렴적 사고의 반복을 통해 혁신적 결과를 도출하는 창의적 문제 해결하는 상향식 접근 방법

# 디자인 사고 절차

  • 공감
  • 정의
  • 아이디어화
  • 프로토타입 만들기
  • 테스트

# 비즈니스 모델 캔버스 기반 문제 탐색

  • 문제 발굴
    • 업무
    • 제품
    • 고객
  • 관리
    • 규제 및 감사
    • 지원 인프라

(4) 분석 프로젝트 관리 방안

# 분석 과제의 주요 5가지 특성 및 관리 영역

  • 데이터 크기
  • 데이터 복잡성
  • 속도
  • 분석 복잡성
  • 정확도와 정밀도
    : 분석의 활용 측면에서는 정확도가 중요, 모델의 안정성 측면에서는 정밀도가 중요

# 분석 프로젝트 관리방안

  • 통합
  • 이해관계자
  • 범위
  • 자원
  • 시간
  • 원가
  • 리스크
  • 품질
  • 조달
  • 의사소통

02. 분석 마스터플랜

(1) 마스터플랜 수립

# 데이터 분석 과제 우선순위 고려 요소

  • 전략적 중요도 및 목표 가치
  • 비즈니스 성과 및 ROI
  • 실행 용이성

# 데이터 분석 과제 적용 범위/방식 고려 요소

  • 업무 내재화 적용 수준
  • 분석 데이터 적용 수준
  • 기술 적용 수준

# 우선순위 평가 기준

  • 시급성
    • 전략적 중요도와 목표 가치에 부합하는지에 따른 시급성이 가장 중요한 기준
    • 시급성의 판단 기준은 전략적 중요도
    • 비즈니스 효과 - 가치
  • 난이도
    • 과제의 범위와 데이터의 적용 범위에 따라 고려
    • 투자비용 요소 - 크기, 다양성, 속도

# ISP

  • 기업의 경영목표 달성에 필요한 전략적 주요 정보를 확인하고, 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출함, 이를 수행하기 위한 전략 및 실행 계획을 수행하는 전사적인 종합 추진 계획
  • 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜 수립하는 절차

(2) 분석 거버넌스 체계 수립

# 분석 거버넌스 체계 구성요소

조직 분석 기획 및 관리 수행 조직
프로세스 과제 기획 및 운영 프로세스
시스템 분석 관련 IT 시스템 및 프로그램
데이터 데이터 거버넌스
인적 자원 분석 관련 교육 및 마인드 육성 체계

# 분석 업무 파악

  • 발생한 사실
  • 예측
  • 시뮬레이션
  • 최적화 분석
  • 분석업무 정기적 개선

# 데이터 분석 준비도 프레임워크

  • 분석업무 파악
  • 인력 및 조직
  • 분석기법
  • 분석 데이터
  • 분석 문화
  • IT 인프라

# CMMI

  • 정의
    : 소프트웨어공학에서 소프트웨어 개발 및 전신장비 운영 업체들이 업무 능력 및 조직의 성숙도에 대한 평가를 하기 위한 모델
  • 단계
    • 도입
    • 활용
    • 확산
    • 최적화 단계

 

# CoE 분석 전문가 조직
: 구성원들이 비즈니스 역량, IT 역량 및 분석 역량을 고루 갖추어야 하며, 협업 부서 및 IT 부서와의 지속적인 커뮤니케이션을 수행하는 조직 내 분석 전문 조직

 

# 플랫폼

  • 비즈니스 측면에서 일반적으로 '공동 활용의 목적으로 구축된 유무형의 구조물'
  • 단순한 분석 응용프로그램뿐만 아니라 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템 의미
  • 일반적으로 하드웨어에 탑재되어서 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공하는 역할

# 협의의 분석 플랫폼

  • 데이터처리 프레임워크
  • 분석 엔진
  • 분석 라이브러리

# 데이터 거버넌스

  • 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 활동
  • 관리 대상 : 마스터 데이터, 메타 데이터, 데이터 사전

# 데이터 거버넌스 체계

데이터 표준화 데이터 표준 용어 설정, 명명 규칙, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성
데이터 관리 체계 메타 데이터와 데이터 사전의 관리 원칙 수립
데이터 저장소 관리 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성
표준화 활동 데이터 거버넌스 체계 구축 이후 표준 준수 여부를 주기적으로 점검 및 모니터링 시행

# 빅데이터 거버넌스

: 데이터 거버넌스의 체계에 빅데이터의 효율적인 관리, 다양한 데이터의 관리체계, 데이터 최적화, 정보보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자 지정

 

# 분석 조직구조

  • 집중 구조
    • 전사 분석업무를 별도의 분석 전담 조직에서 담당
    • 전략적 중요도에 따라 분석 조직이 우선순위를 정해서 진행 가능
    • 현업 업무부서의 분석업무와 중복 및 이원화 가능성이 큼
  • 기능 구조
    • 일반적인 형태로 별도 분석 조직이 없고 해당 부서에서 분석 수행
    • 전사적 핵심 분석이 어려우며 과거에 국한된 분석 수행

# 분석 관제 관리 프로세스

  • 과제 발굴 단계
  • 과제 수행 및 모니터링
    : 팀 구성 후 분석 과제 실행, 분석 과제 진행 관리와 과제 결과를 공유하고 개선하는 절차 수행

3. 데이터 분석

01. R 기초와 데이터 마트

(1) R 기초

(2) 데이터 마트

(3) 결측값 처리와 이상값 검색

# 이상값 검색 방법

  • ESD
    - 평균으로부터 표준편차의 k배보다 떨어진 값을 이상값으로 판별
    - k는 일반적으로 3
    - 이상값에 민감
  • 기하평균
    - 표준편차의 2.5배보다 떨어져 있는 값을 이상값으로 판별
  • 사분위수
    - 제 1사분위, 제 3사분위를 기준으로 사분위수 범위의 1.5배보다 떨어져 있는 값을 이상값으로 판단
    - 박스 플롯 이용
    - 이상값을 반드시 제거해야 하는 것은 아니므로 이상값을 처리할지는 분석의 목적에 따라 적절한 판단 필요
    - 중위수를 이용하므로 이상값에 민감
  • 3-Sigma
    - 평균으로부터 표준편차의 3배보다 떨어진 값을 이상값으로 판별

# 이상값 검색 활용 응용 시스템
: 부정사용 방지 시스템

02. 통계 분석

(1) 통계 분석

# 표본추출

  • 단순 무작위 추출
  • 계통 추출
    - 단순 무작위 추출법의 변형된 방식
    - 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 n개의 표본 선택
  • 층화 추출
    - 모집단의 성격에 따라 몇 개의 집단 또는 층으로 나누고 각 집단 내에 원하는 크기의 표본을 무작위로 추출하는 표본추출
  • 군집 추출(= 집락 추출)

# 이산확률분포

  • 포아송 분포
    : 단위 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포
  • 베르누이 분포
    : 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 확률분포
  • 이항분포
    : n번 시행 중에 각 시행의 확률이 p일 때, k 번 성공할 확률분포

# 왜도 관련

  • 왜도 = 0
    • 좌우대칭
    • 최빈수 = 중위수 = 평균
  • 왜도 > 0 
    • 우측으로 긴 꼬리 (= 오른쪽 꼬리가 긴 분포)
    • 최빈수 < 중위수 < 평균
  • 왜도 < 0
    • 좌측으로 긴 꼬리(= 왼쪽 꼬리가 긴 분포)
    • 최빈수 > 중위수 > 평균

# 자료 측정 척도 종류

  • 명목 척도: 기호나 숫자 부여
    ex. 성별, 혈액형, 지역 번호, 이메일 주소
  • 순서 척도 / 서열 척도 / 순위 척도 : 순서만 의미 있고, 수치의 크기나 차이는 의미 없음
    ex. 순위, 서열
  • 등간 척도 / 구간 척도 / 간격 척도 / 거리 척도 : 동일 간격화로 크기 간의 차이 비교
    ex. 온도, 지능 점수
  • 비율 척도 : 균등 간격에 절대 영점(0)이 있고, 비율 계산 가능
    ex. 금액, 거리, 무게, 시간, 나이, 소득, 강수량

# 통계적 가설 검정

  • 제 1종 오류 : 귀무가설이 참인데도 기각함
  • 제 2종 오류 : 귀무가설이 참이 아닌데도 귀무가설 채택
  • 기각역 : 귀무가설을 기각시키는 검정통계량의 범위
  • 유의 확률 : 귀무가설이 맞는다는 가정하에 표본 통계량보다 더 극단적인 결과가 관측될 확률

# 통계 검정 방법의 종류

구분 모수 통계 비모수 통계
단일 표본 검정 단일 표본 T-검정 부호 검정
월콕슨 부호 순위 검정
두 표본 검정 독립 표본 T-검정 윌콕슨 순위 합 검정
대응 표본 T-검정 부호 검정
윌콕슨 부호 순위 검정
분산 분석 ANOVA 크루스칼-왈리스 검정
상관 분석 피어슨 상관계수 스피어만 순위 상관계수
무작위성 - 런 검정

# 월콕슨 부호 순위 검정 기법

: 두 표본 이상일 경우 
↔ 두 개의 샘플(사람)을 서로 비교하는 것은 독립 표본 t-검정

(2) 기초 통계 분석

# 회귀 분석 가정

  • 선형성
  • 독립성
  • 등분산성
  • 비상관성
  • 정상성(=정규성)
    : 잔차항이 정규분포의 형태를 이뤄야 한다

# 사분위수 범위

자료들의 중간 50%에 흩어진 정도를 나타내는 통계량

 

# 변수 선택을 위한 알고리즘 유형

  • 전진 선택법
    • 모형을 가장 많이 향상시키는 변수를 하나씩 점진적으로 추가
    • 비어 있는 상태에서 시작
    • 변수 추가 시 선택기준이 향상되지 않을 때는 변수 추가 중단
  • 후진 제거법
    • 모두 포함된 상태에서 시작
    • 가장 적은 영향을 주는 변수부터 하나씩 제거
    • summary 함수 결과에서는 p-값이 가장 큰 변수부터 제거
    • 더 이상 제거할 변수가 없다고 판단될 때 변수의 제거 중단
  • 단계적 방법
    • 전진 선택법과 후진 제거법을 함께 사용

🔎 변수 선택은 step 함수 사용 or direction 옵션으로 선택

 

(3) 다변량 분석

# 상관 분석

  • 두 변수 간의 관계 정도를 알아보는 분석 방법
  • 인과 관계는 알 수 없음

# 변수의 속성에 따른 분류

  • 스피어만 상관계수 : 순서적 데이터 (서열 척도)
  • 피어슨 상관계수 : 수치적 데이터 (등간 척도, 비율 척도)
  • 카이제곱 검정 : 명목적 데이터 (명목척도)

# 스피어만 상관계수

  • 두 변수 간의 선형적인 관계&비선형적인 관계 나타낼 수 있음
  • 순서적 데이터
  • 한 변수를 단조 증가 함수로 변환하여 다른 변수를 나타낼 수 있는 정도를 나타냄

# 공분산

  • 측정 단위에 영향을 받음
    ➡ 이를 표준화해서 -1~1로 바꾸어주는 것이 상관계수

# 상관계수

  • 상관계수만으로 통계적 유의성 알 수 없음

# 분석 기법

  • 주성분 분석
    • 다변량 자료 분석에 이용하는 독립변수를 분석에 이용
    • 변수의 중요도 기준 : 고윳값
    • 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환
    • 수학적으로 직교 선형 변환으로 정의
    • 목적 중 하나는 데이터를 이해하기 위한 차원 축소
    • 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 젼수들을 요약, 축소하는 기법

(4) 시계열 예측

# 정상성 개념

  • 시점에 상관없이 시계열의 특성이 일정
  • 시계열 분석을 위해서는 정상성 만족

# 정상성 조건

  • 평균 일정
  • 분산이 시점에 의존하지 않음
  • 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않음

# 정상 시계열

  • 데이터의 어떤 구간에서도 평균값과 분산이 일정

# 시계열 구성요소

  • 추세 : 자료가 어떤 특정한 형태
  • 계절 : 고정된 주기에 따라 자료 변화
  • 순환 : 알려지지 않은 주기를 가지고 자료 변화
  • 불규칙 

# 차분
: 시계열 분석을 위해서는 정상성을 만족해야 하는데, 자료가 추세를 보일 때에는 현시점의 자료에서 이전 시점의 자료를 빼는 방법을 통해 비정상 시계열을 정상 시계열로 바꾸어줌

 

# 시계열 모형

  • 자기 회귀 모형
    • 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있는 모형
    • 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ..., p차 등을 사용하나 정상 시계열 모형에서는 주로 1,2차를 사용
  • 이동 평균 모형
    • 주기나 불규칙성을 가지고 있는 시계열 데이터의 특성을 토대로 과거의 몇 개 관측치를 평균하여 전반적인 추세를 파악하는 방법
  • 지수평활법
    • 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법
  • 자기 회귀 누적 이동 평균 모형
    • 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드를 분석하는 기법

# 분해 시계열

  • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

# 시계열 분석

  • 잡음에 대한 원인을 알 수 없음
  • 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석
  • 시계열 분석을 위해서는 정상성을 만족해야 함
  • 시계열 분해는 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
  • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 분해 시계열
  • 시계열 자료는 시간의 흐름에 따라 관측되는 자료이므로 대체로 독립적이지 않음
  • 대부분의 시계열 자료는 비정상 시계열 자료이므로 정상 시계열로 만든 후 시계열 분석 함
  • 시간 그래프를 통해 나타나는 추세와 계절성을 차분을 이용해 제거하여 정상 시계열로 변환

# ARIMA(p, d, q)

  • p : AR 모형과 관련이 있는 차수
  • d : ARIMA에서 ARMA로 정상화할 떄 차분 횟수
  • q : MA 모형과 관련이 있는 차수

03. 정형 데이터 마이닝

(1) 데이터 마이닝 개요

# 데이터 마이닝의 기능

분류 - 새롭게 발생한 현상을 검토 후, 기존의 분류 및 정의된 집합에 배정
- 의사결정나무
추정 - 주어진 데이터를 이용하여 알려지지 않은 연속된 결과의 값 추정
- 신경망 모델
예측 - 미래의 양상 예측 또는 미래의 값 추정한다는 것을 제외하면 분류나 추정과 같은 의미
- 장바구니 분석, 의사결정나무, 신경망 모형
연관 분석 - '같이 팔리는 물건'과 같은 아이템의 연관성 파악
- 소매점에서 물건 배열계획, 카탈로그 배열 및 교차 판매 등의 마케팅 계획 수립에 적용 가능
- 장바구니 분석
군집 - 이질적인 모집단을 동질성을 지닌 그룹별로 세분화
- 미리 정의되어있는 기준에 의존하지 않고 다른 레코드와의 유사성에 의해 그룹화, 이질성에 의해 세분화
- 데이터 마이닝이나 모델링의 준비 단계로서 주로 사용
기술 - 사람 및 상품에 대한 이해를 증가시키기 위해 데이터가 가지고 있는 의미를 설명하고, 설명에 대한 답 제공

(2) 분류 분석

# 상관분석

  • 스피어만 상관계수로 두 변수 간의 비선형 관계를 확인할 수 있음
  • 두 변수의 상관관계를 연구할 때 상관계수만으로 해석하면 문제가 됨
  • 상관계수는 선형성, 등분산성이라는 가정을 만족시켜야 함

# 의사결정나무

  • 선형성, 정규성 또는 등분산성 등의 가정을 필요로 하지 않는 비모수적 모형
  • 가지치기 : 과대적합 방지
  • 정지 규칙 : 더이상 트리가 분리되지 않게 하기 위한 규칙

# 의사결정나무 분류 기준

  • 지니 지수의 값이 작을수록 순수도가 높음
  • 지니 지수는 이진 분류로 나눌 때 사용
  • 엔트로피 지수의 값이 클수록 순수도가 낮음
  • 카이제곱 통계량의 p-값이 작을수록 자식 노드 간의 이질성이 큼

# 앙상블 모형

  • 정의 : 여러 개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
  • 특징
    • 이상값에 대한 대응력 높음
    • 다양한 모형 간의 상호 연관성이 높을수록 정확도 떨어짐
    • 전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있음
    • 정확한 현상의 원인 분석에는 적합하지 않음
  • 부스팅 분류가 잘못된 분류기에 더 큰 가중치를 부여하여 표본을 추출하는 방법을 사용하여 표본 추출
  • 배깅 : 원 데이터 집하븡로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대한 분류기를 생성한 후 그 결과를 앙상블하는 방법

# 검증용 데이터
: 구축된 모형의 과대 적합 또는 과소 적합 등에 대한 미세 조정 절차를 위해 사용되는 데이터

 

# 유의성 검정 방법

  • 로지스틱 회귀 모형 : 카이제곱 검정
  • 선형 회귀 분석 : F-검정

# 과대 적합

제한된 훈련 데이터 세트에 너무 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상

 

# 인공신경망

  • 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델
  • 입력값을 받아서 출력값을 만들기 위해 활성화 함수 사용

# 분류 분석 모형의 성과 평가 방법

  • 향상도 곡선
    : 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 등급별로 파악하는 그래프

 

# 혼동 행렬을 통한 분류 모형의 평가지표

정확도 실제 분류 범주를 정확하게 예측한 비율
오차 비율 실제 분류 범주를 잘못 분류한 비율
오차 비율 = 1 - 정확도
참 긍정률 
= 재현율
= 민감도
실제로 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측한 비율
특이도 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측한 비율
거짓 긍정률 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측한 비율
정밀도 '긍정'으로 예측한 비율 중에서 실제로 '긍정'인 비율

(3) 군집 분석

# 군집 분석

  • 데이터에 분류의 기준이 없는 비지도 학습 방법
  • 신뢰성과 타당성 점검 어려움
  • 비 계층적 군집 분석의 경우 사용자가 사전 지식 없이 그룹의 수를 정해주는 일이 많아서 결과가 잘 나오지 않을 수 있음
  • 계층적 군집 분석은 이상값에 민감
  • 안전성 검토하지 않음

# 계층적 군집 분석

  • 군집의 개수를 미리 정하지 않고 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법

# 연속형 변수 거리

구분 종류 설명
수학적 거리 유클리드 거리 두 점을 잇는 가장 짧은 직선 거리
맨하탄 거리 두 점 간 차의 절댓값 합
민코프스키 거리 m차원 민코프스키 공간의 거리
통계적 거리 표준화 거리 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산
마할라노비스 거리 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적 거리

# k-평균 군집

  • 군집의 수는 분석자가 미리 정해줘야 하는 초매개변수
  • 초깃값 선택이 최종 군집 선택에 영향을 미침
  • 계층적 군집의 결과가 덴드로그램의 형태로 표현
  • 비계층적 군집
  • 각 군집 내의 자료들의 평균을 계산하여 군집의 중심 갱신
  • 계층적 군집 분석에 비해 많은 양의 데이터 처리 가능
  • 잡음이나 이상값에 민감하게 반응
  • 집단 내 제곱 합 그래프 : 군집 수를 정하는 데 활용할 수 있는 그래프

# 실루엣 지수

  • 군집 분석의 품질을 정량적으로 평가하는 대표적인 지수
  • 군집 내의 데이터 응집도와 군집 간 분리도를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가짐
  • 군집 내의 거리와 군집 간의 거리를 기준으로 한 클러스터 안의 데이터들이 다른 클러스터와 비교해서 얼마나 비슷한가를 나타내어 군집 분할의 성과를 나타내는 군집모형의 평가 기준

# 혼합 분포 군집

여러 분포를 확률적으로 선형 결합하여 데이터가 k개의 모수적 모형의 가중 합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 자료로부터 모수와 가중치를 추정하는 방법

 

# EM 알고리즘

  • E - 단계 : 잠재변수 Z의 기대치 계산
  • M - 단계 : 잠재변수 Z의 기대치를 이용하여 파라미터를 추정 

# 밀도기반 기법

  • 임의적인 모형을 군집으로 탐색할 때 가장 효과적인 군집 분석 방법
  • 데이터가 많은 지역을 중심으로 클러스터를 구성

 

# SOM 프로세스

  • 코호넨에 의해 제시
  • 비지도 학습 기법
  • 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 클러스터링 방법
  • 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하는 학습 과정을 거치면서 연결 강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
  • 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현
  • 입력변수의 위치 관계를 그대로 보존하여 입력변수의 정보와 그들의 관계가 지도상에 그대로 나타남
  • BMU : 입력 벡터와 경쟁층 노드 간의 유클리드 거리르 계산하여 그중에서 제일 가까운 뉴런

(4) 연관 분석

# 연관분석 특징

  • 조건반응으로 표현되는 연관 분석의 결과를 이해하기 쉬움
  • 비목적성 분석기법
  • 너무 세분화된 품목은 의미 없는 결과 도출
  • 분석 계산 간편

# 아프리오리 알고리즘

  • 연관 분성을 수행하기 위해 빈발 아이템 집합과 연관규칙이라고 하는 두 가지 형태로 표현
  • 분석 대상이 되는 항목의 대상을 최소화하여 연관성 도출을 효율화한 연관 분석 알고리즘
  • 최소 지지도보다 큰 지지도 값을 갖는 빈발항목 집합에 대해서만 연관 규칙 계산
  • FP- Growth