230515 ADsP 틀린 것 모음
1. 데이터 이해
01. 데이터의 이해
(1) 데이터와 정보
# 데이터의 정의
- 개별 데이터 자체로서 의미가 중요하지 않은 객관적 사실
- 객관적 사실이라는 존재적 특성 있음
- 다른 데이터와의 상관관계 없음
- 추론과 추정의 근거를 이루는 사실
# 데이터의 유형
- 정량적 데이터 : 수치, 도형, 기호
- 정상적 데이터 : 언어, 문자
# DIKW 피라미드
- 데이터 : 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실
- 정보 : 데이터의 가공, 상관관계 간 이해를 토대로 패턴을 인식하고 그 의미 부여한 데이터 지식 도출할 때 사용하는 데이터
- 지식 : 상호 연결된 정보의 패턴 이해를 기반으로 예측한 결과물
- 지혜 : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
ex.대체로
# 데이터 비식별화 처리기법
가명 처리 | 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법 |
총계처리 | 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법 |
데이터값 삭제 | 개인정보 식별이 가능한 특정 데이터값 삭제 처리 |
범주화 | 단일 식별 정보를 해당 그룹의 대푯값으로 변환 |
데이터 마스킹 | 개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값 (공백, "*", 노이즈 등)으로 변환 |
(2) 데이터베이스의 정의와 특징
(3) 데이터베이스 활용
# 유통 부분 기업 내부 데이터베이스 솔루션
- CRM
: 고객별 구매 이력 데이터베이스 - SCM
: 공급업체 - KMS
: 인적 자원 & 개별적인 지식
# 기업 내부 데이터베이스 솔루션
- ERP
: 회사의 모든 정보뿐만 아니라, 공급망 관리, 고객의 주문정보까지 포함하여 통합적으로 관리하는 시스템
# 데이터 웨어하우스 DW
- 주제 지향적(=중심적)
- 통합적
- 시계열적
- 비휘발적
02. 데이터의 가치와 미래
(1) 빅데이터의 이해
# 빅데이터의 성공 사례
- 구글의 자동번역 시스템 ➡ 규모
(2) 빅데이터의 가치와 영향
# 빅데이터의 가치 산정이 어려운 이유
- 데이터 활용 방식의 다양화 ➡ 데이터의 재사용, 데이터의 재조합, 다목적용 데이터 개발 등
- 새로운 가치 창출
- 분석기술의 급속한 발전 ➡ 저렴한 비용
(3) 비즈니스 모델
(4) 위기 요인과 통제 방안
(5) 미래의 빅데이터
# 빅데이터 활용에 필요한 기본적인 3요소
- 데이터
- 기술
- 인력
# 빅데이터를 통한 각 분야의 변화 방향
- 데이터 : 사물인터넷, 웨어러블 단말, CCTV
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트, 알고리즈미스트
03. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
(1) 빅데이터 분석과 전략 인사이트
# 전략 인사이트 일차적인 분석
운송업 | 일정 관리, 노선 배정, 수익관리 |
소매업 | 판촉, 매대 관리, 수요예측, 재고 보충, 가격 및 제조 최적화 |
에너지 | 트레이딩, 공급 및 수요예측 |
(2) 전략 인사이트 도출을 위한 필요 역량
# 데이터 사이언티스트의 요구 역량
- 소프트 스킬
: 다분야 간 협력, 통찰력 있는 분석, 설득력 있는 전달 - 하드 스킬
: 분석기술에 대한 숙련, 빅데이터 관련 이론적 지식
# 데이터 사이언티스트에게 요구되는 역량
- 소프트 스킬
: 스토리텔링 - 하드 스킬
: 데이터 엔지니어링, 머신 러닝, 고성능 컴퓨터
# 분석으로 다룰 수 있는 핵심 질문
과거 | 현재 | 미래 | |
정보 | 리포팅(보고서) | 경고 | 추출 |
통찰력 | 모델링, 실험 설계 | 권고 | 예측, 최적화, 시뮬레이션 |
# 데이터 사이언스의 구성요소
IT 영역 | 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 분산 컴퓨팅 |
분석 영역 | 수학, 머신러닝, 확률 모델, 분석학 |
비즈니스 컨설팅 영역 | 커뮤니케이션, 프레젠테이션, 시각화, 스토리텔링 |
(3) 빅데이터 그리고 데이터 사이언스의 미래
# 데이터의 양을 측정하는 크기 단위
: KB ➡ MB ➡ GB ➡ TB ➡ PB ➡ EB ➡ ZB ➡ YB
2. 데이터 분석 기획
01. 데이터 분석 기획의 이해
(1) 분석 기획 방향성 도출
# 대상별 분석 기획 유형
분석의 대상 What | |||
Known | Un-Known | ||
분석의 방법 How |
Known | 최적화 | 통찰력 |
Un-Known | 솔루션 | 발견 |
# 분석 기획 시 고려 사항
- 가용 데이터
- 적절한 유스케이스
- 분석 과제수행을 위한 장애 요소
(2) 분석 방법론
# 데이터 분석 방법론의 구성요소
- 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
# 프레이밍 효과
: 기업의 합리적인 의사결정을 저해하는 장애 요소 중의 하나이며, 동일한 사건이나 상황임에도 불구하고 문제의 표현 방식에 따라 개인의 판단이나 선택이 달라질 수 있는 현상
# 프로토타입 모델
- 신속하게 해결책 모형 제시
- 시행착오를 통한 문제 해결을 위해 사용하는 방법
- 상향식 접근 방식
- 가설을 생성하고 프로토타입을 보고 완성시킨 결과물을 통해 가설 확인 가능
# DRISP-DM 분석 방법론의 분석 절차
- 업무 이해
: 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수리 - 데이터 이해
: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 - 데이터 준비
: 분석용 데이터 세트 선택, 데이터 정제, 분석용 데이터 세트 편성, 데이터 통합, 데이터 포맷팅 - 모델링
: 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 - 평가
: 분석 결과 평가, 모델링 과정 평가, 모델 적용셩 평가 - 전개
: 전개 계획 수립, 모네터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
# 빅데이터 분석 방법론
: 분석 기획 ➡ 데이터 준비 ➡ 데이터 분석 ➡ 시스템 구현 ➡ 평가 및 전개
# 빅데이터 분석 방법론의 분석 기획 단계 절차
: 비즈니스 이해 및 범위 설정 ➡ 프로젝트 정의 및 계획 수립 ➡ 프로젝트 위험 계획 수립
# 프로젝트 위험 대응 방법
- 회피
- 전가
- 완화
- 수용
# 모델링
: 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군 집 등의 기능을 수행하는 모델을 만드는 과정
(3) 분석 과제 발굴
# 거시적 관점 분석 모델
- 사회
- 기술
- 경제
- 환경
- 정치
# 시장의 니즈 탐색 관점 분석 모델
- 고객
- 채널
- 영향자
# 상향식 접근 방식
: 문제 정의 자체가 어려워 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속해서 개선하는 분석 과제 발굴 방식
# 하향식 접근 방식을 통한 분석 과제 발굴 절차
- 문제 탐색
- 문제 정의
- 해결 방안 탐색
- 타당성 검토
- 선택
# 디자인 사고
: 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 확산적 사고와 주어진 상황에 대한 제일 나은 방법을 찾는 수렴적 사고의 반복을 통해 혁신적 결과를 도출하는 창의적 문제 해결하는 상향식 접근 방법
# 디자인 사고 절차
- 공감
- 정의
- 아이디어화
- 프로토타입 만들기
- 테스트
# 비즈니스 모델 캔버스 기반 문제 탐색
- 문제 발굴
- 업무
- 제품
- 고객
- 관리
- 규제 및 감사
- 지원 인프라
(4) 분석 프로젝트 관리 방안
# 분석 과제의 주요 5가지 특성 및 관리 영역
- 데이터 크기
- 데이터 복잡성
- 속도
- 분석 복잡성
- 정확도와 정밀도
: 분석의 활용 측면에서는 정확도가 중요, 모델의 안정성 측면에서는 정밀도가 중요
# 분석 프로젝트 관리방안
- 통합
- 이해관계자
- 범위
- 자원
- 시간
- 원가
- 리스크
- 품질
- 조달
- 의사소통
02. 분석 마스터플랜
(1) 마스터플랜 수립
# 데이터 분석 과제 우선순위 고려 요소
- 전략적 중요도 및 목표 가치
- 비즈니스 성과 및 ROI
- 실행 용이성
# 데이터 분석 과제 적용 범위/방식 고려 요소
- 업무 내재화 적용 수준
- 분석 데이터 적용 수준
- 기술 적용 수준
# 우선순위 평가 기준
- 시급성
- 전략적 중요도와 목표 가치에 부합하는지에 따른 시급성이 가장 중요한 기준
- 시급성의 판단 기준은 전략적 중요도
- 비즈니스 효과 - 가치
- 난이도
- 과제의 범위와 데이터의 적용 범위에 따라 고려
- 투자비용 요소 - 크기, 다양성, 속도
# ISP
- 기업의 경영목표 달성에 필요한 전략적 주요 정보를 확인하고, 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출함, 이를 수행하기 위한 전략 및 실행 계획을 수행하는 전사적인 종합 추진 계획
- 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜 수립하는 절차
(2) 분석 거버넌스 체계 수립
# 분석 거버넌스 체계 구성요소
조직 | 분석 기획 및 관리 수행 조직 |
프로세스 | 과제 기획 및 운영 프로세스 |
시스템 | 분석 관련 IT 시스템 및 프로그램 |
데이터 | 데이터 거버넌스 |
인적 자원 | 분석 관련 교육 및 마인드 육성 체계 |
# 분석 업무 파악
- 발생한 사실
- 예측
- 시뮬레이션
- 최적화 분석
- 분석업무 정기적 개선
# 데이터 분석 준비도 프레임워크
- 분석업무 파악
- 인력 및 조직
- 분석기법
- 분석 데이터
- 분석 문화
- IT 인프라
# CMMI
- 정의
: 소프트웨어공학에서 소프트웨어 개발 및 전신장비 운영 업체들이 업무 능력 및 조직의 성숙도에 대한 평가를 하기 위한 모델 - 단계
- 도입
- 활용
- 확산
- 최적화 단계
# CoE 분석 전문가 조직
: 구성원들이 비즈니스 역량, IT 역량 및 분석 역량을 고루 갖추어야 하며, 협업 부서 및 IT 부서와의 지속적인 커뮤니케이션을 수행하는 조직 내 분석 전문 조직
# 플랫폼
- 비즈니스 측면에서 일반적으로 '공동 활용의 목적으로 구축된 유무형의 구조물'
- 단순한 분석 응용프로그램뿐만 아니라 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템 의미
- 일반적으로 하드웨어에 탑재되어서 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공하는 역할
# 협의의 분석 플랫폼
- 데이터처리 프레임워크
- 분석 엔진
- 분석 라이브러리
# 데이터 거버넌스
- 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 활동
- 관리 대상 : 마스터 데이터, 메타 데이터, 데이터 사전
# 데이터 거버넌스 체계
데이터 표준화 | 데이터 표준 용어 설정, 명명 규칙, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성 |
데이터 관리 체계 | 메타 데이터와 데이터 사전의 관리 원칙 수립 |
데이터 저장소 관리 | 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성 |
표준화 활동 | 데이터 거버넌스 체계 구축 이후 표준 준수 여부를 주기적으로 점검 및 모니터링 시행 |
# 빅데이터 거버넌스
: 데이터 거버넌스의 체계에 빅데이터의 효율적인 관리, 다양한 데이터의 관리체계, 데이터 최적화, 정보보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자 지정
# 분석 조직구조
- 집중 구조
- 전사 분석업무를 별도의 분석 전담 조직에서 담당
- 전략적 중요도에 따라 분석 조직이 우선순위를 정해서 진행 가능
- 현업 업무부서의 분석업무와 중복 및 이원화 가능성이 큼
- 기능 구조
- 일반적인 형태로 별도 분석 조직이 없고 해당 부서에서 분석 수행
- 전사적 핵심 분석이 어려우며 과거에 국한된 분석 수행
# 분석 관제 관리 프로세스
- 과제 발굴 단계
- 과제 수행 및 모니터링
: 팀 구성 후 분석 과제 실행, 분석 과제 진행 관리와 과제 결과를 공유하고 개선하는 절차 수행
3. 데이터 분석
01. R 기초와 데이터 마트
(1) R 기초
(2) 데이터 마트
(3) 결측값 처리와 이상값 검색
# 이상값 검색 방법
- ESD
- 평균으로부터 표준편차의 k배보다 떨어진 값을 이상값으로 판별
- k는 일반적으로 3
- 이상값에 민감 - 기하평균
- 표준편차의 2.5배보다 떨어져 있는 값을 이상값으로 판별 - 사분위수
- 제 1사분위, 제 3사분위를 기준으로 사분위수 범위의 1.5배보다 떨어져 있는 값을 이상값으로 판단
- 박스 플롯 이용
- 이상값을 반드시 제거해야 하는 것은 아니므로 이상값을 처리할지는 분석의 목적에 따라 적절한 판단 필요
- 중위수를 이용하므로 이상값에 민감 - 3-Sigma
- 평균으로부터 표준편차의 3배보다 떨어진 값을 이상값으로 판별
# 이상값 검색 활용 응용 시스템
: 부정사용 방지 시스템
02. 통계 분석
(1) 통계 분석
# 표본추출
- 단순 무작위 추출
- 계통 추출
- 단순 무작위 추출법의 변형된 방식
- 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 n개의 표본 선택 - 층화 추출
- 모집단의 성격에 따라 몇 개의 집단 또는 층으로 나누고 각 집단 내에 원하는 크기의 표본을 무작위로 추출하는 표본추출 - 군집 추출(= 집락 추출)
# 이산확률분포
- 포아송 분포
: 단위 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포 - 베르누이 분포
: 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 확률분포 - 이항분포
: n번 시행 중에 각 시행의 확률이 p일 때, k 번 성공할 확률분포
# 왜도 관련
- 왜도 = 0
- 좌우대칭
- 최빈수 = 중위수 = 평균
- 왜도 > 0
- 우측으로 긴 꼬리 (= 오른쪽 꼬리가 긴 분포)
- 최빈수 < 중위수 < 평균
- 왜도 < 0
- 좌측으로 긴 꼬리(= 왼쪽 꼬리가 긴 분포)
- 최빈수 > 중위수 > 평균
# 자료 측정 척도 종류
- 명목 척도: 기호나 숫자 부여
ex. 성별, 혈액형, 지역 번호, 이메일 주소 - 순서 척도 / 서열 척도 / 순위 척도 : 순서만 의미 있고, 수치의 크기나 차이는 의미 없음
ex. 순위, 서열 - 등간 척도 / 구간 척도 / 간격 척도 / 거리 척도 : 동일 간격화로 크기 간의 차이 비교
ex. 온도, 지능 점수 - 비율 척도 : 균등 간격에 절대 영점(0)이 있고, 비율 계산 가능
ex. 금액, 거리, 무게, 시간, 나이, 소득, 강수량
# 통계적 가설 검정
- 제 1종 오류 : 귀무가설이 참인데도 기각함
- 제 2종 오류 : 귀무가설이 참이 아닌데도 귀무가설 채택
- 기각역 : 귀무가설을 기각시키는 검정통계량의 범위
- 유의 확률 : 귀무가설이 맞는다는 가정하에 표본 통계량보다 더 극단적인 결과가 관측될 확률
# 통계 검정 방법의 종류
구분 | 모수 통계 | 비모수 통계 |
단일 표본 검정 | 단일 표본 T-검정 | 부호 검정 월콕슨 부호 순위 검정 |
두 표본 검정 | 독립 표본 T-검정 | 윌콕슨 순위 합 검정 |
대응 표본 T-검정 | 부호 검정 윌콕슨 부호 순위 검정 |
|
분산 분석 | ANOVA | 크루스칼-왈리스 검정 |
상관 분석 | 피어슨 상관계수 | 스피어만 순위 상관계수 |
무작위성 | - | 런 검정 |
# 월콕슨 부호 순위 검정 기법
: 두 표본 이상일 경우
↔ 두 개의 샘플(사람)을 서로 비교하는 것은 독립 표본 t-검정
(2) 기초 통계 분석
# 회귀 분석 가정
- 선형성
- 독립성
- 등분산성
- 비상관성
- 정상성(=정규성)
: 잔차항이 정규분포의 형태를 이뤄야 한다
# 사분위수 범위
: 자료들의 중간 50%에 흩어진 정도를 나타내는 통계량
# 변수 선택을 위한 알고리즘 유형
- 전진 선택법
- 모형을 가장 많이 향상시키는 변수를 하나씩 점진적으로 추가
- 비어 있는 상태에서 시작
- 변수 추가 시 선택기준이 향상되지 않을 때는 변수 추가 중단
- 후진 제거법
- 모두 포함된 상태에서 시작
- 가장 적은 영향을 주는 변수부터 하나씩 제거
- summary 함수 결과에서는 p-값이 가장 큰 변수부터 제거
- 더 이상 제거할 변수가 없다고 판단될 때 변수의 제거 중단
- 단계적 방법
- 전진 선택법과 후진 제거법을 함께 사용
🔎 변수 선택은 step 함수 사용 or direction 옵션으로 선택
(3) 다변량 분석
# 상관 분석
- 두 변수 간의 관계 정도를 알아보는 분석 방법
- 인과 관계는 알 수 없음
# 변수의 속성에 따른 분류
- 스피어만 상관계수 : 순서적 데이터 (서열 척도)
- 피어슨 상관계수 : 수치적 데이터 (등간 척도, 비율 척도)
- 카이제곱 검정 : 명목적 데이터 (명목척도)
# 스피어만 상관계수
- 두 변수 간의 선형적인 관계&비선형적인 관계 나타낼 수 있음
- 순서적 데이터
- 한 변수를 단조 증가 함수로 변환하여 다른 변수를 나타낼 수 있는 정도를 나타냄
# 공분산
- 측정 단위에 영향을 받음
➡ 이를 표준화해서 -1~1로 바꾸어주는 것이 상관계수
# 상관계수
- 상관계수만으로 통계적 유의성 알 수 없음
# 분석 기법
- 주성분 분석
- 다변량 자료 분석에 이용하는 독립변수를 분석에 이용
- 변수의 중요도 기준 : 고윳값
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환
- 수학적으로 직교 선형 변환으로 정의
- 목적 중 하나는 데이터를 이해하기 위한 차원 축소
- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 젼수들을 요약, 축소하는 기법
(4) 시계열 예측
# 정상성 개념
- 시점에 상관없이 시계열의 특성이 일정
- 시계열 분석을 위해서는 정상성 만족
# 정상성 조건
- 평균 일정
- 분산이 시점에 의존하지 않음
- 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않음
# 정상 시계열
- 데이터의 어떤 구간에서도 평균값과 분산이 일정
# 시계열 구성요소
- 추세 : 자료가 어떤 특정한 형태
- 계절 : 고정된 주기에 따라 자료 변화
- 순환 : 알려지지 않은 주기를 가지고 자료 변화
- 불규칙
# 차분
: 시계열 분석을 위해서는 정상성을 만족해야 하는데, 자료가 추세를 보일 때에는 현시점의 자료에서 이전 시점의 자료를 빼는 방법을 통해 비정상 시계열을 정상 시계열로 바꾸어줌
# 시계열 모형
- 자기 회귀 모형
- 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있는 모형
- 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ..., p차 등을 사용하나 정상 시계열 모형에서는 주로 1,2차를 사용
- 이동 평균 모형
- 주기나 불규칙성을 가지고 있는 시계열 데이터의 특성을 토대로 과거의 몇 개 관측치를 평균하여 전반적인 추세를 파악하는 방법
- 지수평활법
- 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법
- 자기 회귀 누적 이동 평균 모형
- 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드를 분석하는 기법
# 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
# 시계열 분석
- 잡음에 대한 원인을 알 수 없음
- 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석
- 시계열 분석을 위해서는 정상성을 만족해야 함
- 시계열 분해는 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 분해 시계열
- 시계열 자료는 시간의 흐름에 따라 관측되는 자료이므로 대체로 독립적이지 않음
- 대부분의 시계열 자료는 비정상 시계열 자료이므로 정상 시계열로 만든 후 시계열 분석 함
- 시간 그래프를 통해 나타나는 추세와 계절성을 차분을 이용해 제거하여 정상 시계열로 변환
# ARIMA(p, d, q)
- p : AR 모형과 관련이 있는 차수
- d : ARIMA에서 ARMA로 정상화할 떄 차분 횟수
- q : MA 모형과 관련이 있는 차수
03. 정형 데이터 마이닝
(1) 데이터 마이닝 개요
# 데이터 마이닝의 기능
분류 | - 새롭게 발생한 현상을 검토 후, 기존의 분류 및 정의된 집합에 배정 - 의사결정나무 |
추정 | - 주어진 데이터를 이용하여 알려지지 않은 연속된 결과의 값 추정 - 신경망 모델 |
예측 | - 미래의 양상 예측 또는 미래의 값 추정한다는 것을 제외하면 분류나 추정과 같은 의미 - 장바구니 분석, 의사결정나무, 신경망 모형 |
연관 분석 | - '같이 팔리는 물건'과 같은 아이템의 연관성 파악 - 소매점에서 물건 배열계획, 카탈로그 배열 및 교차 판매 등의 마케팅 계획 수립에 적용 가능 - 장바구니 분석 |
군집 | - 이질적인 모집단을 동질성을 지닌 그룹별로 세분화 - 미리 정의되어있는 기준에 의존하지 않고 다른 레코드와의 유사성에 의해 그룹화, 이질성에 의해 세분화 - 데이터 마이닝이나 모델링의 준비 단계로서 주로 사용 |
기술 | - 사람 및 상품에 대한 이해를 증가시키기 위해 데이터가 가지고 있는 의미를 설명하고, 설명에 대한 답 제공 |
(2) 분류 분석
# 상관분석
- 스피어만 상관계수로 두 변수 간의 비선형 관계를 확인할 수 있음
- 두 변수의 상관관계를 연구할 때 상관계수만으로 해석하면 문제가 됨
- 상관계수는 선형성, 등분산성이라는 가정을 만족시켜야 함
# 의사결정나무
- 선형성, 정규성 또는 등분산성 등의 가정을 필요로 하지 않는 비모수적 모형
- 가지치기 : 과대적합 방지
- 정지 규칙 : 더이상 트리가 분리되지 않게 하기 위한 규칙
# 의사결정나무 분류 기준
- 지니 지수의 값이 작을수록 순수도가 높음
- 지니 지수는 이진 분류로 나눌 때 사용
- 엔트로피 지수의 값이 클수록 순수도가 낮음
- 카이제곱 통계량의 p-값이 작을수록 자식 노드 간의 이질성이 큼
# 앙상블 모형
- 정의 : 여러 개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
- 특징
- 이상값에 대한 대응력 높음
- 다양한 모형 간의 상호 연관성이 높을수록 정확도 떨어짐
- 전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있음
- 정확한 현상의 원인 분석에는 적합하지 않음
- 부스팅 : 분류가 잘못된 분류기에 더 큰 가중치를 부여하여 표본을 추출하는 방법을 사용하여 표본 추출
- 배깅 : 원 데이터 집하븡로부터 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대한 분류기를 생성한 후 그 결과를 앙상블하는 방법
# 검증용 데이터
: 구축된 모형의 과대 적합 또는 과소 적합 등에 대한 미세 조정 절차를 위해 사용되는 데이터
# 유의성 검정 방법
- 로지스틱 회귀 모형 : 카이제곱 검정
- 선형 회귀 분석 : F-검정
# 과대 적합
: 제한된 훈련 데이터 세트에 너무 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상
# 인공신경망
- 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델
- 입력값을 받아서 출력값을 만들기 위해 활성화 함수 사용
# 분류 분석 모형의 성과 평가 방법
- 향상도 곡선
: 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 등급별로 파악하는 그래프
# 혼동 행렬을 통한 분류 모형의 평가지표
정확도 | 실제 분류 범주를 정확하게 예측한 비율 |
오차 비율 | 실제 분류 범주를 잘못 분류한 비율 오차 비율 = 1 - 정확도 |
참 긍정률 = 재현율 = 민감도 |
실제로 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측한 비율 |
특이도 | 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측한 비율 |
거짓 긍정률 | 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측한 비율 |
정밀도 | '긍정'으로 예측한 비율 중에서 실제로 '긍정'인 비율 |
(3) 군집 분석
# 군집 분석
- 데이터에 분류의 기준이 없는 비지도 학습 방법
- 신뢰성과 타당성 점검 어려움
- 비 계층적 군집 분석의 경우 사용자가 사전 지식 없이 그룹의 수를 정해주는 일이 많아서 결과가 잘 나오지 않을 수 있음
- 계층적 군집 분석은 이상값에 민감
- 안전성 검토하지 않음
# 계층적 군집 분석
- 군집의 개수를 미리 정하지 않고 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
# 연속형 변수 거리
구분 | 종류 | 설명 |
수학적 거리 | 유클리드 거리 | 두 점을 잇는 가장 짧은 직선 거리 |
맨하탄 거리 | 두 점 간 차의 절댓값 합 | |
민코프스키 거리 | m차원 민코프스키 공간의 거리 | |
통계적 거리 | 표준화 거리 | 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산 |
마할라노비스 거리 | 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적 거리 |
# k-평균 군집
- 군집의 수는 분석자가 미리 정해줘야 하는 초매개변수
- 초깃값 선택이 최종 군집 선택에 영향을 미침
- 계층적 군집의 결과가 덴드로그램의 형태로 표현
- 비계층적 군집
- 각 군집 내의 자료들의 평균을 계산하여 군집의 중심 갱신
- 계층적 군집 분석에 비해 많은 양의 데이터 처리 가능
- 잡음이나 이상값에 민감하게 반응
- 집단 내 제곱 합 그래프 : 군집 수를 정하는 데 활용할 수 있는 그래프
# 실루엣 지수
- 군집 분석의 품질을 정량적으로 평가하는 대표적인 지수
- 군집 내의 데이터 응집도와 군집 간 분리도를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가짐
- 군집 내의 거리와 군집 간의 거리를 기준으로 한 클러스터 안의 데이터들이 다른 클러스터와 비교해서 얼마나 비슷한가를 나타내어 군집 분할의 성과를 나타내는 군집모형의 평가 기준
# 혼합 분포 군집
: 여러 분포를 확률적으로 선형 결합하여 데이터가 k개의 모수적 모형의 가중 합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 자료로부터 모수와 가중치를 추정하는 방법
# EM 알고리즘
- E - 단계 : 잠재변수 Z의 기대치 계산
- M - 단계 : 잠재변수 Z의 기대치를 이용하여 파라미터를 추정
# 밀도기반 기법
- 임의적인 모형을 군집으로 탐색할 때 가장 효과적인 군집 분석 방법
- 데이터가 많은 지역을 중심으로 클러스터를 구성
# SOM 프로세스
- 코호넨에 의해 제시
- 비지도 학습 기법
- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 클러스터링 방법
- 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하는 학습 과정을 거치면서 연결 강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
- 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현
- 입력변수의 위치 관계를 그대로 보존하여 입력변수의 정보와 그들의 관계가 지도상에 그대로 나타남
- BMU : 입력 벡터와 경쟁층 노드 간의 유클리드 거리르 계산하여 그중에서 제일 가까운 뉴런
(4) 연관 분석
# 연관분석 특징
- 조건반응으로 표현되는 연관 분석의 결과를 이해하기 쉬움
- 비목적성 분석기법
- 너무 세분화된 품목은 의미 없는 결과 도출
- 분석 계산 간편
# 아프리오리 알고리즘
- 연관 분성을 수행하기 위해 빈발 아이템 집합과 연관규칙이라고 하는 두 가지 형태로 표현
- 분석 대상이 되는 항목의 대상을 최소화하여 연관성 도출을 효율화한 연관 분석 알고리즘
- 최소 지지도보다 큰 지지도 값을 갖는 빈발항목 집합에 대해서만 연관 규칙 계산
- FP- Growth