데이터 분석 공부
[ADSP 정리] (과목 1) 제 2장 데이터의 가치와 미래 본문
과목 1 데이터 이해
제 1절 빅데이터의 이해
1. 정의
- 좁은 범위의 정의 - 데이터 자체의 특성 변화에 초점
- 3V - 규모 (Volume), 형태 (Variety), 속도 (Velocity)
- 중간 범위의 정의 - 처리, 분석 기술적 변화까지 포함
- 새로운 데이터 처리, 저장, 분석 기술 및 아키텍처
- 클라우드 컴퓨팅 활용
- 넓은 관점 - 인재 조직 변화까지 포함
- Data Scientist 같은 새로운 인재 필요
- 데이터 중심 조직
- 빅데이터의 효과
- 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출
- 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
2. 출현 배경
- 1) 산업계 - 고객 데이터 축적
- 양질 전환 법칙 + 기술 -> 거대 가치 창출
- 2) 학계 - 거대 데이터 활용 과학 확산
- ex) 인간 게놈 프로젝트
- 3) 관련 기술 발전 (디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅)
- 디지털화 : 데이터의 생산, 유통, 저장의 편리성 개선
- 압축 기술 발전 -> 디지털화 비용 감소
- 저장 기술 발전 : 데이터 저장 비용 감소
- 인터넷 발전 : 인터넷의 사업모델 측면 - 광고
- 서비스 제공, 사용자 정보를 기업들에게 제공
- 사용자 로그 (log) 정보 --> 사용자 특성 정교하게 파악
- 모바일 혁명 : SNS 통한 감정 데이터 표출, 상황 (context) 정보 양산
- 클라우드 컴퓨팅 : 빅데이터 처리 비용 감소
- 클라우드 분산 병렬처리 컴퓨팅, 대용량 데이터 처리 비용을 줄임 by 맵리듀스 (MapReduce)
- 디지털화 : 데이터의 생산, 유통, 저장의 편리성 개선
3. 빅데이터 기능
- 1) 산업혁명의 석탄, 철 역할
- 제조업, 서비스 분야의 생산성 향상 -> 변화
- 2) 21세기의 원유
- 정보 제공 -> 산업 전반 생산성 향상, 새로운 범주의 산업 o
- 3) 렌즈 역할
- ex) 구글 'Ngram Viewer' - 'The United States' is vs. are
- 수천만권의 책을 디지털화, 빅데이터 서비스 제공
- ex) 구글 'Ngram Viewer' - 'The United States' is vs. are
- 4) 플랫폼 역할
- 비즈니스) 플랫폼 = '공동 활용의 목적으로 구축된 유무형의 구조물'
- 플랫폼을 빅데이터 형태로 제공
- 수집된 데이터를 가공, 처리, 저장 -> 데이터에 접근할 수 있는 API (Application Program Interface) 공개
- 서드파티 사업자들은 필요한 정보 활용
4. 빅데이터가 만들어 내는 본질적인 변화
- 1) 사전 처리 -> 사후 처리
- 정보 관리 시스템의 능력 넘어서는 정보량 다루기 -> 사전 처리 (pre-processing)
- 필요한 정보만 수집, 효율성, 세세한 정보 수집 포기
- 사후 처리 (post-processing) : 가능한 많은 데이터 모으고, 다양한 방식으로 조합해 숨은 정보 찾기
- 정보 관리 시스템의 능력 넘어서는 정보량 다루기 -> 사전 처리 (pre-processing)
- 2) 표본조사 -> 전수 조사
- 기존에는 표본조사 (sampling) : 적은 데이터로 풍부한 결과 확정 목표
- 기본적으로 분석하고자 하는 바를 정하고 필요한 정보 수집, 질문 바뀌면 데이터 다시 수집해야 -> 융통성 떨어짐
- 빅데이터 시대) 데이터 수집 비용 거의 X, 클라우드 컴퓨팅 기술 발전으로 데이터 처리 비용 감소, 거대한 데이터 다룰 통계 도구 -> 전수 조사
- 샘플링이 주지 못하는 패턴이나 정보 제공
- 다양한 방식으로 재가공 가능 -> 융통성 유지
- 기존에는 표본조사 (sampling) : 적은 데이터로 풍부한 결과 확정 목표
- 3) 질 -> 양
- like 새로운 변수 추가시 설명력 증가분은 하락하지만, 그 변수의 수가 무한정 증가하면 모델의 설명력 R2가 100에 수렴하는 것과 유사
- ex) 구글 자동번역 시스템 구축 : 잘 번역 + 오역 웹사이트
- 양질의 정보 > 오류 정보 --> 번역 품질을 양이 결정
- 데이터 수가 증가함에 따라 사소한 몇 개의 오류데이터가 '대세에 영향을 주지 못하는' 경향이 늘어남
- 기존 샘플링 시대) 정확, 모든 조건 충족시키는 사례만 분석 -> 상당부분 제외
- 빅데이터 시대) 제외되더라도 다른 변수에 대해서는 풍부한 정보 가짐 -> 더 많은 가치 추출 가능
- 4) 인과관계 -> 상관관계
- 기존) 이론(theory) 기초, 수집할 변인 결정, 엄격한 실험, 정제된 데이터, 정교한 이론적 틀, 분석 -> 변인 간의 인과관계 (causation)
- 데이터 획득 비용 감소 -> 샘플링 X
- 비즈니스 상황) 상관관계 분석만으로 충분, 신속한 의사결정 필요
제 2절 빅데이터의 가치와 영향
1. 빅데이터의 가치
- 빅데이터의 가치 산정은 어려움 (아래 세 가지 이유)
- 1) 데이터 활용 방식 : 재사용, 재조합 (mashup), 다목적용 개발
- 특정 데이터를 언제 어디서 누가 활용하는지 알 수 없음
- 데이터 재사용 : 1차, 2차, 3차적 목적으로 사용
- 조합 : 기본 문제 해결에 도움
- 다용도 개발 : 예) cctv - 절도범, 상품 진열 방식
- 2) 새로운 가치 창출
- 예) 아마존 킨들 - 독서 패턴 파악, 페이스북 - 행위의 예측 변수, 소셜 그래프 (social graph)
- 3) 분석 기술 발전
- 클라우드 분산 컴퓨팅 -> 저렴한 분석 비용, 활용도 증가
- 그외) 기존 사업자에게 경쟁 우위 제공 예) 구글
2. 빅데이터의 영향
- 1) 기업 : 혁신, 경쟁력 제고, 생산성 향상
- 소비자 행동 분석, 시장 변동 예측 -> 비즈니스 모델 혁신, 신사업 발굴
- 원가절감, 제품 차별화, 기업활동의 투명성 제고 등에 활용 -> 경쟁력 제고
- 기업의 운용 효율성 증가 -> 산업 전체 생산성 향상 -> GDP 상승
- 2) 정부 : 환경 탐색, 상황 분석, 미래 대응
- 사회 변화 추정, 각종 재해 정보 추출
- 분석 방식 적용, 미래 의제 도출
- 미래 의제에 대한 대응 방안 얻을 수 있음
- 3) 개인 : 목적에 따라 활용
- 아직까지 대부분 빅데이터 활용 대상의 위치에
- 빅데이터 서비스 제공 기업 출현, 비용 하락 -> 정치인, 대중 가수 등 빅데이터 활용 사례 있음
- --> 생활 전반의 스마트화
제 3절 비즈니스 모델
1. 빅데이터 활용 사례
2. 빅데이터 활용 기본 테크닉
- 1) 연관 규칙 학습 (Association rule learning)
- 어떤 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
- 예) 커피 구매, 탄산 더 많이 구매?
- 상관 관계 높은 상품 함께 진열, 시스템 로그 데이터 분석하여 침입자 색출
- 2) 유형 분석 (Classification tree analysis)
- '이 사용자는 어떤 특성을 가진 집단에 속하는가?'
- 새로운 사건이 속하게 될 범주 찾아내는 일
- 기존 자료 바탕으로 훈련용 분류틀 있어야
- 조직을 그룹으로 나누기, 온라인 수강생 특성에 따라 분류
- 3) 유전 알고리즘 (Genetic algorithms)
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등 같은 메커니즘을 통해 점진적으로 진화 (evolve) 시켜 나가는 방법
- 예) 응급실에 의사 어떻게 배치하는 것이 효율적? 연료 효율적 차 개발 위해 어떻게 원자재와 엔지니어링 결합?
- 4) 기계 학습 (Machine Learning)
- 데이터 통해 학습할 수 있는 소프트웨어 포함
- 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'하는 일에 초점
- 예) 기존 시청 기록 바탕으로 영화 추천, 스팸 메일 필터, 추천 서비스
- 5) 회귀 분석 (Regression analysis)
- 독립변수 조작, 종속변수가 어떻게 변하는지? -> 두 변인의 관계 파악
- 예) 구매자의 나이가 차량 타입에 어떤 영향? 이웃과 그 규모가 집값에 어떤 영향?
- 6) 감정 분석 (Sentiment analysis)
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정 분석
- 예) 소셜미디어에 나타는 의견 바탕으로 고객이 원하는 것을 찾아내기
- 7) 소셜 네트워크 분석 (Social network analysis)
- 오피니언 리더 (opinion leader - 영향력 있는 사람) 찾아내기, 고객들 간의 소셜 관계 파악
- 예) 특정인과 다른 사람이 몇 촌의 관계?
제 4절 위기 요인과 통제 방안
1. 위기 요인
- 1) 사생활침해
- M2M (Machine to Machine) 시대 -> 정보 수집 센서 수 증가, 개인 정보의 가치 증가
- 본래 목적 외 가공처리, 2차, 3차적 목적으로 활용 가능성 증가 -> 사회, 경제적 위협
- sol) 익명화 (anonymization) 기술 발전, 충분 X
- 정부의 정부 수집
- 2) 책임 원칙 훼손
- 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 수도
- 지금) 행동한 결과에 책임 -> 빅데이터) 예측 알고리즘, 사회 정의와 연결
- 3) 데이터 오용
- 활용자가 데이터 과신
- 잘못된 지표 사용 예) 구글 검색 알고리즘, 시장 퇴출
2. 통제 방안
- 1) 동의에서 책임으로
- 사용자 정보는 1차적 외, 2차, 3차적 목적으로 가공, 유통, 활용
- 매번 동의는 비효율적, 불가능
- '개인정보 사용자의 책임'으로
- 2) 결과 기반 책임 원칙 고수
- 예측 자료에 의한 불이익 당할 가능성 최소화 장치 마련
- 3) 알고리즘 접근 허용
- 접근권 보장
- 객관적 인증방안 도입 의견 제시
- '알고리즈미스트 (algorithmist')
제 5절 미래의 빅데이터
- 1) 데이터 : 모든 것의 데이터화 (Datafication)
- 사물인터넷 (Internet of Things, IOT) 시대
- 각종 센서들을 통한 데이터 수집
- 기존 기업의 비즈니스 모델 전환 : 제조업 -> 서비스업
- 2) 기술 : 진화하는 알고리즘, 인공지능 (Artificial Intelligence, AI)
- 데이터 양 증가 -> 정확도 증가
- M2M, IOT 확산 -> 데이터 생산량 증가 -> 효율성 향상
- 스스로 학습하는 인공지능 기술 -> 빅데이터 처리에 필수적
- 3) 인력 : 데이터 사이언티스트, 알고리즈미스트 (Algorithmist)
- 데이터 사이언티스트 : 빅데이터에 대한 이론적 지식과 숙련된 분석 기술 바탕 -> 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력
- 빅데이터의 다각적 분석 -> 인사이트 도출
- 조직의 전략 방향 제시 -> 기획자, 전문가 역할
- 조직 내부의 빅데이터 가치 실현
- 알고리즈미스트 : 데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막음
- 비즈니스 전반 이해 필요
- 데이터 사이언티스트 : 빅데이터에 대한 이론적 지식과 숙련된 분석 기술 바탕 -> 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력
'기타 > ADSP' 카테고리의 다른 글
[ADSP 정리] (과목 2) 제 1장 - 제 3절 분석 과제 발굴 (0) | 2020.01.21 |
---|---|
[ADSP 정리] (과목 2) 제 1장 - 제 2절 분석 방법론 (0) | 2020.01.21 |
[ADSP 정리] (과목 2) 제 1장 - 제 1절 분석 기획의 방향성 도출 (0) | 2020.01.21 |
[ADSP 정리] (과목 1) 제 3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2020.01.16 |
[ADSP 정리] (과목 1) 제 1장 데이터의 이해 (0) | 2020.01.14 |