R (30) 썸네일형 리스트형 서포트 벡터 머신 ■ 서포트 벡터 머신(330p) 3차원을 초평면 기법으로 분류하는 머신러닝 아래의 검정돌과 하얀돌을 잘 분리하고 있는 선이 어디 입니까? 답: 빨간색선 아래에서 좀 더 여유있게 분류를 하고 있는 선은 B1 입니까? 답: B1 이 좀 더 여유있게 분류를 하고 있다. 이 둘 사이의 거리를 마진(margin) 이라고 한다. 이 선은 단순히 생긴 선이 아니고, 수학적으로 계산이 되어서 이루어진 선이다. 이 선을 분리선이라고 부르고 초평면(hyperplane) 이라고 부르기도 한다. 위에서 분리를 하고 있는 그림은 2차원 그림이고 3차원 그림으로 다시 나타내면 아래와 같다. 평면 사이의 경계가 margin 이다. 수직으로 관통하는 선 w 를 벡터(방향+힘) 라고 한다. W : 가중치 b : 바이어스 X : 입력 .. 특화된 머신러닝 주제 ■ 특화된 머신러닝 주제 1. 소셜 네트워크 분석 시각화 2. 병렬처리로 데이터 분석 속도는 높이는 방법 ■ 소셜 네트워크 분석 시각화 (p523) 네트워크 분석? 사람이나 사물, 조직, 기술, 자원들의 연결관계 속에서 핵심적인 기능을 담당하는 행위주체를 판별/발굴하고 보다 효과적인 인력/자원 활용 및 조직화 방안을 분석하는 기법 ░ 네트워크 분석이 활용되는 분야 1. 생물 유전학의 유전자 데이터 시각화 ( 암 연구센터 ) 2. 사회망 관계 시각화 ( 사회과학 ) 3. 금융 사기 예방 *실습예제 학생들의 교류 패턴을 연구하고자 한다. 누가 누구와 주로 이야기를 하고 식사를 하고 전화를 할까? 한번도 얘기를 안 하는 사람도 있을 것이고 자주 얘기를 하는 사람도 있을 것인데 누가 가장 사회성이 좋을까? 질문.. 랜덤포레스트 ■ 랜덤 포레스트(p 493) random forest 는 "decision tree" 와 "bagging" 을 결합한 알고리즘 ■ Bagging 484p 부트스트랩 집계 bootstrap aggregating의 약자. "샘플을 여러 번 뽑아 각 모델을 학습시켜 결과를 집계 하는 방법" 다른 앙상블 기반의 방법들과 비교해서 랜덤 포레스트는 매우 경쟁력이 있고 사용하기 쉽고 쉽게 과적합 되지 않는다. 장점 단점 모든 문제에 대해 잘 수행되는 다목적 모델이다 의사결정 트리 같지 않게 모델 해석이 쉽지 않다 범주형 또는 연속 특징 뿐 아니라 잡음이 있는 데이터나 누락 데이터 (결측치)를 다룰 수 있다 모델을 데이터에 맞춰 튜닝하려면 약간의 작업이 필요할 수 있다 가장 중요한 특징만을 선택한다 극도로 큰 개수의.. 모델성능개선 부스팅, 앙상블,배깅 ■ 앙상블 481p "동일한 학습 알고리즘을 사용해서 여러모델을 학습하는 개념" "Weak learners 를 결합하면 single learner 보다 더 나은 성능을 얻음" 결합함수를 사용하고 최종 예측을 결정하기 위해 과반수 의결을 사용하거나 각 모델의 표vote 에 과거 성능을 기반으로 가중치를 부여하는 것과 같은 좀 더 복잡한 전략을 사용할 수 있다. ■ Bagging 484p 부트스트랩 집계 bootstrap aggregating의 약자. "샘플을 여러 번 뽑아 각 모델을 학습시켜 결과를 집계 하는 방법" 모델의 예측은(분류를 위한) 투표와 또는 (수치 예측을 위한) 평균화를 이용해서 결합한다 C5.0 에서 trials 가 Bagging 역할 한것이다. nbagg 파라미터는 앙상블에서 투표할 수.. 모델 성능개선 ■ 모델성능개선 caret 은 표에 있는 옵션에 대해서 자동 튜닝을 지원한다. 1. caret 패키지를 이용한 모델 파라미터 자동 튜닝 2. 앙상블 기법 bagging boosting ■ 정확도를 올리기 위한 방법에 대한 질문 3가지 (p468) 1. 데이터에 대해 어떤 종류의 머신러닝 모델을 사용할 것인가? 예: 독버섯 데이터의 경우 나이브베이즈 보다 규칙기반 리퍼 알고리즘이 더 정확도가 높았다. 정확도 독버섯: 나이브베이즈 < 리퍼 알고리즘 2. 해당 모델에 대해서 파라미터 튜닝은 어떻게 할 것인가? 예: knn 의 k값 파라미터 해결방법? caret 패키지의 자동 파라미터 튜닝 기법을 사용 규칙기반, 의사결정트리 등 여러 모델을 사용해보았고, winnow(선별하다) 로 TRUE, FALSE 예측 t.. 모델 성능평가 ■ 모델 성능평가 1. 혼돈행렬을 사용한 성능 척도 2. 카파 통계량 3. 민감도와 특이도 4. 정밀도와 재현률 5. F 척도 6. 성능 트레이드 오프 시각화(Roc 곡선) 7. 홀드아웃 ■ 모델 성능 평가가 중요한 이유가 무엇인가? 머신러닝(학생)이 수행한 결과(분류, 예측)에 대한 공정한 평가를 통해 머신러닝(학생)이 앞으로도 미래의 데이터에 대해서 잘 분류하고 예측할 수 있도록 해주고 분류결과가 요행수로 맞힌게 아니다라는 것을 확신하게 해주며 분류결과를 좀 더 일반화 할 수 있기 때문이다. ■ 정확도는 무엇인가? 학습자가 맞거나 틀린 경우의 비율을 나타낸다. 정확도: (TP+TN )/TP+TN+FN+FP = 100 에서 FP+FN을 뺀 값 또는 "TRUE/전체" ■ 모델 성능 평가를 위해 정확도만으.. 연관규칙 ■ 연관규칙 353p -쿠팡의 물류센터 예 *연관규칙? 분유와 맥주와의 관계를 알아낸 대표적인 기계학습 방법 *관련된 알고리즘 ---> Apriori 알고리즘 *Apriori 알고리즘? 간단한 성능 측정치를 이용해 거대한 DB에서 데이터간의 연관성을 찾는 알고리즘 *Apriori 알고리즘은 어떤 데이터의 패턴을 찾을 때 유용한가? 1) 암데이터에서 빈번히 발생하는 DNA 패턴과 단백질의 서열을 검색할 때 2) 사기성 신용카드 및 보험의 이용과 결합되어 발생하는 구매 또는 의료비 청구의 패턴 발견 *연관규칙을 사람이 하기 어려운 이유가 무엇인가?(356p) 아이템의 집합을 아이템의 갯수만큼 만들려면 아이템의 갯수를 k라고 하면 2의 k승 개의 아이템 집합이 생성되는데 아이템이 100개면 2의 100승 개의.. k-means ■ k-means 군집화 K-means 군집화 이론 수업 K-menas 군집화 실습1 (국영수 점수) K-means 군집화 실습2 (소셜 미이더에 같은 성향을 갖는 사람들을 분류) *머신러닝의 종류 3가지 지도학습 : 분류: 의사결정트리, 나이브베이즈, knn 회귀: 다중 회귀분석 비지도 학습: k-means ---> 정답라벨 없이 기계학습 시키는 학습방법 3. 강화학습 ■ 1. k-means 군집화 이론 수업 *k 평균 군집화 알고리즘 이란? (페이퍼21번) K-평균 알고리즘은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 자율학습의 일종으로 라벨이 달려있지않은 입력 데이터에 라벨을 달아주는 역할을 수행한다. *컴퓨터.. 이전 1 2 3 4 다음