블로그 | rapidminer

RM 블로그 이전

좀 더 많은 사람들과 소통 하기 위해 네이버 블로그로 이동합니다. http://blog.naver.com/areumict1

이는 분류 알고리즘 중에 가장 확률적이고 심플한 방법입니다. (심플한지는 좀 더 보겠습니다. ^^;) 모든 속성들간의 관계를 독립이라는 가장 순수한 가정을 가진 베이즈 정리를 기반으로 하여 조건부 확률 계산을 하고 이를 기반으로 값을 예측하게 ...

RapidMiner에는 굉장히 많은 분류 알고리즘들이 기본적으로 내장 되어 있습니다. 모든 알고리즘을 설명하기는 힘들겠지만 하나하나 포스팅 해보려 합니다. ^^; 이번 포스팅에는 Default Model 과 k-NN (k-Nearest...

좋은 성능의 모델이 실제 적용 데이터에는 좋은 성능을 내지 못하는 경우들을 볼 수 있습니다. 이유는 다양하게 존재 할 수 있습니다. 분석 데이터가 충분하지 못하든지, 적용 데이터가 분석때와는 다르다던지, 단순 프로세스 상의 에러 발생 등 예상하지...

Gartner에 이어서 미국에 유명 시장 조사 전문 기관인 Forrester에서 발표한 리포트 입니다. Predictive Analytics and Machine Learning 분야에서 RapidMiner가 Leader Group에 포함되어...

우리가 데이터를 시각화 하기 위해서 다양한 차트를 사용하게 됩니다. - 하나의 데이터 칼럼에 대한 1차원 차트 (Histogram, Line) - X-Y 형태의 좌표로 보여지게 되는 2차원 차트 (Scatter plot) - X-Y-Z 형태의...

Data Mining 에서 Validation, 즉 만든 모델에 대한 성능을 평가하는 작업은 굉장히 중요합니다. 만들어진 결과에 따라 모델을 사용 여부까지 판단할 수 있기 때문입니다. 이번 포스팅에서는 모델 검증 방법중 가장 일반적인 Split...

이상치(outlier)는 분석 해야 할 데이터의 분포에서 비 정상적인 모습을 보이는 값을 뜻 합니다. 이는 데이터를 분석함에 있어서 Bias(편향)가 발생시킬 수 있기 때문에 이를 제거 함으로서 우리는 조금 더 정확한 모델링 작업을 진행 할 수...

RapidMiner 본사 홈페이지에 게시된 빅데이터 분석에서의 여러가지 방법론과 알고리즘들을 그려낸 지도가 있어 포스팅 해 봅니다. 원본 : https://rapidminer.com/data-science-map/ 먼저 Data...

만들어진 분석 데이터에 어떤 알고리즘을 선택해야 하는 고민을 조금은 덜어 주고자 RapidMiner에서는 MOD라는 페이지를 운용하고 있습니다. https://rapidminer.com 에 접속 해서 resource - Machine...