목록데이터 & 통계 & 머신러닝 (3)
포스트잇

군집화(Clustering)란 주어진 데이터들간의 유사도를 측정하고, 각각의 데이터 셋을 요약하고 정리하는데 매우 효율적인 방법이다. 하지만, 유사도에 따라 군집을 형성할 뿐 정답을 보장하지는 않는다. 군집화의 또 다른 목적은 숨어있는 새로운 집단을 발견하는 것이다. 군집화는 크게 계층군집, 분할군집 크게 두가지로 구분할 수 있다. 1. 계층군집(Hierachical Clustering) 모든 데이터가 자신의 군집에서 시작하여 유사한 데이터를 하나의 군집으로 묶는다. 이 데이터가 하나의 군집으로 묶일 때까지 반복한다. 2. 분할군집(Point Assignment) 분할군집에서는 먼저 군집의 개수 K를 미리 정한후 데이터를 K개의 군집화를 한후 다시 계산하여 다시 같은 연산을 반복한다.
일반적으로 우리가 아는 변수는 수학적인 의미의 가변적인 수를 말할 수 있다. 예를들어, "변수 (x, y)에 대한 2차함수 그래프를 그려라."와 같이 사실 변수라는 단어는 우리에게 매우 친숙하다. 우리가 앞으로 다룰 데이터의 변수도 크게 의미가 변하지는 않는다. 즉, 변수란 특정 조건에 따라서 변하는 값을 말한다. 변수보다는 확률변수라는 단어에 좀 더 친숙해 질 필요가 있다. 확률 변수의 정의는 다음과 같다. 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적으로 표현하는 값을 말한다. 좀 더 쉽게 설명해서 동전을 던진다고 해보자. 동전의 앞면을 0, 뒷면을 1 이라고 했을 때, 0이 나올 확률은 1/2, 1이 나올 확률 역시 1/2이다. 이때 확률 변수를 0,1이고 두 확률변수에 대한 ..
데이터 통계에서 변수는 분석하는 기준에 따라 변수를 다르게 구분할 수 있다. 가장 먼저 데이터의 수량에 따른 구분은 질적변수와 양적변수로 나눌 수 있다. 질적변수(Qualitative Variable) : 질적변수는 범주형변수(Categorical Variable)이라고도 불리며 데이터가 특정 범주에 포함되는 변수를 말한다. 질적변수의 예로는 색깔(빨, 주, 노, 초), 혈액형(A, B, O, AB), 등과 같은 것들이 있다. 양적 변수(Quantitative Variable) : 양적변수는 변수의 값을 숫자로 나타낼 수 있는 변수를 말한다. 양적변수의 예로는 기온, 점수, 등 과같은 것들이 있다. 위와 같은 정의로 보았을때, 쉽게 이해가 되기도 하지만 정말 정확하게 두 변수를 구분지으려면 관측될 확률로..