Article 2. 다변량 데이터 탐색 2222

1 minute read

Section 2. 고급 데이터 탐색

Paragraph 1. 다변량 데이터

Subparagraph 1. 변량(Variance)의 개념

  • 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값이다.
  • 변량에는 크게 일변량, 이변량, 다변량으로 구분한다.

Subparagraph 2. 변량 데이터의 유형

일변량, 이변량, 다변량 구분은 종속변수(Y)의 수에 의해 결정된다.

유형 설명
일변량 데이터 • 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료로 단변량 자료라고도 함
이변량 데이터 • 각 단위에 대하 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료
다변량 데이터 • 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료
• 이변량 데이터도 다변량 데이터임

Paragraph 2. 변량 데이터 탐색

일변량 데이터 탐색 • 일변량 데이터 탐색 방법에는 기술 통계량, 그래프 통계량 두 가지 종류가 있음
• 기술 통계량에는 평균, 분산, 표준편차 등이 있고 그래프 통계량에는 히스토그램, 상자 그림 등이 있음
이변량 데이터 탐색 • 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측함
• 일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상임
다변량 데이터 탐 • 다변량 데이터 역시 분석을 시행하기 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료를 탐색

Paragraph 3. 다변량 데이터 탐색 도구

Subparagraph 1. 산점도 행렬

  • 두 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성을 표현한 그래프이다.
  • 산점도 행렬은 그림 행렬과 개별 Y대 개별 X행렬로 2가지 유형이 있다.

Clause 1. 그림 행렬

  • 최대 20개의 변수를 사용할 수 있으며 가능한 모든 조합의 그래프를 만들 수 있다.

  • 변수가 여러개 있을 경우 변수쌍 간의 관계를 보려면 그림 행렬을 사용하는 것이 효율적이다.

    그림 행렬

Clause 2. 개별 Y대 개별 X 산점도 행렬

y축 및 x축 변수를 사용하여 가능한 각 xy 조합의 그래프를 만든다.

산점도 행렬

Subparagraph 2. 별 그림

별 그림은 별 모양의 점을 각각의 변수에 대응되도록 한 뒤 각각의 변숫값에 비례하도록 반경을 나타내도록 하여 관찰 값을 그림으로 표시한 것이다.