확률변수, 모집단과 표본, 확률분포 같은 통계 개념과 평균, 표준편차, 상관계수와 같은 기술통계량, 귀무가설과 대립가설, p값으로 설명하는 통계 검정 등 기초통계에 대한 개념을 묻는 문제가 고르게 출제됨.
section 1 = section 02 < section03 <<< section 04
Chapter02 기초통계와 통계검정
Section01 통계 개념 이해
01 데이터와 확률변수
1) 데이터 (자료)
- 관심 대상의 상태와 현황에 대해 관찰, 측정을 통해 기록/수집한 값들의 집합
- 파일이나 데이터베이스에 저장된 값
- 다양한 형식으로 존재, 일반적인 통계에서는 관측치(행), 변수(열)로 구성된 정형데이터를 활용함
- 관측치와 변수의 특성과 관계를 파악하는 게 데이터분석
- 하나의 변수나 관측치를 데이터라고도 하며 관측치의 집합이라느 ㄴ의미로 데이터셋이라고 표현하기도 함
2) 확률변수
- 확률 실험의 결과를 수치로 나타내는 변수
- 확률 실험의 모든 가능한 결과들의 집합인 표본공간(sample space)에서 실수값을 찾는 가측공간(measurable space)으로 가는 함수다
- 데이터는 실제로 존재하는 데이터지만, 확률변수는 값이 고정적이지 않고 결정되어 있지 않다.
- 확률변수는 정해지지 않아 불확실성이 있다는 의미를 가짐
02 모집단과 표본
1) 모집단 (Population)
분석 및 연구하고자 하는 전체 집단을 의미함, 수치로 표현 가능한 모집단의 특성을 모수(Parameter)라고 함
전체 데이터 크기나 대상의 개수를 모수라고 쓰는 경우가 많은데 그 이믜랑 다름. 전체 규모라고 쓰는게 좋음
2)표본 (Sample)
모집단에서 특정 방법을 통해 추출된 일부 집단을 의미함
- 통계적 추정 : 표본(데이터)로 계산한 통계량으로 모집단의 모수를 유추하고 모집단의 특성을 파악함
- 대부분의 데이터는 표본이며 분석 과정에서 데이터에서 표본을 추출하는 작업은 표본에서 다시 표본을 추출하는 것으로 재표본 추출(resampling)이라고 함
표집과 표본의 차이
- 추론 통계에서 개념적인 관점에서의 표본 // 조사 방법론에서 실제 데이터를 수집하기 위해 이뤄지는 표본 추출 (표집)
- 아무리 큰 데이터라 해도 전체 시장이나 미래의 정보를 담을 수는 없으므로 표본이라고 함
- 데이터분석을 통해 일부 대상의 정보를 파악하고 이 정보를 모집단이라고 하는 전체 관심대상으로 확장해서 일반화하는 것이 추론통계다
- 표본추출은 개념적 의미의 표본과 달리 실제로 데이터를 생성하기 위해 조사 대상을 선택하기 위한 기술적인 방법을 의미함
3)조사 방법론과 표본 추출방법
조사 방법 구분
➡️ 전수조사 (census, 총조사) : 관심 모집단 전체 개체에 대한 조사 및 데이터 수집
➡️ 표본조사 (Sample survey): 총조사 대신 일부 개체를 활용하여 데이터를 수집
- 표본조사에서는 모집단을 대표할 수 있고 편향되지 않는 표본을 효율적으로 선택하기 위해 적절한 표본을 선택하는 것이 아주 중요함
①단순랜덤추출 (simple random sampling)
모든 객체가 동일한 확률로 선택될 수 있도록 무작위로 표본을 추출하는 기초적이고 일반적인 방법
②계통 추출법(Systematic sampling)
모집단을 일정한 간격으로 나누고 첫번째 객체를 무작위로 선택한 후 일정 간격마다 표본을 추출하는 방법
③집락/군집 추출법 (cluster sampling)
모집단을 여러 집락으로 나누고 무작위로 일부 클러스터 선택한 다음, 선정된 각 클러스터에서 다시 무작위로 객체 추출함.
1- 랜덤그룹선택
2- 각 그룹 내 랜덤 선택
➡️ 그래서 특정 그룹에서 여러개 선택될 수 있음
④층화 추출법 (stratified sampling)
모집단을 서로 겹치지 않는 그룹으로 나누고, 각 그룹에서 무작위로 추출
단순 랜덤 추출을 활용할 경우 규모가 작고 비율이 낮은 특정 그룹의 객체들이 표본에 포함되지 않는 문제가 발생할 수 있는데 그 대안으로 층화 추출법으로 활용할 경우 모든 층의 특성을 고르고 정확하게 추정할 수 있다.
선거투표일 출구조사는 집락추출과 계통추출을 다단계로 구성함. 선거구별로 대표성이 높은 집락을 추출 혹은 선택 -> 조사원 수가 한정적이니까 그 중에 매 N번째 투표자 대상으로 계통 추출방법 적용
여기까지만 쓴다...기출을 보아하니 별로 의미가 없다는 생각이..
'ADsP' 카테고리의 다른 글
| [ADsP 49회 데이터분석 준전문가 응시 후기] - 49회 복원문제 (0) | 2026.05.19 |
|---|---|
| [ADsP 데이터분석 준전문가] PART 03 데이터분석 Chapter01 데이터분석 이해 (0) | 2026.04.22 |