옛날(07) 학부수업 자료 번역본임. 

무슨 말인지는 나도 모름. 아는 사람이 댓글 ㄱㄱ


1.1 왜 통계(statistics)와 표본추출(sampling)인가? 


<통계 (statistics)>


  • 고전 통계: 데이터의 다양한 측면을 설명하기 위해 데이터에서 파생된 정량적 측정
    1. 기술 통계: 데이터 집합 내에서 값이 어떻게 분포되어 있는지 설명
    2. 추론 통계: 모집단을 추론하거나 데이터 집합을 비교
  • 공간 통계(geostatistics): 고전 통계에 기반을 두고 있지만, 공간적으로 참조되는 데이터로 작업하도록 확장


  • 데이터를 통계적으로 분석할 때 각각의 관측치가 독립적이어야 그 값이나 데이터가 의존적이지 않음 
    => 하지만 아쉽게도 수집된 데이터가 공간적으로 참조되는 사건이나 현상을 기술하기 위해 위반되는 경우가 많음. 
  • 그 외에도 특정 현상이 발생하는 경우 임의의 과정(random process) 또는 체계적인 과정(systematic process)으로 인한 것일 수 있음
  • 기본적으로 가설을 설정하고 그 가설에 대해 기각 여부를 테스트 해야함. 
  • 이 때 많은 정보나 데이터를 수집해야 함


<표본추출 (sampling)>


  • 기본적으로 전체 인구를 검사하는 대신 추가 검사를 위해 샘플을 수집
  • 조사된 각 위치는 샘플에서 관찰 또는 사례로 간주될 수 있음.
  • 이때 선택한 관측치의 표본 크기를 표본 크기라고 함
  • 다음 중 하나 이상에 해당하는 경우 불가능하거나 비현실적임
    1. 모집단이 너무 커서 완전히 열거할 수 없음
    2. 전체 모집단을 열거하는 비용이 엄청날 수 있음
    3. 연구는 빠른 처리 시간이 필요하며 전체 모집단을 연구하는 데 너무 오래 걸릴 수 있음
  • 이러한 통계가 100% 정확하지는 않음. 그러므로 정확도 수준은 표본이 모집단을 얼마나 대표하는지에 달려 있음


  • 추론: 표본에서 얻은 정보를 기반으로 모집단에 대한 결론을 도출하는 과정
    1. 하나 이상의 가설 수립
    2. 관찰을 통한 관련 자료 수집
    3. 기술 또는 테스트 통계 계산
    4. 계산된 통계를 기반으로 가설을 기각할지 여부 결정


  • 두 가지 일반적인 샘플링 방식
    1. 무작위 샘플링(Random sampling): 미리 정의된 특정 구조나 규칙 없이 모집단에서 무작위로 관측치를 선택하는 프로세스
    2. 체계적인 샘플링(Systematic sampling): 특정 원칙에 따라 개발된 특정 규칙에 따라 관찰을 선택하는 프로세스


  • 때로는 연구에서 모집단의 특정 세그먼트를 강조하고자 할 수 있음 
    1. 층화 샘플링(stratified sampling): 다른 계층 또는 그룹에 있는 개체를 사용하여 각 계층 또는 그룹 내에서 무작위 또는 체계적 샘플링을 수행


  • 공간 샘플링
    1. 무작위 샘플링 (Random sampling)
    2. 정기 샘플링 (Regular sampling)
    3. 무작위 및 정기 샘플링의 조합 (Combination of random and regular sampling)


1.2 공간 데이터(spatial data)의 특별한 점?

  • 주변 관측 또는 연구 지역 내에서 수집된 공간 데이터의 경우 이러한 데이터는 서로 관련되는 경향 존재
  • 점, 선 또는 호, 다각형의 세 가지 기하학적 기본 요소로 표현되는 지리적 현상 또는 사건임


<MAUP – 수정 가능한 면적 단위 문제>

  • 척도 효과(Scale effect): 데이터가 여러 수준의 공간 해상도로 표로 작성되거나 중첩된 계층의 여러 지리적 척도가 분석될 때 이러한 공간 해상도 또는 척도 수준에서 일관되지 않은 결과를 제공할 수 있음
  • 구역화 효과(Zoning effect): 면적 단위가 거의 비슷한 서로 다른 구역 시스템에서 파생된 데이터를 분석할 때 결과가 일치하지 않을 수 있음

<공간적 자기상관 (Spatial autocorrelation)>

  • 공간적 자기상관은 본질적으로 지리학의 본질, 지리학의 제1법칙(Tobler 1970): 모든 것이 연관되어 있지만 더 가까운 것이 더 연관되어 있음
  • 관측치가 서로 의존하는 경우, 이는 본질적으로 중복 관측치를 갖는 것과 동일하므로 자기상관 관측치 때문에 유효 표본 크기가 표본 크기보다 작음
  • 통계 분석에서 공간적 자기상관이 중요한지 판단하기 위해 간단한 지표를 사용하여 공간적 자기상관의 수준을 평가할 수 있음


1.3 공간정보와 공간분석/통계의 필요성

  • 위치
    - 절대 위치: 위도 또는 경도

  • - 상대적 위치: 다른 공간적 특징을 참고한 값
  • 얼마나 많은 고전적 통계가 사용되든, 분석에 위치 정보가 포함되지 않으면 이 두 지형의 차이를 구분할 수 없다. 즉, 공간 통계는 명시적으로 관찰의 공간적 특성을 가짐


  • GIS에서 지리적 객체
    - 공간 데이터(Spatial data): 객체의 위치 및 기하학적 형태 정의
    - 속성 데이터(Attribute data): 지리적 개체의 다양한 특성을 설명


1.4 공간 분석 및 통계의 기초

<측정 척도 (Scales of Measurement)>

  • 명목 척도(Nominal scale): 텍스트 또는 숫자 형태, 수학 연산을 수행하지 않음
  • 서수 척도(Ordinal scale): 사전 정의된 기준에 따라 순위가 매겨짐
    - 약한 순서: 약한 순서의 데이터를 사용하면 그룹 내에서가 아니라 그룹 간 관찰을 구별할 수 있음
    - 강한 순서: 특정 기준에 따라 각 관측치에 순위를 지정함
    서수 데이터에 수학 연산을 적용하는 것은 적절하지 않음
  • 간격 척도(Interval scale): 참이거나 의미 있는 0 또는 최소값 등이 없음
  • 비율 척도(Ratio scale)은 절대 영점, 거리 등을 가짐
  • 측정의 네 가지 척도는 명목 데이터(가장 낮음)에서 서수 데이터, 그리고 간격/비율 데이터(가장 높음)로 정보 세부 사항 또는 정확성 수준이 증가함
  • 이러한 척도에서 측정된 데이터의 수학적 복잡성 정도는 
    인식만 허용하는 명목 데이터에서 
    인식 및 비교를 허용하는 서수 데이터
    인식, 비교 및 차별화를 허용하는 간격/비율 데이터 순임
  • 간격/비율 데이터는 서수 데이터로, 서수 데이터는 명목 데이터로 변환 가능
  • 데이터는 더 낮은 측정 척도로 변환될 때 세부 정보를 잃습니다.

<그룹화 (Grouping)>

  • 그룹화는 많은 실제적인 이유로 필요함
  • 지도에 너무 많은 카테고리가 표시되면 사람들은 카테고리를 구분할 수 없음
  • 6개 이하의 범주가 지도에 데이터 값을 표시하는 데 적합하고 효율적인 것으로 제안되는 반면, 일부는 5~12개를 제안하고 다른 일부는 ±2 범주로 7개를 제안함
  • 너무 적은 범주는 데이터의 분포 특성을 드러내지 못하고 너무 많은 범주는 데이터에 대한 매우 상세한 분포 정보를 제공하지만 많은 수의 개별 관찰을 처리할 필요성을 피하려는 원래 목적을 무산시킬 수 있음


  • 데이터 분류의 두 가지 원칙
    1 상호 배타 Mutually exclusive
    2 집합적 배타성 Collectively exhaustive


<축척(Scale), 범위(extent,) 및 투사(projection)>

  • 축척: 지도에 표시되는 지형지물의 크기와 실제 세계에 있는 동일한 지형지물의 실제 크기 간의 비율
  • 투사: 3차원 도형을 2차원 지도로 변환
  • 피처(feature) 간의 공간적 관계 왜곡은 피할 수 없음
    - 면적 / 모양 / 방향 / 거리