네가 공분산을 아니?
0. 들어가며
통계학에서 배우는 평균, 분산, 표준편차 등과 같은 여러 공식들은 필요에 의해 외우게 된다. 하지만, 이들이 왜 만들었는지, 어떻게 만들어졌는지 답을 찾아본 적이 있는가? 막연한 추측으로 그들이 여타의 수학공식과 마찬가지로 관찰에 의해 만들어진 것들이라고 생각했다. 하지만, 정수론이나 확률론의 기본 공식들과 같이 공리라고 못 박은 것들은 자연으로부터 유래된 바꿀 수 없는 규칙과 통계학은 다르다. 수 많은 실험에 의해 찾아진 공식이라 당연하게 받아들이지만 과학적 발견이 한 번 발견되었다고 해서 절대 바뀌지 않는 것은 아니다. 그럼 이들은 어디서부터 만들어졌고 왜 이런 형태를 가지게 된 것일까? 그리고 바뀔 가능성이 있는 것일까? 라는 의문에서 출발한 포스팅이다.
오늘은 특히나 헷갈렸던 공분산의 유래와 공분산이 통계적 개념일 뿐 수학적 공리가 아닌 이유에 대해 chatgpt와 함께 알아본다.
1. numpy.cov
- numpy로 공분산을 계산하면 기본적으로 정규화를 N-1로 한다. => bias = True / ddof == bias 값
- ddof = 자유도, 기본값은 bias값을 따라가며 따로 설정하면 bias값을 덮어쓸 수 있다.
2. 유래
The accumulation of this human data allowed him to observe the correlation between forearm length and height, head width and head breadth, and head length and height. With these observations he was able to write Co-relations and their Measurements, chiefly from Anthropometric Data.[43] In this publication, Galton defined what co-relation as a phenomenon that occurs when “the variation of the one [variable] is accompanied on the average by more or less variation of the other, and in the same direction.”[44]
- 공분산은 프랜시스 골턴이 사람의 팔 가로 길이, 세로 길이, 머리 너비, 폭, 가로길이, 세로길이와 키간의 상관관계를 축적된 데이터로 추정하던 중에 발견한 개념이다.
따라서 공분산은 경험에서 얻어진 지표로 개념화되고 공식이 정해진 것은 추후 연구를 토대로 만들어진것이다. 그러므로 이는 수식에 의해 의미가 있다기 보다는 데이터에서 얻어진 측도이므로 수식으로 표현된 개념일 뿐이다.
- 통계학은 현실 세계에서 데이터와 불확실성을 다루기 위한 도구일 뿐, 그 자체로 자연의 의미를 담지 않는다. 통계에서 말하는 지표는 현상이 그렇다는 것이지 그 수식이 물리학과 같이 일어난 현상을 의미하지 않는다. 의미하는 것은 오로지 관찰된 데이터들이 그렇게 생겼다는 것이다. cf) 상대성이론은 아인슈타인이 제안한 공리와 원리를 기반으로 만들어진 물리학 이론(모델)이다. 제안된 공리와 원리는 아래와 같다.
- 등가속도 원리 : 중력과 가속도를 구별할 수 없다. (특수상대성이론) 중력이 작용하는 시스템에서 가속도로 인한 시간의 변화와 중력에 의한 시간의 변화가 동일
- 상대성원리 : 특수상대성 이론과 일반상대성 이론 모두에서 중요한 원리로, 모든 관측자가 자신의 입장에서 물리적 법칙을 동일하게 적용할 수 있으며, 모든 관측자에게 동일한 물리 법칙이 적용된다 가정.
3. (feat. 공분산이 공리가 될 수 없는 이유)
통계적 개념이 공리가 아닌 이유는 다음과 같습니다:
데이터 의존성: 통계적 개념은 주로 데이터에 의존합니다. 통계는 실제 데이터를 수집하고 분석하여 결과를 도출하는 학문입니다. 데이터가 바뀌면 통계적 결과도 바뀔 수 있습니다. 공리는 수학적으로 엄밀하게 증명되고 수정될 여지가 없는 원리나 명제를 나타내는 것이지만, 통계는 현실 세계의 불확실성과 다양성을 다루기 때문에 데이터와 상황에 따라 결과가 변할 수 있습니다.
통계적 모델링: 통계학은 데이터로부터 모델을 만들고 이를 통해 불확실성을 다루는데 사용됩니다. 이 모델링 과정에서 다양한 가정과 추정이 필요하며, 이러한 가정과 추정은 통계적 개념의 결과를 영향을 줍니다. 이러한 모델링 접근은 공리적이지 않으며, 데이터와 현실에 더 적합한 모델을 개발하는 데 중점을 둡니다.
불확실성과 변동성: 통계는 불확실성과 변동성을 다루는 학문입니다. 이러한 불확실성은 결과를 확실하게 예측하기 어렵게 만듭니다. 공리는 수학적인 논리로 증명 가능하고 변하지 않는 명제를 나타내는데 사용되지만, 통계는 불확실한 정보를 처리하고 추정하는 데 사용되므로 변동성과 불확실성이 내재된다는 특성이 있습니다.
요약하면, 통계는 현실 세계에서 데이터와 불확실성을 다루기 위한 도구이며, 이러한 특성으로 인해 공리적인 원리와는 다릅니다. 통계적 결과는 데이터와 상황에 따라 다를 수 있으며, 통계학은 이러한 불확실성을 이해하고 관리하는 방법을 제시합니다.
4. (feat. 수학적 공리의 예시 : 유클리드 기하학 공리)
수학적인 공리 중에서 가장 잘 알려진 예는 유클리드 기하학의 공리입니다. 유클리드 기하학은 평면 기하학의 기초를 제공하는데 사용되며, 그 중에서도 다음과 같은 다섯 가지 공리가 가장 잘 알려져 있습니다:
- 직선의 무한성: 어떤 두 점을 이으면 무한히 연장될 수 있는 직선이 그려진다.
- 한 점을 통과하는 직선: 어떤 두 점을 연결하면 정확히 하나의 직선이 그 점을 통과한다.
- 길이의 측정: 임의의 두 점 사이의 거리(길이)는 항상 양수이며, 두 점 사이의 짧은 거리보다 긴 거리는 더 길다.
- 직각: 두 직선이 다른 직선과 만나서 내각이 서로 90도인 경우에, 이 두 직선은 서로 수직이라고 한다.
- 평행선: 주어진 직선 위에 점 A가 있을 때, 다른 직선에서 A를 통과하는 직선 중에서 기존 직선과 정확히 한 점에서 만나는 직선이 정확히 하나 존재한다.
이러한 다섯 가지 공리는 유클리드 기하학의 기반이 되며, 평면 상의 기하학적 개념과 정리들을 증명하는 데 사용됩니다. 이러한 공리는 기하학의 엄밀한 기초를 제공하며, 다양한 수학적 결과를 유도하는 데 사용됩니다. 이런 식으로, 공리는 수학적 논리와 엄밀성을 유지하면서 다양한 수학 분야에서 사용됩니다.
5. (feat. 원리와 공리)
“원리”와 “공리”는 비슷한 개념이지만, 약간의 차이가 있습니다.
원리 (Principle): 원리는 특정 주제나 분야에서의 근본적인 이론이나 개념을 나타내는 말로 사용됩니다. 원리는 특정 분야에서의 중요한 원칙 또는 기본 개념을 의미합니다. 예를 들어, 물리학에서 “등가속도 원리”는 중력과 가속도를 구별할 수 없다는 원칙을 나타냅니다.
공리 (Axiom): 공리는 수학과 논리학에서 사용되는 개념으로, 해당 분야에서의 기본적이고 엄밀한 원리나 원칙을 나타냅니다. 공리는 해당 분야의 다른 결과와 정리를 증명하는 데 사용되며, 수정되지 않는 참인 원리로 간주됩니다. 예를 들어, 유클리드 기하학에서 “두 점을 이으면 무한히 연장될 수 있는 직선이 그려진다”는 공리가 있습니다.
따라서 원리는 특정 분야에서의 중요한 개념 또는 원칙을 나타내는 것이며, 공리는 수학적인 분야에서 엄밀한 논리적 기반을 제공하는 원리나 원칙을 나타냅니다. 공리는 해당 분야의 논리와 증명 체계의 시작점으로 사용됩니다.
6. (feat. 공리의 개념)
“공리”는 수학과 논리학에서 중요한 개념 중 하나로, 다른 명제나 정리를 증명하기 위한 기초적인 논리적 근거나 원리를 나타냅니다. 공리는 추론과 증명의 출발점으로 사용되며, 다른 수학적 개념을 정의하고 이해하는 데 필요합니다. 일반적으로 공리는 다음과 같은 특성을 갖습니다:
- 독립성: 공리는 다른 공리나 정리에서 파생되지 않으며, 독립적으로 존재합니다.
- 일반성: 공리는 특정 상황에만 해당하는 것이 아니라, 보다 일반적인 상황에 적용 가능한 원칙이어야 합니다.
- 모순성 없음: 공리는 모순이 없어야 하며, 서로 모순되는 공리들을 함께 사용하지 않아야 합니다.
수학 분야에서 가장 잘 알려진 공리 체계 중 하나는 유클리드 기하학의 공리 체계입니다. 이 공리 체계는 오래전부터 존재하며, 평면 기하학에 대한 기초를 제공합니다. 유클리드 기하학의 공리 중 하나는 “어떤 두 점을 이은 직선은 무한히 연장될 수 있다”는 것입니다. 수학에서는 다양한 분야와 개념을 정의하고 이해하기 위해 다양한 공리 체계가 사용됩니다. 이러한 공리는 각 분야의 특성에 따라 다를 수 있으며, 수학적 연구나 증명에서 중요한 역할을 합니다.