-
01-4 평균 : 평균 그리고 연산데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 1. 12. 16:37
평균, 정확히는 모든 점수들의 합을 점수들의 수로 나눈 '산술 평균(arithmetic mean)'을 구해볼거야. 우리가 흔히 쓰는 평균이라는 용어는 산술 평균을 뜻하는데, 평균에는 산술 평균 말고도 기하 평균(geometric mean)이나 조화 평균(harmonic mean)등이 있어. 기하 평균이나 조화 평균에 대해서는 필요하면 그때가서 다시 설명해줄게! 암튼 평균을 mean이라고 한다는 것만 알고 있으면 돼.
잉?! 평균은 average가 아니었나?! 맞아. average나 mean이나 한국어로 번역하면 둘 다 평균이니까. 하지만 average는 보통 산술 평균을 의미하고, mean은 수학적 평균으로 산술 평균이나 기하 평균 혹은 조화 평균등을 의미하는 것이지. 용어를 한 번에 너무 많이 배우면 헷갈리기 마련이니 용어에 대한 정리는 배우면서 차차 해나가도록 할게!
X 변인들의 평균 또한 기호로 나타낼 수 있어.
위와 같이 쓰고 '엑스 바'라고 읽어. 하지만 X바는 컴퓨터로 입력하기가 어렵기 때문에 앞으로 텍스트로 설명할때에는 mean을 뜻하는 'm'이라고 할게.
이제 평균에 대한 기호도 익혔으니 평균을 구하는 방법을 새로 나타낼 수 있을거야.
X바는 평균을, ∑X는 X 변인들의 합을, 마지막으로 N은 X 변이들의 수를 뜻 해.
어때? 기호로 나타내니까 굉장히 간단하게 보이지? 텍스트로 나타내면
m = ∑X / N
으로 나타낼 수 있겠네. 그놈이 그놈이니 어떻게 나타내든 잘 알아줬음 좋겠어!
-
이제 파이썬 코드로 평균을 구해 볼까?
그 전에 '변수(variable)'와 '리스트(list)'에 대해서 배워볼거야. 먼저 변수를 살펴볼게. 변수는 어떤 값을 담을 수 있는 상자나 그릇 같은 것이라고 생각하면 돼. 문자나 숫자 같은 것을 변수에 담을 수 있어.
변수에 문자를 담으려면 따옴표(')로 묶어줘야 해.
그리고 파이썬 코드로는 아래와 같이 나타낼 수 있어.
a = 'apple'
중요한 것은 오른쪽에 있는 값이 왼쪽에 있는 변수에 담긴다는거야. 우리가 흔히 알고 있는 등호(=)는 왼쪽에 있는 것과 오른쪽에 있는 것이 같다는 의미이지? 하지만 프로그래밍 언어에서 등호는 '오른쪽 값이 왼쪽에 담긴다.'라는 뜻이야. 우리가 알고 있는 등호의 개념은 나중에 '비교 연산자'라는 것을 통해 배우게 될거야. 아직은 몰라도 돼!
숫자를 담을 땐 문자와 다르게 따옴표로 묶어주지 않아도 돼.
파이썬 코드로 나타낼 땐 아래와 같아.
num = 3
오른쪽에 있는 3이라는 값이 왼쪽에 있는 num이라는 변수에 담기는 것이지! 참 쉽지?
이제 변수에 조금 복잡한 값을 담아볼거야. 사실 그렇게 복잡하진 않아. 우리가 구하려는 점수치들의 개수를 세어서 넣어 볼 거거든. 손흥민 선수의 토트넘에서의 골 기록은 15시즌 부터 8, 21, 18, 20, 18, 22 이었어. 총 6개의 점수치가 있네. 점수치가 많지 않으니 눈으로도 쉽게 셀 수 있을거야. 그치?
하지만 점수치가 엄청 많아진다면 어떨까? 백 개, 천 개, 만 개.. 혹은 수 백만 개나 수 천만 개가 될 수도 있어. 점수치가 많아지면 눈으로 세는 것이 쉽지 않겠지? 그 땐 파이썬의 내장 함수인 'len()'이라는 함수를 사용하면 돼. len()은 소괄호 안에 있는 시퀀스의 개수를 알수 있도록 해주는 함수야. 이 때 시퀀스는 일련의 셀 수 있는 것들이 되어야 해. 셀 수 있는 것들에는 여러가지가 있어. 글자 수, 바이트, 리스트.. 등등..
len(일련의 셀 수 있는 것)
예를 들어서 'apple'이라는 값을 소괄호 안에 넣으면 'apple'이 총 몇 개의 글자인지 알 수 있어.
아래의 코드를 실행해 볼까?
위 코드는
1. a라는 변수에 'apple'을 담은 다음
2. n이라는 변수에 a가 몇 글자인지 담은 다음
3. n을 출력
하는 코드야. 결과로는 5가 출력되겠지?
사실 len()이라는 함수는 길이를 뜻하는 length의 줄임말이야. 시퀀스의 총 개수와 시퀀스의 길이가 같은 말이라는 것이지! len() 함수는 글자수만 셀 수 있는건 아니야. 항목들의 개수도 셀 수 있지.
이번에는 리스트(list)에 대해 배울거야. 변수는 하나의 변수에 하나의 값만 담을 수 있어. 하지만 리스트는 하나의 리스트에 여러가지 값을 담을 수 있지! 마치 변수라는 상자에 칸막이를 달아서 여러가지 값들을 넣는다고 생각하면 돼!
만약 1, 3, 5, 7이라는 값들을 하나의 리스트에 담으려면 위와 같이 그릴 수 있어. 리스트를 사용하면 손흥민 선수의 골 기록들을 하나의 리스트에 담을 수 있을거야!
파이썬에서 리스트를 사용하려면 대괄호([])를 사용하면 돼. 내가 원하는 점수치들을 쉼표(,)로 구분해서 대괄호로 묶어주기만 하면 리스트를 만들 수 있어! 만약 1, 3, 5, 7이라는 값들을 nums라는 하나의 리스트에 담으려면 아래와 같아.
nums = [1, 3, 5, 7]
어때? 참 쉽지? 이제 손흥민 선수의 골 기록들을 하나의 리스트로 묶어볼게. 손흥민 선수의 토트넘에서의 골 기록은 15시즌 부터 8, 21, 18, 20, 18, 22 이었어. 이 값들을 scores라는 리스트에 담고 싶다면 아래와 같이 나타낼 수 있어.
scores = [8, 21, 18, 20, 18, 22]
참 쉽지? 이때, 하나 하나의 값들을 항목(item)이라고 해. 8도 하나의 항목, 21도 하나의 항목, 18도 하나의 항목, 20도 하나의 항목, 18도 하나의 항목 마지막으로 22도 하나의 항목이야. 이 항목들의 개수를 알고 싶다면? 앞서 배운 len()함수를 이용하면 돼! 파이썬 코드로 구현해 볼까?
위 코드는
1. scores라는 리스트에 8, 21, 18, 20, 18, 22 항목들을 담고
2. n이라는 변수에 scores의 길이(항목들의 개수)를 담은 다음
3. n을 출력
하는 코드야. scores는 6개의 항목을 가지고 있기 때문에 6이 출력될거야. 그치?
이제 우리는 사례수가 아무리 많아도 점수치의 개수를 셀 수 있게 되었어! 야호!
어? 그럼 평균도 쉽게 구할 수 있겠네? 평균은 점수치들을 모두 합한 다음 점수치들의 개수로 나누기만 하면 되니까 말야! 점수치들을 합할 땐 sum()이라는 함수를 사용하면 됐었지? 말 나온김에 파이썬으로 평균을 구해볼까?
위 코드는
1. scores라는 리스트에 값들을 담기
2. total이라는 변수에 scores의 항목들을 다 합해서 넣기
3. n이라는 변수에 scores의 길이를 담기
4. total에서 n을 나눈 값을 출력
하는 코드야. 파이썬에서 나누기(÷)는 슬래쉬(/)로 표현 해.
점수치들을 다 더하고 개수로 나누면 평균을 구할 수 있겠지? 코드를 실행시켜 보면 17.833333333333332이라는 값이 출력되는 것을 볼 수 있어. 해냈네! 파이썬으로 평균을 구했어!
그럼 마지막으로 합의 기호를 사용한 연산에대해 알아볼게.
-
합의 기호를 사용한 연산
1. '변인에 어떤 상수를 곱한 것들의 합'은 '변인의 합에 어떤 상수를 곱한 것과 같다.'
말이 아리송해 보이네. 무슨 뜻일까? 1부터 5까지의 합은 얼마일까? 15지. 이제 1부터 5까지의 숫자에 각각 2를 곱해볼거야. 그럼 1, 2, 3, 4, 5는 2, 4, 6, 8, 10이 될거야. 그리고 2, 4, 6, 8, 10의 합은 30이 되겠지. 그치?
이번에는 순서를 반대로 해볼거야. 먼저 1부터 5까지의 합을 구한 다음 2를 곱해보는거지. 1부터 5까지의 합은 15니까 여기에 2를 곱하면 30이 되겠네?
즉, 변인에 상수를 곱해서 합하나 변인의 합에 상수를 곱하나 그놈이 그놈이라는 소리야. c가 상수이고 X가 변인이라고 하면
이렇게 나타낼 수 있어. 잊지마!
2. '어떤 상수를 N번 더한 것'과 '어떤 상수에 N을 곱한 것'은 같다.
어떻게 보면 당연한 말이긴 한데.. 1을 다섯 번 더한 것과 1에 5를 곱한 것은 당연히 같겠지? c가 상수라면 아래와 같이 나타낼 수 있어.
간단하지?
3. '다른 두 변인을 더해서 합한 것'과 '다른 두 변인의 합을 더한 것'은 같다.
이번에는 X변인 뿐만 아니라 Y변인도 있다고 해볼게. X변인들과 Y변인들을 각각 더한 다음 합을 구한 것과 X변인들의 합과 Y변인들의 합을 더한 것이나 같다는 말이야.
예를 들어볼까?
X변인들에는 1, 2, 3이 있고 Y변인들에는 4, 5, 6이 있다고 해볼게. 첫 번째 X변인인 1과 첫 번째 Y변인인 4를 더할거야. 5가 되겠네. 그 다음에는 2와 5를 더할거야. 7이지. 마지막으로 3과 6을 더하면 9가 돼. 이제 이것들을 다 합하면? 5와 7을 그리고 9를 합하면 21이 돼.
이번에는 반대로 X변인들을 다 합해줄거야. 1, 2, 3을 합하면 6이 되겠지? 그리고 Y변인들도 다 합해볼거야. 4, 5, 6을 합하면 15가 되네. 마지막으로 두 변인들의 합을 더해줄거야. 6과 15를 더하면 21이 되는거지. 각각의 변인들을 더해서 합하나, 변인들의 합을 더하나 그게 그거지? 기호로 나타내면
와 같이 나타낼 수 있어. 어렵지 않지? 마지막으로,
4. '∑X²는 제곱된 점수들의 합'이고 '(∑X)²는 점수들의 합을 제곱한 것'이다.
앞으로 제곱을 정말 많이 쓸텐데 헷갈리면 안돼. 보기엔 비슷하지만 ∑X²과 (∑X)²는 서로 다르니까 조심해야돼.
만약 X변인들이 1, 2, 3이라면 제곱된 점수들의 합은 1²(=1)과 2²(=4) 그리고 3²(=9)을 합한 값인 14가 되는 것이고, 점수들의 합을 제곱하면 1, 2, 3을 합한 9에 제곱을 해서 81이 되는 것이지. 어때? 14와 81은 엄청나게 큰 차이를 갖고있지? 숫자가 이렇게 작은데도 큰 차이를 보이고 있다면, 나중에 더 큰 숫자들로 계산해 본다면 훨씬 더 많이 차이나게 될거야.
합의 기호 시그마와 연산 방법만 알아도 되게 많은 것들을 할 수 있어! 앞으로 재미있는 계산들이 많이 기다리고 있으니 배운 내용을 적용해서 풀어볼까? 하핫!
'데이터 분석 > 파이썬으로 배우는 데이터 분석을 위한 통계학' 카테고리의 다른 글
02-2 도표와 변산성 : 분포들은 어떻게 다른가? (0) 2022.03.14 02-1 분포의 특징 : 빈도분포와 상대빈도분포 (0) 2022.03.14 01-3 시그마 : 합의 기호 ∑ (0) 2022.01.12 01-2 기술 통계와 추론 통계 : 가설 검증 (0) 2022.01.12 01-1 기술 통계학 : 왜 통계를 공부해야 하는가? (0) 2022.01.12