21세기는 흔히 '정보화' 시대고, 우리는 수많은 '정보' 들에 휩싸여 살아가고 있다고 표현한다. 그렇다면 이 추상적인 '정보' 라는 단어는 도데체 무엇을 의미하는가?
정보란 무엇인가.
정보(情報, 영어: information, info, info.)는 컴퓨터공학에서 특정 목적을 위하여 광(光) 또는 전자적 방식으로 처리되어 부호, 문자, 음성, 음향 및 영상 등을 표현하는 모든 종류의 자료 또는 지식을 말한다.
- 정보란 특정 목적을 가지고 잘 정리를 한 자료 혹은 지식을 의미한다.
- 우리는 수많은 특정 목적을 가지고 잘 정리한 자료 혹은 지식에 휩싸여 살아가고 있다.
- 우리는 정보를 주고 받는 표현을 쓴다.
- 특히 컴퓨터 혹은 핸드폰을 통한 무언가를 할 때, 이러한 표현을 많이 사용한다.
- 또한 빠르게 정보를 주고 받는다는 표현을 한다. 정보를 빠르게 보낸다는것이 뭘까?
- 정보의 빠르기를 측정 하기 위해서는 "정보" 라는것이 정량화 되어 정보의 양을 측정 할 수 있어야 할 것 같다.
Quantity of information, 정보량
- 정보라는것을 수량화하여 표현 할 수 는 없을까?
- 정보이론에서 정보량이란 '놀람의 정도' 를 의미한다.
- '놀람' 이란건 무엇일까. 놀라는것과 '정보'와 무슨 관계가 있는걸까
- 예를 들어보자.
- 출퇴근을 하는 직장인 / 학생이라 생각해보자. 출퇴근길에 우리는 보통 핸드폰을 보며 별 생각없이 대중교통을 이용하여 목적지에 도착한다.
- 본 글을 읽을때 오늘의 출퇴근길에 대해 생각해보자. 별 기억이 나지 않을 것 이다.
- 퇴근을 하다가 지하철에 지갑을 놓고 내렸다고 생각해보자.
- 나는 실제로 그런적이 있었는데 핸드폰으로 카카오택시 결제해서 겨우 집에왔고 경찰정 웹페이지에서 분실물 신고가 들어왔나 밤늦게까지 확인했다.
- 지갑을 잃어버려서 많이 놀랐다. 아직까지 그때 상황이 기억이 난다.
- 우리는 일상적이지 않은 상황에서 놀람을 느끼고 기억에 오래 남는다.
- 놀람이 클 때 정보가 크다고 한다. 일상적인, 식상한 정보는 정보량이 작다. 지갑을 잃어버린것은 정보량이 굉장히 크다.
- 이러한 정보량을 수치적으로, 확률적으로 표현한 이론을 정보이론이라 한다.
정보 이론
정보 이론(情報理論)은 최대한 많은 데이터를 매체에 저장하거나 채널을 통해 통신하기 위해 데이터를 정량화하는 응용 수학의 한 분야이다. 데이터의 단위인 정보 엔트로피는 보통 저장 또는 통신에 사용되는 평균적인 비트 수로 표현된다.
- 정보 이론은 최대한 많은 정보를 저장 / 통신하기 위해 '정보' 라는것을 정량화 하는 응용 수학의 한 분야이다.
- 단위는 '엔트로피' 라는것을 사용한다.
- 엔트로피라는것이 상당히 익숙한 단어일텐데 우리가 아는 그 엔트로피의 개념이 맞다.
- 놀람이 클수록 (정보가 많을 수록) 불확실성이 커서 엔트로피가 크고, 놀람이 작을수록 (정보가 작을수록) 불확실성이 작아 엔트로피가 작다.
- 엔트로피라는 단위는 '비트'로 표현되는데 이는 일반적으로 정보를 저장 / 통신하는 전자기기의 데이터는 2진수로 이루어져있기 때문이다.
다시 Quantity of information, 정보량
- 정보 이론은 최대한 많은 정보를 저장 / 통신하기 위한 이론이다. 이를 한번 더 상기하고 수식적으로 예를 들어보겠다.
- 구글에서 동전 던지기를 치고, 위와같이 이를 5번 실행시켜보자. link
- 이제 내가 당신이 던진 동전들의 조합을 맞춰보겠다. 이를 위해 당신이 다음의 질문에 답을 해줘야 한다.
- 첫번째 동전이 앞인가?
- 두번째 동전이 앞인가?
- 두번째 동전이 앞인가?
- 세번째 동전이 앞인가?
- 네번째 동전이 앞인가?
- 다섯번째 동전이 앞인가?
- 당신의 동전 조합을 맞추기 위해서는 총 5번의 질문이 필요하다.
- 5개의 동전이 가능한 경우의 수는 32고, 나는 5번의 질문을 했다. 하나의 동전이 가능한 경우의 수는 2이다.
- 동전을 던진 횟수만큼의 질문을 하게되면, N번의 동전을 던지더라도 나는 결과를 알 수 있다.
- $2^{질문의\ 횟수} = 가능한\ 결과의\ 경우의\ 수$, 이는 다음과 같이 다시 표현 할 수 있다.
- $질문의\ 횟수 = log_{2}{가능한\ 결과의\ 경우의\ 수}$
- [1] 에서 더 잘 설명해주고 있으니 참고하면 좋을 것 같다.
Shannon Entropy, 섀넌 엔트로피
그전에 또다시 정보량...
- 위와 같은 내용을 정립한것이 정보이론이고, 정보이론에서의 정보량은 다음과 같이 표현된다
- I(x)는 정보량이고, x는 발생 가능한 사건, P(x)는 그 사건이 발생 할 확률이다.
$$I(x) = -log{P(x)}$$
- 정보량 I(x)는 발생가능한 사건 x의 확률 분포에 음의 분포를 취한 형태이다.
- 가능한 결과의 수라는 것은 확률의 역수이므로 - 값을 붙혀준 것이다. [1] 설명 참조.
- 따라서 동전을 던져서 나오는 정보량 $I(x) = -log{1\over2} = 1$ 이다.
- 앞서 희박하게 발생하는것일수록 우리는 더 놀라게 되므로 정보량이 많다고 하였다.
- 주사위를 굴려보자. 정보량 $I(x) = -log{1\over6} = 2.5849$
- 동전은 2개의 사건만 발생 할 수 있고, 주사위는 6개의 사건이 발생가능하므로 동전보다 정보량이 많다 할 수 있다.
진짜 섀넌 엔트로피
- 위의 식에서 로그의 밑이 2인 경우 정보량의 단위를 섀넌 혹은 비트라고 한다.
$$I(x) = -log_{2}{P(x)}$$
- 섀넌 엔트로피는 모든 사건 정보량 (확률 분포)의 기댓값을 의미한다.
- 걍 확률 분포의 정보량에 대한 기댓값을 구한다고 이해하면 좋을 것 같다.
- 식으로 표현하면 섀넌 엔트로피 H(p)는 다음과 같다.
$$H(P) = H(x)= E_{X\sim P}[I(x)] = E_{X\sim P}[-log_{2}P(x)]$$
- 사건의 분포가 결정적 (deterministic) 하면 엔트로피가 낮아진다.
- 무언가 확정적으로 일어나는 사건의 경우 아무런 정보량이 없다.
- 분포가 균등 할 수록 엔트로피는 높아진다.
- 발생할 확률이 균등 할 수록 어느것이 나올지 맞추기 어렵기 때문에 높아진다.
Reference
- [1] https://hyunw.kim/blog/2017/10/14/Entropy.html
- [2] https://ratsgo.github.io/statistics/2017/09/22/information/
- [3] https://ko.wikipedia.org/wiki/정보_이론#:~:text=정보 이론(情報理論)은,적인 비트 수로 표현된다.
'Machine learning' 카테고리의 다른 글
Entropy와 Cross entropy, 그리고 KL-divergence, 정보 이론 [2] (0) | 2021.07.27 |
---|