본문 바로가기

Machine learning

정보란 무엇인가, 정보 이론 [1]

21세기는 흔히 '정보화' 시대고, 우리는 수많은 '정보' 들에 휩싸여 살아가고 있다고 표현한다. 그렇다면 이 추상적인 '정보' 라는 단어는 도데체 무엇을 의미하는가?

정보란 무엇인가.

정보(情報, 영어: information, info, info.)는 컴퓨터공학에서 특정 목적을 위하여 광(光) 또는 전자적 방식으로 처리되어 부호, 문자, 음성, 음향 및 영상 등을 표현하는 모든 종류의 자료 또는 지식을 말한다.
  • 정보란 특정 목적을 가지고 잘 정리를 한 자료 혹은 지식을 의미한다.
  • 우리는 수많은 특정 목적을 가지고 잘 정리한 자료 혹은 지식에 휩싸여 살아가고 있다.
  • 우리는 정보를 주고 받는 표현을 쓴다.
  • 특히 컴퓨터 혹은 핸드폰을 통한 무언가를 할 때, 이러한 표현을 많이 사용한다.
  • 또한 빠르게 정보를 주고 받는다는 표현을 한다. 정보를 빠르게 보낸다는것이 뭘까?
  • 정보의 빠르기를 측정 하기 위해서는 "정보" 라는것이 정량화 되어 정보의 양을 측정 할 수 있어야 할 것 같다.

Quantity of information, 정보량

  • 정보라는것을 수량화하여 표현 할 수 는 없을까?
  • 정보이론에서 정보량이란 '놀람의 정도' 를 의미한다.
  • '놀람' 이란건 무엇일까. 놀라는것과 '정보'와 무슨 관계가 있는걸까
  • 예를 들어보자.
    • 출퇴근을 하는 직장인 / 학생이라 생각해보자. 출퇴근길에 우리는 보통 핸드폰을 보며 별 생각없이 대중교통을 이용하여 목적지에 도착한다.
    • 본 글을 읽을때 오늘의 출퇴근길에 대해 생각해보자. 별 기억이 나지 않을 것 이다.
    • 퇴근을 하다가 지하철에 지갑을 놓고 내렸다고 생각해보자.
    • 나는 실제로 그런적이 있었는데 핸드폰으로 카카오택시 결제해서 겨우 집에왔고 경찰정 웹페이지에서 분실물 신고가 들어왔나 밤늦게까지 확인했다.
  • 지갑을 잃어버려서 많이 놀랐다. 아직까지 그때 상황이 기억이 난다.
  • 우리는 일상적이지 않은 상황에서 놀람을 느끼고 기억에 오래 남는다.
  • 놀람이 클 때 정보가 크다고 한다. 일상적인, 식상한 정보는 정보량이 작다. 지갑을 잃어버린것은 정보량이 굉장히 크다.
  • 이러한 정보량을 수치적으로, 확률적으로 표현한 이론을 정보이론이라 한다.

정보 이론

정보 이론(情報理論)은 최대한 많은 데이터를 매체에 저장하거나 채널을 통해 통신하기 위해 데이터를 정량화하는 응용 수학의 한 분야이다. 데이터의 단위인 정보 엔트로피는 보통 저장 또는 통신에 사용되는 평균적인 비트 수로 표현된다.
  • 정보 이론은 최대한 많은 정보를 저장 / 통신하기 위해 '정보' 라는것을 정량화 하는 응용 수학의 한 분야이다.
  • 단위는 '엔트로피' 라는것을 사용한다.
  • 엔트로피라는것이 상당히 익숙한 단어일텐데 우리가 아는 그 엔트로피의 개념이 맞다.
  • 놀람이 클수록 (정보가 많을 수록) 불확실성이 커서 엔트로피가 크고, 놀람이 작을수록 (정보가 작을수록) 불확실성이 작아 엔트로피가 작다.
  • 엔트로피라는 단위는 '비트'로 표현되는데 이는 일반적으로 정보를 저장 / 통신하는 전자기기의 데이터는 2진수로 이루어져있기 때문이다.

다시 Quantity of information, 정보량

  • 정보 이론은 최대한 많은 정보를 저장 / 통신하기 위한 이론이다. 이를 한번 더 상기하고 수식적으로 예를 들어보겠다.
  • 구글에서 동전 던지기를 치고, 위와같이 이를 5번 실행시켜보자. link
  • 이제 내가 당신이 던진 동전들의 조합을 맞춰보겠다. 이를 위해 당신이 다음의 질문에 답을 해줘야 한다.
    • 첫번째 동전이 앞인가?
    • 두번째 동전이 앞인가?
    • 두번째 동전이 앞인가?
    • 세번째 동전이 앞인가?
    • 네번째 동전이 앞인가?
    • 다섯번째 동전이 앞인가?
  • 당신의 동전 조합을 맞추기 위해서는 총 5번의 질문이 필요하다.
  • 5개의 동전이 가능한 경우의 수는 32고, 나는 5번의 질문을 했다. 하나의 동전이 가능한 경우의 수는 2이다.
  • 동전을 던진 횟수만큼의 질문을 하게되면, N번의 동전을 던지더라도 나는 결과를 알 수 있다.
  • $2^{질문의\ 횟수} = 가능한\ 결과의\ 경우의\ 수$, 이는 다음과 같이 다시 표현 할 수 있다.
  • $질문의\ 횟수 = log_{2}{가능한\ 결과의\ 경우의\ 수}$
  • [1] 에서 더 잘 설명해주고 있으니 참고하면 좋을 것 같다.

Shannon Entropy, 섀넌 엔트로피

그전에 또다시 정보량...

  • 위와 같은 내용을 정립한것이 정보이론이고, 정보이론에서의 정보량은 다음과 같이 표현된다
  • I(x)는 정보량이고, x는 발생 가능한 사건, P(x)는 그 사건이 발생 할 확률이다.

$$I(x) = -log{P(x)}$$

  • 정보량 I(x)는 발생가능한 사건 x의 확률 분포에 음의 분포를 취한 형태이다.
  • 가능한 결과의 수라는 것은 확률의 역수이므로 - 값을 붙혀준 것이다. [1] 설명 참조.
  • 따라서 동전을 던져서 나오는 정보량 $I(x) = -log{1\over2} = 1$ 이다.
  • 앞서 희박하게 발생하는것일수록 우리는 더 놀라게 되므로 정보량이 많다고 하였다.
  • 주사위를 굴려보자. 정보량 $I(x) = -log{1\over6} = 2.5849$
  • 동전은 2개의 사건만 발생 할 수 있고, 주사위는 6개의 사건이 발생가능하므로 동전보다 정보량이 많다 할 수 있다.

진짜 섀넌 엔트로피

  • 위의 식에서 로그의 밑이 2인 경우 정보량의 단위를 섀넌 혹은 비트라고 한다.

$$I(x) = -log_{2}{P(x)}$$

  • 섀넌 엔트로피는 모든 사건 정보량 (확률 분포)의 기댓값을 의미한다.
  • 걍 확률 분포의 정보량에 대한 기댓값을 구한다고 이해하면 좋을 것 같다.
  • 식으로 표현하면 섀넌 엔트로피 H(p)는 다음과 같다.

$$H(P) = H(x)= E_{X\sim P}[I(x)] = E_{X\sim P}[-log_{2}P(x)]$$

  • 사건의 분포가 결정적 (deterministic) 하면 엔트로피가 낮아진다.
    • 무언가 확정적으로 일어나는 사건의 경우 아무런 정보량이 없다.
  • 분포가 균등 할 수록 엔트로피는 높아진다.
    • 발생할 확률이 균등 할 수록 어느것이 나올지 맞추기 어렵기 때문에 높아진다.

Reference