회계장부 조작은 아무나 하나? <생활속의 수학 : 벤포드법칙> enif.s.writing

여러분이 회계 장부를 조작해야하는 처지에 놓여있다고 합시다.
(네?? 지금 그일을 하고 있다구요? ㅋㅋㅋㅋㅋㅋ)

장부에 숫자를 마구마구 기입해야하는데 똑같은 숫자가 많이 나오면 괜히 찔리겠죠?
그러니 숫자를 0부터 9까지 다양하게 사용할 것입니다. 특히 첫자리는 말이죠.

예를들면 한달에 구매한 볼펜이 몇개냐? 라는항목에 대해서
매달 2, 5, 3, 7, 8, 9, 쯤을 썼다면 그 다음엔 4 또는 6을 스고 싶어지겠죠??

조지아 공대의 테오도르힐 박사는 조지아 공대에서 자신의 수학 수업시간에 학생들에게 다음과 같은 숙제를 내 주었다고 합니다.
‘동전을 2백 번 던져서 나오는 면을 순서대로 기록 하든가 아니면 2백 번 실험을 한 것처럼 데이터를 조작하여 둘 중 하나의 결과를 제출하시오.’

그럼 여러분은 처음엔 순진하게(?) 동전을 던지면서 그 결과를 기입하다가 생각을 합니다.
"내가 왜 이짓을 하고 있지?"
그리곤 동전을 던지지 않은 채 공책에다가 "앞 뒤 앞 앞 뒤 뒤 앞 뒤 앞 앞 앞" 등의 방식으로 기입하겠죠.

그런데 그렇게 장부를 조작하거나 숙제를 조작하면 대번에 걸립니다.ㅋㅋ
어떻게 그런일이 일어날까요???


조이아 공대의 힐 박사는 벤포드의 법칙 Benford's Law 이라고 알려진 수학 정리가 데이터의 조작탐지와 횡령, 탈세자 탐지 등과 같은 데에 사용될 수 있는 놀랍도록 강력한 도구라고 확신하는 일군의 수학·통계학자들 중 한 명으로, 실제 캘리포니아를 포함한 몇몇 주와 몇 개 주의 세무서에서는 벤포드의 법칙에 바탕을 둔 탐지 시스템을 운용 중이라고 합니다.


벤포드의 법칙 Benford's Law
은 제너럴일렉트릭(GE)사의 물리학자인 故(고)프랭크 벤포드 박사의 이름을 본떠 붙여진 법칙입니다. (이 회사엔 청소기나 냉장고를 만드는 사람만 있는게 아닙니다^^)
이는 1938년 로그 변환표(정석에 있던 로그변환표 기억나시나요? ㅋㅋㅋ)에서 1로 시작하는 페이지가 다른 부분들에 비해 월등히 많이 참조된 사실을 벤포드 박사가 발견하면서부터 연구가 시작되었습니다. 

그는 농구 통계, 잡지의 기사 수, ‘아메리칸 멘 오브 사이언스’지에 실린 3백42명의 주소들처럼 아주 상이한 데이터 소스들로부터 2천2백29개의 수를 선택하여 수학적인 분석을 했고, 그 결과는 상식을 벗어난 것이었죠.

모든 경우에 있어, 최고 자리 숫자(첫자리 숫자)로 1이 나타날 확률이 전체의 30%를 차지한다는 결과였습니다.


 

예를 들어 생각해봅시다. 50년동안 유가가 어떻게 오르는지 생각해볼까요?
100원에서 200원, 그리고 300원...900원까지 변한다면 1부터 9까지가 비슷한 호가률로 나올 수 있겠지만, 1000원이 된 다음엔 계속해서 앞 자리가 1이겠죠.
만약 2,3000원을 생각한다면 1만원의 입장에서 보면 같은 일이 벌어질 것이구요.

동전 던지기도 마찬가지입니다.
앞뒤가 연속적으로나오는것보다 한번씩 나오는 확률이 가장 많은건 사실이겠지만,
200번이상 여러번 시행하다보면 한번쯤은 5번이나 6번쯤 연속해서 나오는 경우가 나올 수 있다는 것이죠.
그런데 여러분은 조작한다면 앞 앞 앞 앞 앞 앞...이런 식으로 쓰시겠어요? ^^

더욱 재미있는 사실은 그 확률이 특정식으로 계산이 가능하다는 것이죠.

숫자 d 가 나타날 확률은 p(d)=log(1+1/d) 의 식으로 나타낼 수 있고 계산 결과는 다음과 같습니다.

d

1

2

3

4

5

6

7

8

9

p(d)

0.301

0.176

0.125

0.097

0.079

0.067

0.058

0.051

0.046

 

벤포드의 법칙을 실제 문제에 응용한 전문가들 중에 마크 니르기니박사가 있습니다.
그는 뉴욕 브루클린에서 몇몇 조작 사건에 벤포드의 법칙을 이용한 시스템을 적용함으로써 유명해졌는데, 그가 고안한 시스템의 기본 아이디어는 "만약 세금 반환과 같은 데이터의 수치들이 벤포드 법칙에 의한 빈도나 비율과 비슷하다면 이 수치는 정직한 수치이고, 아주 많이 벗어나는 것은 세무 감사를 추천할 필요가 있는 불량 수치라는 것"입니다.
이 시스템을 이용하여 그는 상당히 정확한 불법 탈세를 탐지해 냈습니다.

하지만 벤포드의 법칙이 절대적인 법칙은 아닙니다.
이 법칙은 정규 분포를 이루고 있는 집합에는 적용되지 않으며, 데이터에 따라 오류 긍정을 낼 확률이 많은 등, 몇 가지 문제점을 지니고 있다.

하지만 그래도 재미있는 법칙 아닌가요? ^^

어려워 하시는 분들이 계셔서 아~~~~주 간단한 예를 하나 들어보겠습니다.

여러분은 집안에서 몇째이신가요?
세상엔 첫째가 제일 많죠? 첫째없는 둘째란 있을 수 없겠죠.ㅋㅋㅋㅋ


<차례대로 벤포드법칙으로부터 예측한 숫자, 신문 첫장에 나오는 숫자 빈도, 1990년 인구, 다우존스 지수>


<차례대로 벤포드법칙으로부터 예측한 숫자, 실제 데이터, 조작된 데이터, 임의로 만들어진 데이터>


이 내용을 바탕으로 수리논술 문제를 하나 만들어봤었습니다.
여러분 한번 시도해보시겠어요? ^^

====================================================================================================

[가] 사람들은 많은 수의 집합들이 있을 때, 각 수의 첫 자리 숫자(예를들면 123의 경우는 1, 468의 경우는 4)는 고르게 분포할 것이라고 생각한다. 하지만 벤포드의 법칙은 실제로 존재하는 많은 데이터에서 1이나 2가 나타날 확률이 다른 숫자가 나올 확률보다 높다고 이야기한다. 벤포드의 법칙(Benford's Law)은 제너럴일렉트릭(GE)사의 물리학자인 故(고)프랭크 벤포드 박사의 이름을 본떠 붙여진 법칙이다. 이는 1938년 로그 변환표에서 1로 시작하는 페이지가 다른 부분들에 비해 월등히 많이 참조된 사실을 벤포드 박사가 발견하면서부터 연구가 시작됐다. 그는 농구 통계, 잡지의 기사 수, ‘아메리칸 멘 오브 사이언스’지에 실린 342명의 주소들처럼 아주 상이한 데이터 소스들로부터 2,229개의 수를 선택하여 수학적인 분석을 했다. 그 결과는 상식을 벗어난 것이었다. 즉, 모든 경우에 있어, 최고 자리 숫자(첫자리 숫자)로 1이 나타날 확률이 전체의 30%를 차지한다는 것이다.


숫자 d
가 나타날 확률은 p(d)=log(1+1/d) 의 식으로 나타낼 수 있고 계산 결과는 다음과 같다.

d

1

2

3

4

5

6

7

8

9

p(d)

0.301

0.176

0.125

0.097

0.079

0.067

0.058

0.051

0.046

 

[나] 테오도르힐 박사는 조지아 공대에서 자신의 수학 수업시간에 학생들에게 다음과 같은 숙제를 내 주었다. ‘동전을 2백 번 던져서 나오는 면을 순서대로 기록 하든가 아니면 2백 번 실험을 한 것처럼 데이터를 조작하여 둘 중 하나의 결과를 제출하시오.’ 놀라운 점은 이튿날 그가 숙제를 받아 보았을 때 한번만 대충 훑어보고도 누가 데이터를 조작하여 제출했는지를 쉽게 가려낼 수 있었다는 점이다. 다음날 인터뷰에서 그는 “사실, 대부분의 사람들은 이런 일에서 실제 확률을 정확하게 알지 못합니다. 따라서 그들은 데이터를 신빙성 있게 조작할 수 없죠”라고 말했다.


====================================================================================================

1. 다음의 표는 세훈, 태형, 원호 세 명의 사람이 제시한 자료에서 첫 자리 숫자를 파악하여 정리해놓은 것이다. [가]의 내용을 바탕으로 [나]에서 테오도르힐 박사가 어떻게 데이터 조작을 적발할 수 있었는지에 대해 이야기하고(구체적 계산은 필요없음), 아래에서 조작된 데이터를 제출한 것으로 판단되는 사람이 누구일지에 대해 논술하시오.

첫자리숫자

1

2

3

4

5

6

7

8

9

빈도

세훈

320

192

176

160

320

102

100

110

120

태형

390

230

164

120

103

86

75

66

60

원호

452

264

185

147

117

102

87

78

68

 

 

2. 휘발유의 가격이 1갤런에 1달러라고 하자. 연평균증가율을 5%라고 했을 때, t년이 지났을 때 갤런당 가격을 c(t)=exp(0.05t) 의 식으로 구하면 다음의 표와 같이 정리할 수 있다.

가격 (달러)

2

3

4

5

6

7

8

9

10

t (년)

14

22

28

33

36

39

42

44

47


1달러씩 가격이 오를 때 걸리는 시간과 그 값이 전체에서 차지하는 비율을 계산해보고 가장 큰 값을 보이는 구간을 찾으시오. 그리고 이 결과를 [가]의 내용과 연관지어 논술하시오.





필요하시다는 분이 계셔서 간단한 해설을 첨부합니다.^^

1. 앞면과 뒷면이 연속적으로 나오는 수를 하나의 지표로 삼아 그 수의 출현 빈도를 확인해보면 누구의 데이터가 조작되었는지 쉽게 알 수 있다. 하나나 두 번이 나오는 경우를 확인할 수 도 있겠지만 그 개수가 많아 확인하는데 시간이 걸리는 문제가 있다. 그러므로 3번이 연속으로 나온 횟수와 6번이 나온 횟수를 비교하여 2배정도의 관계라 있다라던지, 아니면 다른 숫자가 나올 확률과의 비교를 통해서도 알 수 있다. 아니면 실제 200회의 시행에서 연속적으로 나올 수 있는 수의 출현 빈도를 직접 계산해봄으로써 알아낼 수 도 있다. (예를 들면 6회이상 연속적으로 나오는 경우 4번 정도 출현하게 된다.)


주어진 데이터의 경우 각 숫자가 나오는 빈도의 총합으로부터 각 숫자가 나올 확률을 계산하면 다음의 표와 같다. 태형이와 원호의 데이터는 각 숫자가나올 확률이 거의 비슷하고, 그 값 또한 제시문 [가]에서 주어진 자료와 일치한다. 하지만 세훈이가 제출한 데이터의 경우 주어진 숫자가 나타날 확률이 제시문 [가]에서 주어진 자료와 다르므로 이 데이터는 조작된 것으로 추측할 수 있다.


첫자리숫자

1

2

3

4

5

6

7

8

9

총합

빈도

세훈

320

192

176

160

320

102

100

110

120

1,600

0.2

0.12

0.11

0.1

0.2

0.064

0.0625

0.069

0.075

태형

390

230

164

120

103

86

75

66

60

1,294

0.301

0.178

0.127

0.093

0.080

0.066

0.058

0.051

0.046

원호

452

264

185

147

117

102

87

78

68

1,500

0.301

0.176

0.123

0.098

0.078

0.068

0.058

0.052

0.045

 

 

2. 가격이 1달러에서 10달러까지 증가하는데 총 47년이 걸렸으므로, 1달러 증가하는데 걸리는 시간과 그 비율을 계산하면 다음 표와 같다.


가격 (달러)

1-2

2-3

3-4

4-5

5-6

6-7

7-8

8-9

9-10

(년)

14

8

6

5

3

3

3

2

3

비율 (%)

30

17

13

11

6

6

6

4

6


표에서 볼 수 있듯이 1-2의 구간, 즉 첫 자리가 1인 구간의 경우 30%로 가장 높은 값을 보이고 있다. 이는 1달러에서 2달러로 증가하는 경우 100% 증가이지만, 2달러에서 3달러로 증가하는 경우는 50%이고 가격이 올라갈수록 그 값은 줄어들게 된다. 그러므로 인상폭이 가장 큰 1달러에서 2달러로 인상되는 구간이 가장 오랜 시간이 걸리게 되고 다른 구간에 비해 높은 비율을 나타내게 된다.



덧글

  • ㅍㅍ 2009/10/25 23:13 # 삭제 답글

    머리에 쥐가...ㅋㅋㅋ
  • enif 2009/10/25 23:29 #

    재미있게 읽어주세요.ㅋㅋ
  • shaind 2009/10/25 23:23 # 답글

    c(t)=exp(0.05t) 는 c(t)=exp(1.05t) 라고 바꿔야 맞을 것 같습니다.
  • enif 2009/10/25 23:33 #

    예리하신 지적 감사드립니다.ㅎㅎㅎㅎ

    그런데 다시보니 exp도 아니고 c(t)=(1.05)^t 로 바꾸어야 겠네요.
    예전에 만들어놓았던건데 왜 저렇게 햇었는지 저도 모르겠네요.ㅋㅋ
  • shaind 2009/10/26 08:59 #

    아 이런 저도 바보였군요.
  • enif 2009/10/26 11:21 #

    저도 예전에 왜 저렇게 써놨었는지 모르겠습니다.ㅎㅎㅎㅎ
  • 조팀 2009/10/25 23:26 # 삭제 답글

    전 그냥..
    태형과 원호가 누군지 궁금하다는~ ㅎㅎㅎ
  • enif 2009/10/25 23:33 #

    문제 만들 당시 친구와 동료였다죠? ㅋㅋ
  • delicious feelings 2009/10/25 23:33 # 답글

    분명히 첨부터끝까지 천천히 잘 읽었는데..
    기억나는건 세호랑태형이랑원호뿐.....ㅡㅡㅋ
  • enif 2009/10/25 23:34 #

    ㅠㅠ
  • organizer™ 2009/10/26 01:49 # 답글

    예전에 관련한 내용을 본 적이 있었는데 -- 이제는 기억의 저편으로 가라 앉아있다고만 생각했었지요. -- 다시 좋은 모티브를 얻은 것 같습니다.

    ---

    조작도 "제대로" 해 본 놈이 제대로 할 수 있다는 생각이 듭니다.

    첫 줄의

    >> 지금 그 일을 하고 있다구요? ㅋㅋㅋㅋㅋㅋ

    하하하하.

    왜 뜨끔한지 잘 모르겠습니다.
  • enif 2009/10/26 11:21 #

    ㅋㅋㅋㅋㅋㅋㅋㅋㅋ
  • 2009/10/26 10:21 # 삭제 답글

    암. 아침부터 아주 재밌는 글 잘 봤습니다. ㅋㅋ
  • enif 2009/10/26 11:21 #

    한명에게라도 재미를 주었다니.^^
  • Smartfool 2009/10/26 11:29 # 삭제 답글

    하하하.. 재미있네요. 특히 2번 문제는 좋은 Insight 인듯 해요..
    잠깐 더 찾아봤더니 실생활에서 유용하게 적용되는 논리가 되는듯 하네요..
    담아뒀다가 다음에 링크글 한번 걸어볼랍니다. ^^ 좋은 글 감사해요~
    enif님은 거짓말쟁이?? ㅋㅋ
  • enif 2009/10/26 11:33 #

    다른 사람을 뻥쟁이로 만들 수 없어서 제가 한번 희생한겁니다.ㅋㅋㅋㅋ
    스마트풀님도 산악회에 동참하세요.^^
  • 사상 2009/10/26 12:04 # 답글

    그러니 장부를 조작을 할때는 앞자리 숫자비를
    0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046로 만들란 말씀이시군요 ㅋ
  • enif 2009/10/26 20:09 #

    하면 안된다....뭐 이런거죠.ㅋㅋㅋ
  • 좌파논객 2009/10/26 23:29 # 답글

    죄송한 말씀 한마디 드리자면 그리고
    회계 장부를 조작해야하는 처지에 놓여있는 사람으로서 한마디 드리자면
    80% 구라입니다...
    걍 균등분포입니다~
  • enif 2009/10/27 00:28 #

    데이터의 종류에 따라 달라지겠죠.
    이게 들어맞는 데이터의 종류는 분명히 한정되어 있습니다.^^
  • 좌파논객 2009/10/27 19:17 #

    죄송합니다, 제가 틀렸습니다...
  • enif 2009/10/27 21:08 #

    ^^
  • 2009/10/27 10:18 # 삭제 답글 비공개

    비공개 덧글입니다.
  • enif 2009/10/27 15:17 #

    저 numb3rs 광팬입니다.
    그리고 넘버스에서도 저 내용을 다룬 에피소드가 있었죠.
    그래서 관심 가지게 되었었구요.^^
  • 2009/10/27 15:27 # 삭제 답글 비공개

    비공개 덧글입니다.
  • enif 2009/10/27 15:30 #

    접는글로 해설 달아놓았습니다.ㅋㅋㅋ
  • wmf93 2010/06/07 23:07 # 삭제 답글

    교과서에 나와 있는데
    여기 와 보니까
    뭔가 더 어려워 보이네요
    사진 퍼가도 되겠죠?
  • 장씨 2014/01/06 02:10 # 삭제 답글

    좋은정보감사합니다
  • 벤포드사생팬 2014/06/05 11:05 # 삭제 답글

    벤포드 대단합니다...
  • 신씨 2014/06/05 11:07 # 삭제 답글

    우왕우왕우왕~~~신기방기!!!
  • 개뤼 2014/06/05 11:08 # 삭제 답글

    좋은정보 정말 감사해요(하트)
  • enif 2014/06/06 10:07 # 답글

    좋은 정보가 되셨다니 다행입니다.
  • mathj 2019/08/05 16:16 # 삭제 답글

    enif 님 안녕하세요^^
    벤포드 법칙에 관심이 생겨 찾아보던 중 10년이 되어가는 글임에도 자세한 설명에 많은 도움 받았습니다. 이 댓글을 보실 수 있으실지 의문이지만, 글을 읽던 중 정확히 이해되지 않은 부분에 대해 여쭤보고 싶어 댓글 남기려고 합니다.

    제가 이해가 잘 안되고 있는 부분은
    동전 200회를 던져서 (앞은 ㅇ, 뒤는 ㄷ)
    ㅇㅇㄷㄷㄷㅇㄷㅇㄷㅇㅇㅇㄷㄷ..
    일 때 연속적으로 동전 나온 횟수는
    1: 4번 / 2: 2번 / 3: 2번 / 4: x ,,,,
    이런식으로 셀 거라 생각했고

    그렇다면 벤포드 법칙 표에 의해
    선두 6의 비율에 해당되는 확률은 6.7%이니까
    (200회 총 시행 * 0.067 = 13.4) 로
    앞이나 뒷면이 연속적으로 나오는게 13번 정도가 나와야하지 않나 싶은데 예시 해답에는 4번 정도 출현한다고 되어 있어서..
    제가 뭔가 잘못 이해했나 싶더라구요~~

    우선 처음엔 위와 같은 의문을 가졌었는데
    엑셀을 이용해서 200개의 o x 를 만들고 연속하는 만큼 빈도를 츨정했더니 (당연하게도) 빈도 총합이 200회가 안나오더라구요(제 예시에서는 91회). 그런 상황에서 6에 해당되는 *0.067을 곱하면 약 6회가 나오더라구요.

    그래서 최종 질문을 드리자면 블로그 글에 예시 답안으로 주신 200회 동전 시행에 대해 6회 연속으로 o나 x가 나오는 빈도가 4회 정도 나와야 함은 어떻게 추정하신 값인지 여쭤보고 싶습니다.^^

    제가 잘 못 이해한 부분이 있을 수 있으니 편하게 말씀주셔요~~
댓글 입력 영역
* 비로그인 덧글의 IP 전체보기를 설정한 이글루입니다.