퀀텀

퀀텀점프-데이터가 늘어날수록 왜 컴퓨터는 오히려 헤매는가

친절샘 정이 2026. 5. 2. 12:16

서울 지도가 1:1 스케일이 되면 쓸 수 없는 것과 같다


완벽한 지도의 역설

루이스 캐럴의 소설에 이런 장면이 나온다.

어느 나라 왕이 지도 제작자를 불러 명령한다. "완벽한 지도를 만들어라." 지도 제작자들은 열심히 일했다. 처음엔 1킬로미터를 1센티미터로 표현했다. 왕이 말했다. "더 정확하게." 다음엔 100미터를 1센티미터로. "아직도 부족해." 10미터를 1센티미터로. "더." 1미터를 1센티미터로. 결국 왕이 원하는 완벽한 지도는 실제 땅과 똑같은 크기가 됐다.

그 지도는 창고에서 꺼내지 못했다. 펼칠 공간이 없었기 때문이다. 가장 정확한 지도가 가장 쓸모없는 지도가 됐다.

컴퓨터에게 데이터를 많이 줄수록 오히려 헤매는 현상이 이것이다. 더 많이 알수록 더 모르게 되는 역설. 이것을 학자들은 차원의 저주(Curse of Dimensionality—데이터가 늘어날수록 탐색 공간이 기하급수적으로 커져 오히려 길을 잃는 현상) 라고 부른다.


서울 지도 이야기

서울 지도를 하나 산다.

작은 지도책에 들어있는 지도다. 서울 전체가 A4 한 장에 들어온다. 강남이 어디인지, 한강이 어디인지, 공항이 어느 방향인지 한눈에 보인다. 길을 찾기에 딱 좋다.

그런데 누군가 이 지도가 부족하다고 한다. 골목길이 안 나온다고. 지도를 더 크게 만들었다. 이제 골목길도 보인다. 그런데 지도가 책상만해졌다. 펼치기가 불편하다.

더 정밀하게 만들었다. 건물 하나하나가 표시된다. 이제 지도가 방 한 칸 크기다. 들고 다닐 수가 없다.

더 더 정밀하게. 가게 간판까지 표시된다. 지도가 건물 한 채 크기가 됐다.

끝까지 가면 어떻게 될까. 서울을 실제 크기 그대로 표현한 지도. 서울 위에 서울을 한 장 더 덮어놓은 것이다. 이 지도 위에서 길을 찾으려면, 실제로 걸어다니면서 찾는 것과 다를 게 없다. 지도가 완벽해질수록 지도로서의 쓸모가 사라진다.

컴퓨터에게 데이터를 계속 추가하면 정확히 이 일이 일어난다.


방 안의 점 이야기

좀 더 직접적으로 설명해보자.

작은 방이 하나 있다. 1미터짜리 정사각형 방이다. 이 방 안에 점 10개를 뿌린다. 방이 작으니까 점들이 다닥다닥 붙어있다. 점과 점 사이의 거리가 가깝다. 이 점들 사이에서 패턴을 찾기 쉽다. 가까이 모여있으니까.

이제 이 방을 10미터짜리로 키운다. 같은 점 10개가 훨씬 넓은 공간에 흩어진다. 점 사이의 빈 공간이 넓어진다. 패턴을 찾기가 조금 어려워진다.

방을 100미터로 키운다. 점 10개가 광활한 공간에 뿔뿔이 흩어진다. 어떤 점이 어떤 점과 가까운지, 어떤 점들이 같은 무리인지 알 수가 없다. 점들이 너무 멀리 떨어져 있어서.

방을 1킬로미터로 키우면? 점 10개가 여기저기 고립된 섬처럼 된다. 이 점들 사이에서 의미있는 패턴을 찾는 것은 거의 불가능해진다.

공간만 커졌다. 점의 수는 그대로다. 그런데 찾기는 점점 어려워진다.

데이터의 특징(변수)이 늘어날 때 컴퓨터가 겪는 일이 정확히 이것이다. 변수 하나가 늘어날 때마다, 컴퓨터가 탐색해야 하는 공간이 기하급수적으로 커진다. 점의 수는 그대로인데 방이 계속 커지는 것이다.


과일 가게 주인의 고민

과일 가게 주인이 단골손님 취향을 파악하려 한다.

처음엔 딱 하나만 봤다. 단 과일을 좋아하는지, 신 과일을 좋아하는지. 두 가지다. 손님 열 명만 관찰해도 패턴이 보인다. "우리 가게 손님은 단 과일을 더 좋아하는구나."

그런데 더 정확하게 알고 싶어졌다. 당도뿐만 아니라 색깔도 봤다. 빨간 과일인지 노란 과일인지. 이제 두 가지 기준이 생겼다. 조합이 네 가지가 됐다. 달고 빨간 것, 달고 노란 것, 시고 빨간 것, 시고 노란 것. 손님 열 명을 이 네 칸에 나눠담으니 칸마다 두세 명밖에 안 든다. 패턴이 좀 흐릿해졌다.

더 정확하게 하고 싶다. 크기도 봤다. 큰 것인지 작은 것인지. 조합이 여덟 가지가 됐다. 손님 열 명을 여덟 칸에 나눠담으니 칸마다 한 명 남짓이다. 이제 어느 칸이 진짜 선호인지 알 수가 없다.

여기서 멈추지 않는다. 향, 식감, 원산지, 가격, 계절, 날씨, 손님 나이, 그날 기분까지 추가한다. 조합이 수백 가지가 된다. 손님 열 명을 수백 칸에 나눠담으면, 대부분의 칸이 텅 비고 나머지에 한두 명씩 있다.

이 데이터로 패턴을 찾는 것은 불가능하다. 오히려 처음 당도 하나만 봤을 때보다 훨씬 모르게 됐다. 더 많이 봤는데 더 모르는 것이다.

이것이 차원의 저주다.


친구 얼굴을 기억하는 방식

우리가 친구 얼굴을 기억하는 방식을 생각해보자.

어릴 때부터 알던 친구가 있다. 수십 년을 봐왔다. 머리 스타일이 바뀌고, 살이 찌고, 안경을 썼다가 뗐다가 해도 우리는 그 친구를 알아본다. 왜냐면 우리는 그 친구의 본질적인 특징을 기억하기 때문이다. 코가 약간 올라간 것, 웃을 때 왼쪽 눈이 더 작아지는 것, 목소리의 톤. 세부 사항이 아니라 핵심만 기억한다.

그런데 컴퓨터에게 그 친구 사진을 수백만 장 준다면 어떻게 될까. 컴퓨터는 사진 한 장 한 장의 픽셀을 전부 기억한다. 머리카락 한 올 한 올, 피부의 점 하나하나, 그날의 조명과 그림자까지. 수백만 장을 다 기억하다 보니, 오히려 이 사람의 본질이 무엇인지 잃어버린다. 픽셀의 바다에서 핵심을 못 찾는 것이다.

이것을 과적합(Overfitting—데이터를 너무 열심히 외워서 정작 새로운 상황에선 못 쓰게 되는 현상) 이라고 한다. 공부를 너무 열심히 한 학생이 교과서는 통째로 외웠는데 응용 문제를 못 푸는 것과 같다. 외운 것과 딱 같은 문제는 맞히는데, 조금만 달라지면 틀린다.


시험 공부의 함정

수능을 앞둔 수험생이 있다.

이 학생은 지난 30년치 수능 기출문제를 전부 외웠다. 문제 번호까지 기억할 정도로. 모의고사를 보면 기출 문제가 나올 때마다 100점이다. 선생님들이 감탄한다.

그런데 실제 수능 날, 처음 보는 유형의 문제가 나왔다. 이 학생은 당황한다. 외운 문제 중에 이런 것은 없었다. 기출을 아무리 뒤져도 비슷한 게 없다. 결국 새로운 문제 앞에서 무너진다.

옆자리 학생은 기출을 30년치 외우지 않았다. 대신 수학의 원리를 이해했다. 처음 보는 문제가 나와도 원리로 풀어낸다.

컴퓨터가 데이터를 너무 많이 받으면 첫 번째 학생이 된다. 본 것은 완벽하게 맞히는데, 못 본 것은 틀린다. 데이터가 많아질수록 본 것만 더 잘 기억하고, 못 본 것에는 더 약해진다.

데이터가 늘어날수록 오히려 멍청해지는 역설이 여기서 나온다.


빈 공간이 문제다

차원의 저주를 한 문장으로 정리하면 이렇다.

공간이 커질수록, 같은 수의 데이터가 만드는 빈 공간이 폭발적으로 늘어난다.

그리고 컴퓨터는 그 빈 공간을 채우기 위해 없는 패턴을 만들어낸다. 실제로 없는 연결고리를 상상해서 그린다. 점과 점 사이가 너무 멀어서, 그 사이에 무언가 있을 것이라고 추측하는 것이다. 그리고 그 추측이 틀린다.

서울 지도가 1:1 스케일이 되면 지도가 쓸모없어지는 것처럼. 데이터가 많아져서 탐색 공간이 서울만큼 커지면, 컴퓨터는 그 광활한 공간에서 길을 잃는다.


그렇다면 해법은 무엇인가

지도 이야기로 돌아가자.

좋은 지도는 모든 것을 담지 않는다. 중요한 것만 담는다. 길을 찾는 데 필요한 것, 목적지를 구분하는 데 필요한 것만 남기고 나머지는 버린다. 적당한 축소, 적당한 단순화. 그것이 지도를 유용하게 만드는 기술이다.

컴퓨터도 마찬가지다. 데이터를 많이 주는 것이 능사가 아니다. 핵심 특징만 남기고 나머지를 버리는 것, 광활한 공간을 다루기 쉬운 크기로 압축하는 것이 필요하다.

그런데 현실의 복잡한 데이터에서 무엇이 핵심이고 무엇이 불필요한지 구분하는 것 자체가 어렵다. 공장 센서 데이터에서 고장의 본질적 신호가 무엇인지, 환자 데이터에서 병의 진짜 원인이 무엇인지. 클래식 컴퓨터는 이 구분을 제대로 하지 못한다. 광활한 공간에서 헤매기 때문이다.

이 헤맴을 끝내는 방법이 하나 있다. 지도를 더 정밀하게 만드는 것이 아니라, 지도를 보는 시각 자체를 바꾸는 것이다. 2차원 바닥에서 선을 긋는 방식에서 벗어나, 전혀 다른 차원으로 올라가서 내려다보는 것.

그것이 다음 편에서 이야기할 퀀텀의 접근법이다.


다음 편에서는 이 광활한 공간을 퀀텀이 어떻게 다루는지 이야기한다. 서울 지도를 아무리 크게 만들어도 안 되는 문제를, 아예 하늘 위에서 내려다보는 방식으로 단번에 푸는 그 원리. 차원의 저주가 차원의 도약으로 바뀌는 그 순간을 함께 본다.