적게 쓰되 영리하게 쓴다
건축적 파시모니 이야기
시작하기 전에 — 이런 장면을 상상해보자
요리 대회가 열렸다.
참가자들에게 최고급 트러플이 주어졌다. 트러플은 세상에서 가장 비싸고 희귀한 버섯이다.
첫 번째 참가자: 모든 요리에 트러플을 조금씩 뿌렸다. 밥에도, 국에도, 김치에도, 샐러드에도. 트러플을 많이 쓸수록 좋을 것 같았다.
두 번째 참가자: 트러플을 아꼈다. 메인 요리 스테이크 딱 하나에만 올렸다.
결과는 어떻게 됐을까.
첫 번째 참가자의 요리는 모든 것이 트러플 맛이었다. 원래 재료의 맛이 사라졌다. 오히려 이상했다.
두 번째 참가자의 스테이크는 트러플의 향이 폭발했다. 심사위원들이 감탄했다.
건축적 파시모니가 두 번째 참가자의 방식이다.
양자를 많이 쓸수록 좋은 것이 아니다. 딱 맞는 곳에 딱 필요한 만큼만 쓰는 것이 최고다.
이름이 어렵지 않다
건축적 파시모니(Architectural Parsimony)를 한국어로 풀면 이렇다.
건축적 = 구조를 설계하는 방식 파시모니 = 아끼고 절약하는 것
합치면: "구조를 설계할 때 아끼는 철학"
그냥 "영리한 절약" 이라고 기억하면 된다.
이것이 QASA가 만들어진 핵심 철학이다.
왜 많이 쓰면 안 되는가
직관적으로 이런 생각이 들 수 있다.
"양자가 더 좋은 거라면, 많이 쓸수록 좋은 거 아닌가?"
이 생각이 왜 틀렸는지 설명하자.
소금 비유로 설명하자.
요리에 소금을 넣는다.
소금 없음: 맛이 없다. 밍밍하다. 소금 조금: 맛이 살아난다. 재료의 맛이 더 강해진다. 소금 많이: 짜서 못 먹는다. 다른 맛이 사라진다. 소금 엄청나게: 독이다.
양자 계층도 소금과 같다.
없으면 부족하다. 적당히 있으면 최고다. 너무 많으면 문제가 생긴다.
그 문제가 바렌 플래토다.
이전 시간에 배운 것을 기억하는가. 산이 완전히 평평한 사막이 되어버리는 것. 어느 방향으로 가야 할지 모르게 되는 것.
실제로 측정해봤더니 이렇게 나왔다.
양자 계층 2개: 그래디언트 절반으로 줄어듦 → 학습 느려짐
양자 계층 4개: 그래디언트 30배 감소 → 학습 거의 불가능
첫 번째 원칙: 개수보다 위치
건축적 파시모니의 첫 번째 원칙이다.
"얼마나 많이 쓰는가"보다 "어디에 쓰는가"가 중요하다.
야구 타순 비유로 설명하자.
야구팀에 최강 타자가 한 명 있다. 이 타자를 어디에 배치할까.
방법 1: 9개 타순에 골고루 최강 타자처럼 훈련시킨다. 모든 선수가 조금씩 강해진다.
방법 2: 가장 중요한 순간, 가장 효과적인 타순에 최강 타자를 배치한다.
방법 2가 정답이다. 최강 타자는 가장 득점 확률이 높은 자리에 있어야 한다.
QASA가 딱 이렇게 한다.
트랜스포머에 여러 계층이 있다.
2번 계층 (클래식) → 패턴 파악
3번 계층 (클래식) → 관계 분석
...
마지막 계층 (양자!) → 핵심 특징 추출
양자를 마지막 계층 하나에만 배치한다. 가장 효과적인 자리에.
왜 마지막인가.
앞의 클래식 계층들이 데이터를 이미 어느 정도 정리해놓는다. 그 위에서 양자가 마지막 핵심 작업을 한다. 가장 어렵고 복잡한 부분만 양자에게 맡기는 것이다.
최강 타자를 가장 중요한 순간에 내보내는 것처럼.
두 번째 원칙: 적은 자원으로 최대 효과
건축적 파시모니의 두 번째 원칙이다.
"적게 쓰되, 그것을 최대한 영리하게 활용한다."
스마트폰 비유로 설명하자.
스마트폰 배터리가 10%만 남았다.
방법 1: 모든 앱을 조금씩 켜둔다. 음악도 틀고, 게임도 하고, 유튜브도 본다. 10분 만에 방전된다.
방법 2: 가장 중요한 앱 하나만 쓴다. 지도 앱만 켜서 집에 가는 길을 찾는다. 목적지에 도착할 때까지 배터리가 버텼다.
방법 2가 현명하다.
QASA가 사용하는 양자 파라미터가 몇 개인지 보자.
딱 36개.
다른 양자 AI 모델들과 비교하면 이렇다.
파라미터 128개, CNOT 게이트 56개
QnnFormer (Q, K, V 모두 양자로):
파라미터 90개
QASA (마지막 V 하나만 양자로):
파라미터 36개 ← 가장 적다
그런데 성능은 어떤가.
QASA가 나머지 모델들과 대등하거나 오히려 더 좋다.
36개로 128개를 이긴 것이다.
이것이 두 번째 원칙의 핵심이다. 많이 쓰는 것이 강한 게 아니다. 영리하게 쓰는 것이 강하다.
왜 36개로 128개를 이기는가
이것이 핵심 질문이다. 어떻게 가능한가.
특공대 비유로 설명하자.
전쟁이 일어났다.
방법 1 (일반 병사 128명): 전선 전체에 골고루 배치한다. 각자 조금씩 싸운다. 모든 곳을 방어하지만 어느 곳도 강하지 않다.
방법 2 (특공대 36명): 가장 중요한 전략 요충지 하나에 집중 배치한다. 그 지점을 완벽하게 장악한다.
전쟁의 승패가 어디서 갈리는가. 요충지 하나를 장악하는 쪽이 이긴다.
QASA가 방법 2다.
36개의 파라미터를 가장 중요한 위치, 즉 마지막 계층의 Value 프로젝션에 집중시킨다. 여기서 복잡한 비선형 패턴을 추출하는 데 모든 양자 자원을 집중한다.
128개를 여기저기 분산시킨 것보다 36개를 한 곳에 집중시킨 것이 더 강하다.
실제로 어떻게 36개를 효율적으로 쓰는가
36개로 어떻게 그렇게 많은 것을 할 수 있는가. 두 가지 비결이 있다.
비결 1 — 데이터를 계속 재업로드한다
요리사가 라면을 끓인다.
재료를 처음에 다 넣는다 → 맛이 한 번에 결정된다. 재료를 조금씩 계속 추가한다 → 맛이 층층이 쌓여 복잡해진다.
QASA도 데이터를 계속 다시 넣는다. 같은 36개 파라미터를 통해 데이터가 여러 번 처리된다. 마치 36개 파라미터가 100개짜리 일을 하는 것처럼.
비결 2 — 원형으로 연결한다
큐비트 8개를 원형으로 연결한다.
↑ ↓
8 ← 7 ← 6 ← 5
학교 반에서 소문이 퍼지는 방식과 같다. 1번이 2번에게 말하면 결국 8번까지 전달된다. 직접 연결하지 않아도 모두가 연결된다.
적은 연결로 모든 큐비트가 서로 영향을 주고받는다. 자원 낭비가 없다.
이 두 가지 비결 덕분에 36개로 128개를 이길 수 있다.
다른 모델들과 직접 비교
세 개의 양자 AI 모델을 직접 비교해보자.
선생님 비유로 설명하자.
세 명의 선생님이 학생을 가르친다.
선생님 A (QLSTM, 128개 파라미터): 모든 과목을 혼자 가르친다. 수학, 영어, 과학, 역사 전부. 에너지가 분산된다. 모든 과목을 조금씩은 가르치지만 어느 것도 깊이 있게 가르치지 못한다.
선생님 B (QnnFormer, 90개 파라미터): 주요 과목 세 개를 가르친다. 좀 낫지만 여전히 분산되어 있다.
선생님 C (QASA, 36개 파라미터): 가장 어렵고 중요한 수학 한 과목만 집중적으로 가르친다. 나머지 과목은 다른 선생님들(클래식 AI)에게 맡긴다. 수학만큼은 완벽하게 가르친다.
시험 결과를 보면 이렇다.
선생님 B: 모든 과목 65점 수준
선생님 C: 수학 90점, 나머지도 대등하거나 더 좋음
선생님 C의 학생이 제일 잘한다. 에너지를 분산시키지 않고 집중시켰기 때문이다.
7부 — 현실에서 왜 이것이 중요한가
지금 양자 컴퓨터의 현실을 잠깐 보자.
양자 컴퓨터는 아직 완벽하지 않다. 큐비트가 적다. 오류가 많다. 비싸다.
이 상황에서 두 가지 선택이 있다.
선택 1: 완벽한 양자 컴퓨터가 나올 때까지 기다린다.
선택 2: 지금 있는 불완전한 양자 컴퓨터로 최대한 유용한 것을 만든다.
건축적 파시모니가 선택 2를 가능하게 한다.
등산 비유로 설명하자.
에베레스트 등반을 계획했다.
완벽한 장비가 없다. 최고급 등산화도 없고, 최첨단 텐트도 없다. 산소 탱크도 부족하다.
방법 1: 장비가 다 갖춰질 때까지 기다린다. → 몇 년이 걸릴 수도 있다.
방법 2: 지금 있는 장비로 할 수 있는 가장 높은 곳까지 간다. 산소 탱크를 가장 힘든 구간에만 쓴다. 다른 구간은 자력으로 올라간다. → 지금 당장 정상에 가까이 갈 수 있다.
QASA가 방법 2다. 부족한 양자 자원을 가장 중요한 곳에만 쓴다. 나머지는 클래식 AI가 처리한다. 지금 당장 실용적인 결과를 낼 수 있다.
전체를 한 번에 보자
건축적 파시모니를 두 개의 원칙으로 정리하면 이렇다.
─────────────────────────────────
잘못된 생각: 양자 계층이 많을수록 좋다
올바른 생각: 가장 효과적인 위치 하나에 집중한다
잘못된 방법: 모든 요리에 트러플을 조금씩
올바른 방법: 메인 요리 하나에 트러플 전부
결과:
양자 계층 4개 → 바렌 플래토 진입, 학습 불가
양자 계층 1개 (최적 위치) → 최고 성능
원칙 2: 적은 자원, 최대 활용
─────────────────────────────────
잘못된 생각: 파라미터가 많을수록 강하다
올바른 생각: 적어도 영리하게 쓰면 이긴다
QLSTM: 파라미터 128개 → 성능 보통
QnnFormer: 파라미터 90개 → 성능 보통
QASA: 파라미터 36개 → 성능 대등하거나 우월
비결: 데이터 재업로드 + 원형 얽힘으로
36개가 128개처럼 일한다
최종 정리
건축적 파시모니를 한 문장으로 압축하면 이렇다.
"양자를 얼마나 많이 쓸지 고민하지 말고, 어디에 어떻게 쓸지 고민하라."
요리사는 최고급 재료를 모든 곳에 뿌리지 않는다. 가장 빛날 수 있는 자리에 올린다. 그것이 진짜 실력이다.
QASA가 36개의 파라미터로 128개를 이기는 것이 그 실력이다.
'퀀텀 > 하이브리드 양자' 카테고리의 다른 글
| 4.1. 양자 AI가 암을 찾아내는 방법 - QCNN 의료 영상 (0) | 2026.05.12 |
|---|---|
| 3.3 양자 시계열 예측 이야기 (1) | 2026.05.12 |
| 3.1. 양자 적응형 셀프 어텐션 (1) | 2026.05.12 |
| 2.3. 양자 슈퍼컴퓨터의 총사령부 HPC 네트워크 (1) | 2026.05.07 |
| 2.2 양자 컴퓨터의 오류 수정팀 QEC 네트워크 (0) | 2026.05.07 |