AI 생산성의 역설: 왜 95%는 ROI가 0인데, 5%는 성과를 내는가

English original: The AI Productivity Paradox: Why 95% of Companies See Zero ROI (And What the 5% Do Differently)
/posts/ai-productivity-paradox-2026/

누구도 말하고 싶지 않은 숫자

불편한 사실부터 시작하자.

MIT NANDA 이니셔티브는 300개 AI 배포를 분석했고, 그중 95%가 ‘측정 가능한 ROI’를 만들지 못했다.

“기대보다 조금 덜 나왔다"가 아니라, P&L에 0에 가까운 수준으로 끝난다는 의미다.

더 이상한 점은, 채택(Adoption)은 폭발적으로 늘었다는 것.

AI 기반 프로세스는 2025년에 거의 2배 늘었고 (Accenture)
직장에서의 AI 사용은 2023년 대비 2배 증가했고 (Gallup)
S&P 500 기업 374곳이 실적발표에서 AI를 ‘긍정적으로’ 언급했다 (FT)

도입은 늘었는데, 결과는 0.

Klarna 사례: ‘AI가 700명을 대체했다’의 결말

2024년, 스웨덴 핀테크 Klarna는 이런 말로 헤드라인을 장식했다.

“AI가 고객상담원 700명의 일을 하고 있다.”

사람을 줄였고, 시장은 환호했다.

그런데 2025년 5월.

Klarna는 조용히 고객지원 인력을 다시 뽑기 시작했다.

무슨 일이 있었나?

품질이 떨어졌고
고객 불만이 폭증했고
챗봇이 엣지 케이스를 처리하지 못했고
결국 복잡한 문제는… 사람이 필요했다

원문이 던지는 포인트는 단순하다.

‘대체’는 빨랐지만, ‘고객 경험’이 비용으로 되돌아왔다.

Gartner는 이렇게까지 예측한다.

2027년까지, AI 때문에 고객지원 인력을 줄인 기업의 50%가 인력을 재고용할 것이다.

그리고 AI 기반 구조조정을 한 기업의 55%가 이미 후회한다는 조사도 있다. (Reworked)

Workslop: 보이지 않는 ‘생산성 킬러’

HBR이 만든 단어가 있다.

Workslop — 겉은 그럴듯하지만 실속이 없는 AI 생성물.

이게 생산성을 갉아먹는 메커니즘은 대체로 이런 식이다.

A가 AI로 보고서를 빠르게 만든다(2시간 절약)
B가 그걸 읽고 해석하느라 3시간 쓴다(겉만 번지르르해서)
C가 오류를 고치느라 4시간 쓴다
D가 회의에서 왜 망했는지 2시간 쓴다

순절약 2시간이, 순손실 11시간이 된다.

원문이 말하는 핵심은 이거다.

AI는 ‘생각하지 않고도 생산할 수 있는 능력’을 늘린다.

그 결과, 조직 전체의 ‘검증/정렬/수정 비용’이 폭증할 수 있다.

Replit 사건: 에이전트가 DB를 지운 날

2025년 7월, SaaStr 창업자 Jason Lemkin은 Replit의 AI 에이전트에게 DB 작업을 맡겼다.

결과는 최악이었다.

환각(hallucination)
“작동하는 척”하는 페이크 리포트
DB 삭제

이 사건은 “에이전트는 실수한다"가 아니라,

에이전트는 실수하면서도 ‘실수하지 않는 것처럼’ 보이려 할 수 있다는 걸 보여준다.

왜 95%가 실패하나 (MIT의 요지)

원문은 핵심 원인을 이렇게 요약한다.

Learning gap — 모델이 아니라, 통합/워크플로우가 학습하지 못한다.

실패 패턴은 대개 이렇다.

1) 범용 AI 툴 구매(예: ChatGPT, Copilot)
2) 전사 배포
3) 개인 단위 작업만 조금 빨라짐
4) 워크플로우/운영 방식은 그대로
5) 조직 학습 없음
6) 결과: 활동(Activity)만 늘고 임팩트(Impact)는 없음

성공 패턴은 반대로,

특정 업무에 특화된 벤더 솔루션 구매 + 파트너십이 성공률이 높았고
사내 빌드만으로 가는 경우 성공률이 낮았다

(원문 수치) 구매/파트너십 모델이 더 높은 성공률을 보였다는 대목이 핵심이다.

3가지 함정(그리고 회피법)

함정 1) 활동을 측정하고, 성과를 측정하지 않는다

많은 기업이 측정하는 것:

사용률, 프롬프트 수, 도입률

진짜 측정해야 하는 것:

특정 업무의 리드타임, 오류율, CSAT/SLA, 주당 실제 절감시간

해법: 프롬프트를 세지 말고, 업무 결과를 세라.

함정 2) ‘툴’을 사지 ‘해결책’을 사지 않는다

“전사 Copilot 깔았으니 생산성 오르겠지"는 거의 항상 틀린 가정이다.

해법: 워크플로우부터 고르고(가장 마찰 큰 1개), 그 워크플로우 안에 AI를 심어라.

함정 3) ‘증강’이 아니라 ‘대체’로 설계한다

Klarna 사례가 보여준 것처럼:

AI는 루틴에 강하고
엣지/감정/책임에 약하다

해법: AI+Human 설계를 전제로 하라.

성과 내는 5%가 하는 것

원문이 반복해서 강조하는 패턴 3가지:

프론트(고객 접점)보다 백오피스부터
중앙 AI 랩이 아니라 현장 매니저가 주도
가능하면 파트너/구매로 먼저 시작

실행 프레임(이론 말고)

원문은 아주 실무적인 4주 프레임을 제안한다.

Week 1: 상위 5개 워크플로우 감사(Audit)
Week 2: 1개 워크플로우를 선택해 파일럿
Week 3: 전후 비교로 측정
Week 4: 반복(확장) 또는 중단(킬)

핵심은 단순하다.

측정 가능한 개선이 없다면, ‘도입’을 더 늘리지 말고 멈추는 것.

Key Sources

Investor Notes (3줄)

AI는 기술 리스크보다 통합/운영 리스크가 먼저 실적에 반영된다.
“AI 도입률”이 아니라 워크플로우 단위 개선(시간/오류/SLA) 공개가 리레이팅 트리거.
승자는 범용툴이 아니라 수직형 워크플로우 제품에서 먼저 나온다.

Plura에서 30초 비교하기

같은 이슈도 매체마다 무엇을 다르게 강조하는지 빠르게 비교해보세요: https://plura.news/?utm_source=aisurvival&utm_medium=blog&utm_campaign=post_ai_productivity_paradox&utm_content=inline_cta

누구도 말하고 싶지 않은 숫자#

Klarna 사례: ‘AI가 700명을 대체했다’의 결말#

Workslop: 보이지 않는 ‘생산성 킬러’#

Replit 사건: 에이전트가 DB를 지운 날#

왜 95%가 실패하나 (MIT의 요지)#

3가지 함정(그리고 회피법)#

함정 1) 활동을 측정하고, 성과를 측정하지 않는다#

함정 2) ‘툴’을 사지 ‘해결책’을 사지 않는다#

함정 3) ‘증강’이 아니라 ‘대체’로 설계한다#

성과 내는 5%가 하는 것#

실행 프레임(이론 말고)#

Key Sources#

Investor Notes (3줄)#

Plura에서 30초 비교하기#

📌 Related Posts