https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321


들쭉날쭉한 경계에 선 켄타우로스와 사이보그

Centaurs and Cyborgs on the Jagged Frontier

https://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jagged


인공지능이 일자리를 재편할 것인지에 대한 답이 나온 것 같습니다....

I think we have an answer on whether AIs will reshape work....


ETHAN MOLLICK

2023. 9. 16.




많은 사람들이 AI가 미래의 업무에 정말 큰 영향을 미칠 것인지에 대해 질문해 왔습니다. 그 대답이 '그렇다'라고 강력하게 시사하는 새로운 논문이 발표되었습니다.


지난 몇 달 동안 저는 Boston Consulting Group과 함께 일하는 사회과학자들로 구성된 팀의 일원으로서, 사무실을 AI가 지배하는 시대에 직업의 미래에 대한 최대 규모의 사전 등록 실험(pre-registered experiment)으로 전환했습니다. 첫 번째 연구 논문이 오늘 발표되었습니다. 


이 논문에는 중요하고 유용한 뉘앙스(=세부사항)가 많이 담겨 있지만, 먼저 헤드라인만 말하자면 엘리트 컨설팅 회사에서 실제로 수행되는 업무의 샘플로 선정된 18종의 업무에서 ChatGPT-4를 사용한 컨설턴트가 그렇지 않은 컨설턴트보다 훨씬 뛰어난 성과를 거두었습니다. 모든 측면에서 말이죠. 어떤 방식으로 성과를 측정하든 관계없이.


모든 작업에서 출력 품질 분포. 

(파란색은 AI를 사용하지 않은 그룹, 녹색과 빨간색은 AI를 사용한 그룹, 

빨간색 그룹은 AI 사용 방법에 대한 추가 교육을 받은 그룹으로 구분)



AI를 사용한 컨설턴트는 그렇지 않은 컨설턴트보다 평균 12.2% 더 많은 작업을 완료했고, 25.1% 더 빨리 작업을 완료했으며, 40% 더 높은 품질의 결과물을 생산했습니다. 이는 매우 큰 격차입니다. 이제 세부사항으로 들어가 보겠습니다.



먼저, 이 연구는 여러 유형의 실험과 수백 건의 인터뷰가 포함된 다학제적(multidisciplinary) 연구로, 하버드 사회과학자인 파브리지오 델라쿠아(Fabrizio Dell’Acqua), 에드워드 맥포랜드 3세(Edward McFowland III), 카림 라카니(Karim Lakhani), 워릭 비즈니스 스쿨의 힐라 리프시츠-아사프(Hila Lifshitz-Assaf), MIT의 캐서린 켈로그(Katherine Kellogg) (그리고 저)를 포함한 훌륭한 팀이 수행했다는 점을 명심합시다. BCG(보스턴 컨설턴트 그룹) 측에서는 Saran Rajendran, Lisa Krayer, François Candelon이 전체 컨설팅 인력의 7%(758명의 컨설턴트)를 활용하여 실험을 진행했습니다. 


이들은 모두 이 글의 범위를 훌쩍 넘어서는 대량의 작업을 매우 신중하게 수행했습니다. 따라서 궁금한 점이 있다면 (특히 수치나 방법에 대해서) 논문을 통해 모든 세부 사항을 확인하시기 바랍니다. 58페이지에 달하는 연구 결과를 글 하나에 담으려다보니 많은 부분을 단순화해야 했으며, 실수가 있다면 공동 저자들이 아닌 저의 책임입니다. 또한 이 실험을 사전 등록(pre-registered)했지만 아직 새로운 작업 논문이므로 오류나 실수가 있을 수 있으며, 아직 피어 리뷰를 거치지 않은 논문입니다. 이를 염두에 두고 자세한 내용을 살펴보겠습니다.



들쭉날쭉한 경계의 내부

Inside the Jagged Frontier


AI는 기묘합니다. GPT-4와 같은 가장 진보된 대규모 언어 모델의 모든 기능을 실제로 아는 사람은 아무도 없습니다. 최선의 사용법이나 실패 조건에 대해서도 아무도 모릅니다. 사용 설명서도 없습니다. 어떤 작업에서는 AI가 엄청나게 강력하지만, 어떤 작업에서는 완전히 또는 미묘하게 실패하기도 합니다. 그리고 AI를 많이 사용해 보지 않는 한 뭐가 뭔지 알 수 없습니다.


그 결과 AI의 "들쭉날쭉한 경계Jagged Frontier"라는 것이 생깁니다. 요새의 성벽을 상상해 보세요. 일부 탑과 흉벽은 외측으로 돌출된 반면 다른 탑과 흉벽은 성 내측으로 접혀 있는 모양의 성벽을. 이 성벽이 바로 AI의 능력이며, 중심에서 멀어질수록 더 어려운 작업을 수행해야 합니다. 벽 안쪽의 모든 작업은 AI가 할 수 있지만, 벽 바깥쪽의 모든 작업은 AI에게는 어렵습니다. 문제는 벽이 눈에 보이지 않기 때문에 논리적으로는 중심에서 같은 거리에 있어 똑같이 어려워 보이는 작업(예: 소네트 쓰기와 정확히 50단어 시 쓰기)이 실제로는 벽의 다른 쪽에 있다는 것입니다. AI는 소네트에 능숙하지만, 단어가 아닌 토큰으로 세상을 개념화하는 방식 때문에 정확히 50단어의 시를 작성하는 데는 실패하곤 합니다. 마찬가지로, 아이디어 창출과 같이 예상치 못한 작업은 인공지능에게 쉬운 반면, 기초 수학처럼 기계가 쉽게 할 수 있을 것 같은 작업은 LLM에게 어려운 과제입니다.


코드 인터프리터(Code Interpreter)가 있는 ChatGPT에게 이러한 내용에 대한 시각화를 요청해 보았습니다:


"헬로 GPT, 인공지능과 업무의 영향에 관한 새 논문을 설명하기 위해 이미지를 만들어 주세요. 이 논문의 핵심 요소는 들쭉날쭉한 경계선이라는 개념입니다. AI의 능력은 고르지 않기 때문에 같은 난이도로 보이는 작업이라도 어떤 작업은 경계선 바로 바깥에 있고 어떤 작업은 경계선 안에 있을 수 있습니다. 따라서 중심점으로부터의 거리가 작업의 난이도를 나타내는 들쭉날쭉한 경계선을 보여주는 이미지를 원하는 기법으로 만들어 보시기 바랍니다. 그리고 점으로 표현할 수 있는 작업, 예를 들어 프론티어 벽 바로 안쪽, 프론티어 벽 바로 바깥쪽, 그리고 한 작업은 프론티어 바깥쪽 작업, 다른 작업은 프론티어 안쪽 작업으로 표시하고 선, 즉 원형 선으로 표시하여 중심으로부터 같은 거리, 즉 같은 난이도임을 보여줄 수 있습니다."


(위↑는 이미지 생성에 사용된 프롬프트. 아래↓는 결과물)





AI가 지식 업무에 미치는 진정한 영향을 테스트하기 위해 수백 명의 컨설턴트를 대상으로 AI 사용 허가 여부를 무작위로 선택했습니다. AI 사용이 허용된 컨설턴트에게는 GPT-4에 대한 액세스 권한을 부여했습니다.(169개국의 모든 사람이 Bing을 통해 무료로 쓰거나, OpenAI에 월 20달러를 지불하면 이용가능한 그 모델) 별도의 파인튜닝이나 프롬프트 없이 API를 통해 GPT-4만 사용할 수 있었습니다.


그런 다음 기준선을 설정하기 위해 많은 사전 테스트와 설문 조사를 수행했으며, 그리고나서 컨설턴트에게 가상의 신발 회사를 위해 다양한 작업을 수행하도록 요청했습니다. 해당 작업들은 실제 컨설턴트가 하는 업무를 정확하게 반영할 수 있도록 BCG에서 선정했습니다. 


창의적 과제("소외된 시장이나 스포츠를 겨냥한 새로운 신발에 대한 아이디어를 10개 이상 제안하라."), 분석 과제("사용자를 기준으로 신발 산업 시장을 세분화하라."), 글쓰기 및 마케팅 과제("제품에 대한 보도자료 마케팅 카피 초안을 작성하라."), 설득 과제("직원들에게 귀사의 제품이 경쟁사보다 뛰어난 이유를 설명하는 감동적인 메모를 작성하라.") 등이 있었습니다. 저희는 이 작업이 현실적인지 확인하기 위해 신발 회사 임원에게 확인까지 했습니다. 그리고 AI에 대해 알고 있는 바를 감안하면, 이러한 작업들은 경계(frontier)의 내측에 위치할 거라고 예상할 수 있습니다. 


우리의 이론에 맞게, 그리고 앞서 논의한 바와 같이, AI에 대해 간단히 소개한 컨설턴트(다이어그램의 'overview' 그룹)와 소개하지 않은 그룹에 관계없이, AI에 액세스할 수 있는 컨설턴트가 훨씬 더 나은 성과를 거둔다는 사실을 발견했습니다. 이는 작업을 완료하는 데 걸린 시간, 전체적으로 완료한 작업 수(전체 시간 제한을 두었음), 결과물의 품질 등 모든 측정 항목에서 마찬가지였습니다. 인간 채점자와 AI 채점자가 모두 품질을 평가했는데, 이들 모두 이 평가에 동의했습니다. (이것은 그 자체로도 흥미로운 발견이었습니다.)




우리는 또 다른 흥미로운 사실을 발견하기도 했습니다. 다른 연구에서도 더더욱 뚜렷하게 밝혀지고 있는 효과였죠. 바로 AI가 스킬 레벨의 격차를 줄이는 요소(skill leveler)로 작용한다는 사실입니다.


실험 초반 평가에서 가장 낮은 점수를 받은 컨설턴트들은 AI를 사용하게 되면서 43%라는 가장 큰 폭의 향상을 보였습니다. 상위 컨설턴트들도 여전히 성과가 향상되었지만 그 폭은 적었습니다. 이 결과를 보면 '기술이 모든 직원의 성과를 최고 수준으로 끌어올린다'는 말이 무엇을 의미하는지 사람들은 아직 정확히 모르는 것 같습니다. 예전에는 광부가 바위를 잘 파는지 못 파는지가 중요했지만, 증기 삽이 발명되어 이제는 파는 능력의 차이가 더 이상 중요하지 않은 것과 같은 이치입니다. 인공지능은 아직 그런 수준의 변화는 아니지만, 기술 평준화(skill levelling)는 큰 영향을 미칠 것입니다.




들쭉날쭉한 경계의 외측

Outside the Jagged Frontier


하지만 아직도 더 남았습니다. BCG는 과제를 하나 더 설계했습니다. AI가 정답을 맞히지 못하도록 신중하게 선택된 과제였죠. 이는 쉽지 않은 작업이었습니다. 논문에서는 "AI의 경이로운 능력이 입증되었기 때문에, 이 실험에서 높은 인적 자본(human capital)을 가진 인간이 업무를 수행하면 AI를 지속적으로 능가할 수 있는, AI의 영역을 벗어난 과제를 설계하는 것은 어려웠습니다."라고 언급하고 있습니다. 하지만 우리는 AI의 사각지대를 활용하여 인간이 해결할 수 있는 문제에 대해 비록 오답이지만 설득력 있는 답변을 제공하도록 하는 과제를 찾아냈습니다. 실제로 이 과제에서 인간 컨설턴트는 AI의 도움 없이도 84%의 확률로 문제를 맞혔지만, AI를 사용한 컨설턴트는 60~70%만 정답을 맞추는 등 실적이 더 나빴습니다. 무슨 일이 일어났을까요?



우리가 함께 작업한 논문과는 다른 논문에서, 파브리지오 델라쿠아(Fabrizio Dell’Acqua)는 AI에 대한 지나친 의존이 역효과를 낼 수 있는 이유를 보여줍니다. 그는 한 실험에서 고품질 AI를 사용한 채용 담당자가 게으르고 부주의하며 스스로 판단하는 능력이 떨어졌다는 사실을 발견했습니다. 그들은 뛰어난 지원자를 놓쳤고, 품질이 낮은 AI를 사용하거나 AI를 전혀 사용하지 않은 채용 담당자보다 더 나쁜 결정을 내렸습니다. AI가 매우 뛰어나면 인간은 열심히 일하고 주의를 기울일 이유가 없습니다. AI를 도구로 사용하는 대신 AI가 대신하도록 내버려 둡니다. 이를 '운전석에서 잠들기(falling asleep at the wheel)'라고 부르는데, 이는 인간의 학습, 기술 개발, 생산성에 해를 끼칠 수 있습니다.


우리 실험에서도 컨설턴트들이 운전석에서 잠든다는 사실을 발견했습니다. AI를 사용한 컨설턴트들은 실제로 AI를 사용하지 않은 컨설턴트들보다 답변의 정확도가 떨어졌습니다. (여전히 AI를 사용한 그룹이 AI를 사용하지 않은 컨설턴트들보다 결과물을 작성하는 건 더 잘 했지만요)(= 문서작성 퀄리티는 더 나았다는 뜻인 듯). 경계가 어디인지 모른다면 AI의 권위는 기만적일 수 있습니다.



켄타우로스와 사이보그

Centaurs and Cyborgs


하지만 많은 컨설턴트들이 경계 안팎의 작업을 모두 제대로 수행하여 단점 없이 AI의 이점을 얻었습니다. 핵심은 두 가지 접근 방식 중 하나를 따르는 것 같았습니다. 켄타우로스가 되느냐, 혹은 사이보그가 되느냐. 다행히도 여기에는 실제로 전자기기를 몸에 이식하거나 그리스 신화에 나오는 저주를 받아 반인반마로 변하는 것은 포함되지 않습니다. 이것은 사람과 기계의 작업을 통합하는 AI의 들쭉날쭉한 경계를 탐색하기 위한 두 가지 접근 방식에 대한 비유입니다.


켄타우로스 방식은 신화 속 켄타우로스에게 사람의 상체와 말의 하체 사이에 명확한 경계가 존재하는 것처럼 사람과 기계 사이에 명확한 경계가 있습니다. 켄타우로스는 전략적 분업 체계(strategic division of labor)를 통해 AI와 사람의 업무를 번갈아 가며 각 주체의 강점과 역량에 따라 책임을 배분합니다. 저는 AI의 도움을 받아 분석을 할 때 종종 켄타우로스의 입장에서 접근합니다. 어떤 통계 기법을 사용할지는 제가 결정하고 그래프 작성은 AI에 맡기는 식이죠. BCG에서 진행한 연구에서 켄타우로스는 자신이 가장 잘할 수 있는 일은 스스로 하고, 그 외의 영역은 AI에게 맡겼습니다.


반면 사이보그는 기계와 사람을 혼합하여 두 가지를 깊숙이 통합합니다. 사이보그는 단순히 작업을 위임하는 데 그치지 않고, AI와 서로 얽히고설키며 그 경계선을 오갑니다. AI가 완료해야 할 문장을 시작하는 등 일부 작업을 AI에게 넘겨주면 사이보그는 AI와 함께 작업하는 자신을 발견하게 됩니다. 예를 들어, 이것이 글쓰기에 AI를 사용할 때 제가 제안드리는 방법입니다. 또한 이 글에 실린 삽화 중 두 개(들쭉날쭉한 경계 이미지와 54개의 선 그래프)을 생성한 방법이기도 합니다(둘 다 제가 제시한 초기 방향과 가이드라인에 따라 ChatGPT가 만든 것입니다).




들쭉날쭉한 경계선상에서 춤추기

Dancing on the Jagged Frontier


우리의 논문은, 다른 학자들의 훌륭한 연구와 함께, (AI의 본질과 미래에 대한 철학적, 기술적 논쟁과 관계없이) AI가 이미 우리의 실제 업무 방식에 강력한 파괴력을 발휘하고 있음을 시사합니다. AI는 5년만 지나면 세상을 바꿀 것처럼 과대포장되는 신기술이 아니며, 많은 투자와 거대 기업의 자원이 필요한 것도 아닙니다. 그것은 지금 이 순간, 이미 우리 곁에 있습니다. 


엘리트 컨설턴트들이 업무 역량을 강화하는 데 사용한 도구는 이 글을 읽는 모든 사람이 사용할 수 있는 도구와 완전히 동일합니다. 그리고 컨설턴트들이 사용했던 도구는 조만간 여러분들이 사용하게 될 기술보다 훨씬 더 뒤쳐진 것이 될 겁니다. 기술의 경계는 들쭉날쭉할 뿐만 아니라, 확장되고 있기도 하기 때문입니다. 저는 내년에 적어도 두 개 이상의 회사에서 GPT-4보다 더 강력한 모델을 출시할 것이라고 확신하고 있습니다. 들쭉날쭉한 경계는 더 멀리 나아가고 있으며 우리는 이에 대비해야 합니다.


이 발언이 야기할 수 있는 불안감은 일단 제쳐놓더라도, 인공지능의 다른 단점도 주목할 필요가 있습니다. 사람들은 실제로 (운전대를 잡은 채로 곯아떨어지듯이) AI를 사용할 때 오토파일럿을 켜고 (사고를 방기하면서) AI의 실수를 알아차리지 못할 수 있습니다. 또한 다른 연구에서도 드러났듯이, AI의 결과물은 인간보다 품질은 높지만 전체적으로 다소 균질하고 동일한 경향이 있다는 사실도 발견했습니다. 사이보그와 켄타우로스가 중요한 이유는 인간과 AI가 협력함으로서 혼자서 할 수 있는 것보다 더 다양하고 더 정확하며 더 나은 결과를 만들어낼 수 있기 때문입니다. 그리고 사이보그나 켄타우로스 중 하나가 되는 것은 어렵지 않습니다. AI를 업무에 충분히 활용한다면 들쭉날쭉한 경계의 형상이 보이기 시작할 것이며, AI가 무시무시하게 잘하는 부분과 AI가 부족한 부분을 이해하기 시작할 것입니다.


제 생각에, AI가 업무를 재편할 것인지 여부는 더 이상 중요한 질문이 아닙니다. 중요한 것은 AI에 의한 변화가 어떤 형태이기를 원하는가 라는 질문입니다. 업무를 더 생산적이고 흥미롭고 유의미하게 만들기 위해 AI의 도움을 어떻게 사용할 것인지에 대해서 우리는 선택해야만 합니다. 하지만 이러한 선택을 빨리 내려야만 합니다. 그래야만이 기술 변화에 단순히 반응하는 것이 아니라 (사이보그와 켄타우로스처럼) 윤리적이고 가치 있는 방식으로 AI를 적극적으로 사용할 수 있습니다. 그 사이에도 들쭉날쭉한 경계는 더 앞으로 뻗어나갈 겁니다.




※ 상당히 마음에 드는 글이라 번역해 봄. 직역하면 한국어로는 애매해지는 부분이 너무 많아서 의역한 부분이 좀 많음. 오역 지적 환영.