본문 바로가기 주메뉴 바로가기 검색 바로가기
챗GPT 등 대규모 언어 모델, 실행 방식과 다음 발전 방향은?
상태바
챗GPT 등 대규모 언어 모델, 실행 방식과 다음 발전 방향은?
AI 챗봇과 같은 대규모 언어 모델은 어디에나 존재한다. 대규모 언어 모델을 더 자세히 이해한다면, 더 훌륭한 방식으로 활용할 수 있을 것이다.
By DAVID NIELD, WIRED UK

챗GPT(ChatGPT), 구글 바드(Bard) 등 인공지능(AI) 기반 챗봇이 현재 유행을 누리고 있다. 차세대 대화형 소프트웨어 툴인 AI 챗봇은 웹 검색부터 끊임없는 창의적 문학작품 생성, 인간의 지식을 넘어선 범위의 전 세계 모든 지식 기억 등 모든 작업 수행을 약속한다.

챗GPT, 구글 바드를 포함한 여러 AI 챗봇은 대규모 언어 모델의 예시에 해당하며, 기능 작동 방식을 깊이 조사할 가치가 있다. 대규모 언어 모델은 AI 챗봇을 더 훌륭하게 활용할 수 있다. 또한, AI 챗봇이 잘하는 일과 신뢰해서는 안 되는 일을 더 자세히 이해할 수 있다.

음성 인식 툴, 고양이 이미지 생성 툴 등 여러 AI 시스템과 마찬가지로 대규모 언어 모델도 다량의 데이터로 훈련을 받는다. 대규모 언어 모델 개발 기업은 훈련 데이터의 정확한 출처 공개 시 신중한 태도를 보인다. 그러나 훈련 데이터의 출처에는 대규모 언어 모델로 기대할 수 있는 부분의 단서가 존재한다.

예를 들어, 구글 바드 개발의 근간이 된 대규모 언어 모델인 LaMDA을 소개한 연구 논문은 위키피디아와 공개 포럼, Q&A 웹사이트 및 튜토리얼 등의 프로그래밍과 관련된 규정 문서 등을 훈련 데이터 출처로 언급했다. 반면, 레딧은 18세 이상 사용자의 텍스트 대화 접근 비용을 청구하고자 하며, 스택오버플로(StackOverflow)는 이미 데이터 사용료 청구 계획을 발표했다. 바로 대규모 언어 모델이 지금까지 레딧과 스택오버플로의 폭넓은 사용 범위를 훈련 데이터 출처로 이용하면서 사용료를 일절 부담하지 않았다는 사실을 시사한다. 더불어 레딧, 스택오버플로 등과 같은 웹사이트가 대규모 언어 모델 개발자와 데이터 출처 사용자를 지원해 온 사실도 알 수 있다.

텍스트 데이터는 출처를 떠나 복합 노드와 레이어로 구성된 AI 엔진에 보편적으로 이용되는 신경망으로 처리한다. 네트워크는 계속 기존 시행착오 결과를 포함한 여러 요소를 바탕으로 데이터를 해석하고 이해한다. 대다수 대규모 언어 모델은 특수한 신경망 아키텍처인 ‘트랜스포머(transformer)’를 이용한다. 트랜스포머는 특히, 언어 처리 시 일부 속임수를 보유했다. (챗GPT의 ‘GPT’는 ‘생성형 사전 훈련 트랜스포머’의 약자이다.)
 
[사진=Freepik]
[사진=Freepik]

특히, 트랜스포머는 다량의 텍스트 읽기, 단어와 구문 간의 상호 관계 형성 방식의 패턴 감지, 다음에 올 단어 예측 등이 가능하다. 대규모 언어 모델을 초고속 충전 자동 교정 엔진에 비유한 사례를 접한 적이 있을 것이다. 하지만 이는 실제로 부정확함과는 그리 거리가 멀지 않다. 챗GPT와 바드는 처리하는 텍스트 내용을 전혀 알지 못한다. 그러나 단어와 문장 배열 순서를 훌륭하게 예측한다. 이 때문에 충분한 발전 단계를 거칠 때 실제로 AI가 생각하고 창의성을 발휘하는 것처럼 보인다.

트랜스포머의 혁신 중 한 가지 핵심은 셀프 어텐션(self-attention) 메커니즘이다. 한 문단으로 설명하기 어려운 요소이다. 다만, 그 본질은 문장 속 여러 단어를 격리하여 고려하지 않고, 여러 섬세한 방식으로 단어 간 관계를 고려하는 것이다. 이 덕분에 다른 방식으로 가능한 것보다 더 훌륭한 방식으로 전체 맥락을 이해하도록 한다.

코드 작성의 임의성과 변수가 존재하므로 트랜스포머 챗봇을 이용할 때마다 항상 같은 답변을 얻지 않게 된다. 자동 교정이라는 개념은 오류 발생 시 미치는 영향을 설명할 수도 있다. 챗GPT와 구글 바드는 기본 단계에서 정확한 정보와 정확하지 않은 정보를 알지 못한다. 타당하면서 자연스러운 듯한 반응을 찾고는 훈련 데이터와 적절한 내용을 연결한다.

봇이 항상 다음에 배치할 확률이 가장 높은 단어를 선택하지 않고, 두 번째나 세 번째로 배치할 확률이 높은 단어를 선택하는 것을 예시로 언급할 수 있다. 하지만 여기서 계속 멀리 나아간다면, 맥락에 맞는 문장 생성이 중단된다. 바로 대규모 언어가 꾸준히 자기 분석과 자기 교정 작업을 처리하는 이유이다. 물론, 일부 반응은 사용자가 입력한 내용에 따라 생성된다. 따라서 사용자가 챗봇에 간단한 답변이나 더 복잡한 답변을 요청할 수 있다.

간혹 AI 챗봇이 포괄적이거나 상투적인 글을 생성한 것에 주목할 수도 있다. 기존 텍스트의 대규모 저장소에서 확보한 반응을 합성하려 한 것일 수도 있다. 간혹 AI 챗봇은 스프레드시트가 여러 숫자의 평균치를 추산하려 할 때와 같은 방식으로 문장을 마구 생성하기도 한다. 결국, 사용자가 얻는 결과물은 매우 평범하며, 극단적인 표현을 완벽하게 피하게 된다. 챗GPT 실행 시 카우보이와 같은 말투를 입력한다면, 챗GPT는 가장 명백하고도 확실한 카우보이 스타일로 답변할 것이다.

인간도 대규모 언어 모델의 훈련 과정에 개입하므로 아직은 AI 챗봇 사용 시 인간의 검토 작업이 필요하다. 숙련된 감독 담당자와 최종 사용자 모두 실수 지적, AI 챗봇이 생성한 훌륭한 답변을 기준으로 한 답변 순위 평가, 목표하는 수준의 훌륭한 결과물 주입 등과 같은 방식으로 대규모 언어 모델 훈련에 도움을 줄 수 있다. 엄밀히 말하자면, 이는 ‘인간 피드백을 통한 강화학습(reinforcement learning on human feedback, RLHF)’ 기법이다. 대규모 언어 모델은 인간의 피드백 이후 내부 신경망을 개선하여 다음에는 더 나은 결과를 생성한다. (여전히 현재 인간이 접하는 수준의 AI 챗봇은 발전 초기 수준에 머무르고 있다. 그러나 이미 개발자를 통해 AI 챗봇의 주목할 만한 업그레이드 및 개선 사항에 여러 차례 주목했다.)

대규모 언어 모델의 규모가 더 커지고 복잡해진다면, 그 기능이 개선될 것이다. 챗GPT-4의 변수영역이 기존 챗GPT-3.5가 다룬 최대 1억 7,500만 가지 변수 영역에서 100조 가지로 대폭 증가한 사실이 이미 알려졌다. 대규모 언어 모델이 처리하는 변수는 숫자와 알고리즘을 통해 단어 간의 수학적 관계를 연결한다. 챗GPT-4의 변수 영역은 단어 간 관계 이해, 단어 조합을 통한 답변 생성 측면에서 대대적인 도약에 성공했다고 볼 수 있다.

대규모 언어 모델의 작동 방식부터 시작하여 훈련 데이터를 이용하여 텍스트 재현 능력, 자연스러운 정보를 제시하는 듯한 텍스트 생성 능력이 훌륭하다는 사실을 분명히 알 수 있다. 물론, 약간 따분할 수도 있는 부분이다. 첨단 자동 교정 기법을 바탕으로 대다수 질문에 따라 사실을 전달할 수 있다. 예를 들어, 대규모 언어 모델은 “미국의 초대 대통령은…”이라는 표현의 뒤에 올 답변을 확실히 예측할 수 있다. 하지만 한 가지 결점이 시작되는 부분이기도 하다. 바로 다음에 나올 확률이 가장 높은 단어가 무조건 옳은 답이 아니라는 사실이다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
How ChatGPT and Other LLMs Work—and Where They Could Go Next
이 기사를 공유합니다
RECOMMENDED