AI 탐지기의 심각한 문제점

2023-05-06

최근 들어, 학생들이 학교에서 “AI” 도구를 이용한 부정행위로 고발된 사례들이 Reddit에 많이 게시되는 점을 눈치챘습니다. 처음 본 글은 바로 이것이었는데:

AI를 사용하여 에세이를 썼다고 누명을 썼습니다

그 글을 시작으로, 이런 사례들이 더욱더 공유되기 시작했습니다:

그럼 여기에서 가능한 상황을 나열해보겠습니다:

위의 모든 학생들은 거짓말하고 있고, 정말로 AI를 사용했다
거짓말이 아니고, AI 탐지 소프트웨어가 실수했다

간단하네요. 그럼 AI 탐지 소프트웨어가 어떻게 작동하는지 알아보겠습니다. 그걸 할려면, 일단 예시가 필요한데, Turnitin의 AI 탐지기를 한번 살펴보겠습니다.

왜 Turnitin이죠?

일단 편견부터 공개하겠습니다: 전 Turnitin을 지극히 싫어하거든요.

제 고등학교 시절 당시, Turnitin은 제가 쓴 글이 표절이라고 주장하였고, 같은 반 친구 한 명은 실수로 표절하였는지 여부를 확인하기 위해 별도의 시험 Turnitin 환경에서 제출한 글 때문에, 실제 학교 Turnitin에 제출된 글에 100% 표절 점수를 받았습니다.

하지만 그건 AI 도구들이 공개되기 이전이였죠. Turnitin의 AI-이전 도구는 “표절”을 “확인”하기 위해 플랫폼에 제출된 모든 텍스트와 글을 비교했습니다. 만약 두 글이 일치하고 일치율이 특정 임계값을 초과하면 그 글은 검토 대상으로 지정되었죠.

당연하게도, GPT로 치팅을 진행하면 이 방법은 작동하지 않겠죠. 처음에 사용된 프롬프트, 사용된 모델과 플랫폼마다 결과가 크게 달라질 수 있는데, 문제는 실행 간에도 결과가 매우 달라질 수 있죠. 따라서 Turnitin은 하루아침에 쓸모없어지는 것을 피하기 위해 이미 결함투성이인 구식 텍스트 비교 방법을 대체하는, 새로운 솔루션을 개발해야 했습니다.

그래서 나온게…

Turnitin의 “AI 글 탐지”

Turnitin은 “AI-기반 치팅“ 논란을 써먹기 위해 새로운 “AI 탐지“ 솔루션을 개발했는데, 심지어는 아예 페이지 하나를 만들어 이 솔루션을 광고하기 시작했습니다.

만약 실수로라도 그 페이지를 방문한다면, 마케팅 문구, 기업 홍보 어쩌구저쩌구 (“AI 혁신 연구소“)만 가득할 뿐, 실질적으로 유용한 정보는 찾아볼 수 없을 겁니다. Turnitin의 탐지가 어떻게 작동하는지는 아예 설명조차 없죠.

그 정보는 사이트의 자주 하는 질문 페이지에 숨겨져 있는데, 거기에 나와있는 정보마저도 모호하며 도움이 되질 않습니다. 아니, 직접 한번 읽어보세요:

어떻게 작동하나요? (…기술적인 쓰레기…) 세그먼트들은 AI 감지 모델에 대입되며, 각 문장에 0과 1 사이의 점수를 주어 인간이 작성했는지 AI가 작성했는지 판단합니다. (…더 많은 기술적 내용…) 현재 Turnitin의 AI 감지 모델은 ChatGPT를 포함한 GPT-3 및 GPT-3.5 언어 모델에서 만들어진 콘텐츠를 감지하도록 훈련되어 있습니다. GPT-4의 글쓰기 특성은 이전 모델 버전과 일치하기 때문에 당사의 감지기는 대부분의 경우 GPT-4(ChatGPT 플러스)의 콘텐츠를 감지할 수 있습니다. 다른 AI 언어 모델이 만든 글을 더 잘 감지할 수 있도록 모델을 확장하기 위해 적극적으로 노력하고 있습니다.

Turnitin이 AI가 글을 썼는지 감지하는 방법은 글을 가지고… 또 다른 AI 모델에 집어넣어 인간이 썼는지 AI가 썼는지 예측하는 방식이군요. 마지막 문장을 읽어보면 새로 출시되는 AI 언어 모델마다 새로운 모델을 작성해야 됨을 알 수 있습니다.

결국 Turnitin은 객관적인 측정값(얼마나 많은 텍스트를 복사하여 붙여넣었는지)에서 AI 블랙박스로 만든, 완전히 주관적인 측정값으로 전환했습니다. 당연히 이 새로운 시스템은 훨씬 더 신뢰할 수 있죠. (농담입니다.)

이 예측 점수를 바탕으로 교사들이 학생들의 삶을 완전히 망칠 수 있음에도 불구하고, 이를 신뢰하라고 말하고 있습니다!

실은…

Turnitin도 이 탐지 방식에 문제가 있음을 인정했습니다. “AI 글 감지 기능의 오탐지 이해하기”라는 제목의 블로그 게시물에서 Turnitin은 다음과 같이 주의를 주죠:

사전에 미리 알기 - 오탐지 가능성을 미리 고려하고 결과를 결정하기 위한 프로세스와 접근 방식에 대한 계획을 세워야 합니다. 더 좋은 방법은 학생들과 이 점을 사전에 얘기하여 기대치를 공유할 수 있도록 하는 것입니다.

긍정적 의도 가정하기 - 새롭고 알려지지 않은 것이 많은 이 부분에서, 학생들을 최대한 의심하지 마세요. 증거가 불분명할 경우, 학생들이 정직하게 행동할 것이라고 가정합니다.

개방적이고 정직하게 대응하기 - 오탐지가 있을 수 있음을 미리 인정하는 것이 중요하므로, 교수자와 학생 모두 개방적이고 정직한 대화를 나눌 준비가 되어 있어야 합니다. 오탐지가 발생할 수 있음을 인정하지 않으면 훨씬 더 방어적이고 대립적인 대화가 오고 가면서, 결국 학생과의 관계가 손상될 수 있습니다.

그렇다면 왜 위에서 얘기했던 사례들이 여러 대학을 걸쳐 발생하는 걸까요? 이 면책 조항이 블로그 게시물에 숨겨져 있기 때문이죠. 물론, 저는 Turnitin이 AI 예측 점수 위에 경고 배너를 표시하는지는 모르지만, 표시하더라도 “이 점수는 AI가 다른 AI를 보고 튜링 테스트를 수행하도록 요청하는 것에 불과하기 때문에 완전히 부정확할 수 있습니다”와 비슷한 내용은 절대로 적지 않겠죠. 만약 그랬다면, 교사들의 신뢰를 잃고 회사가 망해버릴 수도 있으니까요.

따라서, 어떤 교사들은 Turnitin의 AI 감지 모델의 예측 점수에 누적되는 오차 범위가 있다는 것을 모르고, 일반적으로 사용될 수 있는 검증된 것으로 착각해버립니다.

일단 Turnitin 얘기는 여기까지만 하겠습니다. 일반적인 ”AI 감지“에 대해서 잠시 얘기하고 싶거든요.

AI 감지, 모델들, “환각”과 데이터세트

이러한 “AI 감지“ 도구들이 아무짝에도 쓸모없는 이유는, “AI를 감지”한다는 아이디어 자체에 문제가 있기 때문입니다.

이렇게 이해하면 쉽습니다: AI 모델들은 때때로 ”환각“하며 완전히 잘못된 정보를 도출할 수 있기 때문에, 출력물을 완전히 신뢰하면 안된다고 알고 있습니다. AI 감지기들은 AI 모델을 기반으로 만들어졌죠. 그럼 왜 저희는 AI 감지기들을 신뢰해야 될까요?

더 나아가, 이러한 GPT-기반의 도구들은 정보를 제공하기 위해 사용되는 대규모 데이터세트에서 진가를 발휘합니다. 코드를 작성하거나, 요리 레시피를 만들어주거나 등의 작업은 AI 모델들이 하기 쉬운데, 왜냐하면 데이터세트에서 배운 내용을 곧이곧대로 뱉어내면 되기 때문입니다. 하지만 AI 탐지기들은 (이전에 얘기한 GPT 모델들이 뱉어낸) 완전히 새로운 입력을 가지고, 애초에 데이터세트에 포함되지 않았던, ”이 글이 AI가 작성한 글인가”를 판단해야 되기 때문입니다. AI 탐지 이론은 인터넷 상에서 튜링 테스트로밖에 존재하지 않았으며, 이러한 이론들은 지금 바로 시장에 출시되고 있는 GPT 모델들을 꿈에도 상상하지 못했을 겁니다.

증거로 예시 하나를 들겠습니다. AI 탐지 도구 중 GPTZero라는 서비스는 실제로 미국의 독립선언서가 AI로 작성된 글이라고 오탐지했죠. ~~미국 건국의 아버지들이 GPT 모델인줄은 몰랐네요!~~

그럼, 이제 어떻게 되나요?

교사들은 이러한 새로운 환경에 맞추어 변해야 될 수 밖에 없습니다. 이는 예전에도 일어났었는데, 인터넷이 처음 등장했을 때 정직하지 않은 학생들은 온라인에서 찾은 자료를 그대로 복붙했죠.

AI 탐지 예측 점수가 측정 기준이 되면 안되고, 참고 용도로만 사용되야 합니다. 만약 학생이 항상 성적이 나쁜 경우, 이 탐지 점수는 학생이 부정행위를 저지르고 있음을 보여주는 증거의 일부로 사용될 수 있습니다. 반대로, 모범 학생의 에세이 중 하나가 AI로 작성되었다고 플래그된 경우 교사는 당연히 오탐지가 발생했음을 알 수 있겠죠.

이게 실천되기 위해서는, 모든 AI 탐지 회사들이 탐지 기능들을 훨씬 더 투명성 있게 공개하고, 해당 도구가 부정행위 판단을 돕는 일부일 뿐, 모든 것을 해결할 수 있는 솔루션이 아니라는 점을 강조해야 합니다. 하지만, 이러한 도구는 교육 기관에 판매되어 교사들에게 대량으로 배포되기 때문에, 이를 실행하기 어려울 수 있습니다. 적절한 설명서 및 교육이 없으면 교사들은 도구를 잘못 이해하여 올바르지 않은 방식으로 사용할 수 있습니다.

솔직히 마지막 문장을 쓰다 보니 AI-이전의 Turnitin이 떠올랐습니다. 그리고 GPT 챗봇도요. 그리고 현존하는 거의 모든 소프트웨어나 도구도 마찬가지입니다. 사용 중인 도구의 한계와 특성을 완전히 이해하지 못한다면, 아마도 결과값을 맹목적으로 신뢰하면 안되겠죠.

이 블로그 게시물이 도움이 되었으면 합니다! 만약 본인이나 친구가 로봇으로 오인되었다면 이 블로그 게시물을 교사와 공유하여 AI 탐지기에 의존하는 것이 얼마나 위험한지 알려주세요.

수정 (2023-07-27)

OpenAI가 최근에 AI 탐지기를 없앴는데, 이유는 정확성이 떨어져서라고 합니다.

가장 유명한 GPT-기반 챗봇 회사가 탐지기를 없앤다면, 다른 회사들은 어떻게 OpenAI보다 더 나은 탐지기들을 만들 수 있을까요? (힌트를 드리자면 만들 수 없고, 만들지도 않습니다.)