개발자가 AI 챗봇의 논란을 다루는 방법을 테스트했다

극지 시야

Thursday, April 17 2025

익명의 개발자가 OpenAI의 ChatGPT와 X의 Grok과 같은 챗봇을 제어하는 AI 모델을 위한 '언어평가' SpeechMap을 개발했습니다. 이 개발자는 TechCrunch에 말했으니 다양한 모델이 민감하고 논란이 될 수 있는 주제를 다뤄드리는 방식을 비교하고자 했습니다. 이 주제에는 정치적 비판과 시민 권리 및 시위에 대한 질문이 포함됩니다.

몇몇 백악관 동맹들이 인기 있는 챗봇들이 지나치게 '강렬한' 것으로 비난하는 가운데, AI 기업들은 모델이 특정 주제를 어떻게 처리하는지에 중점을 두었습니다. 도널드 트럼프 대통령의 가까운 신뢰자들인 일론 머스크와 암호화 및 AI '카자' 데이비드 삭스 등 많은 사람들은 챗봇들이 보수적인 견해를 검열한다고 주장합니다.

이러한 AI 기업들 중에는 이러한 주장에 직접 대응한 기업은 없지만, 몇몇 기업들은 더 이상 논란이 될만한 질문에 대답하지 않도록 모델을 조정할 것을 약속했습니다. 예를 들어, 최근 출시된 Llama 모델군에 대해 Meta는 모델이 '일부 견해를 다른 것보다 우선시하지 않도록' 조정했다고 발표했으며, 논쟁이 될 수 있는 정치적 프롬프트에 더 많이 답변하도록 했습니다.

사용자 이름이 'xlr8harder'인 SpeechMap의 개발자는 모델이 무엇을 해야하고 해서는 안 될지에 관한 논의를 돕기 위해 동기부여를 받았다고 말했습니다. '기업 본부 안이 아닌 공개적인 장소에서 이러한 종류의 논의가 이루어져야 한다고 생각합니다.' xlr8harder는 이메일을 통해 TechCrunch에게 이렇게 말했습니다. '그래서 누구라도 데이터를 직접 탐색할 수 있도록 사이트를 구축했습니다.'

SpeechMap은 AI 모델을 사용하여 해당하는 테스트 프롬프트에 대한 모델의 준수 여부를 판단합니다. 프롬프트는 정치에서 역사적 서술 및 국가 상징 등 다양한 주제에 걸쳐 있습니다. SpeechMap은 과거 모형 제공 업체의 오류로 인한 '잡음'과 '심리적 편향'을 포함한 결함이 있다고 인정하고 있습니다. 모델에 '재판관'이 있으면 결과에 영향을 미칠 수 있는 것이 가능합니다.

그러나 프로젝트가 선량하게 만들어졌고 데이터가 정확하다고 가정하면, SpeechMap은 몇 가지 흥미로운 동향을 나타냅니다.

예를 들어, SpeechMap에 따르면 시간이 지남에 따라 OpenAI 모델은 정치와 관련된 프롬프트에 대한 답변을 거부하는 경우가 점점 더 많아졌다고 합니다. OpenAI의 최신 모델인 GPT-4.1 패밀리는 약간 융통성을 가지고 있지만, 여전히 올해 OpenAI의 한 출시와 비교하면 한 단계 아래입니다.

오픈AI는 2월에 향후 모델을 편향적인 입장을 취하지 않도록 조정하고, 논란이 될 수 있는 주제에 대해 여러 관점을 제시함으로써 모델을 더욱 '중립적'으로 보이도록 노력하겠다고 밝혔습니다.

시간이 지남에 따른 OpenAI 모델의 SpeechMap에서의 성능. 이미지 크레딧: OpenAI

이 그룹 중 가장 융통성 있는 모델은 xAI의 Elon Musk가 개발한 Grok 3로, SpeechMap의 벤치마킹에 따르면 전체 평균 '준수율' 71.3%와 비교하여 96.2%의 SpeechMap 테스트 프롬프트에 응답합니다.

xlr8harder는 'OpenAI의 최근 모델은 시간이 지남에 따라 특히 정치적으로 민감한 프롬프트에 대한 답변이 거부되는 경우가 점점 더 많아졌지만, xAI는 반대 방향으로 움직이고 있다'고 말했습니다.

Musk가 약 두 년 전에 Grok을 발표했을 때, 그는 그 AI 모델을 엣지 있는, 필터되지 않은 하고 '강렬한'로 소개했으며, 일반적으로 다른 AI 시스템이 하지 않을 논란이 될 수 있는 질문에 대답할 의향이 있다고 했습니다. 예를 들어, 욕설을 해달라는 경우, Grok 및 Grok 2는 기꺼이 수용하여, 아마도 ChatGPT에서는 듣기 힘든 다채로운 언어를 토해냅니다.

그러나 Grok 3 이전의 Grok 모델은 정치적 주제에 대해 주저한 것으로 나타났으며, 특정한 한계를 넘지 않았습니다. 실제로, 한 연구에 따르면 Grok은 트랜스젠더 권리, 다양성 프로그램 및 불평등과 같은 주제에서 왼쪽편으로 편향되었습니다.

머스크는 그러한 행동을 Grok의 훈련 데이터 - 공개 웹 페이지 - 때문이라고 하고 있으며 'Grok를 정치적으로 중립에 더 가까워지도록 이동할 것'이라고 약속했습니다. 대통령 도널드 트럼프와 머스크의부 정이라는 언급을 일시적으로 검열하는 등 고프로파일실한 실수를 제외하면 그 목표를 달성했을 것으로 보입니다.

극지 시야

개발자가 AI 챗봇의 논란을 다루는 방법을 테스트했다

Recent Posts

행동 상호작용이 '전략적 기업 변화'를 위해 95개 직위를 축소

Meta는 곧 WhatsApp 계정을 Instagram 및 Facebook과 연결할 수 있게됩니다

M&A 및 AI가 주목을 받고 있지만 빠른 상거래 및 더 많은 자본이 남아 있습니다

Ronaldo이 대체 선수로 등장하며 승리를 거두다

비자 요금 인상과 지연으로 인해 미국 투어에 잡히는 국제 아티스트