Google Gemini: 생성 AI 앱 및 모델에 대해 알아야 할 모든 것

\n

Google은 플래그십 스위트인 생성 AI 모델, 앱 및 서비스인 Gemini로 파장을 일으키려고 노력하고 있습니다. 그러나 Gemini가 무엇인가요? 어떻게 사용할 수 있을까요? 그리고 다른 생성 AI 도구인 OpenAI의 ChatGPT, Meta의 Llama 및 Microsoft의 Copilot과 어떻게 비교될까요?

\n\n

최신 Gemini 개발 내용을 보다 쉽게 파악하기 위해 Google의 Gemini 계획에 대한 새로운 모델, 기능 및 뉴스를 출시할 때마다 업데이트할 이 편리한 가이드를 준비했습니다.

\n\n

Gemini란 무엇인가요?

\n\n

Gemini는 Google의 오랫동안 약속된 차세대 생성 AI 모델 패밀리입니다. Google의 AI 연구소 DeepMind와 Google Research에서 개발되었으며 여러 가지 버전으로 제공됩니다:

\n\n
  • Gemini Ultra, 매우 큰 모델입니다.
  • \n\n\n
  • Gemini Pro, 대형 모델 - Ultra보다는 작지만 큽니다. 최신 버전인 Gemini 2.0 Pro은 Google의 현재 플래그십 모델입니다.
  • \n\n\n
  • Gemini Flash, 빠르고 “증류된” Pro 버전입니다.
  • \n\n\n
  • Gemini Flash-Lite, Flash보다 약간 작고 빠른 버전입니다.
  • \n\n\n
  • Gemini Flash Thinking, “추론” 능력을 갖춘 모델입니다.
  • \n\n\n
  • Gemini Nano, 두 가지 작은 모델: Nano-1과 조금 더 능동적인 오프라인 실행을 의미하는 Nano-2가 있습니다.
  • \n

모든 Gemini 모델은 원시적으로 다중 모달(multimodal)로 훈련되었습니다. 즉, 텍스트 이외의 다양한 형식을 처리하고 분석할 수 있습니다. Google은 이들을 다양한 공개, 전용 및 라이선스된 오디오, 이미지 및 비디오; 코드베이스 세트; 그리고 다른 언어의 텍스트로 사전 훈련 및 세분화했다고 합니다.

\n\n

이로써 Gemini는 텍스트 데이터만으로 훈련된 Google의 LaMDA와 같은 모델과는 구별됩니다. LaMDA는 텍스트 이외의 것(에세이, 이메일 등)을 이해하거나 생성할 수 없지만 Gemini 모델에서는 그렇지 않을 수 있습니다. 예를 들어, Gemini Flash 및 Gemini Pro의 최신 버전은 텍스트 외에 이미지와 오디오를 기본으로 출력할 수 있습니다.

\n\n

여기서 언급해야 할 것은 특히 상업적으로 사용하려는 경우 주의해야 할 것들이 있습니다.

\n\n

Gemini 앱과 Gemini 모델의 차이점은 무엇인가요?

\n\n

Gemini는 웹 및 모바일의 Gemini 앱(이전 Bard)과 별개입니다.

\n
\n
\n\n

Gemini 앱은 다양한 Gemini 모델에 연결되는 클라이언트이며 채팅봇과 유사한 인터페이스를 제공합니다. 이를 Google의 생성 AI에 대한 프론트 엔드로 생각하면 됩니다.

\n\n
이미지 크레딧:Google

웹 상의 Gemini는 여기에서 이용할 수 있습니다. Android의 경우 Gemini 앱은 기존 Google 애시스턴트 앱을 대체합니다. 그리고 iOS의 경우 Google 및 Google Search 앱이 해당 플랫폼의 Gemini 클라이언트로 작동합니다.

\n\n

Android에서 사용자는 지원하는 스마트폰의 전원 버튼을 누르거나 “Hey Google”을 말해 Gemini 오버레이를 호출하여 화면에 표시된 내용(예: YouTube 비디오)에 관한 질문을 할 수 있습니다.

\n\n

Gemini 앱은 이미지 및 음성 명령뿐만 아니라 PDF와 같은 파일도 허용하며 이를 업로드하거나 Google 드라이브에서 가져와 이미지를 생성할 수 있습니다. 또한 모바일에서 Gemini 앱과의 대화가 웹 상의 Gemini로 계속 이어지며 반대로 동일한 Google 계정으로 로그인한 경우 마찬가지입니다.

\n\n

Gemini 고급

\n\n

Gemini 앱이 Gemini 모델의 도움을 받아 과업을 수행하는 유일한 방법은 아닙니다. 천천히이지만 확실하게 Gemini 기능이 Gmail 및 Google Docs와 같은 핵심 Google 앱 및 서비스로 통합되고 있습니다.

\n\n

이러한 대부분을 활용하려면 Google One AI 프리미엄 요금제가 필요합니다. 기술적으로 Google One의 일부인 AI 프리미엄 요금제는 월 20달러이며, Gemini를 Google Workspace 앱(문서, 지도, 슬라이드, 시트, 드라이브, 미트)에서 이용할 수 있게 해줍니다. 또한 Gemini 고급이라는 기능을 활성화합니다. 이는 Google의 더 정교한 Gemini 모델을 Gemini 앱으로 가져옵니다.

\n\n
이미지 크레딧:Google

Gemini 고급 사용자는 새로운 기능과 모델에 대한 우선 액세스; Gemini에서 파이썬 코드를 직접 실행 및 편집할 수있는 기능; PDF를 AI 생성 포드캐스트로 변환하는 Google의 도구인 NotebookLM의 제한을 늘릴 수 있습니다. 최근에 Gemini 고급에 메모리 기능이 추가되어 사용자의 기호를 저장하고 Gemini이 현재 대화에 대한 맥락으로 이전 대화를 참조할 수 있습니다.

\n\n

더욱 매력적인 Gemini 고급 독점 기능 중 하나인 Deep Research은 “고급 추론”을 갖춘 Gemini 모델을 활용하여 상세한 브리프를 작성합니다. 프롬프트에 대한 답변(예:“어떻게 주방을 리디자인해야 하나요?”)에 대한 다단계 연구 계획을 개발하고 웹 검색을 사용하여 포괄적인 답변을 작성합니다.

\n\n

Gmail, Docs, Chrome, 개발 도구 및 기타에서의 Gemini

\n\n

Gmail에서 Gemini는 이메일 작성 및 메시지 스레드 요약을 도와주는 사이드 패널에 있습니다. Docs에서도 동일한 패널이 콘텐츠 작성, 정제 및 새로운 아이디어를 도와줍니다. 슬라이드에서 Gemini는 슬라이드와 사용자 정의 이미지를 생성합니다. 그리고 Google 스프레드시트에서 데이터를 추적하고 정리하여 표 및 공식을 만듭니다.

\n\n

Gemini는 Google 지도에도 있습니다. 현지 기업에 대한 리뷰를 종합하고 외국 도시 방문에서 하루를 어떻게 보낼지와 같은 추천을 제공합니다. 캐릭터의 도달은 드라이브로 확장되어 파일 및 폴더를 요약하고 프로젝트에 대한 빠른 사실을 제공합니다.

\n\n
이미지 크레딧:Google

최근에 Google의 Chrome 브라우저에는 AI 쓰기 도구 형태로 Gemini가 도입되었습니다. 새로운 내용을 작성하거나 기존 텍스트를 다시 작성할 수 있으며 웹페이지를 고려하여 권장 사항을 제공합니다.

\n\n

그 외에도 Google의 데이터베이스 제품, 클라우드 보안 도구 및 앱 개발 플랫폼(Firebase 및 Project IDX 포함)에서 Gemini의 힌트를 찾을 수 있으며, Google Photos(여기에서 Gemini가 자연어 검색 쿼리를 처리)와 YouTube(비디오 아이디어를 생각해주는 부분) 및 Meet(자막 번역) 같은 앱에서도 볼 수 있습니다.

\n\n

코드 어시스트(formerly Duet AI for Developers)는 코드 완성과 생성을 돕는 AI 기반 지원 도구인 Google의 스위트도 Gemini에게 무거운 계산적 역할을 완화하게 합니다. 또한 Google의 Gemini이 하부 구조로 지원되는 보안 제품들도 있습니다.

\n\n

Gemini 확장 및 보석

\n\n

Gemini 고급 사용자는 Gemini 모델에 의해 구동되는 데스크톱 및 모바일용 사용자 지정 채팅봇인 Gem을 만들 수 있습니다. Gems은 자연어 설명에서 생성될 수 있으며 다른 사용자와 공유하거나 개인으로 유지할 수 있습니다.

\n\n
이미지 크레딧:Google

Gemini 앱은 Google의 서비스에 접근하기 위해 Google이 “Gemini extensions”라고 하는 것을 활용할 수 있습니다. Gemini는 드라이브, Gmail, YouTube 등과 통합하여 “내 마지막 세 개의 이메일을 요약해 줄 수 있을까?” 같은 질문에 대답합니다.

\n\n

실시간 보이스 채팅에서의 Gemini Live

\n\n

Gemini Live라는 경험을 통해 사용자는 Gemini과 “심층적인” 음성 채팅을 할 수 있습니다. 이는 모바일의 Gemini 앱 및 Pixel Buds Pro 2에서 제공되며, 전화기가 잠겨 있을 때조차 사용할 수 있습니다.

\n\n
이미지 크레딧:Google

Gemini Live를 활성화하면, 채팅봇이 말할 때 묻는 질문에 대답하거나 실시간으로 사용자의 언어 패턴에 적응할 수 있습니다. 또한 Live는 일종의 가상 코치 역할을 맡아 행사 준비, 새로운 아이디어에 대한 브레인스토밍을 도와줍니다. 예를 들어, Live는 다가오는 구직 면접에서 강조해야 할 기술을 제안하고 공개 연설 포인터를 제공할 수 있습니다.

\n\n

이 프로세스에서는 데이터가 전화기에서 떠나지 않으며 개인 정보 보호를 위한 것으로 사용자에게 요약을 제공합니다.

\n\n

티네이저를위한 Gemini

\n\n

Google은 학생들을위한 틴즈 중심의 Gemini 경험을 제공합니다.

\n\n

틴즈 중심 Gemini에는 표준 Gemini 경험과 거의 동일한 맞춤 온보딩 프로세스 및 AI 가이드가 포함됩니다. 이는 Gemini의 답변이 정확한지 확인하는 “이중 검사” 기능까지 내렸습니다.

\n\n

Gemini 모델은 무엇을할 수 있나요?

\n\n

Gemini 모델은 다중 모달 작업을 수행할 수 있기 때문에 음성을 전사하거나 이미지와 비디오를 실시간으로 캡션 작업을 포함한 다양한 다중 모달 작업을 수행할 수 있습니다. 이러한 기능 중 많은 것들이 제품 단계에 도달했으며 Google은 가까운 미래에 훨씬 더 많은 것을 약속하고 있습니다.

\n\n

물론, Google이 제공하는 것이 아직 아는 문제나 인코딩된 편견과 같은 생성 AI 기술의 뒷면 문제에 대한 해결책을 제공하지 않음은 기억해야 합니다. 물론 경쟁사들 역시 그렇지만 Gemini을 사용하거나 지불할 때 고려해야 할 사항입니다.

\n\n

Gemini Pro의 기능

\n\n

Google은 최신 Pro 모델인 Gemini 2.0 Pro가 코딩 및 복잡한 프롬프트에 대한 최고의 성능을 발휘한다고 말합니다. 프로그래밍, 추론, 수학 및 사실적 정확성을 측정하는 벤치마크에서 2.0 Pro는 이전 모델인 Gemini 1.5 Pro를 능가합니다.

\n\n

Google의 Vertex AI 플랫폼에서 개발자는 Pro를 특정 맥락 및 사용 사례에 맞게 사용자 정의할 수 있습니다. 예를 들어, Pro(다른 Gemini 모델과 함께)는 Moody’s,