Google은 성문 모델 Chirp 3를 Vertex AI 플랫폼에 추가합니다

생산적 AI의 대부분은 텍스트 기반 인터페이스에 집중되어 왔습니다. 텍스트, 이미지 및 기타를 생성하는 데 사용됩니다. 다음으로 나올 파도는 음성인데, 그것이 빠르게 롤링됩니다. 최신 개발로 구글은 오늘 Chirp 3 (음성인식 및 HD 텍스트 음성 변환 모델)을 다음 주부터 시작하여 Vertex AI 개발 플랫폼에 추가할 예정임을 발표했습니다.

지난 주, 구글은 조용히 Chirp 3가 31개 언어의 8가지 새 목소리를 추가하여 롤링 아웃될 것임을 발표했습니다. 플랫폼의 사용 사례에는 음성 어시스턴트 구축, 오디오북 작성, 지원 에이전트 및 비디오용 보이스 오버 개발 등이 포함됩니다. 이 소식은 런던의 구글 딥마인드 사무실에서 열린 행사에서 발표되었습니다.

구글의 노력은 다른 사람들도 음성 AI 작업을 크게 전진하고 있는 동안 이루어지고 있습니다. 지난 주, Sesame는 바이럴하고 매우 현실적으로 들리는 “Maya”와 “Miles” AI 앱 뒤에있는 스타트업으로 발전하여 개발자가 해당 기술을 기반으로 자체 맞춤형 앱 및 서비스를 구축할 수 있도록 모델을 발표했습니다.

Chirp 3 주변의 사용 제한 사항이 있을 예정이며, 남용을 방지하기 위해 노력하고 있습니다. “우리는 안전팀과 함께 이런 문제들을 처리 중이며, 이것은 지금 발생하고 있습니다,”라고 구글 클라우드 CEO 인 토마스 쿠리안이 오늘 기자회견에서 말했습니다.

ElevenLabs는 수백만 달러를 조성하여 AI 음성 서비스 분야를 확대하는 주요 스타트업 중 하나입니다.

이 소식은 Chirp 3를 최신 버전의 주력 LLM, Gemini와 함께 시험 중인 것과 함께, 이미지 생성 모델 Imagen과 가격이 비싼 Veo 2 비디오 생성 도구가 함께하는 것을 의미합니다.

구글이 Chirp 3를 출시할 때 다른 AI 노력에서 “인간” 목소리를 만들기 우려하는 다른 AI 노력과 비슷하게 “현실적” 일지 확인해야 할 것입니다 (특히 Sesame의 작업이 두드러집니다). 하지만 디미스 하샤비스, 딥마인드 CEO가 강조한 바와 같이, 이것은 스프린트가 아닌 마라톤입니다.

“근시간 내에 ... [AI가] 다음 몇 년 내에 대부분의 것에 대한 은퇴탄이 안 될 것이라고 생각합니다. AGI가 일어나는 것을 아직 보지 못하고 있는 것 같습니다,” 그가 말했습니다. “앞으로 10년 동안, 중장기적으로 변화될 것입니다. 그것은 흥미로운 시점 중 하나입니다.”

구글은 2021년에 Vertex AI를 개발자들이 클라우드에서 기계 학습 서비스를 구축할 수 있는 플랫폼으로 출시했습니다. 당연히, 그것은 OpenAI의 GPT 서비스 출시와 함께 AI, 특히 생산적 AI에 대한 관심 폭발 이전에 이루어 졌습니다.

그 이후 회사는 Vertex AI에 맞춤형 AI를 구축할 때 일부로 뒤떨어진 부분을 맞추기 위해 Lean을 가하고 있습니다. Gemini 위에 생성적 AI를 구축하는 것 외에도, 개발자들은 데이터를 분류하고 모델을 훈련시키고 모델을 제작할 수 있도록 Vertex AI를 사용할 수 있습니다. 구글이 생성한 모델 이외의 모델까지 월드 가든을 확장할지 여부가 흥미로울 것입니다.

구글은 Amazon의 Alexa 서비스와 경쟁하기 위한 초기 노력에서 명칭을 사용하기 시작했던 “Chirp” 음성 서비스를 수년간 구축해 왔습니다.