갤러리

맞춤형 AI 비서의 마지막 퍼즐, 음성합성 기술

페이지 정보

profile_image
작성자 고로시
댓글 0건 조회 1회 작성일 25-05-20 05:32

본문

교통사고한의원 한때 음성합성 기술은 개발하기 쉬워서 이미 범용화된 기술이란 평을 듣기도 했다. 그러나 딥러닝, LLM 등 우수한 AI 모델에 힘입어 합성된 음성의 품질은 더 이상 과거의 기계적인 음성이 아니라 교통사고한의원 현재 대부분의 AI 서비스는 글을 써서 명령하고, 글로 답을 받는 문자 기반의 소통 방식을 주로 채택하고 있다. 이런 단일한 방식의 소통은 사람들에게 다소 불편하거나 비효율적일 수도 있다. 사람들 간의 의사소통은 주로 글(문자), 말(음성), 표정(시각 데이터, 이미지), 동작(시각 데이터, 행동) 중 둘 이상을 동시에 사용해서 정보를 주고받음으로써 이루어지기 때문이다. 이런 점을 감안하면 일반적인 사용자들은 자신의 비서 역할을 수행하는 AI 서비스를 이용할 때 사람을 상대하듯 말도 함께 사용할 수 있는 방식을 훨씬 편리하게 여길 것이라 짐작할 수 있다. 향후 사람처럼 음성, 문자, 이미지를 동시에 활용할 수 있는 멀티모달 인터페이스가 적용된다면 사용 편의성이 획기적으로 높아져 AI 서비스의 활용도가 훨씬 확장될 수 있을 것이다. 널리 알려진 AI 모델인 챗GPT에 사람의 비서 역할을 맡은 AI 에이전트에 필요한 인터페이스가 무엇인지 질문해 보면 아주 흥미로운 대답을 한다. AI 에이전트에 필요한 인터페이스는 단순히 문자를 주고받는 채팅창을 넘어선 멀티모달 인터페이스라고 답한다. 챗GPT 등 각종 AI 서비스를 활용해 도출한 AI 비서의 인터페이스로는 문서 기반, 맥락 기반, 문자 기반, 타임라인 기반, 행동 유도 기반 및 멀티모달의 .

댓글목록

등록된 댓글이 없습니다.

회원로그인