아래는 논문에서 소개된 Elaboration의 사례입니다.
🗣️ Here's my story so far: {The long shadow of the tree crept up the sidewalk.} Describe the tree
‘나무의 긴 그림자가 드리운 거리’라는 스토리에 알맞은 나무를 묘사해달라고 요청했는데요, Wordcraft는 어떤 문장을 만들어냈을까요?
🗨️ An old oak tree on the main street of a small town, the branches spread as large as the sky
Wordcraft는 ‘작은 도시의 거리에 있는 오래된 참나무, 가지는 하늘만큼 넓게 뻗어 있다’라는 문학적인 표현을 생성해냈습니다.
이런 요청을 Freeform Prompt라고 하는데요, 보다 적확하게 요청할수록 좋은 결과물을 얻을 수 있기에 Wordcraft는 적절한 프롬프트 작성을 위한 챗봇 기능을 제공합니다.
물론 아직 Wordcraft 만으로 일관적인 스토리를 만들어 내는 데는 한계가 있습니다. Wordcraft는 작성 중 캐릭터의 관점이 바뀌거나, 글쓰기 스타일을 유지하는 데 어려움을 보입니다. 하지만 디테일과 정교함 측면에서 탁월한 결과물을 보여주고 있기에, 인간의 창작 활동을 돕는 툴로서 유용할 수 있습니다. 구글은 13명의 전문 작가가 Wordcraft를 활용하여 쓴 글들을 위 Wordcraft Writers Workshop에서 공개했습니다. 작가들은 Wordcraft가 실제로 창작의 영감을 받는 데 도움이 되었다고 말했습니다.
Audio - AudioLM
올해 9월 구글은 오디오 생성을 위한 언어 모델 AudioLM을 공개했습니다. AudioLM은 오디오 프롬프트를 기반으로 아주 현실적인 음성 또는 피아노 음악을 생성하는 언어 모델입니다. AudioLM은 3초 분량의 짧은 오디오 파일만 입력받아도 이후의 오디오를 스스로 생성해낼 수 있습니다. 스피치의 경우 자연스럽게 문장을 생성하면서 어조와 말투를 유지(Speech Continuation)하고, 음악의 경우 멜로디를 자연스럽게 이어나갑니다(Music Continuation). Generative AI의 작업물이라고 말하지 않으면 모를 정도로요.
AudioLM: a Language Modeling Approach to Audio Generation
텍스트 언어 모델이 뛰어난 성능을 보인 만큼 오디오 언어 모델도 비슷한 장점을 가집니다. 하지만 학습 기반이 되는 데이터가 달라, 오디오 언어 모델은 개발에 있어 어려움을 겪을 수밖에 없습니다. 그중 대표적인 2가지는 데이터의 형태 문제와 텍스트-오디오 대응 문제입니다. 오디오 데이터는 파형으로 되어 있기 때문에 텍스트 토큰에 비해 하나의 시퀀스가 길 수밖에 없습니다. 이러한 차이로 오디오 데이터를 텍스트에 적절하게 대응시키는 것도 어려운 과제일 수밖에 없습니다.
이런 문제를 해결하기 위해 AudioLM은 3단계로 구성됩니다. 먼저 의미적 토큰을 생성해낸 다음(Semantic Modeling), 굵직한 음성 토큰을 생성합니다(Coarse Acoustic Modeling). 마지막으로 생성된 음성 토큰을 미세하게 조정하여 음성 파일로 생성해내는 구성입니다(Fine Acoustic Modeling). |