세계 최초 사용자 페르소나(Persona)와 외부 지식 활용하는 데이터셋 구축
올해 10월 '전산언어학회 COLING 2022'서 고려대와 공동 워크샵 개최

'FoCus Dataset'은 사용자 개인의 페르소나(Persona)와 외부 지식을 모두 활용하는 세계 최초의 AI 대화 데이터셋이다. 약 8000여 개의 광범위한 주제를 다룬 1만5000개 이상의 대화로 구성돼 있다.
'FoCus Dataset'을 적용한 AI는 대화하고 있는 사용자의 경험, 선호, 소유, 흥미 등을 파악하고 위키피디아에서 이야기 주제에 대한 최신 지식을 실시간으로 습득해 자연스러운 대화가 가능하다.
공동연구팀은 지난 2월 세계 최고 권위의 인공지능 학회 'AAAI 2022'에서 해당 연구 논문을 게재 및 발표했다. 오는 10월에는 세계 전산언어학회인 'COLING 2022'에서 데이터 활용 경진 대회(Shared Tasks)를 비롯한 연구 성과를 공유하는 워크샵(The 1st Workshop on Customized Chat Grounding Persona and Knowledge)을 고려대와 공동 개최한다.
엔씨(NC) 이연수 Language AI Lab 실장은 "최근 NLP 학계에서는 비용 및 환경 문제로 초거대 언어모델 기반의 대화 기술에 필적할 수 있는 새로운 대화 기술들이 제안되고 있다"며 "이러한 연구 방향에 공감하는 차원에서 이번 데이터 공개를 결정했으며, 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이뤄지기를 기대한다"고 설명했다.
이원희 기자 (cleanrap@dailygame.co.kr)