DramaQA 데이터셋
작성자: 최성호, 온경운, 허유정, 장병탁
1. 데이터셋의 구성
스토리는 인류의 역사와 함께 오랫동안 존재해 왔으며 소설에서 만화, 연극, 영화에 이르기까지 다양한 매체를 통해 인간에게 전달되어 왔다. 우리가 일상생활에서 자연스럽게 스토리를 통해 소통하고 공감대를 형성하는 것으로 볼 때, 스토리 이해 능력은 다른 동물들과 구분될 수 있는 인간 고유의 중요한 지능이다. 특히, 비디오 형태의 TV 드라마는 사람의 시각, 청각, 행동 등의 표현을 이용하여 스토리를 전달하기 때문에 인간 수준의 인공지능 개발을 위한 좋은 연구 대상으로 간주된다.
DramaQA 데이터셋은 이러한 비디오 스토리 이해 연구를 위해 총 18 부, 도합 20.5 시간으로 이루어져 있는 유명 한국 드라마 “또 오해영”을 대상으로 수집되었다.
데이터셋은 총 18 부, 도합 20.5 시간으로 이루어져 있는 유명 한국 드라마 “또 오해영”을 대상으로 한다. 본 데이터셋은 데이터셋은 초당 3 프레임으로 구성된 비디오 이미지들, 등장인물 중심의 비디오 주석, 계층적 난이도로 구분되는 질의응답 쌍들로 이루어져 있다. DramaQA 데이터셋의 형태는 그림 1 에서 확인할 수 있다.
그림 1. 비디오, 스크립트, 난이도 단계가 있는 질의응답을 가지는 DramaQA 데이터셋의 예시
1.1 질의응답 난이도 분류
사람은 인지발달과정에 따라 스토리를 이해하고 그에 관한 질문에 대답할 수 있는 수준이 달라진다. 이러한 발달 수준을 반영하기 위해 DramaQA 데이터셋은 Memory Capacity (MC)와 Logical Complexity (LC)라는 두 가지 축을 기준으로 질문의 난이도 수준을 분류한다.
MC는 비디오의 길이로 정의되며, 인간의 작업 기억 용량으로 생각할 수 있다. LC는 질의에 답변하는 데 필요한 논리적 추론 단계의 수로 정의된다.
Memory Capacity: 기계학습 관점에서 짧은 시간을 대상으로 하는 데이터보다 긴 시간을 대상으로 하는 방대한 데이터에서 유의미한 정보를 찾아 추론하는 것이 어렵기 때문에, 비디오의 길이를 난이도의 한 축으로 생각할 수 있다. DramaQA 데이터셋에서는 shot과 scene이라는 두 가지 비디오의 길이를 고려한다. shot은 카메라 앵글이 바뀌기 전의 연속된 비디오의 길이를 말하며 수 초 정도의 길이를 가지고, scene은 장소나 시간의 변화가 이루어지기 전의 비디오의 길이를 말하며 수 분 정도의 길이를 가진다.
Logical Complexity: 복잡한 질문은 단순한 질문보다 더 많은 논리적 추론을 필요로 하기 때문에, 질의에 답변하기 위해 필요한 논리적 추론 단계의 수를 난이도의 한 축으로 생각할 수 있다. LC는 다음과 같은 네 가지 단계로 나뉜다. 1단계는 <주어-관계-목적어>의 형태로 나타나는 하나의 supporting fact를 이용하는 것이며, 2단계는 복수의 supporting fact를 이용하는 것이다. 3단계는 복수의 supporting fact에 시간적인 흐름도 포함하는 것이며, 4단계는 시간적 흐름 속에서 인과관계 추론하는 것까지 포함된다.
두 가지 기준 축으로부터 DramaQA 데이터셋의 질의응답은 다음과 같은 네 가지 수준의 난이도로 분류된다. 난이도 1은 MC가 shot 수준, LC가 1단계 수준이다. 난이도 2는 MC가 shot 수준, LC가 2단계 수준이다. 난이도 3은 MC가 scene 수준, LC가 3단계 수준이다. 난이도 4는 MC가 scene 수준, LC가 4단계 수준이다. 각각의 난이도의 예시는 그림 2에서 확인할 수 있다.
그림 2. 난이도 1, 2, 3, 4 각각에 대한 네 가지 질의응답 예시.
2.2 등장인물 중심의 비디오 주석
인간이 스토리를 잘 이해하고 전달하기 위해 스토리의 등장인물에 중심을 두고 일관성을 유지하는 것은 굉장히 중요하다. 이에 따라 본 데이터셋에서는 비디오 이미지의 시각 메타데이터와 상호참조가 해결된 스크립트를 통해 등장인물 중심의 비디오 주석을 제공한다. 시각 메타데이터는 주요 등장인물 20명에 대한 바운딩박스, 행동, 감정을 포함하며 비디오에 존재하는 초당 3프레임의 모든 이미지에 주석이 존재한다. 바운딩박스는 얼굴 부분 및 몸 전체 부분을 포함하는 두 종류가 존재하며, 행동은 28가지, 감정은 7가지로 미리 정의되어 있다. 상호참조가 해결된 스크립트는 등장인물의 대사 내에서 대명사가 가리키는 대상이 주요 등장인물에 해당하면 그 인물이 누구인지에 대한 정보를 제공한다. 이러한 비디오 주석에서의 등장인물은 질의응답에서의 등장인물과 일치한다.
그림 3. (a) 상호참조가 해결된 스크립트, (b) 시각 메타데이터(등장인물, 행동, 감정).
2. 데이터셋 수집 과정
비디오 드라마의 정보에 주석을 달기 위해선 주요 등장인물에 대한 지식뿐만 아니라 드라마 줄거리에 대한 이해도 필요하기 때문에 크라우드 소싱 서비스를 활용하면 데이터셋의 품질이 저하될 수 있다. 따라서, 모든 주석 작업은 전체 드라마 줄거리와 관련된 주요 등장인물을 이해하고 있는 소규모 전담 작업자 (20 명) 그룹이 반자동 시각적 주석 태깅 도구를 사용하여 진행되었다.
또한 데이터 수집을 시작하기 전에 작업자가 주석 작업 관련 가이드라인과 제안하는 질의응답 난이도 계층을 완전히 이해하기 위해 하루 동안 교육 기간을 가졌다. 데이터 수집 후, 주석 결과를 확인하고 작업을 계속하기 위한 피드백을 작업 중간에 주고 받았으며, 질의응답을 제작하고 난 뒤에는 데이터를 검사하여 올바르게 작성되었는지 확인하였다.
비디오 분리를 할때에는 연속 프레임 색상 간의 절대 차이의 합으로 shot구간을 자동으로 나누었다. scene은 동일한 장소에서 서로 의미적 연결이있는 여러 장면이므로 scene을 만드는 데 자동 도구를 사용하지 않았고, 대신 동일한 장소에서 발생하는 연속 shot을 직접 병합하여 scene 수준의 비디오 클립을 만들었다.
시각 메타데이터의 경우 개체 및 사람 / 얼굴 감지 도구 (YOLOv3)를 사용하여 바운딩박스를 만들었고, 작업자는 바운딩박스와 주인공의 이름, 행동 및 감정을 수동으로 미세 조정하였다.
3. 데이터셋의 특징
DramaQA 데이터셋의 특징은 1) 여러 계층의 인지과학적 난이도로 이루어진 질의응답을 통해 인공지능 모델의 성능을 검증할 수 있고, 2) 주요 등장인물에 관련된 시각 메타데이터 및 상호 참조가 해결된 스크립트를 제공하여 스토리 이해 연구에 도움이 될 수 있도록 하며, 3) shot 수준 및 scene 수준 비디오 클립을 모두 다루어 스토리의 계층적 이해에 대한 도전을 한다는 것이다. 기존에 제안된 여러 비디오 관련 질의응답과 DramaQA 데이터셋은 다음 표에서 비교할 수 있다.
표 1. 비디오 관련 질의응답 데이터셋과 DramaQA 데이터셋의 비교.
표에서 확인할 수 있듯이 기존에 제안된 여러 연구와 비교했을 때, 가장 많은 수의 메타데이터를 포함한 이미지(# Annotated Images)를 제공하며, 비디오의 평균 길이(Avg. Video len. (s))는 shot과 scene 두 가지 종류로 극명한 차이를 나타낸다. 그리고 상호참조가 해결된 스크립트(Coreference resolved script)와 행동 감정에 대한 메타데이터를 제공한다는 점도 주목할만 하다. 특히, DramaQA 데이터셋은 유일하게 질의응답에 대한 난이도를 함께 제공한다.
4. 데이터셋의 활용 방안
본 데이터셋에서 제공하는 시각 메타데이터와 상호 참조가 해결된 스크립트는 비디오 스토리 이해를 하는데 중요한 정보로, 스토리 이해 연구에서의 병목현상을 해결하는 데 큰 도움이 된다. 이를 통해 간단한 수준에서의 인물 인식, 행동 인식, 감정 인식, 대명사의 상호참조 해결을 넘어서 고수준의 추상적인 정보 표현, 인과관계 추론, 스토리의 계층적 이해를 해결하는 연구로 한발짝 더 나아갈 수 있다. 또한, 본 데이터셋에서 제공하는 Evaluation metric은 인공지능의 스토리 이해 수준을 사람의 인지발달 과정에 따라 평가할 수 있도록 제안되다. 각 난이도 계층에 대한 질의응답의 정확도를 통해 인공지능 계산모델의 강점과 약점을 분석할 수 있으며, 더 나아가 다양한 수준의 계층적 이해가 가능한 인공지능 계산모델을 개발할 수 있도록 활용할 수 있다.
본 데이터셋의 활용 영역은 질의응답에 기반 비디오 스토리 이해에 국한되지 않는다. 풍부한 메타데이터가 포함된 DramaQA 데이터셋은 등장인물의 감정 또는 행동 분석, 스크립트의 자동 상호참조 식별, 시각 언어 영역에 대한 상호 참조 해결을 포함한 비디오 관련 연구를 위한 좋은 연구자료로 활용될 수 있다.
향후에는 DramaQA의 질의응답의 난이도 분류 기준 두 가지를 확장하여 데이터셋이 더 길고 복잡한 비디오 스토리를 처리하고 평가 방법의 범위를 확장할 수 있도록 할 것이다. 또한 계층적 비디오 상황 설명문, 배경의 사물 및 장소에 대한 메타데이터를 추가 제공할 계획이다.
5. ECCV2020 VTT Workshop 및 DramaQA Challenge
DramaQA 데이터셋과 제시하는 평가 방법을 검증하기 위하여 유럽 컴퓨터 비전 학회(European Conference on Computer Vision; ECCV)에서 VTT Workshop과 함께 DramaQA Challenge가 개최되었다. ECCV는 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR), 국제 컴퓨터 비전 학회(ICCV)와 함께 AI분야 이미지 인식 관련 학회 중에 최고 수준의 학술대회로 꼽힌다.
VTT Workshop 에서는 인간이 비디오 스토리를 이해하는 방법의 기본 원리를 연구하고 논의함으로써 인간과 유사한 인공 지능의 연구 개발을 장려하는 것을 목표로 하였다. 또한, 관련 분야에서 저명한 6명의 연사를 초청하여 함께 데이터 기반 비디오 이해의 미래 과제에 대해 토론하였다. 발표 제목과 초청연사는 다음과 같다.
– Towards Generating Stories about Video, Anna Rohrbach (UC Berkeley)
– Imagination Supervised Visiolinguistic Learning, Mohamed H. Elhoseiny(King Abdullah University of Science and Technology)
– Commonsense Intelligence: Cracking the Longstanding Challenge in AI, YejinChoi (University of Washington)
– Reasoning about Complex Media from Weak Multi-modal Supervision, Adri-ana Kovashka (University of Pittsburgh)
– Machine Understanding of Social Situations, Makarand Tapaswi (Inria Paris)
– Ten Questions for a Theory of Vision, Marco Gori (University of Siena)
VTT Workshop에서는 DramaQA Challenge 또한 함께 열렸다. DramaQA Challenge는 제안하는 데이터셋과 그 평가 방법을 국제적으로 검증하는 대회이다. 이를 위해 작년 국내에서 한국컴퓨터종합학술대회에서 대회를 개최한 바 있다. 올해는 COVID-19 이슈로 온라인상으로 대회가 진행되었으며, 세부 일정은 다음과 같다.
1) 2020. 3. DramaQA Dataset Paper 등록
3) 2020. 7. 참가팀 결과물 제출(31일까지)
4) 2020. 8. 우승자 발표(28일)
DramaQA Challenge에서는 데이터셋에 포함되어있는 4가지 난이도에 대한 질의응답 성공률의 평균을 평가 기준으로 삼는다. 이는 각 계층에 대한 인공지능 계산모델의 이해 능력을 고루 평가하기 위함이다. DramaQA Challenge는 4개국(한국, 중국, 인도, 독일)에서 9팀이 참가하였으며, 우승 상금은 상위 세팀에게 차등없이 $1,200를 지급하였다. 우승한 세 팀의 소속은 각각 서울대학교, Xidian University, 한국원자력연구원이다.
그림 4. (좌) DramaQA Online Leaderboard. (우) DramaQA 최종 참여팀의 성적. 자세한 내용은 DramaQA Challenge 홈페이지에서 확인할 수 있음.
감사의 말
이 데이터셋은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원 (2017-0-01772-VTT)의 지원을 받아 제작되었다. 또한, VTT Workshop 조직을 위해 이민수(서울대, 연구교수), Vicente Ordóñez Román(University of Virginia, 조교수), Leonid Sigal(University of British Columbia, 부교수), 유창동(KAIST, 정교수), 김건희(서울대, 부교수)와 본 기사를 작성한 저자가 함께 노력하였으며, IITP와 한국과학기술정보통신부의 지원을 받았다. 특히, DramaQA Challenge의 경우에는 NAVER와 Kakao Brain에서 우승자들의 상금을 후원하였으며, 서울대학교 바이오지능 소속 장유원 연구원, 서아정 연구원도 함께 진행하였다.