728x90

Instance segmentation과 Semantic segmentation의 특징

오늘 공부할 내용은 CVPR 2020에 출판된 panoptic-DeepLab을 이용한 전체론적인 장면 이해 개선 방법(Improving Holistic Scene Understanding with Panoptic-DeepLab)입니다. 자율 주행 자동차나 로봇 등의 서비스에서 instance segmentation이나 semantic segmentation 태스크를 하기 위해 컴퓨터 비전 기술이 쓰입니다. Instance segmentation은 개별의 사물을 인식하고 식별자를 부여하는 태스크이고 Semantic segmentation은 이미지에 있는 주변 배경 등을 포함하여 모든 픽셀을 레이블하는 것입니다. 하지만 이는 같은 클래스에 속하는 다른 인스턴스들의 픽셀들을 구분하지 못합니다. 즉, 의자라는 물체를 segmentation한다는 것입니다. 하지만 이게 A 의자인지 B의자인지는 구분을 하지 않습니다. Panoptic segmentation은 이 두 가지 방법을 합쳐서 각 픽셀에 의미적인 레이블과 인스턴스 ID를 기반으로 인코딩된 단일한 값을 부여하는 것을 목표로 합니다.

기존의 segmentation 방법의 한계

기존 연구는 Mask R-CNN을 기반으로하는데 instance segmentation과 semantic segmentation을 따로 진행합니다. Instance segmentation에서는 인스턴스들끼리 겹치는 경우가 생기는데, 이를 해결하기 위해 더 좋은 신뢰도의 마스크를 따른다던가 미리 정의된 카테고리 간의 관계를 기반으로 결정하는 등 휴리스틱한 방법을 씁니다. 또한, Semantic segmentation과 instance segmentation 간에 결과가 다를 수도 있다는 문제점과 실시간 애플리케이션에 적용하기에는 처리 속도가 따라가지 않는다는 문제점이 여전히 존재합니다. 따라서 이런 실시간성 panoptic segmentation에 필요해졌습니다.

Panoptic segmentation 방법 고안

본 연구에서는 DeepLab이라는 보편적으로 쓰이는 의미적 segmentation 방법에 적은 수의 파라미터와 미미한 계산 오버 헤드만을 추가하여 panoptic segmentation을 할 수 있는 방법을 고안했습니다. 제안된 기법에서는 추가되는 방법 없이 semantic과 instance segmentation이 오버랩되지 않게 동시에 처리 가능하고, semantic과 instance segmentation의 결과를 합치는 효율적인 operation을 만들어서 실시간으로 enc-to-end panoptic semgentation이 가능하도록 합니다. 본 기법에서는 바운딩 박스를 만들어 내지 않을 뿐 아니라 세 가지의 loss function만을 요하여 이전 기법에 비해 뛰어난 성능을 보입니다.

제안하는 Panoptic-DeepLab은 다음과 같은 세 가지 출력을 통해 물체를 인지합니다.
①-1. Semantic segmentation을 이용해 semantic 클래스 구합니다. 그러나 만약 같은 종류의 사물이 겹쳐져 있다면 각 사물 인스턴스에 대해서는 구분해주지 않습니다.
①-2. 이를 해결하기 위해 각 인스턴스의 중심점을 예측하면서 인스턴스 중심 regression을 통해 연관되는 인스턴스 픽셀들을 추출합니다.
②. ①-2의 regression된 임의의 한 인스턴스 픽셀들과 예측된 중심점을 그룹핑하여 instance segmentation이 진행됩니다.
③. ①-1 의 semantic segmentation에서 나온 결과와 ②에서 최종적으로 나오는 instance segmentation을 합쳐서 대다수 동의 기반으로 마지막 panoptic segmentation 결과를 도출해냅니다.

제안된 스킴 NN 디자인은 4가지 컴포넌트로 구성됩니다.
1. 인코더 backbone은 ImageNet에서 미리 학습합니다. Semantic segmentation과 instance segmentation에 모두 적용합니다. ImageNet을 선학습시킨 후에 feature map을 도출하고 각 segmentation 브랜치에 공유합니다. Feature map은 기본 Convolution을 기반으로 생성하면 결과가 해상도가 떨어지고 거칠어지기 때문에 대신 atrous convolution 을 쓰게 됩니다.
2. 다양한 공간 스케일에서 정보를 얻을 수 있게 segmentation을 진행하기 위해 ASPP 모듈들을 각 브랜치에 독립적으로 배치합니다.
3. 각 segmentation 태스크 별로 특화된 디코더 모듈을 적용합니다. 디코더는 DeepLab을 기반으로 두 가지를 수정하여 적용합니다. 추가적인 Low-레벨의 feature map을 디코더에 적용하여 공간적인 정보를 유지하여(물체의 경계선 같은) 결과 feature map의 성능이 많이 떨어지지 않도록 합니다. 5 × 5 depthwise-separable convolution를 디코더에 적용하여 더 나은 성능 결과가 나오도록 합니다.
4. 태스크별로 특화된 예측 헤드 배치를 합니다. Semantic segmentation은 작은 스케일의 물체의 segmentation에 더 효과적인 각 픽셀별로 웨이트를 다르게 주는 standard bootstrapped cross entropy loss function 적용합니다. Instance segmentation은 사전 지식 없이 물체 인스턴스의 중심과 주변 픽셀 사이의 오프셋(편차)을 예측하도록 학습됩니다.

panoptic segmentation의 성능 결과에서 생각할 점

세 가지 데이터셋을 통해서 실험하고, semantic, instance, panoptic segmentation 모두에서 좋은 결과를 얻었습니다. 결론적으로, 바운드박스 없는 panoptic segmentation에서 새로운 state-of-the-art가 되었습니다. Semantic segmentation과 instance segmentation이 개념적으로 보면 굉장히 비슷해서 그냥 하나에 approach로 바로 할 수 있을 것 같은데 안 되는 이유는 무엇일지 좀 더 생각해 봐야 되겠습니다. 또한, 실시간성에 강하다고 했는데, 실제로 자율 주행하는 차의 데이터를 기반으로 해보면 어떤 결과가 나올지도 궁금해졌습니다.

728x90
728x90

딥러닝의 데이터에 대한 역설적인 사실

오늘 공부할 것은 ICML 2020에 출판된 제어된 노이즈 레이블에서의 딥러닝 이해(Understanding Deep Learning on Controlled Noisy Labels)에 대한 내용입니다. 트레이닝 데이터에서 레이블 에러(레이블 노이즈)가 있는 것은 모델 테스트 시에 정확도를 급격하게 낮출 수 있습니다. 그러나 방대한 데이터에는 이러한 레이블 이슈가 생길 수밖에 없습니다. 딥러닝을 위해서는 방대한 양의 데이터가 필요한 것과 실제 환경에서는 방대한 데이터 안의 오류를 딥러닝 모델이 기억한다는 것은 역설적인 관계를 가진다고 할 수 있습니다.

인공적인 데이터 기반 모델의 한계

이를 해결하기 위해 다양한 연구들이 제안되었습니다. 통제된 실험은 노이즈 레벨 정도(노이즈 레이블이 데이터셋에 얼마나 있느냐)가 모델의 성능에 미치는 효과를 연구하여 노이즈 레이블을 이해하는 데 사용되었습니다. 그러나 현재의 실험들은 인공적으로 만들어진 레이블 위에서 실험을 하기 때문에 실제 환경에서 생기는 노이즈와 다를 수 있습니다. 이는 실제적인 상황과 매우 다르거나 모순적인 발견을 하게 유도할 수도 있고 인공적인 데이터 기반으로 만들어진 모델은 현실적인 노이즈 레이블에 제대로 작동이 안 될 가능성이 높습니다.

세 가지 방법을 이용한 해결방법

이를 해결하기 위해, 1. 웹에서 가져온 사실적이고 현실적인 레이블 노이즈에 대한 최초의 제어된 데이터셋과 벤치마크를 위축하고, 2. 인공적인 노이즈 레이블과 실생활의 노이즈 레이블을 모두 커버할 수 있는 심플하고 매우 효과적인 방법을 제안하고, 3. 매우 다양한 세팅에서 인공적인 노이즈 레이블과 웹 노이즈 레이블(1번)에 비교하는 방대한 연구 수행하였습니다.
인공적으로 만든 데이터와 실제(웹) 레이블 노이즈 사이에는 다른 점들이 존재합니다.
1. 웹 레이블 노이즈가 있는 이미지는 실제 참인 이미지와 (시각적으로나 의미적으로)일관성을 가지는 부분들이 있습니다.
2. 같은 클래스에 속하는 경우 같은 노이즈를 가지는 인조적인 레이블 노이즈(클래스 중심)와 달리 실제 레이블 노이즈는 클래스에 상관없이 어떤 각 이미지들이 다른 것들에 비해 잘못 레이블되는 경우가 많습니다(인스턴스 중심). 즉, A라는 차가 있고, 비슷한 B라는 차가 있으면 인조적인 레이블 노이즈들은 A라는 차의 이미지들 중에서, B라는 차의 이미지들 중에서 노이즈된 레이블을 만듭니다. 이와 다르게 현실적인 레이블 노이즈는 A의 앞모양을 봤을 때는 A라고 잘 인식하지만 A의 옆모양을 봤을 때 B라고 인지하는 경우가 많아지는 등의 인스턴스 단의 노이즈가 발생합니다.
3. 실제 레이블 노이즈가 있는 이미지들은 특정 데이터셋에 클래스 어휘와 겹치지 않는 개방형 클래스 어휘에서 도출됩니다. 즉, "무당벌레"의 웹 노이즈 이미지 레이블에는 파리나 다른 곤충들을 포함할 수 있는데 이는 해당 데이터셋의 클래스 리스트에는 포함되어 있지 않는 경우가 많다는 것입니다.
웹(Web) 기반의 제어된 레이블 노이즈에 대한 벤치마크 제안(Controlled Noisy Web Labels website)했습니다. 조잡한(거친) 이미지 분류를 위한 Mini-ImageNet과 세밀한 이미지 분류를 위한 Stanford Cars 데이터셋 두 가지 데이터셋을 기반으로 웹에서 가져온 것을 기반으로 잘못된 레이블 이미지들을 기존의 클린한 이미지들과 섞습니다. 또한, standard methods을 이용하여 인공적인 데이터셋도 만들었습니다.
웹에서 클래스 이름을 이용하여 이미지들을 긁어온 다음 Google Cloud Labeling Service를 이용하여 긁어온 이미지들에 대한 레이블이 알맞은 지 확인합니다. 그리고 잘못된 레이블을 가진 웹 이미지들을 두 개의 기존 데이터셋에 섞습니다. 노이즈 데이터의 정도에 따라 10개의 다른 데이터셋이 만들어집니다.


이런 노이즈에 불구하고 학습이 잘 되는 심플하고 강력한 모델 MentorMix을 만들었습니다. 이는 두 가지 기존의 기술들(MentorNet과 Mixup)을 이용한 반복적인 접근법입니다.
1. Weight 스탭 : MentorNet에 의해 mini-batch에 있는 모든 예시들에 대한 당면한 태스크에 맞게 가중치가 계산되고 가중치들은 분포에 의해 정규화됩니다. 즉, 제대로된 예시들에 대해서는 높은 가중치를 주고, 잘못 레이블된 예시들에 대해서는 낮은 가중치를 부여하는 것을 목표로 합니다. 그러나 현실적으로 우리는 어떤 것이 옳고 그름을 알기 어려움으로 MentorNet의 가중치들은 근사치를 기반으로 합니다. 여기서는 분포에서의 가중치를 결정하기 위해 StudentNet 학습 loss를 이용합니다.

2. Sample 스탭 : 분포에 따라 동일한 mini-batch에서 다른 예시를 선택하기 위해  importance sampling 사용합니다. 높은 가중치들을 가지고 있는 예시들은 알맞은 레이블을 가지고 있는 경향을 가지고 있어 샘플링 절차에서 선호됩니다.

3. Mixup 스탭 : 기존과 2번에서 샘플링된 예시들을 섞어서 모델이 둘 사이를 보간하고 노이즈 학습 예시들에 오버피팅되는 것을 막습니다.


4. 1번 과정 다시 : 3번의 섞여진 예시들의 가중치들을 다시 계산하여 최종 손실을 조정합니다. 두 번째 가중치 전략은 높은 노이즈 레벨에서 더 큰 효과를 가집니다.

노이즈 학습 예시들 기반 검증 및 인사이트

결과적으로 웹 기반의 노이즈 학습 예시들을 가지고 정돈된 테스트 데이터로 검증시에 3%이상의 향상 효과를 가지게 됩니다. 웹 레이블 노이즈에 대한 인사이트는 다음과 같습니다.
1. 딥러닝이 웹 레이블 노이즈에 상당히 효과적입니다. 같은 노이즈 레벨일 때, 인공적인 데이터를 기반으로 학습시에는 0.09밖에 안되지만 현실적인 웹 레이블 노이즈에는 0.66까지의 정확도를 도출합니다.
2. 딥러닝 네트워크가 웹 레이블 노이즈에서 학습시에는 패턴을 먼저 학습 못할 수도 있습니다. 기존의 생각들은 신경망이 패턴을 먼저 학습하기 때문에, 잡음이 있는 학습 레이블들을 기억하기 전에 초기 학습 단계에서 일반화 가능한 패턴들을 자동으로 캡처할 수 있다는 것입니다. 그래서 노이즈 데이터들을 학습시에는 early stopping 방법이 제안됩니다. 하지만, 본 연구의 결과에 의하면 (적어도 세밀한 분류 태스크에 대해) 웹 레이블 노이즈가 있는 데이터셋을 이용해 학습시에는 먼저 패턴을 알아내지 못할 수도 있다는 것이 보입니다. 이는 early stopping 방법이 과연 효과적인가에 대해 의문을 가져야 합니다.
3. 네트워크가 fine-tuned되면, ImageNet구조들은 노이즈 학습 레이블들에도 일반화됩니다. 이전 논문은 ImageNet에서 학습된 발전된 구조들을 fine-tuning하면 타겟팅하는 태스크에서 더 잘 수행되는 것을 발견했습니다. 이것을 기반으로 ImageNet에서 사전 훈련되었을 때 더 좋은 성능을 보여주는 사전 훈련된 구조가 노이즈 학습 레이블에서 fine-tuned 되는 경우에도 좋은 성능을 나옴을 보여줍니다.
결론적으로, ImageNet같은 클린한 데이터셋을 기반으로 사전 학습을 하고 노이즈 레이블에 대해 fine-tuning하면 쉽고 좋은 성능을 가지는 모델이 나왔습니다. Early stopping이 실제 레이블 노이즈에는 그리 효과적이지 않을 수 있습니다. 인공적인 노이즈에서 잘 작동했다고 웹에서 가져온 현실적인 노이즈에 잘 작동한다고 할 수 없습니다. 웹에서 가져온 레이블 노이즈는 그다지 심각해 보이지는 않지만, 아직 제안된 학습 방법으로는 해결하기 어려운 부분이 있어 더 많은 연구가 요구된다고 생각합니다. 제안된 MentorMix는 인공적인 데이터와 현실적인 노이즈 데이터에 모두 잘 작동했습니다.

728x90
728x90

생태계를 모니터링에서의 물체 탐지

 오늘은 시간적 맥락을 이용한 물체 탐지(Leveraging Temporal Context for Object Detection)에 대한 내용입니다. 생명체들의 다양성이나 변화 등을 관찰하는 연구들에서는 생태계를 모니터링하는 것이 도움 됩니다. 이를 위해서는 질 좋은 데이터들이 확보돼야 하는데, 데이터 수집을 위한 센서 구성을 하는 데 드는 비용은 적어졌지만 아직도 정확하고 폭넓게 데이터를 분석하는 데에는 한계가 있습니다. 특히 사진이나 비디오를 데이터를 기반으로 할 때, 실제 모니터링할 때에는 리소스 제약으로 질이 낮은 사진이나 비디오 데이터를 얻는 경우가 많습니다.

 

생태계를 모니터링에서의 컴퓨터 비전 모델에 필요한 요구사항

 컴퓨터 비전 모델은 사진의 초점이 맞지 않거나 조명이 낮은 경우 등의 다양한 실생활에 생길 수 있는 비전 관련 이슈에 잘 대응되어야 합니다. 또한, 고정되어 있는 카메라는 같은 장면을 지속적으로 찍기 때문에, 반복되게 같거나 비슷한 장면이 찍히는 경우가 생깁니다. 이는 충분한 데이터 변동을 주지 않아 ML 모델은 (중심을 두어야 하는 물체보다) 오히려 배경 상관관계에 더 집중하여 학습하므로 모델을 일반화하는 방안이 필요합니다. 생태계 분석을 위해 다양한 비디오 데이터를 모으고 있지만, 데이터를 수집하고 클래스를 분류하는 작업은 아직까지 느리고 지역적 특성이나 분류 그룹에 따라 다양하고 대표적인 데이터가 필요합니다.

 

일반화를 개선한 Context R-CNN 제안

 문제들의 해결을 위해, 알고리즘적으로 새로운 카메라 배치들에 대해 일반화를 개선하여 국제적 확장성을 높이는 보완적인 방법인 Context R-CNN 제안했습니다. 이는 네트워크 안에 있는 각 카메라 배치의 시간에 따른 맥락적 단서를 이용하여 새로운 배치들이 카메라들의 대규모의 학습 데이터없이 물체를 잘 인지하게 도움을 줍니다.

 이슈가 있는 이미지들이 생기면, Context R-CNN은 동일한 카메라의 최대 한 달 동안의 이미지들을 이용하여 이슈 있는 이미지의 물체를 파악하고 식별합니다. Context R-CNN은 고정된 카메라에서 촬영된 이미지들 내에서 높은 상관관계를 기반으로 이슈 있는 데이터의 성능을 향상시키고, 사람의 개입 없이 새로운 데이터 배치들을 일반화하는 데도 도움이 됩니다. 방법은, 1. 고정된 Feature 추출기를 이용하여 긴 시간 범위를 가지는 이미지들에서 맥락적인 기억 저장소(Memory bank) 구축하고, 2. 기억 저장소에서 집계된 연관 있는 맥락을 이용하여 이슈 있는 환경의 이미지에서 물체를 감지할 수 있게 도와주는 Context-RNN을 이용하여 물체를 감지합니다. 드물거나 불규칙적인 샘플링 속도에 대응하기 위해 기억 저장소에서 집계 시 attention을 이용합니다.

 

 Context R-NN 구체적으로 기존의 Faster R-CNN의 두 단계를 기반으로 구성됩니다.
1. Faster R-CNN의 첫 번째 단계로 가능성 있는 물체들을 제안합니다.
2. similarity-based attention : 기억 저장소(M)에 있는 feature들이 현재의 제안된 물체와 얼마나 연관성이 있는지 결정합니다. M에서 나온 관련성 가중치 합을 구하여 객체별 맥락 feature를 구성하고 원래 물체의 feature에 이 값을 더합니다.
3. Fater R-CNN의 두 번째 단계 : 맥락적 정보가 더해진 것을 기반으로 각 물체에 대해 분류합니다.

 

일반화와 정확도 개선 및 이해가 필요한 점

 기존의 Faster R-CNN baseline에 다른 지역의 야생의 상황에서도 잘 작동함. 맥락적 시간축이 길어질수록 성능이 더 좋아집니다. 단순히 고정된 비전 쪽 센서뿐만 아니라 다양한 센서에도 적용이 가능할 것으로 기대됩니다.
 문제 제기한 부분이랑 해결 방법이 약간 매칭이 잘 안돼서 이해하기 힘들었는데, 여기서 제시한 Attention이나 Memory bank, Faster R-NN에 대한 기본 지식이 있어야 어느 정도 이해가 될 것 같습니다. 지금 포스팅된 실험 데이터는 기존 비전의 알고리즘을 좀 더 좋게 한 것으로밖에 안 느껴져서, 처음에 안개 끼거나 외부 상황으로 인해 물체 구분이 기존에는 안되는 부분이 잘 되었다는 예시가 좀 더 설명되었으면 하는 아쉬움이 느껴집니다. 주기적으로 일어나지 않는다던가 갑자기 예외적으로 일어나는 상황에 대해서는 대응하기 쉽지 않다는 생각이 듭니다. 새로운 배치들에 대해서도 작동할 수 있다는 게 Memory bank 때문인 거 같은데, 실제로 어떻게 작동했는지 좀 더 알아볼 필요가 있습니다. 기대효과에서 말했듯이 다른 센서들에 적용해도 접근법 자체는 작동할 수 있을 것 같은데, 한 번 실험해 보고 싶습니다.

728x90
728x90

연구는 반복되는 행위를 이해의 중요성

오늘은 비디오에서 반복 행위 계산(RepNet: Counting Repetitions in Videos)에 대한 내용입니다. 이 포스팅에는 반복 행위에 대한 예시들이 잘 나타나 있어 같이 보는 것을 추천합니다. 주기적으로 반복되는 행위는(ex. 일출, 일몰, 제조 라인 등) 실생활에서 많이 일어납니다. 여러 연구 분야와 관련하여 반복되는 행위는 뭔가의 근본적인 이유일 수도 있고, 연구 이해에 도움을 줄 수 있는 점진적인 변화의 일종일 수도 있습니다. 반복 행위는 의미 있는 행위들로 구성된 "행위 단위(action units)"로서 잘라질 수 있는데, 이는 복잡한 활동에 대해 설명하거나 사람의 개입 없이 미세한 시간 단위로 액션들을 분석하는 데 도움을 줄 수 있습니다. 따라서, 오랜 시간 관찰하며 세상에 대해 이해하려는 연구는 반복되는 행위를 이해하는 시스템의 도움을 받을 수 있습니다.

 

노이즈에 방해받지 않고 feature들을 학습의 필요성

 이전 연구는 같은 행위를 가지는 여러 비디오를 기반 주기-일관성(cycle-consistency) 제약 조건을 이용하여 반복행위를 이해하였습니다. 이에, 이전 연구는 비디오 간의 프레임 내의 픽셀을 직접 비교하였는데 이는 실제 상황에서 생기는 노이즈(ex. 비디오 움직임 등으로 변하는 비디오의 색감, 형태 등)에 대해 적절하게 대응하기 힘듭니다. 따라서 이러한 노이즈에 방해받지 않고 feature들을 학습할 수 있어야 합니다.

 

노이즈 대응이 가능한 반복 행위를 이해하는 모델 제안

 RepNet이라는 하나의 비디오만을 가지고 다양한 분야의 반복 행위를 이해하는 모델을 만들고 모델을 End-to-End 형태로 만들어 노이즈에 대응 가능하도록 합니다. RepNet은 다양한 클래스의 주기적인 반복 행위가 있는 비디오를 입력받아서 발견한 반복 행위의 주기를 도출하는 모델로,  모델은 크게 세 가지로 구성됩니다.

① 프레임 인코더 (Frame Encoder) : 비디오나 이미지 데이터에 알맞은 ResNet 구조를 이용하여 각 비디오 프레임을 임베딩합니다.

② TSM(Temporal Self-similarity Matrix)를 이용한 중간 표현법(Intermediate Representation) : 생성된 각 임베딩 프레임은 다른 모든 프레임들과 비교하여 매트릭스(Matrix)를 만듭니다. 반복 기간 추정을 가능케하는 자가 유사성(self-similarities)가 나옵니다.

- Why 자가 유사성(Self-similarity)?

단순히 고정된 반복 행위 기간을 가지는 상황들 외에도 반복 행위의 기간이 짧아지거나 중간에 사라졌다가 다시 반복되는 행위 등의 현실에서 일어날 수 있는 상황들도 고려되어야 하기 때문입니다.

따라서, 사진 특성을 이용하는 것이 아니라 자가 유사성(Self-similarity)을 기반으로 매트릭스를 만들어서 비디오 프레임 간의 비슷한 정도를 정량적으로 측정하는 기법을 쓰면, 테스트 데이터에 새로운 상황이 들어오더라도 반복 행위 주기가 비슷한 것이 학습 데이터에 있었으면 모델이 작동하게 됩니다.

③ 기간 예측기(Period Predictor) : TSM을 기반으로 Transformer 구조를 이용하여 반복 행위 기간과 반복 행위인지 여부를 각 프레임 별로 판별합니다. 반복 행위의 기간이 구해지면 그 안의 프레임 수를 구할 수 있습니다. 그리고 얼마나 반복 행위가 비디오 내에서 많이 일어나는 지도 알아낼 수 있습니다.

 데이터를 모을 때는 비디오 자체에 반복 행위가 있는지 판별하고 얼마나 반복행위가 반복됐는 지 세는 것도 노력이 많이 듭니다. 따라서, 인공으로 반복 행위 포함 데이터를 생성하는 시스템을 만듭니다. 간단하게는 비디오 내에서 특정 비디오 프레임을 반복시켜서 만들 수 있습니다.

 

그러나 이런 단조로운 데이터 셋으로만 학습하기에는 현실에서는 잘 작동을 하지 않을 수도 있으므로 임의로 만든 반복 행위가 포함된 비디오에 비디오 모션이 추가된 것처럼 만들어 데이터의 다양성을 확보하였습니다.

 

Kinetics dataset 기반의 실험과 개인적인 생각

 실험 때는 Kinetics dataset를 기반으로 평가하였습니다. 다양한 애플리케이션에 쓰일 수 있음을 알 수 있었습니다. 야채 써는 것, 지구의 일주기, 치타의 뛰는 행위, 심장박동 등에서 쓰일 수 있을 것으로 기대합니다. 애플리케이션 결과로 알 수 있는 것은 반복되는 행위만 확실하다면 반복 행위의 기간이 변해도 잘 작동한다는 것을 알 수 있었습니다.

 이전 연구와의 성능 차이를 알 수 없어서 아쉬웠습니다. 그러나 Matrix를 쓰는 부분에서는 이전의 완전 비디오 기반으로 비교하는 것보다는 방법론적으로 더 유연하고 효율적일 것으로 예상합니다.

 비디오를 기반으로 했는데 앞 ①, ③만 잘 수정한다면 다른 도메인에서 충분히 쓰일 수 있지 않을까라는 생각이 들었습니다. 여전히 반복 행위가 들어있는지 여부에 대한 학습 데이터를 만드는 것은 숙제일 것으로 예상됩니다. 얼마나 정확히 예측하는지 알 수가 없어서 학습 데이터가 저걸로 충분했는지 의문이 들긴 합니다. 생각보다 주변에 반복되는 행위가 이렇게 만든다는 것이 놀라웠습니다. 일종의 루틴을 알아낸다는 것인데 어쩌면 굉장히 Long-term 데이터가 주어진다면 사용자 행위 파악에도 이 기법을 사용할 수 있지 않을까 생각됩니다.

728x90

+ Recent posts