본문 바로가기
논문 정리

[논문 정리] Learning Graph Structures With Transformer forMultivariate Time-Series Anomaly Detection in IoT

by st.George 2023. 1. 20.
  • 본 게시글은 Learning Graph Structures With Transformer for
    Multivariate Time-Series Anomaly Detection in IoT 정리글입니다.
  • 개인적인 생각이 서술되어 있습니다. 잘못된 내용이 존재할 확률이 존재하기에 주의 바랍니다.
  • 잘못된 내용, 오타는 지적해 주시면 감사하겠습니다.

Reference

  • Chen, Z., Chen, D., Zhang, X., Yuan, Z., & Cheng, X. (2021). Learning graph structures with transformer for multivariate time series anomaly detection in iot. IEEE Internet of Things Journal. / APA style

ABSTRACT

  • IOT(Internet of Things) 시스템은 상당한 다변량 시계열 데이터를 생성
  • But, IoT 인프라는 사이버 공격의 대상이 되는 경우가 많기 때문에 이상 탐지가 중요한 연구 주제
  • But, 다변량 시계열에서 이상 징후를 탐지하는 것은 시간적 종속성과 확률성으로 인해 어려움
  • 본 논문에서는 GTA(graph learning with transformer for anomaly detection)를 제안

GTA는 Transformer 기반 구조를 사용하여 그래프 구조, 그래프 컨볼루션, 시간 종속성 모델링을 자동으로 학습하는 것과 관련되어 있습니다. 연결 학습 policy는 Gumbel-softmax 샘플링 방식에 기반하여 센서 간의 양방향 링크를 직접 학습하는 것으로, 그래프 구조의 핵심입니다. 네트워크 노드 간의 이상 정보 흐름을 설명하기 위해, Influence Propagation Convolution이라는 새로운 그래프 convolution을 도입했습니다. 2차 복잡도 barrier를 해결하기 위해, multibranch attention mechanism을 제안했습니다. 마지막으로 4가지 데이터 셋에 관한 실험으로 SOTA보다 우수함을 입증합니다.

 

한 줄 정리: 다변량 시계열 이상치 탐지 기법, GTA를 제안한다.

 

1. INTRODUCTION

센서의 데이터는 높은 상관 관계가 있지만, 센서 간의 종속성은 보이지 않고, 접근하는데 비용이 많이 들기 때문에 자연스럽게 다음과 같은 질문이 듭니다.

 how to model such complicated relationships between sensors without knowing prior information?

사전 정보 없이 센서 간의 복잡한 관계를 어떻게 모델링 할까?

 딥 러닝 기반 기술은 이상 탐지에서 유망한 개선을 보여주었습니다. 기존 접근 방식은 대략 두 가지로 나눌 수 있습니다.

1. 재구축 기반 모델: AE, GAN

2. 예측 기반 모델: RNN based 접근법

이러한 방법도 좋은 성능을 보이지만, 센서 간의 위상 구조를 명시적으로 학습하지 않으므로, 관계가 있는 고차원 센서 데이터를 적절하게 모델링하는 데 개선이 필요합니다.

 

GCN(Graph convolutional network)는 최근 그래프 표현 학습에서 차별성을 보입니다. GNN(Graph neural networks)을 사용하면 각 그래프 노드가 구조를 통해 정보를 전파하여 이웃 컨텍스트를 확인할 수 있습니다. 최근의 연구는 시간 모델링 방법을 GCN과 결합하여 센서 간의 위상 관계를 모델링하였지만, 저자는 다음과 같은 문제가 있다고 인식하였습니다.

1. 센서 임베딩 간의 내적 센서의 수에 따른 2차적 시간복잡도와 공간복잡도가 불가피하다.

2. 거리의 가까움이 위상구조에 강한 연결이 존재한다는 것을 전적으로 나타낼 수는 없다.

이를 해결하고자, GTA를 제안합니다. 

 

1. 센서간 종속 관계의 그래프 구조를 자동으로 학습하기 위한 새롭고 미분 가능한 연결 LP를 제안합니다. 

2. IP convolution이라는 새로운 그래프 컨볼루션을 도입합니다.

3. 새로운 멀티브랜치 어텐션 메커니즘을 제안합니다.
4. 광범위한 다변량 시계열 이상 탐지 벤치마크에 대해 광범위한 실험을 수행합니다.

 

2. RELATED WORK

시계열 이상치 탐지는 두 범주로 나뉩니다.각 시계열 변수를 독립적으로 모델링하거나, 다변량 시계열 간의 상관 관계를 고려하는 것입니다.

A. Anomaly Detection in Univariate Time Series

B. Anomaly Detection in Multivariate Time Series

 

3. PROBLEM STATEMENT

본 논문은 B, 다변량 시계열 데이터를 다룹니다. 

 

t는 timestamp를, M은 동일한 개체 내의 센서 또는 데이터 측정 노드의 총 수입니다.

추가로 x는 전체 정상 데이터를, x_hat은 전체 정상데이터 + 이상치 데이터를 의미합니다. (Phase 1, Phase 2 개념으로 이해하면 편할 듯 합니다) 

 

4. METHODOLOGY

네트워크가 이점을 최대화하도록 노드 간의 인접 행렬을 자동으로 학습하는 유향 그래프 구조 LP를 제안합니다. LP의 핵심은 Gumbel-Softmax 샘플링 전략입니다.

  • 숨겨진 연결은 IP 모델링을 위해 그래프 컨벌루션 계층에 입력
  • 그래프 컨볼루션 레이어를 확장된 컨볼루션 레이어와 통합하여 계층적 컨텍스트 인코딩 블록을 구성
  • 컨텍스트 인코딩 블록의 출력은 Transformer의 입력으로 위치 인코딩이 적용됩니다. 또한 글로벌 어텐션 전략을 제안

A. Gumbel-Softmax Sampling

이산 데이터는 미분 불가능합니다. 이는 딥러닝에서의 역전파가 불가능함을 의미합니다. 이를 해결하고자 Gumbel-softmax 분포를 도입하여 이를 해결합니다. 또한 제안된 방법을 사용하면 계산 복잡도를 2차원에서 상수로 낮출 수 있습니다. 고차원 노드 임베딩이 필요하지 않기 때문입니다.

 

B. Influence Propagation via Graph Convolution

  • 일반적으로 이상 발생은 하나 또는 여러 개의 노드가 공격을 받아 일련의 연쇄 영향을 받음
  • 시간적 및 공간적 차이를 모두 캡처하여 업스트림 노드와 다운스트림 노드 간의 관계를 모델링하는 것이 직관적
  • 각 노드에서 나오는 모든 에지와 관련 노드 간의 차이에 대해 IP 컨볼루션 프로세스를 정의
  • i번째 노드에서 IPConv의 업데이트된 출력은 다음과 같음

 

C. Hierarchical Dilated Convolution

시간 컨텍스트 모델링 프로세스를 완전히 탐색하기 위해 Hierarchical Dilated Convolution 전략을 제안합니다. 이는 하단의 인풋이 종합되어 상단으로 들어가기에, 다양한 시간적 위치 및 시퀀스 길이에 관한 시간적 표현을 효과적으로 학습할 수 있습니다.

  • 맨 아래 레이어는 다변량 시계열 입력을 나타냄
  • Level 1은 팽창률이 1인 확장 컨벌루션을 적용, 레이어가 입력 계열의 두 인접 요소 x(t) 및 x(t+1)에 필터를 적용
  • Level2는 비율이 2로 설정된 확장 컨볼루션을 적용, 필터가 요소 x(t) 및 x(t+2)에 적용
  • 다중 스케일 팽창 크기를 설정함으로써 다양한 시간적 위치 및 시퀀스 길이에 관한 풍부한 시간적 표현을 효과적으로 학습

 

D. More Efficient Multibranch Transformer

아래의 그림을 보면 (a)는 Vanilla multibranch transformer를, (b)는 Multibranch transformer with global-fixed attention를, (c)는 본 논문에서 제안하고자 하는 multibranch attention mechanism입니다.

5. EXPERIMENTS

  • 사용한 데이터 셋은 SWaT, WADI, SMAP, MSL입니다.
  • 모델 학습 전, Training 데이터를 Min-Max scaling을 통해 정규화시킵니다.
  • 평가 지표로 Precision, Recall, F1-score를 사용하였습니다.
  • Bseline(reconstruction-based): PCA, AE, KitNet, DAGMM, GAN-Li, OmniAnomaly, LSTM-VAE, and MAD-GAN
  • Bseline(forecasting-based): KNN, FB. MTADGAT, GDN

SWaT & WADI 데이터 셋 실험 결과는 다음과 같습니다.

  • 제안한 GTA의 F1-Score는0.91(SWaT), 0.84(WADI)로 SOTA를 능가
  • GTA 다음으로 좋은 GDN과 비교할 때, GTA는 각각 12.35%, 47.47% 라는 성장치를 기록

 

SMAP & MSL 데이터 셋 실험 결과는 다음과 같습니다.

  • SWaT & WADI 결과와 다르게 SMAP & MSL은 확연한 차이를 보이지 않음
  • SMAP & MSL 데이터 셋이 SWaT & WADI 데이터 셋보다 상관관계가 약해 GTA의 효과가 적어진 것으로 추측
  • 제안한 그래프 구조 학습 전략은 강력한 토폴로지 구조를 가진 데이터 세트에서 더 효과적

Ablation study결과는 다음과 같습니다.

6. CONCLUSION

  • 연결 LP를 이용하여 자동으로 센서 의존성을 학습하는 Transformer 기반 이상 탐지 프레임워크인 GTA를 제안
  • 그래프의 센서 간 정보 흐름을 시뮬레이션하기 위해 고유한 IP 그래프 컨볼루션을 고안
  • 우리가 제안한 다중 분기 어텐션 기법의 추론 속도는 모델 성능을 크게 향상
  • 4개의 데이터 셋 실험을 통해 우리의 전략이 SOTA를 능가함을 입증