메뉴 바로가기 본문 바로가기

NIST FRVT(2): 전 세계 얼굴 인식 기업들의 알고리즘 경진대회

  • Dylan Han
  • 2023.02.08

NIST FRVT: 전 세계 얼굴 인식 기업들의 알고리즘 경진대회 (2)

    1.  Intro

1부에서는 세계에서 가장 권위있는 얼굴 인식 알고리즘 대회인 NIST FRVT에 대한 전반적인 내용을 살펴보았습니다. 2부에서는 좀 더 상세하게 FRVT 테스트에서 사용하는 데이터셋과 테스트 구성 및 평가 방법, 그리고 리더보드 성적 분석을 해보도록 하겠습니다.


“얼굴 인식 기술의 기본 지식을 알고 계시다면 본문 이해가 더 쉽습니다. 기본 지식을 알고 싶으신 분들은 얼굴 인식 기술에 관하여: 컴퓨터가 당신을 알아보는 방법을 참고하시기 바랍니다.”


    1.  FRVT 심층 분석(1): 평가 데이터셋

1부에서 FRVT에는 총 2억 장 이상의 얼굴 이미지 데이터를 바탕으로 알고리즘에 대한 평가를 진행한다고 언급한 바 있습니다. 그렇다면 FRVT에서 사용하는 평가 이미지 데이터들은 어떤 종류로 구성되어 있으며 이러한 이미지들로 평가 데이터셋을 구성한 이유가 무엇인지 분석해보도록 하겠습니다.

2.1 평가 데이터셋의 종류

FRVT 테스트 데이터셋은 다음과 같이 분류할 수 있습니다.

 

2.1.1 VISA 데이터셋

VISA 데이터셋은 10만명 이상의 인물로부터 획득한 10만개 이상의 VISA 이미지로 구성된 데이터셋입니다. VISA 이미지란 미국 VISA에 등록된 사진들을 말하며 우리나라의 여권, 신분증 사진과 유사한 형태의 사진이라고 보시면 됩니다. VISA 데이터셋의 특징으로는 미국 VISA에 등록된 다양한 국적 및 연령의 인물들을 대상으로 촬영한 이미지라는 점 입니다. 또한 VISA 이미지는 고품질의 이미지로 얼굴 인식에 매우 적합하다는 특징을 가지고 있습니다. 여기서 고품질이라 함은 단순히 사진의 해상도, 화질 등의 품질 뿐 아니라 촬영 대상의 얼굴 크기가 충분히 크고, Pose-Variation(측면, 고개 기울임, 감정 표현 등)이 없으며 및 배경이 정제된 환경에서(단색 배경) 촬영하는 등의 까다로운 조건이 모두 충족된 이미지 입니다. (이러한 이미지들을 보통 통제된 이미지(Constrained Image)라고 부릅니다) 이미지가 고품질 일 수록 노이즈나 변수가 없어 인식이 쉽기 때문에 VISA 사진 - VISA 사진을 비교하는 VISA Photos 테스트는 난이도가 쉬운 편입니다. 실제로 VISA Photos 테스트에서는 다수의 알고리즘이 99% 이상의 얼굴 인식 정확도를 보입니다.

2.1.2 Border 데이터셋

Border 데이터셋은 100만명 이상의 인물로부터 획득한 총 100만개 이상의 Border 사진으로 이루어진 데이터셋입니다. Border 사진은 미국 공항 내 출입국 심사대에서 촬영한 사진을 말합니다. 


 

[그림 2] 공항 단말기등을 통한 통한 이미지 획득 예시


 Border 데이터셋의 특징으로는 촬영한 공항/단말기마다 다양한 카메라 각도, 조명 등 촬영 환경이 다르고, 인물들의 포즈/위치가 다르며 근거리 촬영에 따른 왜곡이 존재할 수 있어 같은 데이터셋 내 이미지라도 품질이 제각각이라는 점 입니다. 그리고 일반적으로 위에서 언급한 VISA 이미지 보다 비교적 품질이 낮은 이미지들이 많습니다. 따라서 Border 이미지의 경우 VISA 이미지 보다 인식 난이도가 비교적 높습니다. 실제로 대부분의 알고리즘에서 Border - Border 테스트 에러율이 VISA - VISA 테스트보다 2배 이상의 높은 에러율을 보입니다.

Border 데이터셋은 Ageing 성능 테스트에도 사용할 수 있습니다. Ageing 성능 테스트는 알고리즘이 노화가 반영된 사진도 잘 인식할 수 있는지를 테스트하는 것 입니다. Border 데이터셋에는 동일한 인물에 대해 시간 차(10년 이상)를 두고 획득한 두 이미지가 존재합니다. 이를 통해 알고리즘의 Ageing 테스트를 진행할 수 있습니다. Border 데이터셋은 Border 데이터셋과 Border 10+ 데이터셋으로 나눌 수 있는데, 동일 인물의 최신 사진을 기본 Border 데이터셋으로 편입시키고 나머지 한 장의 사진은 Border+10 데이터셋으로 편입시킵니다. 기본 Border 데이터셋은 VISA-Border 나 Border Photos 테스트에서 사용되며 Border 10+ 데이터셋은 Border Ageing 테스트에서 사용됩니다. 

2.1.3 Mugshot 데이터셋

Mugshot 데이터셋은 100만명 이상의 인물로부터 획득한 총 100만개 이상의 Mugshot 사진으로 이루어진 데이터셋입니다. Mugshot 사진은 미국 경찰에서 촬영한 범죄자 사진입니다. Mugshot 데이터셋의 특징은 VISA와 유사하게 고품질의 이미지라는 점, 미국 국적의 성인들로만 구성되었다는 점, Ageing 데이터셋이 존재한다는 점이 있습니다. Mugshot 테스트 같은 경우 VISA 테스트와 마찬가지로 난이도가 낮은 테스트에 속하기 때문에 알고리즘들의 성능이 굉장히 높게 측정이 되며 알고리즘 간 격차도 크지 않습니다.

CUBOX의 알고리즘(7위)만 봐도 1위인 센스타임 알고리즘과 에러율 차이가 0.02%에 불과합니다. (FRVT 1:1 Verification, 2021. 09)

2.1.4 Webcam 데이터셋

Webcam 데이터셋은 15만명 이상의 인물로부터 획득한 15만장 이상의 Webcam 사진들로 이루어진 데이터셋입니다. Webcam 사진은 데스크톱, 노트북 내 Webcam 장비로 촬영한 사진입니다. Webcam 데이터셋의 특징은 인물 촬영에 사용된 Webcam 장비 및 촬영 환경이 전부 다르기 때문에 마치 Border 사진처럼 이미지 품질이 제각각 입니다. Border은 그나마 고화질 촬영 장비 사용 및 공항이라는 다소 통제된 환경에서 촬영된 사진이지만, Webcam 사진의 경우 저화질의 카메라를 사용하고, 일상적인 환경에서 촬영된 사진이라 Border 보다도 이미지 품질이 많이 떨어지는 사진들이 대다수 입니다. Webcam 데이터셋은 1:N Mugshot - Webcam 테스트에서 사용됩니다. Webcam 데이터셋은 저품질 이미지가 많으므로 인식 난이도가 굉장히 높습니다. 실제로 대부분의 알고리즘에서 Mugshot - Webcam 테스트는 Mugshot - Mugshot 테스트 보다 7~10배 높은 에러율을 보입니다. 

2.1.5 Wild 데이터셋

Wild 데이터셋은 1000명 이상의 인물로부터 획득한 10만장 이상의 Wild 사진들로 이루어진 데이터셋 입니다. Wild 사진은 길거리 등의 비통제 환경(Unconstrained)에서 인물이 촬영 사실을 모르는 상황(Non-cooperative)을 가정하고 촬영한 사진입니다. 이에 따라 사진마다 배경이 다르고, 주변 사물/인물이 검출될 수도 있으며, 시선이 카메라를 향하지 않거나, 손으로 얼굴을 가리는 등 Pose-Variation도 심하다는 특징이 있습니다. 이에 따라 인식 난이도가 가장 높은 데이터셋 중 하나입

2.1.6 Kiosk 데이터셋

KIOSK 데이터셋은 이미지 개수나 촬영 인물 수가 아직 공개되어있지 않습니다. KIOSK 데이터셋은 KIOSK 이미지로 구성되어 있습니다. KIOSK 이미지란 ATM, CCTV와 같이 카메라가 인물보다 높은 곳에 설치된 환경에서 획득한 이미지 입니다. 인물의 키에 따라 얼굴 영역이 잘릴 수도 있고(키가 큰 경우 하관이 잘림, 키가 작은 경우 머리 윗 부분이 잘림), 인물의 시선이 아래를 응시하고 있으며, 이미지 왜곡이 발생하는 특징이 있습니다. 이러한 특징으로 인해 얼굴 정보의 손실이 매우 심각하게 발생하므로, KIOSK 데이터셋은 인식 난이도가 가장 높은 데이터셋으로 알려져 있습니다.

2.2 다양한 평가 데이터셋을 구축한 이유 

 위 내용에서 볼 수 있듯이 NIST는 다양한 환경에서 획득한 여러 데이터셋을 바탕으로 테스트를 진행하고 있습니다. NIST가 위와 같은 데이터셋으로 테스트를 설계한 이유를 알아보겠습니다.


 첫 번째 이유는 알고리즘 성능을 종합적으로 평가하기 위해서 입니다. FRVT에서는 어떤 특정 데이터셋이나 시나리오에 국한되지 않고 다양한 환경에서의 알고리즘의 전체 성적을 보여주기 때문에 종합적인 성능 평가가 가능합니다. 독자 분들이 얼굴 인식 시스템을 도입하고자 하는 의사 결정자라고 생각해봅시다. FRVT 결과 보고서를 보고 어떤 기업을 선택하실건가요? Mugshot 테스트에서 가장 좋은 성적을 보인 알고리즘? Wild 테스트에서 가장 좋은 성적을 보인 알고리즘? 당연히 도입하고자 하는 환경과 가장 유사한 테스트셋에서 가장 좋은 성적을 보인 알고리즘 이겠죠. 예를 들어 얼굴 인식 기반으로 송금을 할 수 있는 ATM 기기를 만드는 회사라면 KIOSK 테스트 결과를 중점으로 평가할 것이고, 공항 얼굴 인식 단말기 제조사라면 VISA나 VISA - BORDER 테스트를 결과를 눈여겨 볼 것입니다. 결론적으로 FRVT의 이러한 데이터셋 구성은 고객의 입장에서는 각자의 시스템에 맞는 알고리즘을 선택하는데 도움을 주며, 기업의 입장에서는 특정 테스트에서 저조한 성적이 나올 경우 해당 시나리오에 집중하여 알고리즘을 보완하는데 도움을 받을 수도 있습니다.

 

 두 번째 이유는 FRVT 테스트의 난이도 조절을 위해서 입니다. 인식 난이도가 비교적 쉬운 VISA나 Mugshot 데이터셋의 경우 이미 상위권 기업들의 알고리즘 정확도가 포화 상태여서 변별력이 거의 없다고 봐도 무방한 상태입니다. FRVT가 이러한 데이터셋만으로 테스트 할 경우 기업들이 순위를 올리기 위해서 알고리즘 성능 자체를 올리는 것이 아니라 해당 시나리오와 유사한 데이터셋을 대량으로 구축하여 오버피팅한 모델들 간의 경쟁이 일어날지도 모르죠. 이를 방지하기 위해서 FRVT에서는 WILD, Kiosk 등의 난이도 높은 테스트들을 추가적으로 개설하여 건전한 알고리즘 개발 경쟁 환경을 조성하고 있습니다. 

 

 마지막 이유는 데이터 수집의 용이성 때문입니다. 아무리 NIST와 같은 큰 기관이더라도 2억건에 다르는 테스트 데이터셋을 구축하기란 쉽지 않은 일입니다. 따라서 미국 국립 기관이 쉽게 취득할 수 있는 합법적인 데이터인 비자 사진, 머그샷 사진들을 테스트셋으로 구축했을것으로 짐작해볼 수 있습니다.

    1.  FRVT 심층 분석(2): 평가 항목

 2장에서는 FRVT에서 사용되는 데이터셋들을 알아보았습니다. 그렇다면 FRVT에서는 해당 데이터셋들을 이용하여 어떠한 테스트 항목들을 진행하고 있는지 알아보도록 하겠습니다.

FRVT 1:1 Verification

 FRVT 1:1 검증 테스트는 알고리즘이 서로 다른 두 사진 속 인물이 동일인인지 아닌지 구별하는 능력을 테스트하는 항목입니다.
 

 1:1 테스트에서는 두 이미지가 사용됩니다. 한 장은 프로브, 다른 한 장은 갤러리 이미지(레퍼런스 이미지)입니다. 프로브 이미지란 얼굴 인식을 요청하는 이미지이며 단말기 카메라 등의 촬영 장비로 실시간으로 획득한 이미지를 말합니다. 갤러리 이미지는 프로브 이미지와 비교하는 이미지이며 시스템에 이미 저장된 이미지를 말합니다.

 우리는 일상 생활에서 쉽게 1:1 검증 알고리즘을 만나볼 수 있습니다. 잠금 해제 및 송금 등에 사용되는 휴대폰 얼굴 인식 기능이 대표적인 예시입니다. 휴대폰 얼굴 인식 기능에서 현재 카메라에 비치는 얼굴을 촬영한 이미지는 프로브 이미지이며, 휴대폰에 얼굴 인식 기능을 설정하면서 저장해놓은 이미지가 바로 갤러리 레퍼런스 이미지입니다.

FRVT 1:1 세부 테스트 항목

 프로브 이미지와 레퍼런스 이미지를 어떤 데이터셋의 이미지로 사용할 것인지에 따라서 1:1 검증 세부 테스트 항목이 나뉩니다.

 


 이처럼 FRVT 1:1 검증 테스트에서는 총 7개의 성능 평가 결과가 측정되어 발표됩니다.

 Mugshot Photos 12+ 테스트는 레퍼런스 이미지로 인물의 가장 최근 사진을 저장해놓고 12년+ 전의 사진을 프로브로 입력하여 노화에도 검증이 가능한지 테스트를 하는 항목입니다.

FRVT 1:1 동일인 비교, 타인 비교 

 1:1 검증에서 두 이미지를 비교하는 상황은 다음과 같이 두 가지로 나눠볼 수 있습니다.

    • 동일인 비교

    • 타인 비교

 

[그림3] 동일인/타인 비교 예시 이미지

 동일인 비교란 동일한 인물의 서로 다른 두 얼굴 이미지를 비교하는 것으로 알고리즘은 두 사진의 유사도를 특정 임계값(Threshold) 이상으로 측정해야 합니다. 동일인 비교에서 임계값 미만의 유사도가 나올 경우 오류(Error)로 측정합니다. Face ID가 내 얼굴을 알아보지 못하여 잠금을 풀어주지 않는 경우죠.

타인 비교란 다른 인물의 두 얼굴 이미지를 비교하는 것으로 알고리즘은 두 사진의 유사도를 임계값 미만으로 측정해야 합니다. 타인 비교에서 임계값 이상의 유사도가 나올 경우 오류로 측정합니다. Face ID가 다른 사람의 얼굴을 내 얼굴로 착각하여 잠금을 풀어준 경우입니다.

FRVT 1:1 테스트 평가 지표

 최종적으로 FRVT 1:1에서는 FNMR@FMR이라는 평가 지표를 사용하는데요, FNMR@FMR에 대해 알아보기 전에 FNMR과 FMR은 각각 어떤 지표인지 알아보겠습니다.


FNMR과 FMR

 FNMR은 전체 동일인 비교 횟수 중 동일인을 타인이라고 검증한 횟수를 비율로 나타낸 것입니다. 정확히는 전체 동일인 비교 횟수 중 임계값 미만의 유사도가 나온 횟수 (본인불일치 오류 횟수, False Non Match Error)를 비율로 나타낸 것 입니다.


 

 FMR은 전체 타인 비교 횟수 중 타인을 동일인이라고 검증한 횟수를 비율로 나타낸 것 입니다. 정확히는 전체 타인 비교 횟수 중 임계값 이상의 유사도가 나온 횟수 (타인일치 오류 횟수, False Match Error)를 비율로 나타낸 것 입니다. 


 


간단한 퀴즈를 통해 실제로 FNMR과 FMR을 측정해보겠습니다.

 

 예시에서 임계값(T, Threshold)는 0.5 입니다. 즉, 두 이미지의 유사도가 0.5 이상이면 동일인으로 판단하는 시스템인 상황을 가정합니다.

왼쪽 동일인 비교에서는 총 세 번의 비교 횟수 중 한 번의 본인불일치오류(빨간색 부분)가 발생했으므로 FNMR(T=0.5)는 약 0.33입니다. 오른쪽 타인 비교에서는 총 세 번의 비교 횟수 중 두 번의 타인일치오류가 발생했으므로 FMR(T=0.5)는 약 0.66입니다.

FNMR과 FMR의 관계와 임계값

 FNMR과 FMR은 임계값에 대해 서로 반비례 관계를 가집니다. 임계값을 어떻게 설정하느냐에 따라서 알고리즘의 FNMR과 FMR 값이 유동적으로 바뀌게 되죠.

 

 시스템의 임계값이 무한대에 가깝다면 높은 유사도 기준 때문에 누구도 이 시스템을 통과할 수 없게 되고 FNMR은 100%에 가까워질 것 입니다. 반면 시스템의 임계값이 0에 가깝다면 낮은 유사도 기준 때문에 누구나 쉽게 이 시스템을 통과하게 될 것이고 FMR이 100%에 가까워지겠죠.

 

[그림4] 임계값 변화에 따른 FMR, FNMR 값의 상관 관계

 그렇다면 적절한 임계값은 어떻게 설정해야 할까요? 정답은 없습니다. 시스템이 원하는 보안 수준과 리소스에 따라 최적의 임계값은 다 다릅니다. 공항 시스템을 예로 들어 보겠습니다. 보안을 위해 임계값을 높게 설정한다면 높아진 FNMR 때문에 정상적인 출입국자들이 출입국 심사대에서 지속적으로 통과하지 못하는 상황이 발생할 것입니다. 결국 많은 탑승객들이 공항 직원들의 대면 검증을 통해 출입국을 진행할 것입니다. 이렇게 되면 간편함, 인력 부담 감소 등 얼굴 인식 시스템이 주는 효용이 사라집니다. 그렇다고 임계값을 낮추게 되면 이러한 효용을 온전히 누릴 수 있으나 불법 출입국자들이 많이 통과할 것입니다. 결국 임계값은 시스템 환경과 기업이 가진 여건에 맞게 유동적으로 조절해야 합니다.

FNMR@FMR

 FRVT에서는 알고리즘 평가 지표로 FNMR@FMR을 사용합니다. FNMR@FMR이란 FMR을 기준으로 임계값을 설정해놓고 해당 임계값에서 측정한 FNMR 값 입니다. FNMR@FMR 성능 지표를 사용하는 이유는 FRVT에 제출한 모든 알고리즘들의 동일한 보안수준에서의 성능을 비교하기 위해서 입니다. 위에서 보았듯이 FNMR과 FMR은 임계값 조정을 통해 얼마든지 원하는 수치를 만들어낼 수 있습니다. 즉, FRVT가 FNMR 혹은 FMR 단일 지표로 알고리즘 성능을 평가할 경우 기업들은 임계값을 유리하게 조절하여 0에 가까운 에러율을 만들어낼 수 있습니다. 

 이를 방지하고자 FRVT에서는 모든 알고리즘의 보안 수준을 동일한 값으로 고정시킵니다. 해당 임계값은 NIST에서 정의한 FMR을 기준으로 설정합니다. 예를 들어 VISABORDER 테스트셋에서는 FMR이 0.000001을 만족하는 임계값을 사용하고 있습니다. 모든 알고리즘의 보안 수준을 동일한 수준으로 고정시킨 이후 해당 임계값에서 FNMR을 측정합니다. 이렇게 되면 모든 알고리즘을 동일한 출발 선상에 놓고 FNMR을 측정하는 효과를 보기 때문에 정확한 성능을 비교해볼 수 있습니다.

 

임계값을 FNMR이 아닌 FMR을 기준으로 설정하는 이유는 얼굴 인식 시스템에서 보통 FNMR보다 FMR이 중요하기 때문입니다. FMR은 인식 시스템의 보안 수준을 결정하는 중요한 지표이기 때문입니다.


FNMR@FMR 활용

 FRVT는 리더보드 및 보고서를 통해 모든 1:1 검증 알고리즘의 각 테스트 별 FNMR@FMR을 측정하여 제공하고 있습니다. 이에 따라 의사 결정자는 본인이 원하는 FMR 수준에서 알고리즘들의 FNMR을 비교하여 알고리즘을 선택하면 됩니다. 

FRVT 1:1 Roll - up

FRVT 1:1 리더보드를 분석해보면서 FRVT 1:1에 대한 설명을 요약 및 마무리 해보겠습니다.

 

[그림5] FRVT 1:1 VISABORDER 리더보드 (2021.09)

 

 FRVT 1:1 기준 테스트인 VISABORDER는 프로브 이미지로 Border 데이터셋 이미지를 사용하고, 레퍼런스 이미지로는 VISA 데이터셋 이미지를 사용합니다. VISABORDER 테스트의 경우 FMR=0.000001을 만족하는 임계값을 기준으로 성능을 측정하고 있습니다. CUBOX 알고리즘의 경우 기준 임계값에서 0.0033의 FNMR을 보였고 에러율이 낮은 순서대로 세계 3위를 기록했습니다.

FRVT 1:N

 FRVT 1:N 테스트는 한 장의 이미지가 갤러리 내 어떤 이미지와 가장 유사한지 판별하는 능력을 테스트하는 항목입니다. 

1:N은 1:N 식별(1:N Identification)과 1:N 조사(1:N Investigation)로 task가 나뉩니다. 1:N 식별은 임계값을 설정하여 프로브 - 갤러리 이미지의 유사도가 임계값을 넘는지 넘지 않는지에 따라 결과를 분류하며, 1:N 조사는 임계값이 없이 프로브 - 갤러리 이미지의 유사도가 다른 갤러리 이미지들에 비해 얼마나 높은지를 비교하여 결과를 분류합니다.


 1:N 테스트에서는 다수의 이미지를 갤러리(레퍼런스 데이터셋)로 구축해놓고 카메라 등을 통해 프로브 이미지를 입력받아 프로브 - 갤러리 간 비교를 수행합니다. 비교 과정은 단순하게 프로브 - 갤러리 내 이미지 간 1:1 비교가 N번 일어난다고 보면 됩니다.

공항, 출입 통제 등 대규모 시스템에서 얼굴 인식 시스템을 사용할 때 1:N 알고리즘은 1:1 알고리즘에 비해 편리합니다. 대규모 환경에서의 1:1 시스템은 여권 인식, 신분증 인식 등의 추가적인 인증 절차가 필요하지만 1:N은 이러한 절차가 필요없어 간편하다는 강점이 있습니다.

 

FRVT 1:1 식별 세부 테스트 항목

 프로브 이미지와 레퍼런스 이미지를 어떤 데이터셋의 이미지로 사용할 것인지에 따라서 1:N 세부 테스트 항목이 나뉩니다. 세부 테스트 항목은 1:N 식별과 1:N 조사 모두 동일합니다.


 

FRVT 1:N 등록인 비교, 미등록인 비교 

 1:N 비교 상황은 다음과 같이 두 가지로 나눠볼 수 있습니다.

    • 등록인 비교

    • 미등록인 비교

  

[그림6] 등록인/미등록인 비교 예시 이미지

 등록인 비교란 프로브가 갤러리에 등록된 인물인 상황에서 비교를 수행하는 것으로 알고리즘은 프로브 이미지와 갤러리 내 등록된 동일한 인물의 이미지 간 유사도를 임계값 이상으로 측정해야 합니다. 등록인 비교에서 프로브 이미지와 갤러리 내 등록된 동일한 인물의 이미지 유사도가 임계값 미만일 경우 오류(FNI, 위음성식별 오류)로 측정합니다. 출입 통제 시나리오에서 출입 가능 명부에 등록된 인물에게 출입문이 열리지 않는 경우죠.


 미등록인 비교란 프로브가 갤러리에 등록되지 않은 인물인 상황에서 비교를 수행하는 것으로 알고리즘은 프로브 이미지와 갤러리 내 모든 이미지 간 유사도를 임계값 미만으로 측정해야 합니다. 미등록인 비교에서 프로브 이미지와 갤러리 이미지 단 하나라도 임계값 이상의 유사도가 나올 경우 오류(FPI, 위양성식별 오류)로 측정합니다. 출입 통제 시나리오에서 출입 가능 명부에 등록되지 않은 인물에게 출입문을 열어주는 경우입니다. 


FRVT 1:1 테스트 평가 지표

 FRVT 1:N에서는 1:N 식별과 1:N 조사 각각 다른 평가 지표를 사용합니다.

1:N 식별 테스트 평가 지표

1:N 식별에서는 FNIR@FPIR이라는 평가 지표를 사용하는데요, FNIR@FPIR에 대해 알아보기 전에 FNIR과 FPIR은 각각 어떤 지표인지 알아보겠습니다.


FNIR과 FPIR

 FNIR은 전체 등록인 비교 횟수 중 프로브 - 프로브 본인의 갤러리 이미지 간 유사도가 임계값 미만으로 측정된 횟수를 비율로 나타낸 것 입니다. 즉, 전체 등록인 비교 횟수 중 등록인을 미등록인이라고 식별한 횟수를 비율로 나타낸 것입니다.

 

 FPIR은 전체 미등록인 비교 횟수 중 프로브 - 갤러리 이미지 간 유사도가 단 하나라도 임계값 이상으로 측정된 횟수를 비율로 나타낸 것입니다. 즉, 전체 미등록인 비교 횟수 중 미등록인을 등록인이라고 식별한 횟수를 비율로 나타낸 것 입니다. 여기서 N은 갤러리 크기를 의미하며, T는 임계값을 의미합니다.

 

FNIR@FPIR

결과적으로 1:N 식별에서는 알고리즘들의 FNIR@FPIR 수치로 성능을 평가합니다. FNMR@FMR과 마찬가지로, 특정 FPIR을 충족하는 임계값에서 측정한 FNIR 수치를 사용합니다. 이 수치를 사용한 이유는 1:1 식별에서 FNMR@FMR을 사용한 이유와 같습니다. 


1:N 조사 테스트 평가 지표

 1:N 조사에서는 단순히 FNIR을 평가 지표로 사용합니다. 임계값을 0으로 두기 때문에 FPIR을 따로 측정할 필요가 없습니다. 1:N 조사에서는 프로브와 유사도의 절대적인 크기가 아닌 상대적인 크기로 신원(Identity)를 식별합니다. 유사도가 아무리 작아도 다른 이미지 보다 상대적으로 크면 두 이미지는 같은 신원으로 식별합니다.

 1:N 조사에서는 알고리즘들의 FNIR(R=1) 수치로 성능을 평가합니다. 여기서 R은 순위(Rank)를 의미합니다. 즉, 등록인 비교에서 프로브 - 프로브 본인의 갤러리 이미지 간 유사도가 프로브 - 다른 어떤 갤러리 이미지의 유사도 보다 낮은 경우를 오류로 측정합니다.


 결과적으로 FNIR(R=1)은 전체 등록인 비교 횟수 중 프로브 - 프로브 본인의 갤러리 이미지 간 유사도가 R=1(상대적으로 가장 높음)이 아닌 횟수를 비율로 나타낸 것 입니다.

 


 1:N 식별과 1:N 조사에서의 평가 지표 차이를 이해하기 위해서 간단한 퀴즈를 풀어보겠습니다.


 

 1:N 식별에서는 등록인의 유사도가 임계값을 넘지 못하는 경우가 두 번 발생했기 때문에 FNIR(T=0.5)은 약 0.66의 에러율을 보입니다. 반면 1:N 조사에서는 등록인의 순위가 1위가 아닌 경우가 한 번 발생했으므로 FNIR(T=0, R=1)은 약 0.33의 에러율을 보입니다. 두 Task에서 모두 같은 알고리즘, 같은 데이터셋을 사용했기 때문에 측정된 유사도 점수는 같은데도 Task 별 FNIR은 서로 다르게 측정되는것을 볼 수 있습니다.

FRVT 1:N Roll - up

FRVT 1:N 리더보드를 분석해보면서 FRVT 1:N에 대한 설명을 요약 및 마무리 해보겠습니다.


 

[그림7] FRVT 1:N VISA KIOSK 리더보드 (2021.09)

 

 FRVT 1:N 최고난도 테스트인 VISAKIOSK는 프로브 이미지로 KIOSK 데이터셋 이미지를 사용하고, 레퍼런스 이미지로는 VISA 데이터셋 이미지를 사용합니다. VISAKIOSK 테스트의 경우 FPIR=0.003을 만족하는 임계값을 기준으로 성능을 측정하고 있습니다. CUBOX 알고리즘의 경우 기준 임계값에서 0.0673의 FNIR을 보였고 에러율이 낮은 순서대로 세계 1위를 기록했습니다.

FRVT Mask effect

 FRVT Mask effect는 COVID-19 유행으로 마스크 착용 인물에 대한 얼굴 인식 수요가 증가함에 따라 신설된 테스트 입니다. (마스크 착용 시나리오에서의 얼굴 인식과 관련하여 더 자세한 정보를 알고 싶으신 분들은 이 글을 참고하시기 바랍니다.) 


 Mask effect 테스트는 FRVT 1:1 테스트의 서브 테스트입니다. FRVT 1:1에 참가한 기업들은 Mask effect 테스트를 위한 별도의 알고리즘을 제출할 필요가 없으며 단순히 1:1에 제출한 알고리즘으로 Mask Effect 테스트를 받습니다.


 Mask effect에서는 마스크를 낀 Border 이미지와 마스크를 끼지 않은 VISA 이미지를 1:1로 비교하여 마스크 착용 환경에서 두 이미지에 대한 알고리즘의 검증 능력을 측정합니다. 마스크 착용 사진은 기존 Border 사진에 인공 마스크(Synthetic Mask)를 씌운 형태의 이미지를 사용합니다. 인공 마스크 이미지는 실제 마스크 착용 이미지 보다는 품질이 낮으나 다양한 색깔과 모양을 가진 인공 마스크 이미지를 만들어낼 수 있고 구축 비용도 매우 저렴합니다. NIST도 이러한 이유로 Mask Effect 테스트에서 인공 마스크 이미지를 사용하고 있습니다.

 

[그림8] Mask Effect 테스트 예시


 마스크 착용 이미지의 경우 마스크의 폐색(Occlusion)으로 인해 활용할 수 있는 얼굴 정보가 많이 손실되므로 마스크 미착용 이미지 보다 인식 난이도가 높습니다. 실제로 VISABORDER(마스크 착용) 테스트의 경우 기존 VISABORDER(마스크 미착용)에 비해 에러율이 적게는 3배에서 많게는 80배 이상 높습니다.


 

[그림9] FRVT Mask Effect 리더보드

 CUBOX 알고리즘의 경우 VISABORDER(마스크 착용) 테스트에서 세계 3위를 기록했습니다.

FRVT Paperless Travel

 FRVT Paperless Travel 테스트의 경우 2018년 미국이 실제 공항 시스템에 얼굴 인식을 적용하기 시작하면서 신설된 시나리오입니다. 


 기존 공항 시스템은 출입국 수속, 면세점 이용, 항공기 탑승 등 공항 시스템 내 각 시나리오에서 신분증이나 탑승권과 같은 기존 서류(Paper)들을 이용한 인증 방식을 사용했습니다. 이러한 인증 방식을 얼굴 인식으로 대체하게 되면 위와 같은 서류 없이도(Paperless) 여행객들이 편하게 공항 시스템을 이용할 수 있겠죠.


 FRVT Paperless Travel은 이처럼 공항 시스템 내 다양한 시나리오에서 얼굴 인식 알고리즘의 성능을 평가합니다. Paperless Travel 테스트의 특징은 각 시나리오별 등록 데이터베이스 규모가 각각 다르다는 점을 반영하여 등록 규모가 각각 420명,42000명인 상황에서 성능 테스트를 진행합니다. 결국 Paperless Travel 테스트에서는 데이터베이스 등록 규모가 변하더라도 안정적인 성능을 내는 알고리즘이 좋은 성적을 받을 수 있습니다.


 FRVT Paperless Travel는 FRVT 1:N의 서브 테스트이며 NIST에서 선정한 알고리즘만 해당 테스트를 치룰 수 있습니다. 센스타임, 마이크로소프트, 아이데미아 등 기존 FRVT 1:N에서 최상위권의 성적을 보인 알고리즘들이 참여하고 있으며 국내에서는 CUBOX가 유일하게 Paperless Travel에 참여하고 있습니다. 

 

[그림10] FRVT Paperless Travel 순위표

CUBOX 알고리즘의 경우 등록 규모 42000명 시나리오에서 세계 1위를 기록했습니다.

4. Conclusion

 이번 아티클에서는 얼굴 인식 분야에서 가장 권위있는 알고리즘 테스트인 FRVT에 대해 알아보았습니다. FRVT는 얼굴 인식 분야의 발전에 직간접적으로 매우 큰 공헌을 하고 있습니다. 많은 기업들이 FRVT에서 자사 알고리즘의 위상을 높이기 위해 끊임없이 “알고리즘 개발 → FRVT 제출” 사이클을 반복하고 있습니다. FRVT가 공정한 경쟁의 장을 형성함으로써 기술 발전의 선순환 구조가 생긴 것이죠. 얼굴 인식 분야에 FRVT와 같이 공정하고 신뢰도 높은 테스트들이 많이 개설되어 얼굴 인식 기술 생태계가 더욱 활성화되길 기대해 봅니다. 

About CUBOX

CUBOX는 NIST에서 주관하는 얼굴 인식 대회인 FRVT(얼굴 인식 알고리즘 기업 테스트, Face Recognition Vendor Test)에서 1:1, 1:N 모두 세계 1위, 국내 1위 성적을 보유하고 있습니다. 이러한 기술력을 인정 받아 인천공항, 정부 청사의 얼굴 출입 시스템을 직접 구축 및 운영하고 있습니다. CUBOX AI LAB은 Face re-identification, Face detection, Face Mask Effect, Face Anti-Spoofing, Face parsing 등 얼굴 인식 및 컴퓨터 비전 기술 전반에 대한 독자적인 모델 연구를 진행하고 있으며, 관련 데이터셋 구축 사업 역시 진행하고 있습니다.
본문의 글이나 CUBOX AI LAB 연구에 대한 문의사항이 있으시거나 AI LAB과 함께 일하고 싶으신 분들은 언제든지 연락 주시기 바랍니다. 

 

한 상 훈

Manager, AI 3팀

shhan@cubox.ai