NIST FRVT(1): 전 세계 얼굴 인식 기업들의 알고리즘 경진대회
NIST FRVT: 전 세계 얼굴 인식 기업들의 알고리즘 경쟁 대회 - 1부
올해 초 개최되었던 베이징 동계 올림픽 기억하시나요? 다양한 국가에서 온 유수의 선수들이 각자의 종목에서 뜨거운 경쟁을 펼치며 전 세계인을 즐겁게 해주었습니다. 올림픽과 같은 대회는 선수들에게 있어 단순히 실력을 순위 매김하는 것을 넘어 각자의 실력을 세계적인 무대에서 확인해보고 발전을 위한 동기부여를 하는 건강한 경쟁 문화를 조성하는데 큰 역할을 합니다.
얼굴 인식 분야에도 올림픽과 같은 대회가 있습니다. 오늘 본문에서 다룰 FRVT(Face Recognition Vendor Test)인데요. FRVT는 미국 상무부 산하의 NIST에서 주최하는 얼굴 인식 알고리즘 테스트 입니다. FRVT는 믿을 수 있는 기관이 주최할 뿐 아니라 객관적이고 체계화된 테스팅 시스템을 구축하고 있어 테스트의 신뢰도가 높습니다. 이러한 이유 때문인지 FRVT에는 Microsoft, Intel, 센스타임 등 세계적 수준의 IT 기업들이 참가하고 있습니다.
본문에서는 얼굴 인식 분야 최고 권위 대회인 FRVT에 대해서 알아봅니다. 1부에서는 NIST FRVT의 개요와 필요성, 테스트 시나리오 종류 및 참여 방법과 참가 기업에 대해 알아보도록 하겠습니다.
[그림 1] 볼티모어 대화재
위에 보이는 사진은 1904년 2월 7일, 미국 도시 화재 역사상 최악의 재앙으로 알려진 볼티 모어 대화재로서, 이틀 동안 지속되어 주요 다운 타운 건물의 거의 전부를 파괴시켰으며, 당시 돈으로 약 1억 달러 이상의 손해를 입혔습니다. 화재는 볼티모어 시내 중심가에서 발생했고, 불길이 확산될 것으로 예상한 볼티모어 시는 신속하게 인근 도시에 지원을 요청했습니다. 화재 진압 지원 요청을 받은 필라델피아, 워싱 턴, 애너폴리스 등의 인근 도시들은 즉각 소방인력과 장비를 볼티모어에 투입했으나, 불길을 잡는 것에는 실패하고 말았습니다.
초기에 인력과 장비가 총동원됐음에도 불구하고 왜 화재를 막지 못했던 것일까요? 바로 소화전의 규격이 맞지 않았기 때문입니다. 볼티모어로 지원을 간 다른 도시들의 장비는 볼티모어의 소화전 규격과 달랐습니다. 당시 미국의 소화전에는 600개의 서로 다른 규격들이 사용되고 있었고, 표준이 정해지지 않은 탓에 소방 장비의 규격이 다 제각각이었던 것이죠. 이렇게 소화전에 호스를 연결하지 못하게 됨으로써, 투입된 천여명의 인력도 무용지물이 되었죠.
이러한 표준 부재로 인한 사건, 사고를 경험한 미국 정부는 이러한 재앙이 반복되지 않게 하기 위해서 상무부 산하에 미국 국립표준기술연구원(NIST)을 설립하였으며, 현재까지 이 기관을 통해 각 분야에 표준 수립과 이를 위한 측정, 그리고 다양한 기술 분야의 알고리즘에 대한 테스트 등의 업무를 수행하고 있습니 다.
아래의 그림은 NIST에서 연구하고 있는 주요 프로그램들입니다.
[그림 2] NIST 주관 프로그램
FRVT는 NIST가 주관하는 얼굴인식 공급업체 테스트입니다. FRVT는 얼굴인식 기술의 성능을 측정하는 경쟁 대회입니다.
FRVT는 4가지의 벤치마크 테스트가 진행되고 있으며 이를 바탕으로 7개의 테스트 결과 보고서가 출판되고 있습니다. (최신 테스트 보고서를 보고 싶으신 분들은 링크를 참조하시기 바랍니다)
[그림 3] NIST FRVT 벤치마크 및 보고서
위의 그림은 현재 시행중인 4가지 벤치마크 테스트와 7가지 보고서 트랙입니다. 벤치마크 테스트 종류는 아래와 같습니다.
1:1 Verification (두 사진 속 인물이 동일인인지 판별하는 능력을 테스트)
1:N Search Performance (카메라 입력된 사람이 데이터베이스에 등록된 사람인지, 등록된 사람 중 유사도가 높은 사람은 누구인지 판별하는 능력을 테스트)
Morph (합성된 얼굴 이미지를 판별해내는 능력을 테스트)
Image Quality(얼굴 인식에 적합한 이미지인지 판별해내는 능력을 테스트)
보시다시피 제출한 얼굴 인식 알고리즘에 대해 다양한 Application에서의 성능을 측정합니다. NIST는 향후 얼굴 위변조 방지(Face Anti-Spoofing) 등의 벤치마크 테스트를 추가적으로 개설하여 평가 영역을 넓혀가겠다고 밝혔습니다.
7가지 보고서의 내용은 다음과 같습니다.
Part1 (1:1 Verification 정확도 및 속도 결과)
Part2 (1:N Identification 정확도 및 속도 결과)
Part3 (1:N Identification 성능에 인구통계학적 요소가 미치는 영향)
Part4 (Morph 성능 결과)
Part5 (Image Quality 성능 결과)
Part6 (마스크를 착용한 얼굴에 대한 인식 성능 결과)
Part7 (공항 시스템을 가정한 1:N 환경에서의 인식 성능 결과)
해당 보고서에는 벤치마크 테스트 결과가 작성되어 있으며 누구나 열람이 가능합니다. 벤치마크 테스트 결과 외에도 마스크 착용, 공항 시스템 등 실생활 혹은 실제 서비스단에서의 각 알고리즘의 성능을 측정하여 공개하고 있습니다.
NIST는 벤치마크 테스트를 수행하기 위하여 약 7천만 명으로부터 2억 개 이상의 얼굴 데이터를 확보하였으며, 이를 task 별로 적절히 분류하여 구축 해놓았습니다. 특히 1:N 벤치마크 테스트에서는 최대 1200만명 규모의 대용량 갤러리셋을 구성하였습니다. (갤러리 셋이란 1:N 테스트에서 N에 해당하는 것으로 데이터 베이스에 기 등록된 데이터 규모를 말합니다.) 테스트 데이터셋에 사용된 이미지들은 미국 정부 운영과정에서 얻어진 데이터로, 이민국 국경 통과, 법 집행 등의 과정에서 취득된 데이터들 입니다. NIST의 데이터는 누구도 접근할 수 없는 독립된 데이터로서, 어떠한 기업도 해당 데이터를 통해 모델을 학습시키거나 사전 테스트를 해 볼 수 없어 테스트의 투명성이 보장됩니다.
FRVT는 참가비가 무료이며 FRVT에 참가가 결정되면 개발사는 참가 동의서를 제출합니다. 모든 제출물은 NIST로 전송함에 앞서 암호화처리 되어야 하며, 지침에 따라 FRVT Ongoing 공개키를 이용하여 NIST 이메일로 발송하게 됩니다.
알고리즘 제출은 NIST C++테스트 API에 적합하게 컴파일된 블랙박스 라이브러리 형태로 제출하며, NIST는 해당 코드를 전혀 볼 수 없습니다.
20MB 미만 암호화 파일의 경우 NIST 이메일로 제출
20MB 이상 암호화 파일의 경우 웹서버 업로드
사이트에 가입 및 회원제도는 따로 운영하지 않으며(단, FRVT 메일링 리스트에 가입은 필수), 참가자가 서명한 참가 동의서가 NIST로 전송되는 즉시 알고리즘 제출이 가능합니다.
NIST FRVT 테스트 완료 후 결과는 테스트 별로 사이트의 리더보드에 게시되며, 200페이지에 달하는 보고서와 같이 공개됩니다. 리더보드 및 보고서 갱신 주기는 보통 1달에 1번 정도 입니다.
FRVT에는 2022년 현재까지 약 700개 얼굴인식 알고리즘들이 제출되었으며 참가한 기업 수는 250 개가 넘습니다. 참가 기업의 국적은 미국, 중국, 일본, EU 등 다양합니다. 참가 기업 중에는 Microsoft, Intel과 같은 기존 IT 대기업들과 센스타임, IDEMIA, 메그비와 같은 AI 유니콘 스타트업 등 세계적인 수준의 기술력을 보유한 기업들이 대거 참여하고 있습니다. 우리나라 역시 CUBOX를 포함하여, 삼성, SK Telecom, 카카오, 네이버 등의 기업들이 FRVT에 참여하고 있습니다.
[그림 4] FRVT 참가 기업 목록(2022.4월 기준)
[그림 5] FRVT 제출 알고리즘 & 참가 기업 수
첫 번째 이유로는 FRVT가 얼굴 인식 어플리케이션의 다양한 시나리오를 다루는 알고리즘 테스트 중 가장 크고 독립적이며 객관적인 테스트이기 때문입니다. 테스트는 완전한 블라인드 테스트로서 엄격하고 공정하며 투명하기 때문에, 각 얼굴 인식 기업들은 객관적인 관점에서 경쟁사와의 성능을 비교해볼 수 있습니다.
두 번째 이유로는 FRVT를 통해서 얼굴 인식 분야의 국제적인 명성을 얻을 수 있기 때문입니다. 모든 FRVT 결과는 NIST에서 발간하는 보고서에 명시됩니다. FRVT 보고서는 전 세계의 기업, 고객 및 일반 유저들도 쉽게 열람할 수 있습니다. 따라서 참가 기업이 FRVT에서 높은 성능을 인정받게 되면 세계적인 주목을 받을 수 있습니다. 이렇게 되면 실제 사업에도 상당한 도움이 됩니다. 왜냐하면 얼굴 인식 시스템을 도입하고자 하는 고객의 대다수는 FRVT 보고서를 통해 알고리즘들의 성능을 비교하여 업체를 선정할 것이기 때문입니다. 실제로 얼굴 인식 알고리즘 입찰 공고 중 상당수가 FRVT 테스트 결과 제출을 요구하고 있습니다.
마지막으로 앞서 언급했던 FRVT 보고서를 통해 제품의 약점을 찾는 것이 매우 유용하며, 이를 바탕으로 알고리즘을 보완해나갈 수 있습니다. FRVT 테스트에서는 촬영 시나리오, 국적/나이/성별 등에 따른 알고리즘 성능, 마스크 착용에 따른 성능 등 다양한 상황에서의 알고리즘 성능에 대한 결과를 볼 수 있기 때문에 기업의 입장에서 알고리즘이 어떤 시나리오에 취약한지 테스트 결과를 진단해 볼 수 있습니다. FRVT가 없었다면 개발사가 직접 상당한 비용을 들여 대규모 테스트셋을 구축해야만 이러한 알고리즘 보완 작업이 가능했을 것 입니다. 이러한 수고로움 없이도 자사 알고리즘에 대한 엔지니어링적인 분석을 할 수 있다는것 만으로도 FRVT에 참가할 충분한 요인으로 보입니다.
NIST FRVT 1부에서는 NIST가 주최하는 얼굴 인식 알고리즘 테스트인 FRVT에 대해서 알아보았습니다. FRVT는 약 2억 건에 달하는 대규모 테스트 데이터셋을 바탕으로 다양한 벤치마크 테스트를 진행하고 있습니다. FRVT에는 전 세계 250여 개 기업이 참가하고 있으며 제출된 알고리즘 개수만 700개가 넘습니다. 기업들은 FRVT에 참가함으로써 경쟁사와 자사 알고리즘의 객관적인 비교를 해볼 수 있으며 결과를 바탕으로 자사의 알고리즘을 더 발전시킬 수 있습니다. 또는 FRVT를 통해 전 세계에 자사의 이름을 알릴 수도 있죠. 고객의 입장에서도 NIST에서 발간하는 FRVT 결과 보고서를 통해 얼굴 인식 기업 선정에 상당히 많은 도움을 얻을 수 있습니다.
2부에서는 FRVT 각 테스트 항목들에 대해 심도있게 알아보고자 합니다. FRVT의 각 벤치마크 테스트들은 어떤 항목들을 평가하며, 평가 지표는 무엇인지, 테스트 결과가 가지는 의의는 무엇인지에 대해 다뤄보겠습니다. 다음과 같은 질문을 가지신 분들의 일독을 권해드립니다.
1:1 Verification과 1:N Identification의 차이는 무엇인가요?
FP, FN, FMR, FNMR, FNIR, FPIR 등의 지표는 무엇인가요?
Mugshot, VISABORDER, VISA 등은 어떤 이미지로 구성된 데이터셋인가요?
CUBOX는 NIST에서 주관하는 얼굴 인식 대회인 FRVT(얼굴 인식 알고리즘 기업 테스트, Face Recognition Vendor Test)에서 1:1, 1:N 모두 세계 1위, 국내 1위 성적을 보유하고 있습니다. 이러한 기술력을 인정 받아 인천공항, 정부 청사의 얼굴 출입 시스템을 직접 구축 및 운영하고 있습니다. CUBOX AI LAB은 Face re-identification, Face detection, Face Mask Effect, Face Anti-Spoofing 등 얼굴 인식 기술 전반에 대한 독자적인 모델 연구를 진행하고 있으며, 관련 데이터셋 구축 사업 역시 진행하고 있습니다.
본문의 글이나 CUBOX AI LAB 연구에 대한 문의사항이 있으시거나 AI LAB과 함께하고 싶으신 분들은 언제든지 연락 주시기 바랍니다.
About Author
한 상 훈
Manager, AI 3팀
shhan@cubox.ai