Home » CT OPINION, 기술

[CT OPINION] AI 윤리: Race, Gender Gap에 대하여

July.2021 No Comment

“As artificial intelligence–powered innovations become ever more prevalent in our lives, the ethical challenges of AI applications are increasingly evident and subject to scrutiny. (인공 지능 기반 혁신이 우리 삶에서 점점 더 널리 퍼짐에 따라, AI 애플리케이션의 윤리적 문제가 점점 중요한 문제가 될 것이고, 관심을 가져야할 이슈가 됩니다.)”
– 2021 AI Index Report 발췌

AI, 특히 Deep Learning 기술들은 현재 문화기술 분야에서 중요한 연구분야로 많은 연구가 이루어지고 있다. 현재 인공지능의 핵심기술은 대량의 데이터와 다층 구조를 보유한 인공 신경망을 통하여 특정 도메인의 지식들을 정량화 한다. 이는 컴퓨터가 데이터로부터 인간 수준의 복잡성을 모델링하는 시대가 도래했다는 것을 의미한다. 인공지능 기술이 복잡성을 이해하게 된 데에는 인간들의 행동을 데이터화 한 것이 매우 큰 기여를 했다. 만약 인간들의 행동이 비 윤리적이고, 이러한 비 윤리성들이 데이터화 되었다면, AI Application도 같은 문제를 가지게 되지 않을까?

대표적인 사례는 인간의 음성을 인식하는 Speech to Text 분야에서 확인 가능하다. Stanford 연구자들은 Amazon, Apple, Google, IBM 및 Microsoft의 구현에 음성 인식 AI 서비스에 대해서 42 명의 백인 사용자와 73 명의 흑인 사용자를 대상으로 성능 테스트를 진행했다. 놀랍게도 모든 서비스에서는 흑인 발화자가 백인 발화자 보다 높은 에러율을 보이는 것으로 나타났다.


[그림 1] 백인과 흑인 인종 별 음성인식 어플리케이션 에러율 (Koenecke et al., 2020, Chart: AI Index Report)

[그림 1] 백인과 흑인 인종 별 음성인식 어플리케이션 에러율 (Koenecke et al., 2020, Chart: AI Index Report)


이와 같은 문제점은 컴퓨터 비전 분야에서도 발생한다. 2018년 MIT Media Lab과 Microsoft가 얼굴 인식의 젠더 편향성을 연구한 결과, 백인 남성과 흑인 여성의 인식 오차율에 큰 차이를 보이는 것으로 나타났다.


[표 1] 성별 및 인종 별 얼굴인식 오차율 (J. Buolamwini el al., 2018, chart[4])

[표 1] 성별 및 인종 별 얼굴인식 오차율 (이지연, 이혜숙)


새로운 기술에는 늘 예상하지 못하는 문제점이 발생하곤 한다. 인간이 매 순간 자신의 판단이 올바른지에 대해서 끊임 없이 질문하고 비판하는 것과 같이, 기계도 자신이 학습한 모델을 훈련, 검정, 테스트(Train, Validation, Test) 데이터셋으로 나눠서 평가하곤 한다. 각 데이터셋은 현실의 부분 집합이며, 샘플링 된 데이터이다. 따라서, 샘플링 방법이 편향되거나 모집단이 편향되어 있다면, 추출된 데이터 역시 편향성을 가질 수 있다는 것을 인식해야한다. 이러한 문제를 해결 하기 위해 학계에서도 편향성을 정량화하고 평가하려는 움직임이 있다. 대표적으로 FairFace Dataset이다. FairFace 는 각 인종과 성별의 데이터분포를 균형 있게 구성하여, 모델의 일반화 성능을 검증한다. 본 모델은 Open AI 사의 CLIP과도 같은 컴퓨터 비전 모델에 평가항목으로 사용되는 듯, 산업계 및 학계에 긍정적인 영향력을 끼치고 있다.


[그림 2] FairFace와 다른 얼굴 인식 데이터셋의 인종과 성별에 따른 분포 시각화 (Karkkainenel, et al., 2021)

[그림 2] FairFace와 다른 얼굴 인식 데이터셋의 인종과 성별에 따른 분포 시각화 (Karkkainenel, et al., 2021)


우리가 기계를 학습 시킨다면, AI Application이 가지고 올 미래에 대해서 고민해야 할 필요성이 있다. 문화기술학계에서는 어떤 데이터를 사용하고 있으며, 데이터 셋 내부에는 편향성이 존재할까? 과연 이를 정량화하고 평가한다면 어떤 평가 데이터셋이 존재해야할까?

도승헌 기자

출처

[인용문] 2021 AI Index Report: https://aiindex.stanford.edu/report/
[그림 1] Koenecke, Allison, et al. “Racial disparities in automated speech recognition.” Proceedings of the National Academy of Sciences
[그림 2] Karkkainenel, et al, “FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and Mitigation”, CVPR 2021
[표 1] 이지연, 이혜숙. 음성·영상 신호 처리 알고리즘 사례를 통해 본 젠더혁신의 필요성, Journal of Digital Convergence