0. 공정성의 문제
공공성의 문제는 공공재의 문제와 관련된다. 어디까지가 공공재인가?
나아가, 인공지능은 공공재가 되어야 할까?
- 다행히도 현재까지의 인공지능은 (최소한 모델의 측면에서는) 많은 부분 오픈소스를 기반으로 운영되는 것처럼 보인다. (예: 허깅페이스에 무료로 공개된 수많은 모델들)
그러나 데이터는 공공재인가? 또 데이터에 따른 수익은 공정하게 분배되고 있는가?
또한, 인공지능을 활용할 수 있도록 하는 교육은 과연 공정하게 이뤄지고 있는가?
1. 인공지능 모델이 공정하지 않은 이유
- 데이터 편향성
- 데이터가 부족하여 발생하는 문제
- 데이터가 충분하더라도 불균형하여 발생하는 문제
- 데이터가 충분하고 공정하더라도, 무관한 특징(irrelevant feature)를 설정하여 발생하는 문제
- 알고리즘 편향성
- 목적함수를 어떻게 설정하느냐의 문제
- ex. 페이스북의 알고리즘은 노출시간을 높이는 걸 목적으로 한다.
- 프로그래머가 잠재적으로 내재하고 있는 편견의 문제
- 매개변수간의 묵시적 상관관계의 문제 (ex. 인종을 매개변수로 쓰지 않더라도, 지리적 데이터에 의존하면 묵시적으로 인종과 연결된다.)
- 목적함수를 어떻게 설정하느냐의 문제
3. 인공지능의 공정성과 관련된 문제들
3.1. 얼굴인식의 문제
- 얼굴인식 기술이 의도치 않은 편향성을 보인다.
- 여자보다는 남자를, 흑인보다는 백인을, 노인보다는 중년을 더 잘 인식한다!
- 그 이유는? 학습 과정에서 사용된 데이터가 다양한 인종/연령/성별의 얼굴 이미지를 담고 있지 못하기 때문이다.
- 1) 데이터 편향성의 문제
- 구글, 페이스북에서는 좀 더 다양한 이미지 데이터들을 수집하려고 노력한다.
- 2) 인간의 편향성 문제
- 이미지 태깅을 하는 자원봉사자들의 편견이 학습데이터셋에 반영된다.
- MIT의 CSAIL 대학원생들이 살펴본 결과, MNIST, 이미지넷 등의 데이터에 많은 데이터 레이블이 잘못 붙어있음을 확인했다.
- 이미지 태깅을 하는 자원봉사자들의 편견이 학습데이터셋에 반영된다.
- 여자보다는 남자를, 흑인보다는 백인을, 노인보다는 중년을 더 잘 인식한다!
- 문제들을 해결하기 위한 노력들
- MIT 미디어랩, 젠더 쉐이드 프로젝트. 얼굴 인식 기술이 어떠한 문제점을 가지고 있는가?
- 프린스턴 & 스탠퍼드 연구팀, 이미지넷 데이터셋에서 사람 하위얼굴 부분을 흐릿하게 처리하는 기법을 적용.
- 설사 모델들의 성능이 떨어지더라도, 공정하게 학습하는 것이 더욱 중요하다!!
3.2. 언어처리의 문제
- 2016년 공개된 마이크로소프트사社의 인공지능 챗봇 테이, 폭력적이고 성차별적 트윗을 내놓아 16시간 만에 서비스가 중단되었다.
- 왜 그랬을까? 부적절한 행위에 대한 어떠한 방어나 처리도 사전에 이뤄지지 않았기 때문이다.
- 국내의 이루다 챗봇.
- 사전 테스트를 거쳤음에도 차별/혐오발언을 내뱉고, 개인정보와 관련된 문제들.
- 구글의 온라인 토론 중재 인공지능인 퍼스펙티브 역시 인종적 편견을 보여주었다.
- 어떤 언어가 공격적인지는 누가 말하고 듣는지에 따라 달라진다!
- ex. 흑인이 말하는 N* word는 백인이 말하는 경우와 그 뉘앙스가 완전히 다르다.
- 과연 이러한 부분들을 인공지능이 이해하고 잘 판단할 수 있을까?
- 어떤 언어가 공격적인지는 누가 말하고 듣는지에 따라 달라진다!
- 최근의 자연어처리 모델들, 여성 대명사에 '못될', '망할'과 같은 단어들이 같이 나올 확률이 더 높다.
최근 주목받고있는 대형언어모델(LLM, Large Language Model)들은, 무수히 많은 데이터셋들에 기반하여 학습한다. 그런데 해당 학습 데이터셋들이 내재하고 있는 편견/불공정/차별적인 문제들은 어떻게 최소화할 수 있을까?
- RLHF(Reinforce Learning by Human Feedback) 방식. chatGPT의 경우 이 방식을 통해 GPT-3가 가지고 있던 윤리적인 문제들을 어느 정도 해결했다.
- 이루다 2.0이나 심심이와 같은 챗봇들은 아예 민감한 주제에 대해서는 대답을 회피하는 모습을 보여준다.
- 사용자들의 적극적인 피드백 역시 좀 더 정확하고 윤리적인 챗봇을 만드는 데 많은 역할을 할 것이다!
3.3. 인공지능 평가 시스템의 문제
- 딜리버루의 라이더 평가 시스템, 노동법상이 보장하는 결근 사유들을 고려하지 않고 라이더를 평가한다.
- 국내에서는 카카오택시의 배차 알고리즘.
- 채용과정에서의 인공지능 평가 시스템(ex. 하이어뷰 등등)
- 가장 큰 문제점은 인공지능이 평가한 점수를 후보자들에게 공개하지 않는다는 것이다.
- 심지어 지원자는 어느 정도까지 인공지능 평가 시스템이 적용하는지도 알 수 없다.
- 감정 인식 자체가 아직 과학적으로 정당화할 수 없기에, 그에 따라 평가하는 것은 공정하지 않다.
- 설명가능성의 문제.
- 가장 큰 문제점은 인공지능이 평가한 점수를 후보자들에게 공개하지 않는다는 것이다.
- 범죄 위험 평가 알고리즘(ex. 컴퍼스 시스템)
- 뉴스 전문인 프로퍼블리카는 컴퍼스 시스템이 흑인 피고인에 대한 편견을 가지고 있다고 고발했다.
- 문제는 알고리즘을 공개하지 않아, 검찰, 피의자, 판사 그 누구도 모델이 어떻게 작동하는지 모른다는 것이다.
- 비록 직접적인 매개변수로 인종을 사용하지 않더라도, 간접적으로 흑인 피고에게 더 불리하게 작용될 항목들이 존재한다.
- 뉴스 전문인 프로퍼블리카는 컴퍼스 시스템이 흑인 피고인에 대한 편견을 가지고 있다고 고발했다.
- 인공지능이 추구하는 목적이 다른 경우의 문제점
- 환자에 대해 진단/처방하는 프로그램
- 환자가 아니라 병원의 이익을 극대화하는 식으로 설계될 수 있다! (알고리즘 편향성의 문제)
- 환자에 대해 진단/처방하는 프로그램
- 불공정성은 인공지능 개발진의 불공정한 분포에서 기인할 수도 있다.
- 인공지능 학술회의에 논문을 발표한 저자들 중 18%만 여성이며, 80% 이상의 교수가 남성이다.
- 페이스북과 구글의 인공지능 연구진 중 여성은 15%, 10% 수준이다.
- 흑인은 구글에서는 2.5%이고, 페이스북에서는 4%이다.
- 자신도 모르는 새 특정 그룹의 가치관/사회적 판단을 인공지능 모델에 심을 위험성이 있다!
4. 인공지능 공정성 문제에 대한 주요 테크기업들의 대응
- 공정성 문제는 기업들이 가장 민감하게 대응하는 문제다!
- 기업에 대한 이미지와 평판의 문제
- 소송과 같은 법적인 문제
- 정부의 제제
- 구글
- 인공지능 원칙, "불공정한 편향을 만들거나 강요하는 것을 피한다."
- 공정성 인디케이터 소프트웨어 발표.
- 페어 프로그램(PAIR, People + AI Research), 왓이프 도구
- ML-페어니스 짐, 자동화 시스템의 장기 효과를 미리 살펴볼 수 있다.
- 마이크로소프트
- 페어런 도구 발표.
- 할당 피해와 서비스 품질피해에 초점을 맞추어 평가한다.
- 집단 공정성. 집단 간의 상호 비교를 공정하게 하는가?
- 페어런 도구 발표.
- IBM
- AI 공정성 360 도구.
- 70개 이상의 공정성 지표와 편향완화 알고리즘들.
- AI 공정성 360 도구.
- 페이스북
- 페어니스 플로 도구.
- 데이터 레이블이 어떤 성능을 보이는가 진단한다.
- 모델에 대해서 예측, 레이블, 집단 소속 등에 대한 데이터 세트를 요청하고, 종합 보고서를 받아볼 수 있다.
- 모델이 사용하는 데이터를 연관 집단으로 나누고, 모델의 성능을 집단별로 따로 계산한다. 그리고 집단별 성능 차이가 나타나면, 그 원인을 이해하고 더 깊게 파악하도록 한다.
- 페어니스 플로 도구.
기본적으로 인공지능 모델의 일부는 결과가 참인지 거짓인지, 가능성이 큰지 낮은지, 긍정적인지, 부정적인지를 예측하도록 디자인한다. 이는 통계적 모델에 기반을 둔다. 따라서 결과에 오류가 생길 수 있는 것은 피할 수 없는 한계이다. 중요한 것은 이런 시스템 오류가 집단에 따라 다른가를 파악하는 것이다.
4. 인공지능의 공정성에 대한 나의 생각들
- 교수님과 여러 전문가들께서 말씀하시길, 다음에 올 단어의 확률에 따라 문장을 생성해 나가는 Transformer모델의 특성상, 언어모델의 공정성이나 환각(Hallucination) 같은 문제들을 없애는 것을 어렵다고 한다.
- 연결주의가 점차 한계를 맞이하고 있다면, 다시금 기호주의(symbolic AI)의 관점에서 AI를 접근할 필요도 있지 않을까?
- 최근 들어 PC주의, 다양성 존중과 같은 가치들이 부상하고 있다. 만약 이러한 추세가 계속되고, 이전에 비해 상대적으로 공정한 데이터들이 많이 쌓여 학습 데이터로 비중이 증가한다면, 인공지능의 공정성 문제는 자연스레 해결될 수 있지 않을까 하는 생각이 들었다.
- 그런 점에서 기술적이고 사후적으로 보완해 나가는 방식을 넘어서, 선두적으로 공정성과 다양성을 존중하는 문화를 만드는 것이 인공지능의 공정성에 대한 근본적인 해결책이라고 생각한다!
'Study > AI' 카테고리의 다른 글
[인공지능과 윤리] 5. 인공지능의 견고성/안정성 (1) | 2023.09.30 |
---|---|
[인공지능과 윤리] 4. 인공지능의 투명성 (0) | 2023.09.30 |
[인공지능과 윤리] 3. 인공지능의 윤리성 (0) | 2023.09.30 |
[인공지능과 윤리] 1. 인공지능의 신뢰성 (0) | 2023.09.30 |