Skip to main content

Mismeasuring algorithmic fairness #pop


This post belongs to LoPSE popularization (#pop) series written both in English and in Polish. 

ENGLISH VERSION [POLISH VERSION BELOW]

Say we want to treat people equally - what does it even mean? This question pops up quite often in political science, economics, policy considerations, or local government decisions. Since AI is often involved in the decision-making process, a puzzle for a mathematical philosopher arises: how do you define fairness so that the definition is precise enough to be applicable to predictive algorithms and so that philosophically it still seems plausible? It turns out the task is non-trivial.

Three attempts of such explications are discussed in The Measure and Mismeasure of Fairness: A Critical Review of Fair Machine Learning  by Sam Corbett-Davies and Sharad Goel:
  • anti-classification is the requirement to exclude protected attributes such as gender or race in the decision process.
  • classification parity requires that common measures of predictive performance, such as false positive rate, should be equal across groups defined in terms of protected attributes.
  • calibration requires that the outcomes should have the same frequency between groups, controlling for the risk prediction (for instance, that among loan applicants estimated to have 10% chance to default on their loan, whites and black default at the same rate). 

Employing such formally explicated measures of fairness leads to several problems. It's almost impossible to satisfy all of them if base rates differ between groups, and it's possible to satisfy each of them separately while intuitively being rather unfair. One example is related to the attempts to ignore gender in recidivism prediction. If the predictive mechanism ignores gender, it also ignores the fact that women tend to re-offend on a much smaller scale. Arguably, by ignoring gender, the system discriminates against women.

With classification parity, the problem is that with different base rates between groups, the optimal way to satisfy the requirement is to set different risk thresholds for decisions about subjects from different groups. This, however, means that the system must be more lenient towards groups with higher base rates, which goes against anti-classification, and leads to its own problems. For instance, if the base rate of violent crime is higher among blacks, by being more lenient towards black violent offenders, the system releases more of them, which in the end harms black communities, because most of violent crime by blacks is against blacks. 

Now, think about calibration. Imagine a bank intends to discriminate against black applicants in a situation in which within zip code, white and black applicants have similar default rates and most black applicants live in zip codes with relatively high default rates. The bank can base risk estimates only on zip codes. Such scores would satisfy anti-classification and would be calibrated - white and black applicants with the same score would default equally often. The problem is the bank could use these scores to justify denying loans to nearly all black applicants. 

Instead of trying to figure out one simple mathematical definition of fairness, the authors suggest, we should focus on problems external to the predictive mechanism itself: label and feature bias (where it is the data collection rather than processing that is biased), sampling bias, interpretability of the involved predictive model, and  the possibility of feedback loops generated by particular ways of acting on predictions.

POLISH VERSION

Powiedzmy, że chcemy traktować wszystkich sprawiedliwie. Powstaje pytanie co to właściwie oznacza? Odpowiedzi  poszukują nie tylko politolodzy, ekonomowie, twórcy programów pomocy społecznej czy politycy. Korzystanie ze sztucznej inteligencji przy podejmowaniu decyzji powoduje bowiem, że nad miarą sprawiedliwości zastanawiają się także filozofowie posługujący się metodami matematycznymi. Zagadka nie jest prosta: jak opisać bezstronność tak, aby sformalizowana definicja dała się zastosować w algorytmach predyktywnych, a zarazem, żeby jej treść była zadowalająca dla etyków i filozofów? 

Trzy wiodące formalne kryteria sprawiedliwości omówione zostały w The Measure and Mismeasure of Fairness: A Critical Review of Fair Machine Learning autorstwa Sama Corbett-Daviesa oraz Sharada Goela:
  • antyklasyfikacja rozumiana jako konieczność wyłączenia w procesie podejmowania decyzji chronionych cech (takich, jak rasa lub płeć) ze zbioru dostępnych klas odniesienia, 
  • równość klasyfikacyjna wymagająca, by popularne miary skuteczności predykcyjnej (np. częstotliwość fałszywych pozytywów) były rozłożone równomiernie w ocenianych grupach definiowanych przy użyciu chronionych atrybutów,
  • kalibracja wymagająca, by wyniki predykcji były równomiernie rozłożone w rozważanych grupach po wzięciu poprawki na przewidywane poziomy ryzyka (tak, na przykład, by pośród osób, w której ryzyko niespłacenia kredytu oceniono na 10%, częstotliwość rzeczywistych przypadków niespłacenia była taka sama w każdej grupie). 
Posługiwanie się takimi formalnymi kryteriami bezstronności powoduje jednak szereg problemów. Przede wszystkim, niemożliwością jest zastosowanie wszystkich trzech kryteriów jednocześnie, gdy rzeczywiste częstotliwości bazowe są różne dla poszczególnych grup. Można próbować stosować powyższe kryteria osobno - ale to dawać może wynik intuicyjnie rzecz biorąc niesprawiedliwy. 

Weźmy antyklasyfikację. Można, na przykład zignorować płeć osoby oskarżonej podczas szanowania ryzyka recydywizmu. Postępując w ten sposób lekceważymy jednakże fakt, iż kobiety rzadziej niż mężczyźni popełniają ponownie przestępstwa. Model ignorujący płeć zastosowany do kobiet spowoduje, że skłonność konkretnej podsądnej zostanie przeszacowana. To natomiast staje się przyczynkiem dyskryminacji. 
  
Równość klasyfikacyjna też nie jest wolna od wad. Aby spełnić to kryterium, należałoby zastosować różne progi ryzyka dla poszczególnych grup, jeżeli te grupy różnią się rzeczywistą częstotliwością bazową. To jednak znaczy, że system musiałby być łagodniejszy w stosunku do grup z wyższą częstotliwością, co wyklucza się z antyklasyfikacją, i prowadzi do osobnych problemów. Na przykład, czarnoskórzy obywatele USA częściej popełniają brutalne przestępstwa niż obywatele biali, więc aby spełnić warunek równości klasyfikacyjnej, należałoby stosować łagodniejszy próg dla tych pierwszych. Skutkiem tego, więcej agresywnych osobników wypuszczonych wcześniej będzie czarnoskóra, a straci na tym społeczność Afroamerykanów, gdyż ofiarami brutalnych przestępstw popełnianych przez czarnoskórych najczęściej są osoby z tej samej społeczności. 

Pomyślmy teraz o kalibracji. Wyobraźmy sobie bank, którego szefostwo postanawia wprowadzić zakamuflowaną politykę dyskryminacyjną wobec jakiejś grupy społecznej - na przykład wobec czarnoskórych klientów. Jak może zrobić to bez używania takiej kategorii jak rasa? Zakładając, że pewne rejony miast zamieszkane są głównie przez mniejszości, wystarczy do tego celu kod pocztowy. Ocena ryzyka niewypłacalności oparta częściowo na miejscu zamieszkania, może spełnić wymogi kalibracji i antyklasyfikacji. Jednak odmowa kredytu petentowi tylko na podstawie adresu dalej będzie dyskryminować ciężko pracujących przedstawicieli mniejszości.

Autorzy proponują, by nie skupiać się jedynie na formalizacji pojęcia miary sprawiedliwego traktowania poszczególnych grup, i poświęcić więcej uwagi problemom, które znajdują się poza samym mechanizmem predykcyjnym. Szereg problemów dotyczy sposobów zbierania i opisywania danych, w które wbudowane są pewne uprzedzenia wobec wybranych grup. Programistów i matematyków powinna także zajmować kwestia tego, w jakim stopniu zautomatyzowany proces decyzyjny jest możliwy do prześledzenia, oraz jak projektować algorytmy tak, by generowane przez nie wyniki dało się jasno interpretować (i replikować). Wreszcie, należy również brać pod uwagę możliwość zapętleń przyczynowych powstających w wyniku specyficznego sposobu działania w oparciu o predykcje algorytmiczne. Na przykład, jeżeli algorytm wysyłał będzie więcej patroli do dzielnic zamieszkanych przez czarnoskórych, policja po prostu tylko dlatego, że będzie na miejscu, łapać będzie więcej czarnoskórych przestępców. Nie będzie jej zatem gdzie indziej, by złapać przestępców białych, co zniekształcać będzie zbierane dane, które pozornie dalej będą usprawiedliwiać wysyłanie patroli policyjnych do dzielnic zamieszkanych głównie przez czarnoskórych.

Weronika Majek, Małgorza Stefaniak, Rafał Urbaniak

Comments