SRP i matematik og biologi om retsgenetik
Introduktion
En forholdsvis ny type bevismateriale i retssager er DNA-spor fundet på gerningssteder eller i blodprøver fra mistænkte. Da selv en meget lille mængde DNA giver en meget stor mængde data, er denne type bevismateriale potentielt meget specifik og meget overbevisende. Dette projekt omhandler muligheder og problemstillinger i den forbindelse.
I projektet gennemgås DNAs opbygning og funktion, og der forklares udvalgte mekanismer bag de forskelle og ligheder som ses i arvematerialet, og som danner grundlag for identifikation af personer ud fra DNA-profiler.
Matematisk set arbejdes med udvalgte aspekter af brugen af bayesiansk matematik i retssager, fx ved at opstille Bayes’ netværk ud fra egne eller udleverede cases. Bayes’ netværk angiver sandsynligheder for at en mistænkt er skyldig eller uskyldig bl.a. på baggrund af DNA-materiale. I projektet gennemgås matematikken og tankegangen bag Bayes’ netværk.
Projektbeskrivelse
Matematik
Her følger først en introduktion til bayesiansk sandsynlighedsregning. Denne type sandsynlighedsregning adskiller sig fra den almindelige frekventielle tilgang. I den frekventielle tilgang udregner vi sandsynligheder på baggrund af viden som vi allerede har. Eksempelvis viser optællinger gennem mange år, at $50.9\%$ af alle nyfødte er piger. Med denne viden kan vi sige, at hændelsen
$A$: En tilfældig valgt nyfødt baby er en pige
forekommer med sandsynligheden $P(A)=0.509$.
Over for den frekventielle tilgang står den bayesianske tilgang. Hvis man ikke har adgang til data, der kan bruges som grundlag for en frekventiel tilgang, kan man anvende den bayesianske tilgang, hvor man undersøger sandsynligheder givet visse betingelser. Det smarte ved den bayesianske tilgang er, at man gennem disse betingelser kan kombinere sandsynligheder, som bygger på et objektivt grundlag (fx andelen af nyfødte piger) med sandsynligheder, som bygger på et mere subjektivt grundlag.
Eksempelvis er det umiddelbart svært at bestemme sandsynligheden for hændelsen
$A$: FCK vinder det danske mesterskab i fodbold
At FCK har vundet mesterskabet et antal gange tidligere i historien, kan ikke direkte bruges til at forudsige $P(A)$ i modsætning til eksemplet med andelen af nyfødte piger. En person kan selvfølgelig på baggrund af sin viden om FCK og dansk fodbold give sin helt personlige vurdering af chancerne. Denne vurdering afhænger af personens viden, og en anden person kan besidde en helt anden viden med en radikalt anden indflydelse på sandsynligheden for $A$. Fx kan denne anden person vide, at der er stor risiko for at FCK i det pågældende år kommer i økonomisk krise, så klubben må sælge sine bedste spillere. Dermed ville sandsynligheden for hændelsen $A$ reduceres drastisk. Det er netop sådanne subjektive vurderinger af en situation, som kan bruges fx af jurymedlemmer, når de skal vurdere sandsynligheder for at visse hændelser er indtruffet.
Centralt i den bayesianske tilgang står begrebet om betinget sandsynlighed. Hvis $A$ og $B$ er to hændelelser (og $P(B)>0$), betegner $P(A|B)$ sandsynligheden for at hændelse $A$ indtræffer, på betingelse af at $B$ indtræffer. Med andre ord er dette sandsynligheden for at $A$ indtræffer, hvis det vides med sikkerhed, at $B$ også indtræffer. Man definerer
$$P(A|B)=\frac{P(A\cap B)}{P(B)}$$
hvor $A\cap B$ betegner hændelsen at både $A$ og $B$ indtræffer.
I forbindelse med betingede sandsynligheder optræder ofte Bayes’ formel:
$$P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)}$$
Desuden udnyttes ofte en regel, der på engelsk kaldes Law of Total Probability (LOTP). Den fortæller at hvis $A_1,\dots ,A_n$ er en række disjunkte hændelser (dvs. højst én af dem kan indtræffe) som tilsammen udgør alle mulige udfald (dvs. at mindst én af dem må indtræffe), og hvis $B$ er endnu en hændelse, så gælder:
$$P(B)=\sum_{i=1}^n P(B|A_i)P(A_i)$$
Som et eksempel betragter vi hændelsen
$A$: S-togene er forsinkede
og vi antager at $P(A)=0.1$. Dermed er sansynligheden for den såkaldte komplementære hændelse:
$A^c$: S-togene er ikke forsinkede
lig $0.9$. Vi forestiller og to arbejdskolleger, Benedikte og Christian, og betragter hændelserne
$B$: Benedikte møder for sent på arbejde.
$C$: Christian møder for sent på arbejde.
Christian kører normalt med tog på arbejde, så han vil være mere påvirket af en eventuel forsinkelse end Benedikte som kører i bil. Benedikte påvirkes dog også af togforsinkelser, idet der i så fald vil være flere biler på vejene. Dette kommer til udtryk i følgende betingede sandsynligheder. Vi antager, at der uden togforsinkelser er $50\%$ chance for at Benedikte, som har lidt svært ved at komme ud af sengen om morgenen, møder for sent:
$P(B|A^c) = 0.5$ og $P(B^c|A^c) = 0.5$
Hvis der er forsinkelser, antages at sandsynligheden for, at Benedikte kommer for sent, forøges til $60\%$: $P(B|A)=0.6$ og $P(B^c|A)=0.4$. Christian er derimod mere morgenfrisk end Benedikte, så chancen for at Christian møder for sent uden nogle togforsinkelser er blot $10\%$:
$P(C|A^c) = 0.1$ og $P(C^c|A^c) = 0.9$
Da Christian er en trofast bruger af togsystemet, rammes han hårdere af eventuelle forsinkelser end Benedikte. Vi antager, at sandsynligheden for at Christian møder for sent på arbejde en dag, hvor togene er forsinkede, er $80\%$:
$P(C|A) = 0.8$ og $P(C^c|A) = 0.2$
Vi kan nu ved hjælp af LOTP afgøre, hvad den samlede sandsynlighed er for at Benedikte kommer for sent:
\[
\begin{align}
P(B) &= P(B|A) \cdot P(A) + P(B|A^c) \cdot P(A^c)\\
&= 0.6\cdot 0.1 + 0.5\cdot 0.9\\
&= 0.06 + 0.45\\
&= 0.51
\end{align}
\]
og tilsvarende for Christian:
\[
\begin{align}
P(C) &= P(C|A) \cdot P(A) + P(C|A^c) \cdot P(A^c) \\
&= 0.8\cdot 0.1 + 0.1\cdot 0.9\\
&= 0.08 + 0.09\\
&= 0.17
\end{align}
\]
En af pointerne ved den bayesianske fremgangsmåde er, at man kan ændre på sandsynlighederne, alt efter hvor mange oplysninger der er tilgængelige. Fx kan man se på hvilken indflydelse det har på de øvrige sandsynligheder, hvis vi ved at Christian er kommet for sent. Ved hjælp af Bayes' formel bliver sandsynligheden for at der er togforsinkelse, nu ændret til at være
$$P(A|C) = P(C|A) \cdot \frac{P(A)}{P(C)} = 0.8 \cdot \frac{0.1}{0.17} = 0.47$$
Vi kan altså konkludere, at hvis Christian møder for sent på arbejde, så øges sandsynligheden for at der er togforsinkelser fra at være $0.1$ til at være $0.47$.
Man kan tilføje flere nye parametre til systemet, hvis der er behov for dette. For eksempel kunne vi tilføje hændelsen
$D$: Benedikte sover over sig
og denne hændelse vil selvfølgelig have betydning for $P(B)$. Lad os antage, at $P(D)=0.4$ og $P(D^c)=0.6$. Hvis man ved, at Benedikte kom for sent, hvad er sandsynligheden så for at hun har sovet over sig, og hvad er sandsynligheden for at der var en togforsinkelse? Sådanne spørgsmål er det oplagt at besvare ved hjælp af Bayes' formel, men udregningerne bliver hurtigt lidt besværlige. Eksempelvis er sandsynligheden for at der er en togforsinkelse, når det er givet at Benedikte kommer for sent:
$$P(A|B) = P(B|A) \cdot \frac{P(A)}{P(B)} = \frac{(0.8 \cdot 0.4 + 0.6 \cdot 0.6) \cdot 0.1}{0.51} = 0.133$$
Før vi fik oplysningen om at Benedikte kom for sent, havde vi $P(A)=0.1$, så sandsynligheden er altså vokset en smule.
Jo flere parametre der er, desto mere kompliceret bliver situationen også, og derfor er det en stor fordel at tegne de forskellige hændelser ind i et netværk, hvor pile angiver, hvilke hændelser er afhængige af hinanden. Der findes udmærkede og lettilgængelige computerprogrammer (fx Hugin, se nedenfor), hvor man kan beskrive sit netværk og tildele de forskellige hændelser nogle sandsynligheder. Derefter kan man så lade programmet regne på, hvad der sker, hvis man får flere oplysninger, dvs. hvilken indflydelse det fx har på resten af systemet, hvis vi ved, at Martin møder for sent på arbejdet, jvf. eksemplet ovenfor.
Bayesiansk matematik i retssalen - et eksempel
Vi vil nu give et eksempel på, hvordan den bayesianske tilgang kan bruges i retssalen. Specielt vil vi se på det tilfælde, hvor DNA-materiale fra den formodede gerningsmand er det eneste konkrete bevismateriale i sagen, såkaldt ”cold hit probability”. I grove træk kan anvendelse af Bayes' formel i retssager beskrives på følgende vis. Vi definerer hændelserne
$S$: Den anklagede person er skyldig
$D$: Den anklagedes DNA-profil matcher det DNA, som blev fundet på gerningsstedet
Hvis man nu antager, at man har fundet en matchende DNA-profil på gerningsstedet, så kan man bestemme sandsynligheden for at den anklagede er skyldig:
\[
P(S|D)=P(D|S) \cdot\frac{P(S)}{P(D)}
\]
Vi må have $P(D|S)=1$, da man netop har fundet en matchende DNA-profil. $P(S)$ er sandsynligheden for, at den anklagede er skyldig, når man ser bort fra DNA-bevismaterialet. Hvis der ikke er andet konkret bevismateriale at gå ud fra, kan man her anvende andre oplysninger, fx om hvor mange der bor i lokalområdet, sandsynligheden for at vidneudsagnene er sande osv., men det er klart, at her bliver bevisførelsen og udregningerne mere uklare.
Størrelsen $P(D)$ angiver sandsynligheden for at der findes et match mellem den anklagedes DNA- profil og DNA-materialet på gerningsstedet. Her kan man igen anvende LOTP for at finde $P(D)$:
$$P(D)=P(D|S)\cdot P(S) + P(D|S^c)\cdot P(S^c)$$
Det sidste led på højresiden beskriver det tilfælde, hvor den anklagede er så uheldig at være uskyldig, men at hans DNA-materiale alligevel findes på gerningsstedet.
I retssagen mod Adams i 1996, hvor han var anklaget for voldtægt (se nedenfor), var det eneste bevis imod ham, at hans DNA fandtes på gerningsstedet. Offeret kunne ikke genkende ham, og Adams havde også et alibi, som dog afhang af hans kæreste. Anklagernes argument var, at chancen for at en tilfældig mands DNA-profil matchede DNA-materialet fra gerningsstedet var $P(D)=1/200.000.000$. Dette virker ved første indtryk som et overvældende godt bevismateriale. Adams’ forsvarere valgte på den anden side at inddrage Bayes formel i et håb om at vise, at det kan være problematisk at dømme en person udelukkende ud fra DNA-materiale.
Adams’ forsvarere så på det bevismateriale i retssagen, som ikke var knyttet til DNA-undersøgelser, og påviste, at sandsynligheden for at Adams var skyldig ud fra dette materiale, blot var $P(S)=1/3.600.000$. Dette tal fandt de frem til ved at opstille nogle hypotetiske hændelser, hvorpå jurymedlemmerne kunne hæfte deres egen sandsynlighedsvurdering. Forsvarerens bud på disse sandsynligheder var:
- $75\%$ sandsynlighed for at gerningsmanden var fra lokalområdet og i alderen 18-60.
- $90\%$ sandsynlighed for at den anklagede ikke ville blive genkendt af offeret, hvis den anklagede var uskyldig.
- $25\%$ sandsynlighed for at den anklagedes alibi holdt vand, hvis han var skyldig og $50\%$ i tilfældet, hvor den anklagede var skyldig.
Disse oplysninger kan ved hjælp af Bayes' formel og LOTP bruges til at give en vurdering af sandsynligheden for, at Adams var skyldig:
$$P(S|D) = P(D|S) \cdot\frac{P(S)}{P(D)}= \frac{P(D|S) \cdot P(S)}{P(D|S)\cdot P(S) + P(D|S^c)\cdot P(S^c)}$$
Heri indsættes de givne værdier:
$$P(S|D)=\frac{1 \cdot \dfrac{1}{3.600.000}}{1\cdot\dfrac{1}{3.600.000}+\dfrac{1}{200.000.000}\cdot \Big(1-\dfrac{1}{3.600.000}\Big)}= 0.9823$$
Altså er sandsynligheden for at Adams var gerningsmanden, reduceret til at være omkring $54/55$. Stadig overvejende sandsynligt, men alligevel en væsentlig forbedring, idet der hermed dog måtte være en realistisk chance for, at Adams var uskyldig (ca. $1.8\%$).
Jurymedlemmerne kunne give deres egen vurdering over sandsynlighederne i de tre punkter ovenfor. På denne måde blev Bayes' formel et redskab til at vurdere sandsynligheden for at den anklagede var skyldig. Der viste sig at være en del bekymring og forvirring over, hvorvidt denne anvendelse af Bayes formel var rimelig. Sagen endte med, at Adams blev dømt skyldig.
Biologi
Efter denne introduktion til anvendelse af betingede sandsynligheder i retssager gives nedenfor en række eksempler på biologiske aspekter som kunne være relevante at arbejde videre med:
- DNAs opbygning og
- gennemgang af forskellige metoder til bestemmelse af DNA-sekvenser, fx RFLP som dog overvejende er erstattet af egentlig DNA-sekvensering. I denne forbindelse diskuteres
- metodernes sikkerhed, fx med fokus på fejl introduceret under PCR.
- I forbindelse med RFLP kunne eleverne udregne sandsynligheder for hvor ofte specifikke DNA-sekvenser for restriktionsenzymer kan forventes at optræde tilfældigt.
- Matematisk set kan DNA anskues som en kode med fire mulige tegn. På hvilke måder er denne anskuelse rigtig/forkert biologisk set?
- Gennemgang af mekanismer der skaber forskelle og ligheder i arvematerialet, herunder gennemgang af ligheder indenfor familier eller i etnisk homogene/heterogene samfund (fx kunne Hardy/Weinberg-ligevægt inddrages i den forbindelse).
- Diskussion af hvorfor nogle DNA-sekvenser er meget konservative, og hvorfor nogle udviser stor variation.
- Diskussion af fordele og ulemper ved identifikation ved hjælp af fænotypiske egenskaber (fx køn, udseende og blodtype) i forhold til genotypiske egenskaber (altså DNA-sekvenser).
- Generelle overvejelser over præcision i laboratoriearbejde – er det rimeligt at regne laboratorieresultater for matematiske sandheder?
I den matematiske del bruges produktreglen (sandsynligheden for at to hændelser begge indtræffer, kan findes som produktet af sandsynlighederne for de respektive hændelser) flittigt. Dette forudsætter at begivenhederne er uafhængige. Vi ved at DNA-sekvenser ikke er uafhængige, fx indenfor en familie og mellem koblede gener hos et individ. Dette lægger op til at diskutere, om og hvornår man med rimelighed kan antage uafhængighed mellem gener.
Variationsmuligheder
De netop skitserede muligheder i biologifaget udgør formentligt langt mere end der kan inddrages i ét projekt. Variationsmuligheder kommer derfor dels i udvælgelsen. Derudover kunne man fokusere på forskellige metoder til DNA-analyse: RFLP, sekvensering af enkeltgener, brug af DNA-prober, forskellige typer blotting eller andre metoder. Særligt interessant kunne være at inddrage de til enhver tid seneste teknikker.
Afslutningsvis gives nogle flere eksempler på (ikke nødvendigvis matematik- eller biologispecifikke) retninger som projektet kunne drejes i:
- Fokus på cold hits (DNA fundet i forbryderkartoteker og altså ikke blandt mistænkte).
- Fokus på sammenkædning af mistænkte og DNA-spor fundet på et gerningssted.
- Diskussion af faktiske sager og matematikken brugt i de sager. Der er i den forbindelse en del kontroversielle afgørelser fra de amerikanske domstole, som kan inddrage og danne godt diskussionsgrundlag.
- Fokus på de mere generelle aspekter af bayesianske netværk og opstilling af disse og altså mindre fokus på de specifikke juridiske aspekter.
- Et mere ambitiøst oplæg kunne inkludere beviser for nogle af de formler og sætninger, som bliver anvendt i den sandsynlighedsteoretiske del.
- Betingede sandsynligheder virker ofte kontraintuitive (et kendt eksempel er Monty Hall problemet), og en stor del af litteraturen om bayesiansk matematik i retssager handler om fejlagtig brug. Med udgangspunkt i et konkret oplæg kan således diskuteres, hvad de forståelsesmæssige faldgruber er, og hvorfor matematikken eventuelt er rigtig - selvfølgelig med kritisk stillingtagen til om matematikken er rigtig.
Materialer
Jensen, Finn V.: ”Introduction to Bayesian Networks”, Institut for matematik og datalogi, Aalborg Universitet 1993.
Sørensen, Michael: ”En introduktion til sandsynlighedsregning”, Københavns Universitet 2000, https://noter.math.ku.dk/ssnoter.pdf.
http://people.math.aau.dk/~svante/Cafe05.html (links til dansk litteratur om bayesiansk sandsynlighedsregning og bayesianske netværk).
Products | Hugin Expert (demoversion af programmet Hugin).
https://en.wikipedia.org/wiki/Bayesian_statistics (et afsnit der beskriver matematikken bag anvendelsen af Bayes formel i retssager).
http://www.eecs.qmul.ac.uk/~norman/BBNs/BBNs.htm (en relativt lettilgængelig introduktion til bayesiansk sandsynlighedsregning).
http://www.dcs.qmw.ac.uk/%7Enorman/BBNs/BBNs.htm (opslagsværk om bayesiansk matematik).
https://en.wikipedia.org/wiki/Bayes%27_theorem (om bayes formel).
Konkrete sager og mere specifikke elementer:
https://en.wikipedia.org/wiki/Prosecutor%27s_fallacy (gennemgang af matematik og sager med problematiske aspekter vedrørende bayesiansk matematik)
http://www.dcs.qmul.ac.uk/~norman/papers/jury_fallacy.pdf (en artikel om typiske eksempler på misforstået anvendelse af bayesisk matematik i retten, og om hvordan anvendelse af computerprogrammer kan klargøre anvendelsen af bayesiansk sandsynlighedsregning).
https://en.wikipedia.org/wiki/People_v._Collins#fn_4_back (et eksempel på hvordan sandsynlighedsregning kan misbruges i retssager).
https://en.wikipedia.org/wiki/Howland_will_forgery_trial (et eksempel på brug af sandsynlighedsregning i en retssag).
https://en.wikipedia.org/wiki/Sally_Clark (et eksempel på problematisk brug af sandsynlighedsregning i en retssag).
https://en.wikipedia.org/wiki/Regina_versus_Denis_John_Adams (om retssagen mod Adams).