Supplerende kommentarer til “Reviewer preferences and gender disparities in aesthetic judgments”

Kontrast.dk bringer en artikel af undertegnede om balladen om sexisme i dansk litteraturkritik. Her følger flere kritikpunkter, helt ned til det tekniske og nørdede:

Effektstørrelsen

Hvis man nu forestillede sig, at forskerne faktisk havde påvist en bias (hvilket de ikke har), kunne det være relevant at diskutere størrelsen af effekten. Forskerne synes at mene, at forskellen i score er lille, men hævder, at en forskel er relevant uanset størrelse. Argumentet er, at hvis der var tale om store forskelle, f.eks. hvis kvinder lå 2-3 point lavere end mænd, ville vi alle være enige om, at kvinder ganske enkelt var dårligere forfattere end mænd. Store forskelle er reelle, små forskelle er bias. Et temmelig tvivlsomt argument.

Professor Mads Rosendahl Thomsen, som er medforfatter på artiklen, forsøgte sig med et nyt argument for at forskellen på ”0,1 eller 0,2 point” mellem mandlige og kvindelige forfattere ikke er ligegyldig. ”Hvis sekstrins-skalaen var et 100 meter løb, så ville kvinderne mindst være sat et par meter bagud fra start”, siger han, og opfordrer til at lade billedet stå lidt. Hvorefter han retter det til, at det nok nærmere er ti meter.

Der hersker en ligegyldighed over for detaljen i denne argumentation, som er så meget mere påfaldende som det diskuteres, om forskellen er en detalje eller ej. Så lad os slå fast at forskellen 0,12 point. Hvis mændene i gennemsnit får 4,16 point, skulle man tro, det ville være en smal sag at beregne, at kvinderne er 0,12/(4,16-1)=3,8% bagud, eller 3,8 meter på en 100 meter.

Men der er flere ting her, som ikke fungerer. For det første kan vi ikke vide, om skalaen er målfast over hele intervallet fra 1 til 6. Er forskellen i kvalitet mellem 1 og 2 stjerner den samme som forskellen mellem 3 og 4 stjerner? Ingen ved det. Derfor kan der slet ikke beregnes et efterslæb i procent.

For det andet er billedet af anmeldelsen som et 100 meter løb vildledende, for i elitesport kan ingen kvindelig 100-meterløber slå en mandlig 100-meterløber, men kvinder kan sagtens slå mænd i anmelderkarakter. Bare for sjov har jeg lavet en simulering af, hvor ofte kvinderne kommer ud med den højeste karakter i en sammenligning af tilfældige par af mandlige og kvindelige forfattere med det ”handicap” på 0,12 point, som kvinderne har ifølge artiklen (data antages at være normalfordelt, hvilket nok ikke er helt forkert, men svært at checke, når man ikke har data). Mændene vinder 40% af løbene, kvinderne 33% og 27% ender uafgjort. Rosendahl Thomsens billede er altså helt ved siden af og i øvrigt ganske unødvendigt. Han kunne selv have lavet simuleringen i de virkelige data, i stedet for at fremmane et hypotetisk scenarie, hvor ingen kvinde kunne vinde.

Stjerner, hjerter og tal

Nogle anmeldere/aviser giver ikke stjerner eller hjerter, fordi de ikke mener, en anmeldelse kan koges ned til noget så endimensionelt som et tal. Men redaktørerne på bog.nu scorer ikke desto mindre bøgerne ud fra de anmeldelser, som anmelderne altså ikke selv mener, de kan sætte en score på. Det gælder ikke mindre end 25% af anmeldelserne, at de faktisk ikke er scoret af anmelderne, men af redaktørerne på bog.nu.

Forskerne ved godt, at der er et potentielt problem her, men udtaler at ”usikkerheden er ret marginal”. Men vi får ingen data eller tal på denne marginale usikkerhed.

Lars Bukdahl fra Weekendavisen kiggede på nogle af sine egne anmeldelser, som han altså ikke selv havde reduceret til tal, og fandt at kodningen på bog.nu var helt ved siden af, og måske endda havde en kønsbias, som hans anmeldelser ikke havde. ”De tåbelige tal vil jeg da ikke have puttet i Aarhus-forskernes dorske datamat”, sagde han, og det havde han en pointe i.

Men forskerne fastholdt at alt var fint. De kunne ikke se, ”hvorfor der skulle opstå en kønsbias ved oversættelsen af anmeldelserne til karakterer” og fasthold at biasen var til stede ”i nogenlunde samme grad i de aviser, der giver stjerner, og de som ikke gør”. Men tal fik vi stadig ikke.

Analyserne er ellers lavet, men heller ikke i udkastet til forskningsartikel vises resultaterne. Forskerne siger kun, at der observeres de samme trends, hvilket jeg læser sådan, at der nok er nogle forskelle, men at de ikke er statistisk signifikante. Var resultaterne statistisk signifikante, ville forskerne ikke glemme at nævne det. Jeg beklager, men så mistroisk er jeg blevet med årene.

Det teknisk nørdede, men vigtige

Til sidst nogle tekniske ting, som forfatterne måske kan bruge til næste revision af artiklen.

I tabel 2 anføres en test for om female/female score på 3.98 er forskellig fra nul. Den er helt irrelevant. Øvrige tests i tabellen må antages at være test for signifikans af om en dummy variabel er statistisk signifikant forskellig fra female/female. Men det er ikke klart, hvorfor female/female er valgt som referencegruppe, som de andre testes imod. Der synes ikke at være noget rationale.

Figurteksten til figur 3, ”The lines indicate the standard deviations with a confidence interval of 95%”.

Der menes vel 95% konfidensgrænser på middelværdien. Der mangler angivelse af, hvordan de er beregnet. Det kunne ligne en anova-analyse, ikke en lineær regression som i tabellen. I princippet er det samme sag, men CI-erne er ikke ens.

En bedre præsentation af data ville opnås ved at erstatte tabel 2 med de data, der er plottet i figur 3, venstre panel. En grafisk præsentation med 4 punkter, der ikke illustrerer en trend, er overflødig. Hvis man endelig ville bruge en figur, skulle der bruges et søjlediagram med CI-er, hvor y-aksen startede ved 1 (minimum af skalaen). Men forskellene ville ikke rigtig syne af noget i sådan en figur:

Sidste afsnit i resultatafsnittet, ”Finally, as mentioned in section 2 and shown in figure 2, men account for the majority of reviewers in the newspapers. ”. Figur 2 viser reviews, ikke reviewere, og det samme gælder section 2.

”Men actually dominate in number of reviewers (63% are men) and out of these, reviews are 69% reviews by male authors.” Beregnet ud fra figur 2, er 63% af reviewene skrevet af mænd. Men det er ikke det samme som at 63% af reviewerne er mænd. Den sidste sætning er svær at få nogen mening i, men jeg antager, at forfatterne forsøger at sige, at ud af de 63% af reviewene, der var skrevet af mænd, handlede 69% om mandlige forfatteres bøger (selv om det beregnet ud fra figur 2 godt nok er 68%).

Torsten Skov

Læge, PhD i epidemiolog, batchelor i filosofi

3 thoughts on “Supplerende kommentarer til “Reviewer preferences and gender disparities in aesthetic judgments”


 1. Hej Torsten.
  Stærkt arbejde.
  Een ting er at den model forfatterne specificerer i manus _ikke_ er en lineær model, noget andet er at den ikke tager højde for “pseudo-sampling”: samme reviewer går igen og samme forfatter går (vel!?) igen. Det er lidt overraskende for mig at modellen ikke er en hierarkisk “random effects” model.

  1. Hej Thomas.
   God pointe. Tak. Jeg kan ikke overskue, om det et problem at den samme anmelder står for mange observation. De vil nok være korrelerede, så det burde måske være random effects for både anmelder og bog. Om det kan fungere i praksis, når mange bøger kun anmeldes én gang, og de fleste kun 2-3 gange, kan jeg ikke overskue. Har du erfaring med det?
   Hilsen
   Torsten

   1. Hej
    Umiddelbart ville jeg tro at anmelder (og kun anmelder) burde inddrages som random effect. Jeg forestiller mig ikke at forfattere hver outputter så mange bøger at de kan lade sig gøre.
    Iøvrigt _er_ fokus jo på anmelderne som sådan og det kunne være interesant at få illustreret variabiliteten imellem anmeldere.. er der bare nogle der er Debbie Downers og andre der er Jubelglade ?
    Anyways, jeg tror ikke man generelt vil kunne sige noget om værdierne af modellens fixed effekter når man inddrager fx anmeldere som random effects.
    Sidst.. det er jo en mærkelig model der ikke “kontrollere” for _noget som helst_ … kilde (avis, blog, ..) årstal, … hva’ ved jeg!?

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.