Recidive na werkstraffen en na gevangenisstraffen: een non-peer review

In 2009 publiceerde het Tijdschrift voor Criminologie (TvC) het artikel “Recidive na werkstraffen en na gevangenisstraffen”. De auteurs van dat artikel claimden, onder licht voorbehoud, te hebben aange­toond dat daders na een werkstraf minder recidiveren dan na een gevangenisstraf.
Wij hebben dit artikel aandachtig bestudeerd en daarbij fouten, slordigheden en omissies aange­troffen.
De drie belangrijkste fouten hadden betrekking op:

  • de gebruikte operationele definitie van recidive
  • de interpretatie van de rechtsgang en, vooral,
  • de statistische methodiek

De slordigheden en omissies zijn opgenomen in een bijlage.

Het gewraakte artikel

Het artikel (pdf-link), Recidive na werkstraffen en na gevangenisstraffen (REC-NL), is geschreven door Hilde Wermink, Arjan Blokland, Paul Nieuwbeerta en Nikolaj Tollenaar.
Uit de samenvatting citeren wij:

Het doel van dit artikel is het vergelijken van de recidive van werkgestrafte met de recidive van gevangenisgestrafte volwassen daders in Nederland. We maken gebruik van longitudinale, justitiële gegevens om de recidive over een maximumperiode van acht jaar van daders die een werkstraf kregen opgelegd, te vergelijken met die van daders die een gevangenisstraf ondergingen. Om rekening te houden met mogelijke selectie-effecten wordt gebruikgemaakt van ‘propensity score matching’ en ‘matching by variable’.

En uit de conclusie:

Gebaseerd op de officieel geregistreerde criminele carrières van alle volwassen personen veroordeeld in 1997 laten onze bevindingen zien dat daders significant minder recidiveren na een werkstraf dan na een gevangenisstraf. Dit gevonden resultaat blijft substantieel (sic), ook wanneer door matching gecontroleerd wordt voor mogelijke selectie-effecten. Na werkstraffen recidiveerden daders minder, zowel op de korte als op de lange termijn – gemiddeld 50 procent minder veroordelingen over een periode van acht jaar. Dit wordt gevonden voor zowel mannen als vrouwen en op verschillende leeftijden.

Een vergelijkbaar Engelstalig artikel verscheen onder de titel “Comparing the effects of community service and short-term imprisonment on recidivism: a matched samples approach” in de zomer van 2010 in het Journal of Experimental Criminology (REC-EN). Daar was Daniel Nagin toegevoegd als medeauteur. Deze variant bevat een nog meer uitgesproken claim (in het Abstract):

Furthermore, using the Rosenbaum bounds method, we show that the results are robust for hidden bias.

Op REC-EN gaan we hier niet uitgebreid in. We wijzen alleen op enkele opmerkelijke verschillen tussen beide versies.

Maatschappelijk belang

Criminologie is in een aantal opzichten een bijzondere tak van wetenschap. Voor geen ander vakgebied bestaat er zo’n sterk ingebakken verwevenheid met overheidsbeleid. Deflem [i] zegt het zo:

Historisch gezien was de criminologie dus geen academische wetenschap, maar een kennisdomein met inherent praktische doelstellingen. Criminologie was die tak van de strafrechtsbedeling die zich professioneel bezig hield met het denken over misdaad. In de zin dat de criminologie een geschiedenis heeft die vorm heeft gegeven aan haar gestalte is ze natuurlijk verre van uniek. Maar wat zeker een bijzondere rol speelt, niet alleen historisch maar ook voor de academicus die vandaag met criminologische vraagstukken bezig is, is het feit dat de criminologie in oorsprong deel uitmaakte van wat uiteindelijk een onderdeel werd van haar eigen onderzoeksdomein, namelijk de strafrechtsbedeling.

Het is dus niet verwonderlijk dat uitkomsten van criminologisch onderzoek relatief veel aandacht krijgen in media en politiek.
Het succes of falen van werkstraffen als alternatief voor gevangenisstraf, raakt onmiddellijk aan een groot verschil van mening in de politiek, kort door de bocht geformuleerd: moeten misdadigers worden gestraft of geholpen?
Het bekritiseerde onderzoek kreeg veel belangstelling in de politiek en de media. In het voorjaar van 2011 debatteerde de Tweede Kamer over de bestrijding van criminaliteit, en daarbij kwam deze publicatie ook ter sprake. Namens de PVV zei Tweede Kamerlid Helder geen waarde te hechten aan dit onderzoek, omdat men de gevallen die taakstraf dan wel gevangenisstraf opgelegd kregen, niet met elkaar zou kunnen vergelijken. De tegenstanders van Helder in het debat bleken en bleven ervan overtuigd dat wetenschappelijk aangetoond was dat een taakstraf ‘beter werkt’ dan gevangenisstraf. Een videoclip van juist dit stukje kamerdebat werd door honderdduizenden bekeken.
Helder werd verweten dat zij de gehanteerde statistiek niet begreep. Geleidelijk aan kreeg ze echter steun voor haar beoordeling, niet alleen van politieke sympathisanten maar ook van uitgesproken tegenstanders van haar partij.
Ondanks deze interessante ontwikkeling lijkt het onderhavige onderzoek hier en daar beschouwd te worden als een doorslaggevend bewijs voor een bepaalde visie. Dit schrijft de Nederlandse Wikipedia bijvoorbeeld bij het lemma ‘reclassering’ [ii]:

Uit het onderzoek van Nieuwbeerta bleek dat werkgestraften 47% minder vaak recidiveren dan gevangenisgestraften…

De kwaliteit van deze wetenschappelijke literatuur is dus van groot maatschappelijke belang.

Wat is recidive?

REC-NL hanteert een dubieuze operationele definitie van het belangrijkste begrip uit de studie: recidive.

Over de vraag wat onder recidive moet worden verstaan, bestaat in de literatuur eensgezindheid: in de criminologie is sprake van recidive wanneer iemand die een misdaad of overtreding gepleegd heeft, dat later opnieuw doet. Alleen de vraag naar de mate waarin de latere vergrijpen dienen overeen te komen met het eerste om van recidive te mogen spreken, is een enkele keer onderwerp van discussie. Ook buiten de criminologie wordt het begrip recidive gebruikt, in de medische wereld met name: ook daar staat het voor het opnieuw optreden van iets, in die context ziektes.

Het meten van recidive is in de context van criminaliteit niet eenvoudig. De dader is er in het algemeen [iii] veel aan gelegen om er voor te zorgen dat zijn gedrag in het verborgene blijft: een aanzienlijk deel van de vergrijpen die (later opnieuw) worden gepleegd blijft buiten beeld. Binnen de criminologie is men daar vanzelfsprekend goed van doordrongen. Het proefschrift In de fout van B.S.J.Wartna, uitgegeven door het WODC van het ministerie van justitie, besteedt ruime aandacht aan dit probleem, het vormt zelfs onderdeel van de subtitel: Over het meten van recidive en het vaststellen van het succes van strafrechtelijke interventies. Wartna geeft enige discussie weer over de betrouwbaarheid van zelfrapportage, door de dader dus. Daarna stelt hij vast dat er, ondanks de grote en vanzelfsprekende nadelen die kleven aan het hanteren ervan als grondslag voor meting van recidive, een deel van de auteurs zelfrapportage toch een bruikbare methode acht om criminaliteit te meten en de achtergronden daarvan te leren kennen.

In de praktijk kiest men er echter vaker voor om zich te baseren op gegevens afkomstig van justitie:

Een meting op basis van het JDS [Justitiëel Documentatiesysteem] brengt niet het recidivegedrag, maar de strafrechtelijke recidive in kaart. Dit is het deel van de feitelijke recidive dat aanleiding gaf tot hernieuwd ingrijpen door politie en justitie. Hoe groot het aandeel is en hoe het zich verhoudt met (sic) het dark number zal nooit helemaal duidelijk worden [iv].

Hoewel in de literatuurlijst van REC-NL drie publicaties van de heer Wartna zijn opgenomen, is zijn proefschrift daar niet bij [v]. Dat dit proefschrift onvermeld blijft is opvallend, maar het eigenlijke bezwaar is natuurlijk dat überhaupt geen enkele aandacht besteed wordt aan de, op zich verdedigbare, keuze om de strafrechtelijke recidive te hanteren als maat. Verdedigbaar, omdat voor datgene wat ermee gemeten wordt de data hiervoor betrouwbaar en volledig zijn en deze zonder enige verdere inspanning beschikbaar waren. De auteurs volstaan echter met de simpele vermelding (p 216) dat het aantal (nieuwe) veroordelingen als maat genomen is.

De slechte meetbaarheid van recidive vormt een grote uitdaging voor elk onderzoek waarin recidive enige rol speelt, welke dan ook. Voor het onderhavige onderzoek geldt dit nog extra sterk. Het richtte zich namelijk uitsluitend op kwantitatieve aspecten zelf van recidive: alleen op de vergelijking van cijfers van twee groepen die gestraft zijn middels verschillende ‘behandelwijzen’, waarbinnen verder niet gespecificeerd is. Er is geen onderscheid gemaakt naar effecten van een meer of minder streng regime in de gevangenis of in de taakstraf, meer of minder begeleiding binnen die groepen, laat staan naar aard van de resocialisatie. In de gepresenteerde cijfers is wel onderscheid gemaakt tussen mannen en vrouwen, maar op geen enkele wijze komt expliciet de vraag aan de orde of taakstraffen wellicht meer of minder geschikt zijn voor bepaalde groepen veroordeelden. Er is alleen gefocust op die dichotomie: wel of niet taakstraf.

In deze context is het zogenaamde dark number (verborgen aantal) van veel groter belang dan in studies waarin (ook) aandacht besteed wordt aan de vraag hoe de verschillende sancties en behandelwijzen daadwerkelijk, zeg maar ‘kwalitatief’, uitwerken op de individuele daders.

En het dark number is groot in Nederland, heel groot. Per definitie zijn hierover geen exacte gegevens beschikbaar maar, op basis van gegevens over aangiftes en slachtoffers, staat het vast dat slechts een fractie van het aantal criminele daden uiteindelijk tot een veroordeling leidt. Het CBS en WODC stellen sinds 1998 jaarlijks een naslagwerk op over ‘Criminaliteit en rechtshandhaving’. Het bevat een groot aantal cijfers en aan de verschillen tussen de aantallen misdaden en veroordelingen wordt ook wel aandacht besteed, maar versnipperd, niet als specifiek onderwerp. Volgens het rapport van 2009 leidt ongeveer een derde van de delicten tot een gang naar de politie en ongeveer een kwart tot een aangifte. Opmerkelijk is dat de aangiftebereidheid tussen typen delicten sterk verschilt: slechts een op de acht geweldsmisdrijven wordt aangegeven. Het aantal gepleegde delicten wordt uitgedrukt in miljoenen per jaar, het aantal veroordelingen in tienduizenden.

Monica den Boer was onder andere wetenschappelijk decaan van de Politieacademie en bijzonder hoogleraar vergelijkende bestuurskunde/internationalisering van de politiefunctie aan de VU in Amsterdam toen ze, op 17 januari 2009, tegenover Folkert Jensma van het NRC kwam met een verhouding van één veroordeling op 250 strafbare feiten. Waarom ze daarvoor naar een rapport uit Groot-Brittannië verwees hebben we niet onderzocht:

(…) dat als het lukt meer mensen aangifte te laten doen, de criminaliteit volgend jaar enorm is gestegen: “De vraag is hoe ze daar dan mee omgaan en wat het doet met het imago van de politie. Maar of dat nou betekent dat de criminaliteit werkelijk hoger of lager is… daar zitten nog zoveel filters tussen. In een recent Brits rapport stond dat per 250 strafbare feiten er gemiddeld één veroordeling volgt. De pakkans is al relatief klein, het ophelderingspercentage nog kleiner en het veroordelingpercentage nog weer kleiner [vi].
Het onderzoek gaat in wezen alleen over de vraag of taakstraffen ‘okay’ zijn. Dat is consistent met het benadrukken in het rapport van de hoge kosten van detentie. Aan de vraag waarom die kosten zo hoog zijn en hoe het zit met de kosten van taakstraffen wordt in het stuk geen aandacht besteed.

Belangrijkste vraag die onbeantwoord blijft, is waarom zelfs geen enkele overweging gewijd is aan de vraag naar het effect van dat hoge dark number op de onderzoeksmethodiek en de relevantie van de gevonden resultaten. De vraag kan aangescherpt worden door er een cynische draai aan te geven. De indruk wordt gewekt dat de onderzoekers alleen geïnteresseerd zijn in de overheidskosten verbonden aan gevangenisstraf: wat het de maatschappij of individuele slachtoffers kost wanneer daders later opnieuw in de fout gaan blijft buiten schot zolang ze maar niet veroordeeld worden.

In de subparagraaf over de eigenlijke toetsing komen we hier nog op terug.

De rechtsgang gewraakt

De onderzoekers stellen terecht vast dat, om de vraag te beantwoorden of het opleggen van taakstraffen in plaats van gevangenisstraffen leidt tot minder recidive, er eigenlijk experimenten zouden moeten worden uitgevoerd. In die experimenten  zouden veroordeelden, na vaststelling van de schuld, at random de ene of de andere vorm van straf krijgen opgelegd. REC-NL verwijst naar één onderzoek waarbij nadrukkelijk wèl sprake was van een experimentele setting. In de volgende paragraaf komen we terug op de bijzondere wijze waarmee de auteurs met de resultaten van dat onderzoek zijn omgesprongen.
Nu zo’n experimentele opzet niet voorhanden is (geweest), was het cruciaal om, in de woorden van de auteurs, ‘voor selectieprocessen te controleren’. In algemene zin staan ze uitgebreid stil bij deze noodzaak. Ze kiezen er vervolgens voor om gebruik te maken van de methodes ‘propensity score matching’ (PSM) en ‘matching by variable’, maar besteden geen woord aan de beperkingen van deze methodes. Toch zijn die beperkingen in dit geval uitzonderlijk groot.
In het algemeen zal men bij ieder onderzoek van deze aard zeer alert moeten zijn op de mogelijkheid dat personen in de vergeleken groepen onbedoeld geselecteerd worden op een criterium dat verband houdt met hetgeen onderzocht wordt. Een voorbeeld: men test een nieuw medicijn, maar kent of vermoedt tegelijkertijd een bepaald soort bijwerkingen. Het ligt voor de hand dat de betrokken medici dan, bewust of onbewust, er naar zullen neigen patiënten van wie ze verwachten dat ze die bijwerkingen slechter verdragen, bij de controlegroep in te delen. Deze neiging, deze propensity, zorgt dan voor een vertekening van het resultaat ten gunste van het geteste medicijn: de experimentele groep is dan in zekere zin gezonder dan de controlegroep.
In het onderhavige geval, waarin geen experiment is uitgevoerd maar aan datamining gedaan is, moet men eigenlijk niet spreken van geselecteerd worden maar van geselecteerd zijn: de groepen werden immers niet samengesteld door de onderzoekers maar waren al gevormd door rechters. Achteraf is slechts gepoogd middels PSM er een quasi-experiment [vii] van te maken. Op dat bovengenoemde mechanisme had men dan zeer beducht moeten zijn en daar is hier juist geen sprake van geweest. Aan de orde is immers een actief nagestreefde selectie die zeer rechtstreeks van invloed is op de betrouwbaarheid en relevantie van de resultaten. De rechters deden hun best om taakstraffen en gevangenisstraffen te geven aan díe verdachten bij wie die soort straf het beste paste.
Dit is de wijze waarop de rijksoverheid uitleg geeft over het opleggen van taakstraffen [viii]:

De rechter mag een taakstraf opleggen, ook als iemand daar niet om vraagt. Hij bepaalt de soort taakstraf en het aantal uren. In de praktijk houdt hij vaak rekening met de persoon en het beoogde succes van de taakstraf. Als iemand tijdens de rechtszitting aangeeft niet gemotiveerd te zijn, legt de rechter diegene waarschijnlijk geen taakstraf op (nadruk toegevoegd).

De rechter maakt dus een inschatting of taakstraf bij deze veroordeelde ‘past’, dat wil zeggen er een behoorlijke kans bestaat dat deze daadwerkelijk de bedoelde ‘opvoedende’ uitwerking heeft. Let vooral op de woorden ‘ook’ en ‘gemotiveerd’ in bovenstaande tekst uit de officiële overheids­voorlichting: er is hier werkelijk sprake van het tegenovergestelde van ‘at random’ toewijzen van taakstraf of gevangenisstraf.

Op een weblog citeert een “geïnteresseerde statistiek student” een reclasseringsmedewerker:

Heeft de persoon spijt en geeft deze aan zijn leven te willen beteren dan volgt een taakstraf, wil de persoon niet meewerken en begint deze bijvoorbeeld te schelden, dan volgt een gevangenisstraf [ix].

Dit is in overeenstemming met wat iedereen met gezond verstand zou verwachten.

De inspanningen van de rechters zijn door de onderzoekers van tafel geveegd. En niet alleen die van de rechters trouwens: ook die van het openbaar ministerie en tot op zekere hoogte zelfs van de verdediging. Die dragen immers actief bij aan deze selectie, die vernietigend is voor de betrouw­baarheid en relevantie van dit onderzoek.

Om de enormiteit hiervan te illustreren volstaat een eenvoudig gedachtenexperiment. Veronderstel dat men de opdracht zou krijgen om te evalueren of rechters er in slagen om de juiste soort straf, taakstraf of detentie, toe te wijzen aan verschillende (categorieën) daders: daarin zou men dan de score recidive juist meenemen als een belangrijke aanwijzing voor succes of falen. Van de rechters.

De gebruikte statistische methodiek

But if our propensity model misses an important reason why subjects are selected to treatment or control, we’ll be in trouble.

Thomas Love [x] over de PSM.

Het soort onderzoek dat in de vorige paragraaf genoemd werd, dat wèl een experimentele opzet had, betrof een Zwitsers onderzoek uit 2000. REC-NL daarover:

In het enige gerandomiseerde experiment (Killias e.a., 2000) recidiveren werkgestraften over een periode van twee jaar gemiddeld met 0,39 veroordelingen en gevangenisgestraften met 0,64 veroordelingen. Echter, in een follow-upstudie[xi] vinden Gilliéron e.a. (2006) dat na een periode van elf jaar de verschillen in recidive tussen werk- en gevangenisgestraften zijn verdwenen en dat het er zelfs op lijkt dat gevangenisgestraften beter geïntegreerd zijn in de conventionele maatschappij dan werkgestraften. (blz 214)

Dat laatstgenoemde resultaat staat zo goed als lijnrecht tegenover de hoofdconclusie van REC-NL. In plaats van expliciet aandacht te besteden aan deze -schijnbare- tegenspraak wordt dit op dezelfde bladzijde op indirecte wijze onderuit gehaald:

Ondanks het experimentele of matching-design kleven ook aan voornoemde studies nog de nodige bezwaren. Zo maken niet alle studies gebruik van een voldoende uitgebreide set controlevariabelen, waardoor de mogelijkheid blijft bestaan dat de vergeleken groepen op voorhand van elkaar verschilden in belangrijke niet-geobserveerde kenmerken. Bovendien kijken eerdere studies niet in het bijzonder naar de eerste veroordeling tot een werkstraf dan wel gevangenisstraf, waardoor de causaliteit moeilijk is vast te stellen. Verder hanteren de meeste studies een korte follow-upperiode, waardoor het niet mogelijk is om langetermijnverschillen in recidive na verschillende sancties vast te stellen. Tot slot is de generaliseerbaarheid van sommige studies beperkt omdat alleen daders onderzocht werden die in een bepaald arrondissement zijn veroordeeld, alleen zeer korte gevangenisstraffen met werk- straffen worden vergeleken, of omdat slechts een zeer klein aantal daders vergeleken kon worden.

De meest opmerkelijke bevinding van Killias e.a. -dat op de langere termijn de score voor taakstraffen beduidend ongunstiger lijkt te zijn dan op de korte termijn- raakt uit het zicht doordat het onderzoek op een hoop is gegooid met andere onderzoeken waartegen heel andere bezwaren geopperd worden.

REC-EN besteedt wat meer aandacht aan het Zwitserse onderzoek. Daar wordt gewezen op de omvang van de onderzochte groepen: 84 veroordeelden kregen een taakstraf en 39 een gevangenis­straf. Dat zijn inderdaad kleine steekproeven. Maar ze schrijven ook dit:

Still, while experimental in design, two limitations can be identified in the random allocation procedures of this study. First, in the end, offenders preserved the right to choose a short-term imprisonment over the community service. Second, the Correctional Service also retained the right to decide that certain offenders could not be sentenced to community service. (5e blz)

De toewijzing was dus ook hier niet echt at random. Vanwege het laatstgenoemde recht is echter wel duidelijk in welke richting de ‘bias’ in dit geval werkte: het stelde het effect van taakstraffen in een gunstiger daglicht voor wat betreft het effect op de recidive.

De methodes PSM en ‘matching by variable’ werden dus gehanteerd om te corrigeren voor selectie. De auteurs verwijzen met name naar Rosenbaum en Rubin als bron voor die propensity score.  Omdat dit gedeelte van het artikel het meest verontrustende is, citeren we eerst uitgebreid wat de auteurs zelf schrijven over de toepassing van deze methodiek. We hebben de alinea’s genummerd om de noodzakelijkerwijs uitgebreide bespreking ervan te kunnen bekorten.

1. In deze context is de propensity score de conditionele waarschijnlijkheid om op leeftijd t veroordeeld te worden tot een werkstraf versus gevangenisstraf, gegeven de covariaten tot t. De propensity score wordt geschat door gebruik te maken van een logistisch regressiemodel (Cox & Snell, 1989).
2. We maken gebruik van de ‘nearest neighbor matching’-strategie om daders op hun propensity score te matchen. Na het schatten van de propensity worden daders uit de experimentele groep een voor een gekoppeld, zonder teruglegging, aan daders die een gevangenisstraf ondergingen (controlegroep), maar die op basis van hun persoonlijke kenmerken een vergelijkbare voorspelde kans op werkstraf hadden. Een persoon uit de controlegroep werd gekoppeld aan een individu uit de experimentele groep, wanneer het verschil in de geschatte kans op werkstraf voor beide personen niet meer bedroeg dan 0,05.
3. Na matching bestaan er tussen de beide groepen geen systematische verschillen meer op geobserveerde variabelen, voorafgaand aan het opleggen van de straf. Door te matchen wordt met andere woorden gecon­troleerd voor selectie in de strafoplegging op basis van de in het model opgenomen variabelen en daarmee voor de mogelijke vertekening in recidivecijfers die voortkomt uit dit selectieproces. Het aantal potentiële verstorende variabelen is groot en Nagin e.a. (2008) stellen dat in ieder geval rekening gehouden moet worden met criminele geschiedenis, type delict, leeftijd, geslacht en of de dader autochtoon is. Van deze kenmerken is ook bekend dat zij van belang zijn voor rechters, wanneer zij beslissingen nemen ten aanzien van het berechten van daders (Monahan, 2006). In ons model houden we uitgebreid rekening met deze kenmerken (zie tabel 1).
4. Tabel 1 laat de resultaten zien van het propensity score model. De meeste kenmerken hebben een significante invloed op de kans om veroordeeld te worden tot een werkstraf (blz 217).
5. (…) Het was mogelijk om aan ruim 27 procent van de werkgestrafte daders een gevangenisgestrafte dader te koppelen (zie tabel 2) Daarmee werd bijna 61 procent van de controlegroep benut (blz 220).

In deze beschrijving blijft het onduidelijk waarom juist voor deze methode is gekozen. De beschrijving van hoe deze methode werd toegepast laat bovendien veel te wensen over.

Geen controlegroep

De toepassing van PSM vormt in wezen een poging om door middel van statistiek observationele gegevens zodanig te bewerken dat ze behandeld kunnen worden alsof ze het resultaat zijn van een gecontroleerd experiment. Een op het eerste gezicht niet specta­culair overkomend, maar toch serieus bezwaar tegen de toepassing ervan in déze context is het feit dat er geen sprake is van een controlegroep en een experimentele groep: er zijn twee ‘experimentele’ groepen. Dat in de literatuur over de propensity score soms ook sprake lijkt te zijn van twee behandelwijzen hangt natuurlijk samen met de mogelijkheid van het bekende placebo-effect: bij de mensen uit de controlegroep wordt de indruk gewekt dat ze een werkzame behandeling hebben ondergaan. In deze context is dat wat moeilijk voor te stellen: veroordeelden de indruk geven dat ze een straf krijgen terwijl ze die in de werkelijkheid niet krijgen…

Het onderzoek richtte zich op crimineel gedrag door mensen die voor de eerste keer veroordeeld waren voor een misdrijf. De groep die gevangenisstraf kreeg, is door de onderzoekers bestempeld tot controlegroep. In de criminologie, en zelfs in het onderhavige artikel, wordt veelvuldig melding gemaakt van het verschijnsel dat mensen in de gevangenis leren om ‘betere’ criminelen te worden. Tegen die achtergrond is de voorstelling alsof gevangenisstraf zou staan voor een ‘niet-behandelde’ groep nogal vreemd.

Een meer acceptabele toepassing van de PSM-methodiek zou geweest zijn beide behandelwijzen, gevangenisstraf en taakstraf, elk te vergelijken met een controlegroep, gevormd door mensen die wel schuldig bevonden werden, maar geen strafoplegging kregen. In niet-onderzoekstermen: belangrijke vragen verdwijnen zo uit het zicht. Kreeg deze persoon een gevangenisstraf en geen taakstraf vanwege positieve verwachtingen over het opvoedende effect van de ene behandeling, van negatieve verwachting van de andere behandeling, van de wens te vergelden of op basis van de overweging dat in ieder geval enige tijd de maatschappij beschermd zou zijn tegen het gedrag van de veroordeelde?

In werkelijkheid zou het ook nog zo kunnen zijn dat taakstraffen in het geheel geen effect hebben op de kans om recidive tegen te gaan terwijl detentie die kans juist vergroot. In deze vergelijking blijft zo’n mogelijk soort effect van de detentie per definitie en volledig buiten schot. Het zou ironisch genoemd kunnen worden dat in een ouder artikel van drie van de vijf betrokken auteurs dat eigenlijk een hoofdconclusie was: “detentie heeft een criminogeen effect”. Op dat artikel komen we verderop nog terug.

Zes stappen

Hoewel het bijkans onmogelijk is om dit op te maken uit REC-NL, is er bij de hier gehanteerde methodiek sprake van zes afzonderlijke stappen.

1        De keuze van variabelen.
De methodiek impliceert dat na die keuze gebruik wordt gemaakt van logistische regressie: een iteratieproces wordt losgelaten op de data om te bepalen wat de onderlinge verhouding is in de voorspellende kracht tussen de gekozen variabelen.

2        Deze onderlinge verhoudingen zijn als parameter gebruikt bij het vaststellen van een model.

3        Met dit model werd voor elk van de onderzochte individuen een ‘propensity’ berekend, in deze context: het toekennen van een ‘kans’ dat deze persoon ofwel een taakstraf zou krijgen ofwel een gevangenisstraf. (Alinea 1 en 4 formuleren dit onzorgvuldig: het ‘schatten’ slaat niet op de manier van verkrijgen van de propensity scores maar op het construeren van het model. Het is ook vreemd om te spreken van een ‘propensity score model': ‘model’ refereert aan de logistische regressie [xii]). Van elk van de individuen is dan enerzijds die kans bekend en anderzijds de straf die ze daadwerkelijk kregen.

4        De volgende stap was het een op een matchen van tweetallen veroordeelden: mensen met zoveel mogelijke gelijke ‘kans’ om taakstraf te krijgen waarvan de één daadwerkelijk taakstraf kreeg terwijl ‘zijn match’ daadwerkelijk de gevangenis in ging.

5        Vervolgens werd een deel van de gegevens buiten beschouwing gelaten.
Deze vijf stappen leverden een tweetal groepen op: een die was geselecteerd uit de taakgestraften en een die geselecteerd was uit de gevangenisgestraften.

6        De laatste stap werd gevormd door de uiteindelijke vergelijking van deze beide groepen en de interpretatie van de gevonden verschillen.

Keuze van de variabelen

Het blijft erg ondoorzichtig hoe de variabelen zijn gekozen.

In alinea 2 is sprake van ‘persoonlijke kenmerken’. Daarmee wordt gedoeld op leeftijd, geslacht en type delict (dus niet op persoonlijkheidskenmerken). In REC-EN heten deze gegevens ‘demografisch’.

In alinea 3 lezen we dat er veel ‘potentieel verstorende variabelen’ bestaan en dat er een aantal is waarmee ‘in ieder geval’ rekening gehouden moet worden, te weten: criminele geschiedenis, type delict, leeftijd, geslacht en of de dader autochtoon is.

De formulering met ‘covariaten tot t‘ in alinea 1 suggereert voor de variabele leeftijd een speciale rol, maar die wordt pas duidelijk uit de presentatie van de resultaten.

Van logistische regressie zal mede gebruik zijn gemaakt vanwege het feit dat de afhankelijke variabele slechts twee waarden kan aannemen [xiii]. Hier: gevangenisstraf of taakstraf. De onafhankelijke variabelen kunnen zowel een continuüm (leeftijd, maximale straf voor dit soort vergrijp) als een dichotomie (man of vrouw bijvoorbeeld) betreffen. In de tabel lijkt echter nog een derde soort gegevens te zitten: ‘type delict’. Deze bestaat uit de opsomming van een 20-tal delicttypes die elk wel of niet aan de orde was. Onduidelijk is of hier nu één variabele van is gemaakt. Mogelijk, maar de auteurs laten zich er niet over uit, is deze groep data gebruikt voor ‘matching by variable’.  Hier komen we nog op terug in verband met alinea 5.

Tabel 1 bevat een zekere weergave van de logistische regressie. Dat is niet wat in de titel van de tabel staat, maar kan via deductie worden vastgesteld: het gebruik van de kopjes ‘B’, ‘S.E.’ en ‘Exp(B)’ boven de kolommen wijst daarop. In de tekst wordt op het gebruik van deze letters geen toelichting gegeven. Wellicht is aangenomen dat ze vanzelf spreken omdat het standaardcomputerprogramma dat voor statistische berekeningen in deze soort wetenschappen wordt gebruikt, SPSS, met deze kolomkoppen is gekomen. De waarden in kolom B voegen geen informatie toe. De lezer had ze kunnen berekenen als de natuurlijke logaritme van de Odds Ratios. In de tekst wordt nergens verwezen naar kolom B en deze had men dus weg kunnen laten. Dit wel opnemen van deze kolom, valt vooral op omdat andere gegevens die het computerprogramma ook verschaft juist niet in de tabel zijn opgenomen. De waarden voor de parameters die aangeven hoe in het vastgestelde model die onderlinge verhouding in voorspellende kracht doorwerkt, zijn bijvoorbeeld niet weergegeven. Ernstiger is dat ook elke aanduiding ontbreekt van de gevonden ‘fit’ van het gehele model dat via de logistische regressie is gebouwd. Wat ook ontbreekt (overlappend met het hiervoor vermelde gemis) is een maat voor de totale voorspellende waarde [xiv] van de gekozen set van variabelen met hun wegingsfactoren. SPSS kan daarvoor verschillende ‘pseudo R2-maten’ berekenen. Geen ervan is vermeld.

Wat dan weer wel is weergegeven, is de significantie van de regressiecoëfficiënten voor elke variabele apart. Voor de statistiekleek klinkt dat misschien als iets dat ook relevantie en betrouwbaarheid onderbouwt, maar in werkelijkheid zegt die significantie niets zonder theoretische onderbouwing, en al helemaal niet in een opzet als deze, waarbij het slechts de significantie betreft van een onderdeeltje van een model.

Voor significantie is het aantal waarnemingen altijd cruciaal. Dat zien we geïllustreerd bij het delict ‘belediging’. De odds ratio (Exp(B)) heeft daar een waarde van 0,12: een waarde dus die heel ver van de 1 vandaan ligt (1 staat voor de situatie waarin de betreffende variabele geen invloed heeft op de ‘kans’ gevangenisstraf versus taakstraf). Dat de ‘belediging’ toch een niet-significante variabele blijkt, heeft te maken met het geringe aantal veroordelingen voor dit vergrijp. Omgekeerd zijn bij (zeer) grote onderzochte groepen verbanden al snel significant ook al hebben ze geen enkele werkelijke betekenis. Goede theorie is onmisbaar om te corrigeren voor misinterpretatie van dit soort bevindingen.

Foutieve verwijzing ?

Omdat REC-NL geen informatie verschaft over het wel of niet ‘passen’ van het via selectie van variabelen en logistische regressie verkregen model, zijn er maar twee passages in het artikel die de keuze van de variabelen onderbouwen.

Één is de verwijzing naar het gezag van Nagin e.a., medeauteur van REC-EN en adviseur voor REC-NL die expliciet bedankt wordt, de andere een verwijzing naar een stuk van Monahan (beide in alinea 3).

Dat uitgebreide artikel van Nagin e.a. verwijst op haar beurt weer naar de Engelstalige variant van het hier bekritiseerde artikel. Het lijkt op het eerste gezicht niet alleen bedenkelijk maar zelfs onmogelijk dat deze twee artikelen naar elkaar verwijzen, maar Nagin e.a. zetten er steeds bij: ‘forthcoming’. Het feit dat juist de verwijzing in de literatuurlijst van het onderhavige artikel naar dat van Nagin e.a. een verkeerd jaartal vermeldt (2008 in plaats van 2009) is pikant te noemen.

De verwijzing naar Monahan vormt per saldo de meest onbetrouwbare van het hele artikel. Monahan is professor in de psychologie en psychofarmaca en heeft een eredoctoraat in rechten. Het stuk van Monahan waar naar verwezen wordt, -een hoofdstuk uit een boek over de omgang met geweld vanuit psychiatrisch perspectief-, gaat echter niet over wat de auteurs daarover beweren. Monahan schrijft over de trend dat ‘actuarial methods of risk assessment’ onmiskenbaar steeds meer gezag krijgen in vergelijking met ‘clinical methods’. Hij heeft het daarbij echter niet over het voorspellen van recidive in het algemeen, maar uitsluitend over het kunnen voorspellen van het (opnieuw) gebruiken van geweld. Rechters die uitspraken doen over dader­kenmerken komen in het complete hoofdstuk niet voor! Alleen op bladzijde 29 vinden we überhaupt enige verwijzing naar rechtspraak en wetgeving. Het gaat dan over twee kwesties. De eerste betreft het toelaten van ‘actuarial’ onderzoeksresultaat als bewijsmateriaal. De tweede betreft gedwongen opnames: in het kader van het beschermen van mensen tegen gedwongen opname op basis van klinische evaluatie door een psychiater, is in Virginia voor het eerst een specifieke tool voor ‘structured violent risk assessment’ verplicht gesteld, inclusief aanwijzingen met betrekking tot de te gebruiken statistische grenswaarden. Het ging daarbij om de RRASOR, een hulpmiddel dat volledig is toegespitst op voorspelling van de kans dat iemand ernstige zedenmisdrijven zal plegen.

De zin “Van deze kenmerken is ook bekend dat zij van belang zijn voor rechters, wanneer zij beslissingen nemen ten aanzien van het berechten van daders (Monahan, 2006).” wordt dus beslist niet door Monahan, 2006 ondersteund.

Onze hoop dat zich hier slechts een ongelukkige verschrijving had voorgedaan, dat bijvoorbeeld naar een andere tekst van Monahan verwezen had moeten worden, werd de grond ingeboord na de vaststelling dat in REC-EN elke verwijzing naar Monahan ontbreekt. Voor deze ‘verschrijving’ lag zo’n verbetering kennelijk niet binnen handbereik.

Incomplete matching

Voor de nadelen van ‘incomplete matching’ wordt op verschillende plaatsen in de literatuur gewaarschuwd, onder andere door Rosenbaum en Rubin die aan de wieg stonden van de PSM.

De beide beschrijvingen van het matchingproces, in alinea 2, staan met elkaar op gespannen voet: ‘nearest neighbour matching’ staat tegenover een ‘maximaal verschil in propensity score tussen de twee veroordeelden die met elkaar gematcht worden’. Wanneer daadwerkelijk was gekozen voor een ‘nearest neighbour’ model kon aan elk individu uit de kleinste groep een individu gekoppeld worden uit de grotere groep. In plaats daarvan is gekozen voor een maximaal verschil op de grootheid propensity-score. Dit impliceert dat aan beide uiteinden van de gematchte groep personen geschrapt zijn. De gehanteerde grenswaarde wordt niet onderbouwd. Deze waarde blijkt ook elders wel te worden gehanteerd, maar is volslagen arbitrair. De propensity score correspondeert niet met iets in de werkelijkheid: het is een fictief gegeven dat alleen een rol speelt in het proces van matching. Voor 39% van de mensen in de ‘controlegroep’ kon volgens alinea 5 geen match gevonden worden. Dat is op zich niet verwonderlijk. Sommige vergrijpen zullen zelden of nooit tot een taakstraf leiden, andere bijna altijd. De aard van het delict is een voor de hand liggende voorspeller. Er is in REC-NL niet aangegeven wat het betekent dat bepaalde soorten delict ‘niet-significant’ scoren in tabel 1. Duidelijk is echter dat die groep van 39% niet op basis van deze variabele weggelaten is uit de vergelijking, maar op basis van de geconstrueerde propensity-score waar het delicttype slechts een bouwsteen van vormt.

Hiermee raken we ook aan een zeer problematisch aspect van de gehanteerde methodiek: de gegevens van de bijna 73 procent van de werkgestrafte en 39 procent van de gevangenisgestrafte daders die buiten de vergelijking zijn gehouden, hebben wel meegewogen bij de opstelling van het model. De resultaten van de vergelijking zouden meer zeggingskracht hebben gehad wanneer eerst de ‘extremen’ waren uitgesloten en dan pas het model was opgebouwd.

De eigenlijke toetsing

In het artikel wordt de keuze voor de gehanteerde wijze van presenteren van de significantie in de gevonden cijfermatige resultaten niet toegelicht; er wordt slechts uitgebreid toegelicht hoe ‘significant’ de gevonden verschillen zijn.

In noot 6 bij tabel 2 (onder tabel 3) is te lezen dat de vermelde significantie “vastgesteld is met een conventionele t-test en een gestandaardiseerde verschiltoets (D)“. Hoe die gestandaardiseerde verschiltoets exact is opgesteld vermeldt REC-NL niet maar vonden we terug via het artikel Het meten van effecten van gevangenisstraf op crimineel gedrag in een niet-experimentele studie  (verder aangeduid als NNB 2007). Dit werd gepubliceerd door drie van de vier auteurs van REC-EN en kan, blijkens de inhoud ervan, als een voorstudie van het onderhavige REC-NL worden opgevat. Vreemd genoeg wordt in REC-NL alleen naar NNB 2007 verwezen in het kader van de introductie van de PSM-methodiek, terwijl de theoretische overwegingen uit de inleiding en een deel van de er op volgende paragrafen nadrukkelijk ook van belang is voor deze studie. De laatste regel luidt als volgt:

We eindigen met de constatering dat het huidige gebrek aan empirisch onderzoek naar de gevolgen van gevangenisstraf op crimineel gedrag verbazingwekkend is – zeker aangezien gevangenisstraf een ingrijpende en veel toegepaste sanctie is op het plegen van (ernstige) delicten in de gehele wereld (blz 294).

NNB 2007 verwijst voor die gestandaardiseerde verschiltoets naar pagina 36 van een artikel van Rosenbaum en Rubin uit 1985 (verder: R&R 1985).  Het eerste wat ons opviel in dat artikel was dat een grootheid ‘D’ of ‘(D)’ er helemaal niet in voorkomt. Dit bracht ons ertoe ook R&R 1985 wat aandachtiger te bekijken. Onze bevindingen verrastten ons. De definitie troffen we inderdaad aan op vermelde bladzijde (in een noot onder tabel 2). Deze grootheid wordt berekend door het verschil tussen de gemiddelden van twee groepen data met 100 te vermenigvuldigen en te delen door de wortel van het gemiddelde van de varianties. De paragraaf in R&R 1985 waarin de tabel en de noot met daarin de definitie voorkomt, gaat echter niet over de uiteindelijke vergelijking van de scores in de beide groepen, maar naar de variabelen die worden meegenomen in de bouw van het model.

‘Statistisch significant’ versus ‘van betekenis’?

In de inleiding van R&R 1985 beschrijven de auteurs de achtergrond van de totstandkoming van hun PSM-methode. De data van een daadwerkelijk experimentele groep, bestaande uit 221 kinderen, werd vergeleken met die van een -grote- controlegroep. Deze werd gevormd door ruim 7000 kinderen waarvan de moeders tijdens hun zwangerschap niet waren blootgesteld geweest aan het mogelijk schadelijke geneesmiddel dat de 221 moeders hadden gebruikt. Van deze 7000 kinderen waren veel vergelijkbare data beschikbaar. Omdat het verzamelen van informatie over hoe het nu ging met die 7000 kinderen te duur zou worden, werd gezocht naar een manier om 221 kinderen uit deze groep te selecteren op zodanige wijze dat deze op zoveel mogelijk karakteristieken overeenkwam met de (ongewild) experimentele groep: via matching.

De opzet van REC-NL was heel anders. Er was om te beginnen al geen sprake van steekproeven: data van de complete populaties van taakgestraften en gevangenisgestraften waren immers beschikbaar. Je zou zelfs kunnen stellen dat in termen van R&R 1985 beide groepen in REC-NL werden benaderd alsof het twee controlegroepen waren. We achten dit op zichzelf geen zwaarwegend bezwaar van dit aspect, maar door het zo te formuleren brengt dit ons wel op het spoor van twee meer problematische kanten aan het gebruik van de PSM en de wijze waarop die gehanteerd is: de kwestie steekproef versus populatie en de veronderstelde verdeling van de recidivekans.

Het hanteren van een statistische significantietoets is eigenlijk vreemd en onnodig wanneer in zekere zin de complete populatie onderzocht is: in plaats van over het statistische begrip kunnen we het dan gewoon hebben over huis-tuin-en-keuken-significantie: ‘van betekenis’. Merk op dat het artikel R&R 1985 in de titel reeds vermeldt dat het gaat over “Sampling Methods”.

Tabel 3 van REC-NL geeft de ‘gemiddelde jaarlijkse recidive na eerste werk-/gevangenisstraf’. Omdat er -afgezien van de buiten beschouwing gelaten data in verband met incomplete matching- er sprake is van volledige populaties, ligt het meer voor de hand om naar de werkelijke aantallen nieuw gepleegde vergrijpen te kijken. Een tabel met die aantallen is af te leiden uit tabel 3.

De kolommen B en E zijn een op een overgenomen van tabel 3 uit REC-NL. In C en F staan de aantallen vergrijpen per jaar, in D en G de aantallen over de betreffende periode.

De belangrijkste kolommen zijn nu H en I. In H staat een benadering van het aantal vergrijpen dat volgens de auteurs mogelijk niet gepleegd is, dankzij het feit dat van de 11308 in 1997 veroordeelden, een selectie van 2123 (van de in totaal 7806 mensen die een taakstraf kreeg), niet de “zwaarst mogelijke justitiële reactie op [de] ernstigste delicten” kreeg opgelegd [xv].

Door te kijken naar de ‘huis-tuin-en-keuken’ significantie is geen sprake van ‘50% minder veroor­delingen over een periode van acht jaar’ maar van het voorkómen van ruim één delict per dag. Door de onverdedigbare opzet van dit onderzoek wordt deze claim echter niet waarge­maakt. Bovendien is het niet echt ‘van betekenis’ in vergelijking met het werkelijke aantal gepleegde delicten dat in miljoenen per jaar wordt uitgedrukt: dat is immers waar het tegen moet worden afgezet, niet het aantal veroordelingen.

Het hanteren van t-toetsen veronderstelt eigenlijk dat de onderliggende gegevens normaal verdeeld zijn. Wanneer meer aandacht was besteed aan de ‘fit’ en de stabiliteit van het model was dit nog wel te vergeven geweest. Nu weegt zwaarder dat de auteurs verzuimen zich de vraag te stellen of wel aan die voorwaarde van ‘normaliteit’ voldaan is. En helemaal omdat er goede reden zijn om aan te nemen dat van een normale verdeling hier waarschijnlijk géén sprake is. Ongeacht het type straf zal een onevenredig, zeg maar ‘niet-normaal’ deel in het geheel niet recidiveren. Onder de recidivisten zijn er daarnaast die juist heel veel nieuwe vergrijpen plegen.

Correlatie versus causaliteit

In de wetenschap, en meer in het bijzonder in de sociale wetenschap, ligt altijd het gevaar op de loer dat correlatie verward wordt met causaliteit.

Een bekende illustratie van deze verwarring wordt gevormd door het vergelijken van de verkoop van ijs met het aantal doden door verdrinking, beiden afgezet tegen de tijd. De correlatie tussen beiden is beslist significant, maar het een is niet de oorzaak van het ander. Een verbod op ijsverkoop zou het aantal verdrinkingsslachtoffers niet omlaag brengen.

Via twijfelachtig gebruik van statistische methodes claimen de onderzoekers een correlatie te hebben aangetoond tussen de soort straf na een eerste veroordeling en het aantal malen dat dezelfde persoon later opnieuw opgepakt en veroordeeld werd. Nergens vragen de onderzoekers zich echter af of er wellicht een causale factor is voor beiden, die ook de gevonden correlatie zou kunnen verklaren. Toch is het niet moeilijk om daar kandidaten voor aan te wijzen. Te denken valt aan: intelligentie, vooral sociale intelligentie, en aan de mate waarin iemand ‘onverbeterlijk’ is.

Iemand die zelfs voor de rechter niet in staat is om zich wat in te houden in zijn uitlatingen en daarom eerder tot gevangenisstraf dan tot taakstraf zal worden veroordeeld, mist ook het vermogen om te voorkomen dat hij voor nieuwe vergrijpen aangehouden, in staat van beschuldiging gesteld en veroordeeld wordt.

Veroordeelden die in staat zijn om de rechter de indruk te geven dat ze hun leven kunnen en willen verbeteren, en daarom een taakstraf krijgen opgelegd, zullen om twee redenen minder veroordeeld worden voor nieuwe vergrijpen. Ofwel omdat de indruk klopte en men geen nieuwe vergrijpen pleegde ofwel omdat de doortraptheid die hen hielp om de rechter om de tuin te leiden, ook in hun voordeel werkt voor wat betreft de kans om aangehouden, in staat van beschuldiging gesteld en veroordeeld te worden voor nieuwe vergrijpen.

Wetenschap versus beleidsadvies, toetsing van stelsel van hypotheses

De paragraaf over het maatschappelijk belang van dit onderzoek begonnen we met een citaat: “Historisch gezien was de criminologie dus geen academische wetenschap, maar een kennisdomein met inherent praktische doelstellingen”. Het spanningsveld binnen de criminologie dat daarmee wordt aangeduid, zal nooit verdwijnen. Elk serieus onderzoek dient in onze ogen dan ook expliciet aandacht te besteden aan dat spanningsveld of moet worden opgezet vanuit een expliciete keuze voor de ene of de andere invalshoek: academisch onderzoek naar het ingewikkelde verband tussen straf en criminaliteit tegen­over beleidsevaluatie of advies.

REC-NL is ook in dit opzicht een schoolvoorbeeld van hoe het niet moet.

Omdat de conclusie van het artikel begint met een opmerking over de theorie lijkt het er op dat de invalshoek op de eerste plaats een academische was. Wat op dit terrein bereikt is, is zowel mager als onduidelijk. Duidelijkste conclusie is dat de onderzoeksresultaten “vraagtekens [zetten] bij de theorie van afschrikking”. Zelfs wanneer die conclusie beter onderbouwd was geworden nogal mager.
Maar was dat eigenlijk wel de hypothese die getoetst werd? Nee. Nergens staat met zoveel woorden beschreven wat de onderzoeksvraag is en welke hypothese daarbij hoort. Wanneer we proberen te doorgronden welke hypothese nu eigenlijk getoetst werd, moeten we vaststellen dat er eigenlijk sprake was van een stelsel van hypothesen.
Was er dan sprake van beleidsevaluatie of beleidsadvies? Daarover vinden we het volgend in de conclusie van de onderzoekers:

Ook voor beleidsmakers zijn onze resultaten relevant. Met het detineren van daders zijn hoge kosten gemoeid. Werkstraffen vormen een goedkoper alternatief. Bovendien blijkt uit onze studie dat daders na een werkstraf minder recidiveren dan na een gevangenisstraf, wat een extra kostenbesparing oplevert in termen van het voorkomen van delictschade. (blz 225)

Omdat de resultaten ‘ook’ voor beleidsmakers relevant worden genoemd wordt andermaal gesug­gereerd dat de invalshoek toch vooral een academische was. Maar dan nog: over welke beleidsmakers gaat het hier? Worden hier niet eigenlijk de rechters bedoeld, die aangespoord worden om over de gehele linie vaker te kiezen voor taakstraffen? Dat zou wel aansluiten bij het feit dat de allereerste regel van REC-NL over de rechters gaat en even verderop de ‘centrale vraag’ geformuleerd wordt als:
In hoeverre [zijn] werkstraffen een goed alternatief voor gevangenisstraffen in relatie tot de recidive van de gestraften na afloop van hun straf. (blz 211)

Gezien het feit dat reeds in 1997 beduidend meer taakstraffen dan gevangenisstraffen opgelegd werden en het aandeel taakstraffen daarna nog verder is gegroeid, zo ver dat er inmiddels cellen leeg staan dan wel verhuurd worden aan België, een opmerkelijke invalshoek. De rechters schijnen er immers juist volledig van doordrongen te zijn dat werkstraffen een goed alternatief vormen. De rechters krijgen vanuit dit onderzoek niet de allerkleinste aanwijzing over wanneer taakstraf dan wel gevangenisstraf op te leggen: ze moeten gewoon (nog) vaker kiezen voor taakstraffen.

En wat hebben beleidsmakers aan dit onderzoek?
Hoofddoelstelling van beleid op dit gebied zou moeten zijn om criminaliteit op een laag peil te brengen of houden. Recidivevermindering is daartoe slechts een van de wegen. Als dit het hoofddoel zou zijn, bracht dat niet noodzakelijkerwijs de criminaliteit terug: ook, of eigenlijk júist, eerste vergrijpen moeten worden voorkomen, afschrikking kan daarbij een belangrijke rol spelen. Daarnaast heeft straf ook een vergeldingscomponent. In de woorden van Wartna:

Moet de straf voorkomen dat de dader opnieuw een delict pleegt of fungeert zij toch vooral als vergelding voor het onrecht dat is aangedaan? In het laatste geval is recidiveonderzoek niet het geëigende evaluatie-instrument [xvi].

In de inleiding van NNB 2007 werd nog geschreven over afschrikwekkende werking van straf:

De morele rechtvaardiging voor het opleggen van (gevangenis)straf wordt gezocht in de doelen die straf dient: retributie en preventie. Aangaande de veronderstelde preventieve werking van gevangenisstraf maken criminologen onderscheid tussen generale preventie en speciale preventie. Het generaal preven­tieve effect van gevangenisstraf heeft betrekking op de mate waarin de dreiging van gevangenisstraf als reactie op regelovertreding de algemene bevolking ervan weerhoudt delicten te plegen. Het speciaal preventieve effect heeft betrekking op de mate waarin het daadwerkelijk ervaren van gevangenisstraf, ex-gevangenen afhoudt van het opnieuw begaan van misdrijven (blz 272).

Onmiddellijk daarop volgend werd erkend dat het onderzoek zich uitsluitend richtte op de speciaal preventieve werking van gevangenisstraf. Het bestaan van zoiets als generale preventie is in REC-NL volledig achter de horizon verdwenen. Alsof deze vorm van preventie aan belang zou hebben ingeboet.

Eerder wezen we er al op dat in het onderzoek geen sprake was van een quasi-experimentele en een quasi-controlegroep maar van twee quasi-experimentele groepen: een fundamentele fout. Voor beleidsmakers betekent dat concreet dat op basis van dit onderzoek met geen mogelijkheid iets gezegd kan worden over de vraag of de -geclaimde- mindere recidive iets positiefs zegt over taakstraffen of iets negatiefs over gevangenisstraffen. Het zou er in de gevangenis te luxe aan toe kunnen gaan, er zouden te veel mogelijkheden kunnen bestaan om verder in de criminaliteit geschoold te raken en gevangenisstraf kan ook ‘stoer’ gevonden. Versobering van de gevangenisstraf zou tegelijkertijd de afschrikwek­kende werking kunnen verhogen en kosten kunnen besparen. Een meer ‘kwalitatief’ uitgevoerd onderzoek, waarbij wel op persoonlijke kenmerken en verschillende vormen van begeleiding was ingegaan, had kunnen helpen beter te onderscheiden tussen criminelen die wel of niet onverbeterlijk zijn. Er zouden suggesties uit kunnen voortvloeien met betrekking tot andere straffen dan de twee hier onderzochte.

Slot

De kwaliteit van wetenschappelijke onderzoeken en artikelen komt de laatste jaren meer in de schijn­werper te staan. Het lijkt er op dat er een groot tekort bestaat aan integriteit in de wetenschap en aan kwaliteit in het onderwijs

Het feit dat het hier betwiste onderzoek nationaal en internationaal is gepubliceerd, duidt op slecht functioneren van het peer review systeem. Dit is ook aan de orde op andere terreinen dan criminologie en sociale wetenschappen in het algemeen. We hebben geen kritische reacties van collega-criminologen op REC-NL gevonden, in het Tijdschrift voor Criminologie verschenen er in ieder geval geen. Waarom niet? Opereren alle criminologen binnen een zo bekrompen paradigma? Komen zij niet door peer review heen? Vrezen zij  dat een kritische houding hun carrière zou schaden?

De Ingenieur signaleerde recent [xvii] dat er sprake is van een omgekeerde wereld met ‘angry old men’, een ‘grijze wegenwacht’. Vooral op het gebied van de ‘door mensen veroorzaakte globale opwarming’ (AGW) zijn het opvallend veel gepensioneerden die uitgesproken kritisch zijn. Zo trok onlangs Nobelprijswinnaar Dr. Ivar Giaever zich met een publiek statement terug uit de American Physical Society (APS) vanwege het feit dat deze beroepsvereniging global warming tot canonieke waarheid heeft verklaard[xviii].

De schrijvers van dit artikel zijn geen onderzoekers in de criminologie, maar bezorgde burgers met een wetenschappelijke opleiding en belangstelling. Wij kunnen vrijuit onze mening geven; wij hebben geen carrières die in gevaar kunnen komen. Wij trekken ons niets aan van een heersend paradigma, zeker niet wanneer dit politiek-ideologisch geïnspireerd is. Is er werkelijk zoveel afstand nodig?

En tenslotte brengen we graag het einde van NNB 2007 in herinnering:

De resultaten van de uitgevoerde analyses laten zien dat een eerste gevangenisstraf leidt tot een verhoging van het aantal criminele veroordelingen in de drie jaar na vrijlating. (…) Al met al leiden de resultaten tot de conclusie dat gevangenisstraf een criminogeen effect heeft.

We zouden met die constatering wel iets anders om willen gaan: in plaats van dit op te vatten als aanmoediging om gevangenisstraf zoveel mogelijk te vervangen door andere vormen van straf (taakstraffen of weer heel andere vormen) zouden we eerder oproepen te onderzoeken waar dit -vanzelfsprekend onbedoelde- effect van de detentie door wordt veroorzaakt.

Net als Nieuwbeerta, Nagin en Blokland zijn we van mening dat daarbij niet uitsluitend gekeken moet worden naar het directe effect van de ervaringen van de gedetineerden: er zal ook gekeken moeten worden naar een scala van andere invloeden. Een mogelijkheid is dat bajesklanten, nadat ze gezeten hebben, zo moeilijk reïntegreren dat dit hen tot extra criminaliteit aanzet (vanwege het stempel en daaraan verbonden achterstelling, verliezen van werk en vriendin, de opgedane ‘opleiding’ tot ‘betere’ crimineel, het op peil willen houden van de gescoorde stoerheidspunten). Het zogenaamde ‘resetting-effect’ is een andere [xix]. Ook de mogelijkheid dat de reclassering faalt of dat van de omstandigheden in de gevangenis nauwelijks of geen afschrikwekkende werking uitgaat, moet als mogelijke verklaringsgrond worden meegenomen.

Frans Groenendijk, André van Delft

Bijlage: Slordigheden en omissies

  • De data waarop het onderzoek is gebaseerd zijn tamelijk oud. Dat is logisch vanwege het feit dat studie verricht werd naar het effect van de rechterlijke beslissingen tot acht jaar ná die beslis­singen, maar het is vreemd dat helemaal niet stil gestaan wordt bij veranderingen sinds  1997.
  • Er is niet apart rekening gehouden met het feit dat veroordeelden zelf een stem hadden in de keuze: werkstraffen kunnen geweigerd worden.
  • De curve voor de taakgestraften in figuur 1 lijkt in lijn met het verhaal van de onderzoekers, die van de gevangenisgestraften niet. Om iets te zeggen over de vraag of het juist is om te werken met deze matching zouden in figuur 1 niet de absolute aantallen personen op de y-as moeten staan maar het deel van de mensen dat de ene en de andere straf krijgt. Wanneer je dat doet krijg je overigens een figuur die de strekking van het betoog op dit punt aannemelijker maakt.
  • Het gelijk waarderen van werkstraffen tot 60 uur met gevangenisstraffen tot een maand is weliswaar op de wet gebaseerd, maar is arbitrair.
  • Tabel 2, op bladzijde 220 is slordig. Het bijschrift over * p < 0,1 hoort hier niet thuis. Blijkbaar per ongeluk gekopieerd van tabel 1.
  • De gegevens in tabel 3 suggereren heel sterk dat de gunstiger scores voor de taakgestraften in de loop van de tijd veel sterker afvlakken dan voor de gevangenisgestraften. Er wordt geen woord  besteed aan dit opvallende verschil dat de hoofdconclusie sterk ondergraaft.
    • Er worden wel cijfers gepresenteerd over het verschil in effect op verschillende leeftijdsgroepen (en dat verschil is groot) maar daar wordt verder niet bij stilgestaan.
    • Vanwege uiteenlopende motieven zijn er mensen die de voorkeur geven aan gevangenisstraf. Voor het interpreteren van de onderzoeksresultaten, voor wat die verder waard zijn, maakt dat motief veel uit. Is ‘zitten’ in de ogen van de sociale omgeving van de veroordeelde ‘stoer’, of is gevangenisstraf een welkom dak boven het hoofd, de zekerheid van fatsoenlijke maaltijden en opgelegde regelmaat?
  • Wel genoemd, maar niet gekwantificeerd, is het verschijnsel dat mensen een taakstraf opgelegd krijgen maar niet komen opdagen of deze anderszins niet serieus nemen. Soms komen ze daarmee weg; soms krijgen ze alsnog gevangenisstraf.
Noten

[i] Zie bijvoorbeeld: Deflem, Mathieu. 2007. “Het Criminele Denken.” Karakter: Tijdschrift van Wetenschap 18:22-34.

[ii] URL: http://nl.wikipedia.org/wiki/Reclassering_in_Nederland

[iii] Dit lijkt een open deur: mensen willen niet in de gevangenis komen. De vraag is echter of dat voor iedereen zo sterk geldt. “Bijkomend probleem is dat steeds meer taakstraffers tegenwoordig meerdere steekjes los hebben. Sjef van Gennip, algemeen directeur Reclassering Nederland: ‘Vroeger kregen we inbrekers. Nu krijgen we inbrekers die dakloos zijn, verslaafd en agressief.’ ” Uit: Meer taakstraffen, goede zaak of niet? Auteur: Florentine van Lookeren Campagne | 16-07-2008 Intermediair.

[iv] Wartna, Blz 63.

[v] Wartna heeft zijn proefschrift in maart 2009 verdedigd. Mogelijk is aan het artikel van Nieuwbeerta cs, dat verscheen in het 3e kwartaal van 2009, al geschreven vóór die promotie. Nieuwbeerta is echter verbonden aan de zelfde Leidse Universiteit waar Wartna promoveerde.

[vi] Veiligheidscijfers zijn de oliebollentest van politie en justitie. URL: http://spl.politieacademie.nl/Nieuws/Politieleidersinhetnieuws/Details/monica-den-boer-nrc-17-1–br-veiligheidscijfers-zijn-de-oliebollentest-van-politie-en-justitie/tabid/165/ID/4743/Default.aspx

[vii] Er is discussie mogelijk of je bij dit onderzoek wel mag spreken van een quasi experiment. Het verschil tussen een experiment en een quasi experiment bestaat daarin dat de onderzoekers de onderzochten niet random hebben toegewezen aan de verschillende behandeling. Hier is in het geheel geen sprake van toewijzing door de onderzoekers.

[viii] URL: http://www.rijksoverheid.nl/onderwerpen/straffen-en-maatregelen/vraag-en-antwoord/wanneer-mag-een-rechter-een-taakstraf-opleggen.html

[ix] 30 maart 2011 bij een stuk getiteld “Onterechte PVV-bash”. URL: http://www.joop.nl/opinies/profiel/gebruiker/konijntje/

[x] Hier zijn indrukwekkende en vooral relevante CV: http://www.chrp.org/love/cv-love.pdf

[xi] Volgens Rec-NL daadwerkelijk gebruik makend van “dezelfde data”.

[xii] REC-EN formuleert overigens minder slordig waar het de statistiek betreft.

[xiii] Zie bijvoorbeeld te vinden in de handleiding van de RTOG van de Radboud Universiteit. Url: http://www.ru.nl/socialewetenschappen/rtog/tips/onderdelen/logistische/ Er was geen speciale reden om juist naar de Radboud Universiteit te verwijzen. De handleiding van deze afdeling ‘lag’ voor het grijpen.

[xiv] In meer traditionele statistiek zou het om de ‘verklaarde variantie’ gaan.

[xv] Deze bijzondere wijze van omschrijven van gevangenisstraf ontlenen we aan NNB 2007.

[xvi] De tekst komt uit een niet gedateerd persbericht van de Universiteit Leiden.
URL: http://media.leidenuniv.nl/legacy/wartna_persbericht.pdf

[xvii] URL: http://www.deingenieur.nl/00/ig/nl/0/artikel/9749/De_grijze_wegenwacht.html

[xviii] Volgens climategate.nl. Hier de URL: http://climategate.nl/2011/09/15/nobelprijswinnaar-natuurkunde-1973-hekelt-klimaatstandpunt

[xix] De misopvatting ‘ik heb nu de pech gehad dat ik opgespoord en veroordeeld werd, dus heb ik nu weer kans op geluk’.

 

Literatuur

De Heer-de Lange, N.E., Kalidien, S.N. (redactie). Boom Juridische Uitgevers 2009. “Criminaliteit en rechtshandhaving 2009″
(URL van het rapport in pdf-formaat: http://www.cbs.nl/NR/rdonlyres/3D13F562-1AB0-4C1C-80E6-1AF1D8B4CBE5/0/2010criminaliteitrechtshandhavingpub.pdf)

Killias, M., Aebi, M. & Ribeaud, D. (2000). Does community service rehabilitate better than short-term imprisonment? Results of a controlled experiment. The Howard Journal, 39(1), 40-57.

Monahan, J. (2006). Structured violence risk assessment. In: R. Simon & K. Tardiff (eds.). American psychiatric publishing textbook on violence assessment and management. Washington, DC: American Psychiatric Publishing.

Nagin, D.S., Cullen, F.T. & Jonson, C.L. (2009) “Imprisonment and reoffending.” Crime and Justice, 115-200. NB: In de literatuurlijst van het artikel van Wermink e.a. bevat de verwijzing, naast het foutieve jaartal, nog een typefout: ze schrijven in de titel ‘on’ in plaats van ‘and’.

Nieuwbeerta, P., Nagin, D.S., Blokland, A.J. 2007. “Het meten van effecten van gevangenisstraf op crimineel gedrag in een niet-experimentele studie”. Mens & Maatschappij 82:272-299

Rosenbaum, P. & Rubin, D. (1983). The central role for the propensity score in observational studies of causal effects. Biometrika, 70, 41-55.

Rosenbaum, P.R., Rubin, D.B., 1985. “Constructing a Control Group Using Multivariate Matched Sampling Methods That Incorporate the Propensity Score”. The American Statistician 39:33-38

Wartna, B.S.J. Boom Juridische Uitgevers 2009. “In de oude fout. Over het meten van recidive en het vaststellen van het succes van strafrechtelijke inteventies”. De volledige tekst van het proefschrift is online in te zien. (URL: www.wodc.nl/images/ob275_volledige_tekst_tcm44-168743.pdf)

Wermink, H., Blokland, A., Nieuwbeerta, P., Nagin, D., Tollenaar, N. 2010. “Comparing the effects of community service and short-term imprisonment on recidivism: a matched samples approach”. Journal of Experimental Criminology. (Het artikel is in zijn geheel online te bekijken: URL: http://www.springerlink.com/content/3507352775806760/

Wermink, H., Blokland, A., Nieuwbeerta, P., Tollenaar, Nikolaj. 2009. “Recidive na werkstraffen en gevangenisstraffen”. Tijdschrift voor Criminologie 51:211-227.

6 reacties op “Recidive na werkstraffen en na gevangenisstraffen: een non-peer review

  1. Pingback: Een hoogleraar criminologie in ondergoed | Keizers en Kleren

  2. Pingback: Nieuwjaarswens: minder vriendelijkheid in de wetenschapsbeoefening | Keizers en Kleren

  3. Het filmpje met Lilian Helder: http://www.youtube.com/watch?v=R9cNsK0s9WQ

    Enkele uitgelichte reacties op haar optreden:

    De rokende puinhopen van dit debat overziend, krijgt Lilian Helder van de PVV van ons een voldoende voor statistisch inzicht. Zij doet tenminste nog een poging om de onderzoeksopzet te begrijpen. De anderen scoren zware onvoldoendes.
    http://www.trouw.nl/tr/nl/5009/Archief/archief/article/detail/1872624/2011/04/09/De-rokende-puinhopen-van-een-Kamerdebat-over-statistiek.dhtml

    Wanneer men kritiek heeft op PVV-kamerlid Lilian Helder in de zin dat zij het slecht zo niet verkeerd verwoordde, dan heeft men gelijk. Maar zij voelde in ieder geval aan dat er iets is misgegaan bij het onderzoek dat haar opponent naar voren bracht.
    En dat is voor een niet-statisticus niet slecht. Iets door hebben is overigens iets heel anders dan het ook goed kunnen uitleggen.
    Maar haar tegenstanders, die niet eens aanvoelden of doorhadden dat het onderzoek op een wezenlijk punt niet goed was en dus onbruikbaar, maakten een velen malen ernstiger fout!
    Deze kamerleden dachten dat het goed was uitgevoerd en dat ze “dus” Lilian Helder hiermee konden aanvallen.
    (De mogelijkheid dat ze wisten dat het onder zoek niet bruikbaar was, maar het toch gebruikten, laat ik verder buiten beschouwing).
    (…)
    http://www.wiskundemeisjes.nl/20110402/statistiek-en-politiek/

    Mevrouw Helder legt het helemaal niet zo slecht uit. Ik kan me de verbijsterde reacties van de interuppanten overigens wel voorstellen. Veel criminologisch onderzoek, zeker dat wat onze bestuurders bereikt, is gebaseerd op observationele gegevens. Iedere eerste jaars Psychologie heeft echter geleerd dat je op basis van observationele gegevens geen causale conclusies kan trekken. Daarvoor moet je toch echt een experiment uitvoeren waarbij personen a-select aan de condities worden toegewezen. Je doorbreekt dan de besmetting van de effectvariabele met persoonlijke eigenschappen. Vandaar dat geen enkel medicijn en therapie wordt toegelaten als het niet experimenteel is onderzocht middels ‘clinical trials’ (Statistische controle is slechts een schot in het duister. Je kan er nu eenmaal nooit zeker van zijn dat je alle determinanten van een verschijnsel te pakken hebt). Zelfs bij psychotherapie worden tegenwoordig clinical trials uitgevoerd en het zou zo niet slecht zijn als het bij een serieuze zaak als rechtspleging ook zou gebeuren.
    http://www.joop.nl/opinies/detail/artikel/7706_onterechte_pvv_bash/

    Helder is een intelligente vrouw en m.i. is de reden dat haar verdediging te kort schoot (ze bleef maar herhalen wat ze al eerder gezegd had) dat het zo verschrikkelijk overduidelijk was dat die gevallen onvergelijkbaar zijn dat ze niet kon bevatten dat een ander dat niet onmiddellijk zou zien. En dus ook niet die overduidelijke reden voor die onvergelijkbaarheid op dat moment kon aanleveren. Verbijstering doet dat soms. Je ziet het aan haar lichaamstaal.
    http://archief.artikel7.nu/?p=54288

    Nog een paar links:

    http://www.hpdetijd.nl/2011-03-28/lilian-helder-snapt-het-niet/
    http://www.thepostonline.nl/2011/03/28/pvv-miep-snapt-statistiek-wel/
    http://www.nrc.nl/vanderkwast/2011/03/28/espresso-met-lilian-helder/
    http://www.geenstijl.nl/mt/archieven/2012/07/lilian_helder_pvv_snapt_het.html

  4. Pingback: Wermink, Blokland, Nieuwbeerta en Tollenaar duiken | Keizers en Kleren

  5. Bedankt voor de informatie. Na het zien van het debat had ik ook al mijn bedenkingen over de juistheid van het onderzoek. Goed dat jullie hier tijd en moeite in hebben gestoken om het te verduidelijken.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

De volgende HTML-tags en -attributen zijn toegestaan: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>