Objectief beoordelen? Een illusie

Humor is overwonnen droefheid

Website in ontwikkeling !

eithward@gmail.com

06 1248 7475

Home Hoezo malle methodes? Merkwaardige uitgangspunten Psy- en Fi-organisaties

Objectief beoordelen van mensen? Dat kan helemaal niet!

Beoordelen is per definitie een subjectieve zaak

Beoordelingssystemen gaan bijna altijd uit van twee achterliggende gedachten:

Je moet, c.q. het is mogelijk om medewerkers als persoon objectief te beoordelen.
Als basis voor de beoordeling kun je uitgaan van de functie-eisen zoals die in een functie-omschrijving zijn neergelegd.

Beide gedachten zijn naar mijn mening illusies.

Wat de illusie van het objectieve beoordelen betreft: Beoordelaars hebben altijd zelf persoonlijke beoordelingscriteria zoals bijvoorbeeld: “Ziet er netjes uit”, of “Heeft gevoel voor humor”, die niet in de formele functie-eisen terug te vinden zijn en die dus ook niet op het formele beoordelingsformulier voorkomen. Ook discrimineren mag natuurlijk niet, maar het speelt wel. Beoordelaars zullen hun eigen subjectieve criteria toch mee willen laten tellen en ze zullen deze daarom in de formele criteria verwerken. In de praktijk betekent dit gewoon dat beoordelaars dan alle, of een aantal kruisjes gewoon een vakje lager, of hoger zetten als eigenlijk zou moeten.

In de praktijk vind je de gekste vooroordelen en subjectieve illegale criteria. Op een bepaalde plek in een grote, landelijke organisatie was het behoren tot het old-boys-network en het hebben van een snor een zwaarwegend negatief criterium. Beoordelingen die sterk beïnvloed worden door de geloofsrichting van de beoordeelde of zijn/haar afkomst komen ook nog steeds voor.

Het concept functie-omschrijving is op zich al een illusie. Bijna niemand doet precies wat in zijn/haar functie-omschrijving staat. De meeste mensen doen méér, minder, of helemaal iets anders dan daar in beschreven staat. Dat is op zich niet vreemd, want organisaties zijn constant in beweging en functie-inhouden dus ook. Het formele systeem loopt daarom altijd achter bij de realiteit.

Een andere reden waarom beoordelingssystemen vaak niet werken is dat we mensen in de praktijk nooit beoordelen op méér dan 5 à 8 kenmerken tegelijkertijd. We beoordelen mensen niet op 25 punten tegelijk. Zo kijken we niet naar mensen. We hebben een algemene indruk die gebaseerd is op een beperkt aantal criteria die wijzelf belangrijk vinden. Bovendien hechten beoordelaars een verschillende waarde aan de formele criteria en dus zijn ze het alleen al daarom vaak met elkaar oneens bij het maken van een formele beoordeling. Als je het punt “schriftelijke uitdrukkings-vaardigheid” zelf uitermate belangrijk vindt, kijk je daar veel kritischer naar dan iemand die dat geen bal kan schelen.

De oplossing is dan ook dan we gewoon accepteren dat het beoordelen van medewerkers per definitie een subjectieve zaak is. Dat is ook helemaal niet zo erg als we die subjectieve criteria maar gewoon bespreekbaar maken bij de beoordeling. En het is natuurlijk eveneens een illusie dat iedereen dat ooit gaat doen.

Soorten beoordelingssystemen

1. Rangorde-systemen

Bij rangorde-systemen maak je geen onderscheid in allerlei kenmerken, maar werk je met één algemene indruk. Ook als je een groep medewerkers door méér beoordelaars laat rangordenen, zijn ze het daar meestal snel over eens. Vooral als het om de uitersten (de besten en de slechtsten) gaat. Alleen over de grijze middenmoot verschilt men dan nog wel eens van mening.

1.1 Gewone rangordes

Beoordelaars brengen een rangorde aan in hun groep medewerkers op basis van de vraag: “Wie is de beste, wie komt op de tweede plaats?”, etc. Je krijgt dan gewoon een volgorde beginnend bij 1 en eindigend bij de laatste (de slechtste). Een simpele methode, maar die werkt prima, vooral als de beoordelaars achteraf ook moeten zeggen waarom ze 1, 2 en 3 de beste vonden en de laatste 3 de slechtste. Dat maakt de diverse beoordelingscriteria die er gehanteerd worden goed duidelijk.

1.2 De paarsgewijze vergelijking

Beoordelaars krijgen dan de opdracht op alle medewerkers met elkaar in paren te vergelijken. Ze bij elk paar dan steeds kiezen wie de beste is. Als je vijf medewerkers hebt: A, B, C, D en E, moet je dus de volgende 10 paren met elkaar vergelijken en dan steeds aangeven wie je de beste vindt:

A - B B - C C - D D - E

A - C B - D C - E

A - D B - E

A - E

Deze manier is “objectiever” dan een gewone rangorde, maar een probleem van deze methode is dat het aantal vergelijkingen dat je moet maken snel oploopt met het aantal te beoordelen mensen.

De formule waarbij je kunt berekenen hoeveel vergelijkingen je steeds moet maken is: ½ N ( N - 1 ).

N = het aantal te beoordelen mensen (of dingen). Bij 12 medewerkers moet je dan dus al 6 * 11 = 66 vergelijkingen maken en als je 20 medewerkers hebt, kom je al op 10 * 19 = 190 paarsgewijze vergelijkingen en dat is gewoon niet meer te doen.

1.3 De forced-choice (gedwongen keuze) methode

Bij deze methode moet je je groep medewerkers verdelen over een normaal-verdeling (ook wel Gausse kromme genoemd). Als je bijvoorbeeld 20 mensen moet beoordelen, kun je ze verdelen over de volgende categorieën:

1 die de beste van de groep is
2 die ver boven het gemiddelde presteren
4 die net boven het gemiddelde presteren
6 middenmoters
4 die net onder het gemiddelde presteren
2 die ver onder gemiddelde presteren
1 die verhoudingsgewijs het slechtst functioneert

2. Beoordelingsschalen

2.1 Beoordelingsschalen met schaalankers op quasi-intervalniveau

Voorbeeld van dit soort schalen als het gaat over de functie-eis ‘heeft visie en overzicht’:

Omcirkel het juiste antwoord

A. zeer weinig / weinig / normaal / veel / zeer veel

B. – – / – / normaal / + / + +

C. weinig < 1 2 3 4 5 > veel

Vooral wanneer er cijfers bij de schalen staan, wordt er een soort wiskundige nauwkeurigheid gesuggereerd: het lijkt net alsof het een objectieve meetlat is waar de beoordeelde langs gelegd wordt. De werkelijkheid is anders. Op de eerste plaats zal de ene beoordelaar onder de term “heeft zeer veel visie” vaak iets anders verstaan dan de andere beoordelaar. Op de tweede plaats is de beoordelaar zelf in feite de meetlat. Een beoordelaar vergelijkt de beoordeelde vooral met zichzelf en komt dan tot een oordeel. Maar hoe kan een beoordelaar zonder een cent visie nou goed beoordelen of iemand veel visie heeft? “It takes one to pick one!”.

Een derde punt van kritiek is dat de suggestie gewekt wordt dat de afstanden tussen de verschillende meetpunten gelijk zijn, zoals dat bij een duimstok het geval is, maar in werkelijkheid is het middengebied (+/- normaal) heel smal en zijn de uiterste gebieden heel breed. Ofwel: het verschil tussen iemand met zeer veel visie en iemand met veel visie is veel groter dan het verschil tussen iemand die over een - voor die functie - normale portie visie beschikt en iemand die veel visie heeft.

In feite zijn de beoordelingsschalen zoals je ze hierboven ziet dus geen echte meetlatten, maar meettouwtjes van elastiek. Statistisch gezien zijn het dus ook geen metingen op ratio- of intervalniveau, maar zijn het slechts metingen op ordinaal niveau. Rangorde-metingen dus. Optellingen en gemiddeldes berekenen van dit soort schalen, is dus in feite nonsens!

2.2 Behaviour Anchored Rating Scales (BARS)

Om het probleem dat vage bewoordingen zoals “heeft veel visie” niet voor iedereen hetzelfde betekenen, heeft men de BARS ontwikkeld. Bij BARS wordt een poging gedaan om de beoordeling objectiever te maken door alle schaalankers (de termen als “heeft veel visie”) in ‘objectief waarneembaar’ gedrag te omschrijven. Dat helpt wel iets, maar het neemt de problemen van de elastiekmeting, het feit dat beoordelaars er stiekem subjectieve persoonlijke criteria in verwerken en het probleem van de beoordelingshorizon van de beoordelaar (niet goed kunnen beoordelen wat je zelf niet hebt, of bent) niet weg.

Bovendien kost het ontwerpen van dit soort systemen ontzettend veel tijd en geld en op het moment dat je er klaar mee bent, zijn de functies en functie-inhouden ondertussen meestal al weer zo sterk veranderd dat je het systeem op dat moment gelijk in de prullenbak kunt gooien, omdat het al weer verouderd is.

2.3 Grafische beoordelingsschalen

Bij grafische beoordelingsschalen staan er geen streepjes op de lijnen en vind alleen schaalankers aan de uiteinden van de beoordelingsschaal. De beoordelaars kunnen dan zelf kiezen waar ze op het lijntje het kruisje zetten. Men probeert zo te voorkomen dat de meeste kruisjes precies in de middencategorie terechtkomen.

Bijvoorbeeld:

Heeft totaal geen visie —––––––––––-X––––- Heeft heel veel visie

2.4 Met bekende personen als schaalanker

Een andere methode om te voorkomen dat de schaalankers multi-interpretabel zijn, is de beoordelingsschaal met personen als schaalankers. Het moet dan natuurlijk wel zo zijn dat alle beoordelaars de personen die als schaalanker gebruikt worden goed kennen. Bijvoorbeeld:

Heeft de zang-kwaliteiten van:

Geert Wilders / Zangeres zonder naam / Marco Borsato / Pavarotti / Maria Callas

Nadelen van schaaltechnieken

Bij het gebruiken van schaaltechnieken doen zich een aantal specifieke problemen voor. Deze zijn:

1. Het Halo-effect

Bij het Halo-effect gaat het om het verschijnsel dat een beoordelaar bij het invullen van een beoordelingsschaal beïnvloed wordt door het antwoord dat hij bij de voorafgaande vragen gegeven heeft. Als je als beoordelaar bij iemand al vier keer een kruisje in het +, of + + gebied hebt gezet, heb je de neiging om ook het volgende kruisje in, of vlakbij dat schaalanker te zetten. Als je dus bij een bepaald kenmerk eigenlijk een - - zou moeten scoren, wordt dat al gauw een - , of een ž.

2. Centrale tendentie

Centrale tendentie is de neiging om géén kruisjes in de uiterste gebieden (- - , of ++) te zetten, omdat dat directe consequenties voor de beloning, of het al dan niet doorgaan van een promotie kan hebben. Beoordelaars houden graag liever een slag om de arm.

3. Leniency (welwillendheid)

Leniency is de tendens om echt slechte beoordelingen uit de weg te gaan, of uit te stellen. Beoordelaars delen liever en eerder een ++ , dan een - - uit!

4. Stereotypering

Het uiterlijk van mensen kan een beoordeling sterk beïnvloeden. Iemand die er typisch uitziet als een intellectueel wordt niet zo gauw als ‘dom’ beoordeeld en andersom geldt precies hetzelfde; iemand met een oermens-achtig uiterlijk moet wel ontzettend intelligent zijn om ook werkelijk als ‘slim’ beoordeeld te worden.

3. Forced choice systemen

Deze beoordelingssystemen werken in feite hetzelfde als de forced-choice rangorde-systemen, maar deze keer gaat het niet om een algemene indruk, maar specifieke gedragingen, of eigenschappen. Bij deze systemen moet de beoordelaar steeds kiezen uit een hele serie paarsgewijze, of in drie- of viertallen aangeboden items.

Bijvoorbeeld:

“Zet bij elk paar uitspraken een kruisje bij de uitspraak die het meest van toepassing is”

beschikt over een gezonde ambitie

neemt initiatieven

heeft een goede schriftelijke uitdrukkingsvaardigheid

heeft visie

heeft overwicht over een groep

beschikt over een gezonde ambitie

4. Groepsbeoordelingen (peer ratings)

Peer ratings zijn beoordelingssystemen waarbij de medewerkers elkaar beoordelen. Uit onderzoek blijkt dat intercollegiale beoordelingen zeer betrouwbaar zijn. Er is echter één klein probleempje: de onderlinge verhoudingen in een groep moeten wel van een zodanige kwaliteit zijn dat het kàn en dat komt niet zo heel vaak voor…

5. De critical incidents methode

Bij de ‘critical incidents’ (kritische gebeurtenissen) methode houdt de chef per medewerker een lijstje bij van opvallend goede en opvallend slechte prestaties. Deze gebeurtenissen worden in het beoordelingsgesprek aan de orde gesteld.

6. Via een onafhankelijke derde

Bij deze methode onderzoekt een onafhankelijke derde (een personeelsman, iemand van buiten, etc.) het gedrag en de kwaliteiten van de beoordeelde en maakt vervolgens al dan niet samen met de chef de beoordeling op.

Deze methode is zeer arbeidsintensief en dus kostbaar en wordt daarom ook alleen gebruikt bij hoog gekwalificeerde functies.

7. Beoordelingspanels

Wanneer iemand beoordeeld wordt door meer dan één chef, spreken we van een beoordelingspanel.

Beoordelingen van een panel zijn betrouwbaarder dan de beoordeling door slechts één chef, maar je kunt dat systeem alleen goed toepassen in een projectorganisatie waarbij een medewerker in een aantal projecten of teams meedraait.

Tenslotte: hoe goed is een beoordelingssysteem?

Hoe goed een beoordelingssysteem is, wordt bepaald door twee factoren, de betrouwbaarheid en de validiteit.

Betrouwbaarheid = hoe nauwkeurig meet het systeem?
Een meetlat met alleen maar centimeter-streepjes is minder betrouwbaar als een meetlat met een milimeteraanduiding. Als je bij het scoren van de aanwezigheid van een bepaalde eigenschap van iemand alleen maar kunt kiezen uit ja / nee, is die meetmethode te grof. Maar dat scoren met een 10-puntsschaal is onzin.

Betrouwbaarheid heeft ook te maken met de interpersoonlijke overeenstemming. In feite moet het niet uitmaken of Jan, Petra, of Achmed de beoordeling opmaakt, maar dat is natuurlijk bijna nooit het geval.

Verder moet volgens de natuurwetenschappelijke regels een meting hetzelfde resultaat opleveren als je het later onder dezelfde omstandigheden nog eens over doet, maar dat is bij mensen natuurlijk lang niet altijd het geval, c.q. mogelijk, want mensen veranderen soms heel snel van mening.

Validiteit = hoe goed meet het systeem wat het moet meten?
Een mutiple-choice tentamen meet bijvoorbeeld behalve kennis ook lees- en taalvaardigheid. Als de lees- en taalvaardigheid binnen de studentengroep onderling niet veel verschilt, is dat niet erg, maar als er binnen de studentenpopulatie wat dat betreft wel grote verschillen zijn, is het tentamen niet valide, omdat het gemeten kennisniveau bij de mensen met minder taalvaardigheid dan altijd lager zal zijn dan in werkelijkheid het geval is.

Kortom het blijft tobben. Tenzij je gewoon het feit accepteert dat het objectief beoordelen van mensen nou eenmaal niet goed mogelijk is, omdat we het dan niet over kwantiteiten, maar over kwaliteiten hebben en dat is een andere planeet, een andere werkelijkheid met andere regels en andere wetmatigheden.

In de zorg

Industriële bedrijven

Bij de overheid

In het onderwijs

Het paradigma monopolie

De Wet van de Bestuurlijke Drukte

Objectief beoordelen? Een illusie

Meetproblemen in de zachte sector