Objectief beoordelen?

OBJECTIEF BEOORDELEN ?

DE ILLUSIE VAN OBJECTIEF BEOORDELEN

Beoordelingssystemen gaan bijna altijd uit van twee achterliggende gedachten:

Je moet, c.q. het is mogelijk om medewerkers objectief te beoordelen.
Als basis voor de beoordeling kun je uitgaan van de functie-eisen zoals die in een functie-omschrijving zijn neergelegd.

Beide gedachten zijn naar mijn mening illusies.

Beoordelingen worden niet gemaakt door machines maar door mensen en bij mensen die andere mensen beoordelen spelen altijd puur persoonlijke beoordelingscriteria mee. Bijvoorbeeld: “Ziet hij er netjes uit?”, “Heeft ze wel gevoel voor humor?”, "Deugt ze politiek?", "Is het een aardige man?". Allemaal criteria die bijna nooit in de lijst met formele functie-eisen voorkomen en dus ook niet op het formele beoordelingsformulier voorkomen. Ook discrimineren mag formeel niet, maar huidskleur is vaak wel een punt. Beoordelaars zullen dat soort eigen subjectieve criteria toch mee willen laten tellen en ze zullen deze daarom in de formele criteria verwerken. In de praktijk betekent dit dat beoordelaars dan alle, of een aantal kruisjes gewoon een vakje lager, of hoger zetten als eigenlijk zou moeten.

Beoordelingen worden informeel nog steeds beïnvloed door de geloofsrichting van de beoordeelde of zijn/haar maatschappelijke afkomst. In de praktijk vind je de gekste vooroordelen en allerlei merkwaardige subjectieve beoordelingscriteria. Op een bepaalde plek in een grote, landelijke organisatie was het hebben van een snor een zwaarwegend negatief criterium omdat je volgens die manager dan behoorde tot het old-boys-network dat elkaar de hand boven het hoofd hield en de bal aan elkaar doorspeelde.
Ooit was er ook een gemeentelijk politiekorps met een eigen harmonieorkest en de eerste vraag bij een sollicitatiegesprek was dan ook of je een instrument bespeelde en als je daar nee op antwoordde werd de kans dat je aangenomen werd heel klein.

Bij beoordelingssystemen is de functie-omschrijving meestal de basis van het systeem. Mensen worden dan beoordeeld op wat ze formeel volgens hun functie-omschrijving zouden moeten doen. Maar die functie-omschrijving klopt bijna nooit. Niemand doet precies wat in zijn/haar functie-omschrijving staat. De meeste mensen doen méér of minder dan wat daar in beschreven wordt en meestal doen ze ook nog iets heel anders dan wat ze formeel moeten doen. Dat is op zich niet zo vreemd, want organisaties zijn constant in beweging en functies dus ook. Het formele systeem loopt daarom altijd achter bij de realiteit.

Verder worden er in organisaties veel nuttige dingen gedaan die in geen enkele functie-omschrijving staan. Er zijn veel teams en afdelingen waarbij het gebruikelijk is zo tegen 5 december een korte Sinterklaasviering met elkaar te organiseren. Zorgen dat mensen die ziek zijn een bloemetje krijgen staat in geen enkele functie-omschrijving maar gebeurt gelukkig vaak wel. Het zijn altijd dezelfde mensen die dat soort dingen regelen maar dat werk staat in geen enkele functie-omschrijving.

Een andere reden waarom beoordelingssystemen vaak niet werken is dat we mensen in de praktijk nooit beoordelen op méér dan 5 à 8 kenmerken tegelijkertijd. We beoordelen mensen niet op 25 punten tegelijk. Zo kijken we niet naar mensen. We hebben een algemene indruk die gebaseerd is op een beperkt aantal criteria die wijzelf belangrijk vinden. Bovendien hechten beoordelaars een verschillende waarde aan de formele criteria en dus zijn ze het alleen al daarom vaak met elkaar oneens bij het maken van een formele beoordeling. Als je het punt “schriftelijke uitdrukkingsvaardigheid” zelf uitermate belangrijk vindt, kijk je daar veel kritischer naar dan iemand die dat geen bal kan schelen.

De oplossing is dan ook dan we gewoon accepteren dat het beoordelen van medewerkers per definitie een subjectieve zaak is. Dat is ook helemaal niet zo erg als we die subjectieve criteria maar gewoon bespreekbaar maken bij de beoordeling. En het is natuurlijk eveneens een illusie om te denken dat iedereen dat ook gaat doen.

Soorten beoordelingssystemen

1. Beoordelen met rangorde-systemen

Bij rangorde-systemen maak je geen onderscheid in allerlei kenmerken, maar werk je met één algemene indruk. Ook als je een groep medewerkers door méér beoordelaars laat rangordenen, zijn ze het daar meestal snel over eens. Vooral als het om de uitersten (de besten en de slechtsten) gaat. Alleen over de grijze middenmoot verschilt men dan nog wel eens van mening.

1.1 Gewone rangordes

Beoordelaars brengen een rangorde aan in hun groep medewerkers op basis van de vraag: “Wie is de beste, wie komt op de tweede plaats?”, etc. Je krijgt dan gewoon een volgorde beginnend bij 1 en eindigend bij de laatste (de slechtste). Een simpele methode, maar die werkt prima, vooral als de beoordelaars achteraf ook moeten zeggen waarom ze 1, 2 en 3 de beste vonden en de laatste 3 de slechtste. Dat maakt de diverse beoordelingscriteria die er gehanteerd worden goed duidelijk.

1.2 De paarsgewijze vergelijking

Beoordelaars krijgen dan de opdracht op alle medewerkers met elkaar in paren te vergelijken. Ze bij elk paar dan steeds kiezen wie de beste is. Als je vijf medewerkers hebt: A, B, C, D en E, moet je dus de volgende 10 paren met elkaar vergelijken en dan steeds aangeven wie je de beste vindt:

A - B B - C C - D D - E

A - C B - D C - E

A - D B - E

A - E

Deze manier is “objectiever” dan een gewone rangorde, maar een probleem van deze methode is dat het aantal vergelijkingen dat je moet maken snel oploopt met het aantal te beoordelen mensen.

De formule waarbij je kunt berekenen hoeveel vergelijkingen je steeds moet maken is: ½ N ( N - 1 ).

N = het aantal te beoordelen mensen (of dingen). Bij 12 medewerkers moet je dan dus al 6 * 11 = 66 vergelijkingen maken en als je 20 medewerkers hebt, kom je al op 10 * 19 = 190 paarsgewijze vergelijkingen en dat is gewoon niet meer te doen.

1.3 De forced-choice (gedwongen keuze) methode

Bij deze methode moet je je groep medewerkers verdelen over een normaal-verdeling (ook wel Gausse kromme genoemd). Als je bijvoorbeeld 20 mensen moet beoordelen, kun je ze verdelen over de volgende categorieën:

1 die de beste van de groep is
2 die ver boven het gemiddelde presteren
4 die net boven het gemiddelde presteren
6 middenmoters
4 die net onder het gemiddelde presteren
2 die ver onder gemiddelde presteren
1 die verhoudingsgewijs het slechtst functioneert

2. Beoordelen met schaaltechnieken (meetlatten)

2.1 Beoordelingsschalen met schaalankers op quasi-intervalniveau

Voorbeeld van dit soort schalen als het gaat over de functie-eis ‘heeft visie en overzicht’:

Beoordelingscriterium: Heeft visie en overzicht

A. zeer weinig /weinig /normaal /veel /zeer veel

B. – – / – / normaal / + / + +

C. (weinig) 1 - 2 - 3 - 4 - 5 (veel)

Vooral wanneer er cijfers bij de schalen staan, wordt er een soort wiskundige nauwkeurigheid gesuggereerd: het lijkt net alsof het een objectieve meetlat is waar de beoordeelde langs gelegd wordt. De werkelijkheid is anders. Op de eerste plaats zal de ene beoordelaar onder de woorden "heeft veel visie” vaak iets anders verstaan dan de andere beoordelaar. Op de tweede plaats is de beoordelaar zelf in feite de meetlat. Een beoordelaar vergelijkt de beoordeelde vooral met zichzelf en komt dan tot een oordeel. Maar hoe kan een beoordelaar zonder een cent visie nou goed beoordelen of iemand veel visie heeft? Niet dus. “It takes one to pick one!”.

Een derde punt van kritiek is dat de suggestie gewekt wordt dat de afstanden tussen de verschillende meetpunten gelijk zijn, zoals dat bij een duimstok het geval is, maar in werkelijkheid is het middengebied (normaal of 3) heel smal en zijn de uiterste gebieden heel breed. Ofwel: het verschil tussen iemand met zeer veel visie en iemand met veel visie is veel groter dan het verschil tussen iemand die over een voor die functie normale portie visie beschikt en iemand die veel visie heeft.

In feite zijn de beoordelingsschalen zoals je ze hierboven ziet dus geen echte meetlatten, maar meettouwtjes van elastiek. Statistisch gezien zijn het dus ook geen metingen op ratio- of intervalniveau, maar zijn het slechts metingen op ordinaal niveau. Rangorde-metingen dus zoals de getallen waarmee je aangeeft in welke volgorde wielrenners over de finish komen. Daar kan het verschil tussen no. 1 en 2 bijv. maar 3 seconden zijn terwijl het verschil in aankomst tussen nr. 2 en 3 wel 5 minuten kan zijn met daarachter na 15 minuten een peloton met de nrs. 4 t/m 25. Optellingen en gemiddeldes berekenen van dit soort rangordeschalen is dus in feite nonsens!

2.2 Behaviour Anchored Rating Scales (BARS)

Om het probleem dat vage bewoordingen zoals “heeft veel visie” niet voor iedereen hetzelfde betekenen, heeft men de BARS ontwikkeld. Bij BARS wordt een poging gedaan om de beoordeling objectiever te maken door alle schaalankers (de termen als “heeft veel visie”) in ‘objectief waarneembaar’ gedrag te omschrijven. Dat helpt wel iets, maar het neemt de problemen van de elastiekmeting, het feit dat beoordelaars er stiekem subjectieve persoonlijke criteria in verwerken en het probleem van de beoordelingshorizon van de beoordelaar (niet goed kunnen beoordelen wat je zelf niet hebt, of bent) niet weg.

Bovendien kost het ontwerpen van dit soort systemen ontzettend veel tijd en geld en op het moment dat je er klaar mee bent, zijn de functies en functie-inhouden ondertussen meestal al weer zo sterk veranderd dat je het systeem op dat moment gelijk in de prullenbak kunt gooien, omdat het al weer verouderd is.

2.3 Grafische beoordelingsschalen

Bij grafische beoordelingsschalen staan er geen streepjes op de lijnen en vind alleen schaalankers aan de uiteinden van de beoordelingsschaal. De beoordelaars kunnen dan zelf kiezen waar ze op het lijntje het kruisje zetten. Men probeert zo te voorkomen dat de meeste kruisjes precies in de middencategorie terechtkomen.

Bijvoorbeeld:

Heeft totaal geen visie —––––––––––X–––– Heeft heel veel visie

2.4 Bekende personen als schaalanker

Een andere methode om te voorkomen dat de schaalankers multi-interpretabel zijn, is de beoordelingsschaal met personen als schaalankers. Het moet dan natuurlijk wel zo zijn dat alle beoordelaars de personen die als schaalanker gebruikt worden goed kennen.

Bijvoorbeeld: Heeft de zangkwaliteiten van:

Geert Wilders / Zangeres zonder naam / Marco Borsato / Pavarotti / Maria Callas

Bij de bovengenoemde 4 schaaltechnieken doen zich een aantal specifieke problemen voor. Deze zijn:

Het Halo-effect

Bij het Halo-effect gaat het om het verschijnsel dat een beoordelaar bij het invullen van een beoordelingsschaal beïnvloed wordt door het antwoord dat hij bij de voorafgaande vragen gegeven heeft. Als je als beoordelaar bij iemand al vier keer een kruisje in het +, of + + gebied hebt gezet, heb je de neiging om ook het volgende kruisje in, of vlakbij dat schaalanker te zetten. Als je dus bij een bepaald kenmerk eigenlijk een - - zou moeten scoren, wordt dat al gauw een - , of een ž.

Centrale tendentie

Centrale tendentie is de neiging om géén kruisjes in de uiterste gebieden (- - , of ++) te zetten, omdat dat directe consequenties voor de beloning, of het al dan niet doorgaan van een promotie kan hebben. Beoordelaars houden graag liever een slag om de arm.

Leniency (welwillendheid)

Leniency is de tendens om echt slechte beoordelingen uit de weg te gaan, of uit te stellen. Beoordelaars delen liever en eerder een ++ , dan een - - uit!

Stereotypering

Het uiterlijk van mensen kan een beoordeling sterk beïnvloeden. Iemand die er typisch uitziet als een intellectueel wordt niet zo gauw als ‘dom’ beoordeeld en andersom geldt precies hetzelfde; iemand met een oermens-achtig uiterlijk moet wel ontzettend intelligent zijn om ook werkelijk als ‘slim’ beoordeeld te worden.

3. Beoordelen met forced choice systemen

Deze beoordelingssystemen werken in feite hetzelfde als de rangorde-systemen, maar deze keer gaat het niet om een algemene indruk, maar specifieke gedragingen, of eigenschappen. Bij deze systemen moet de beoordelaar steeds kiezen uit een hele serie paarsgewijze, of in drie- of viertallen aangeboden items.

Bijv: “Onderstreep bij elk paar uitspraken de uitspraak die het meest van toepassing is”

1 - beschikt over een gezonde ambitie / neemt initiatieven

2 - heeft een goede schriftelijke uitdrukkingsvaardigheid / heeft visie

3 - heeft overwicht over een groep / beschikt over een gezonde ambitie

4. Groepsbeoordelingen (peer ratings)

Peer ratings zijn beoordelingssystemen waarbij de medewerkers elkaar beoordelen. Uit onderzoek blijkt dat intercollegiale beoordelingen zeer betrouwbaar zijn. Er is echter één klein probleempje: de onderlinge verhoudingen in een groep moeten wel van een zodanige kwaliteit zijn dat het kàn en dat komt niet zo vaak voor. In dat geval kan de beoordeling van een collega gebruikt worden om een openstaande rekening te vereffenen.

5. De critical incidents methode

Bij de ‘critical incidents’ (kritische gebeurtenissen) methode houdt de chef per medewerker een lijstje bij van opvallend goede en opvallend slechte prestaties. Deze gebeurtenissen worden in het beoordelingsgesprek aan de orde gesteld.

6. Via een onafhankelijke derde

Bij deze methode onderzoekt een onafhankelijke derde (een personeelsman, iemand van buiten, etc.) het gedrag en de kwaliteiten van de beoordeelde en maakt vervolgens al dan niet samen met de chef de beoordeling op. Deze methode is zeer arbeidsintensief en dus kostbaar en wordt daarom ook alleen gebruikt bij hoog gekwalificeerde functies.

7. Beoordelingspanels

Wanneer iemand beoordeeld wordt door meer dan één chef, spreken we van een beoordelingspanel. Beoordelingen door een panel zijn betrouwbaarder dan de beoordeling door slechts één chef, maar je kunt dat systeem alleen goed toepassen in een projectorganisatie waarbij een medewerker in een aantal projecten of teams meedraait.

Tenslotte: hoe goed is een beoordelingssysteem?

Hoe goed een beoordelingssysteem is, wordt bepaald door twee factoren, de betrouwbaarheid en de validiteit.

Betrouwbaarheid = hoe nauwkeurig meet het systeem?
Een meetlat met alleen maar centimeter-streepjes is minder betrouwbaar als een meetlat met een milimeteraanduiding. Als je bij het scoren van de aanwezigheid van een bepaalde eigenschap van iemand alleen maar kunt kiezen uit ja / nee, is die meetmethode te grof. Maar dat scoren met een 10-puntsschaal is onzin.

Betrouwbaarheid heeft ook te maken met de interpersoonlijke overeenstemming. In feite moet het niet uitmaken of Jan, Petra, of Achmed de beoordeling opmaakt, maar dat is natuurlijk bijna nooit het geval.

Verder moet volgens de natuurwetenschappelijke regels een meting hetzelfde resultaat opleveren als je het later onder dezelfde omstandigheden nog eens over doet, maar dat is bij mensen natuurlijk lang niet altijd het geval, c.q. mogelijk, want mensen veranderen soms heel snel van mening.

Validiteit = hoe goed meet het systeem wat het moet meten?
Een mutiple-choice tentamen meet bijvoorbeeld behalve kennis ook lees- en taalvaardigheid. Als de lees- en taalvaardigheid binnen de studentengroep onderling niet veel verschilt, is dat niet erg, maar als er binnen de studentenpopulatie wat dat betreft wel grote verschillen zijn, is het tentamen niet valide, omdat het gemeten kennisniveau bij de mensen met minder taalvaardigheid dan altijd lager zal zijn dan in werkelijkheid het geval is.

CONCLUSIE VAN DIT ALLES
Beoordelen met systemen blijft tobben. Tenzij je gewoon het feit accepteert dat objectief beoordelen van mensen nou eenmaal niet goed mogelijk is omdat we het dan niet over kwantiteiten, maar over kwaliteiten hebben en dat is een andere planeet, een andere werkelijkheid met andere regels en andere wetmatigheden. Dan blijft alleen het gesprek van persoon tot persoon over met maar 2 vragen: "Hoe vind je dat ik functioneer? Zal ik jou daarna vertellen wat ik vind van jouw functioneren?"