Automatische beoordeling van openvragententamens bij de faculteit Bedrijfskunde

(1)

Automatische beoordeling

van openvragententamens

bij de faculteit Bedrijfskunde

(2)

Automatische beoordeling

van openvragententamens

bij de faculteit Bedrijfskunde

Afstudeeronderzoek voor de studie

Technische Bedrijfswetenschappen aan de

RijksUniversiteit Groningen

Door: Henk van Biessum Studentnummer:1270516 Email: hvbiessum@gmail.com Begeleiders: dr. G.H. Kruithof dr. T.W. de Boer Versie 1.0 20 augustus 2007

(3)

Deze scriptie is geschreven als afstudeerverslag voor de studie Technische Bedrijfswetenschappen richting Informatie Technologie. Het is het eindresultaat van een lange afstudeerperiode, waarin niet alles mee heeft gezeten. Uiteindelijk is het toch gelukt een wetenschappelijk onderzoek op te zetten en uit te voeren. Het resultaat hebt u nu voor u. Met dit onderzoek geef ik u inzicht in de mogelijkheden van automatische beoordeling van antwoorden op openvragen tentamens. Ik hoop dat de resultaten gebruikt zullen worden om het onderwijsproces binnen de faculteit te verbeteren. Met de geteste systemen moet dit namelijk mogelijk zijn.

Het was leuk en interessant om dit onderzoek uit te voeren, omdat de mensen op wie de resultaten van invloed kunnen zijn betrokken waren en nieuwsgierig naar het resultaat.

Graag wil ik bij deze mijn begeleiders Gert Kruithof en Thomas de Boer bedanken voor de tijd die ze in mijn begeleiding hebben gestoken. Steeds weer wisten ze op positieve wijze de nodige tips te geven om het onderzoek tot een goed einde te brengen. Ook wil ik Eja, mijn aanstaande, bedanken voor de hulp en ondersteuning die ze me geboden heeft in de lange periode van afstuderen. Tevens ben ik mijn God en Vader dankbaar voor de gaven en kracht die hij mij gegeven heeft om dit onderzoek uit te voeren.

Henk van Biessum

(4)

Samenvatting

Dit onderzoek behelst een antwoord te geven op de vraag wat het effect is van toepassing van huidige AEG systemen op de efficiëntie en kwaliteit van het beoordelen van openvragen. Ook wil het een advies uitbrengen over welk systeem het beste bij de faculteit Bedrijfskunde van de Rijksuniversiteit Groningen gebruikt kan worden en welke consequenties dat met zich meebrengt.

Na aanleiding van het Diagnose, Ontwerp, Veranderingsmodel van De Leeuw is in hoofdstuk 3 eerst de probleemsituatie beschreven waaruit naar voren kwam dat er een oplossing gezocht moest worden voor de hoeveelheid tijd die docenten in het beoordelen van antwoorden op openvragen moeten steken. Als oplossing daarvoor is het mogelijk minder hoog opgeleid personeel in te zetten of gebruik te maken van automatische beoordelingssystemen (AEG systemen).

In hoofdstuk 2 was al beschreven wat in de literatuur genoemd wordt als voordelen van AEG systemen. Dergelijke systemen zijn in staat om de hoeveelheid tijd die een docent moet stoppen in het beoordelen van de antwoorden op openvragen sterk in te korten, waardoor het proces efficiënter uitgevoerd kan worden. Tegelijk zorgt de toepassing van een AEG systeem ervoor dat er een consistente beoordeling plaatsvindt. De vergissingen die door een docent gemaakt kunnen worden zullen daardoor opgemerkt worden of niet meer plaatsvinden.

In de hoofdstukken 4, 5 en 6 is het onderzoek beschreven dat is uitgevoerd naar de verschillende AEG systemen. In hoofdstuk 4 blijkt dat er twee systemen zijn die toegepast zouden kunnen worden bij de faculteit Bedrijfskunde: CODAS en SAGrader.

In hoofdstuk 5 blijkt dat de meeste aandachtspunten die voor het selecteren van belang zijn voldoende scoren bij de systemen. Zo zijn de prestaties van de systemen voldoende, zijn ze begrijpelijk in gebruik en lijken de leveranciers betrouwbare partners. De kosten lijken voor CODAS wel hoog uit te vallen.

Bij het testen van de systemen, zoals beschreven in hoofdstuk 6, blijken ook de resultaten wat betreft overeenkomst tussen docenten systeemscore tegen te vallen. Vanuit het gevoerde onderzoek zijn hier wel enkele redenen voor aan te dragen, zodat het nodig zal zijn een verder onderzoek uit te voeren naar de mogelijkheden en beperkingen van CODAS en SAGrader. Dit onderzoek zal moeten gebeuren door geïnteresseerde docenten, die over alle voor het tentamen benodigde inhoudelijke kennis bezitten.

Als in hoofdstuk 7 aanbevelingen gedaan moeten worden, blijkt dit ook tot de kern daarvan te behoren. Er zullen nog enige verdere testen uitgevoerd moeten worden met SAGrader en CODAS. Dit zou goed mogelijk zijn door ze toe te passen voor formatieve tussentijdse toetsen. Daardoor kan ervaring opgedaan worden en kennis opgebouwd worden over de mogelijkheden en onmogelijkheden van de systemen. AEG systemen bieden door gebruik bij formatieve toetsing de student en docent een hulpmiddel om op efficiënte wijze de kennis tussentijds te toetsen.

Beide systemen kunnen mogelijk voor summatieve (eind)toetsing gebruikt worden. De wijze van beoordelen door SAGrader sluit daarvoor het beste aan bij die van de huidige werkwijze binnen de faculteit Bedrijfskunde.

Wanneer de systemen voor summatieve toetsing gebruikt zullen worden moet er wel zorg gedragen worden voor voldoende faciliteiten in de vorm van tentamenruimte met computers en beperking van brongebruik. Docenten zullen hun werkwijze op die van het te gebruiken AEG systeem moeten laten aansluiten, wat mogelijk beperkingen geeft aan het type vragen dat gebruikt wordt. Voor SAGrader zullen ze ook meer tijd moeten steken in de ontwikkeling van een gedetailleerd antwoordmodel. Er zal ook rekening gehouden moeten worden met studenten die over mindere typvaardigheden beschikken.

(5)

Inhoudsopgave

Voorwoord ... 3 Samenvatting ... 4 Inhoudsopgave... 5 Inleiding... 8 Aanleiding... 8

Computer gebaseerde hulpmiddelen... 8

Organisatie RuG... 9

AEG binnen de RuG ... 9

AEG in Nederland... 9 Toetsing ... 10 Conclusie... 10 1. Onderzoeksopzet ... 11 1.1. Doelstelling... 11 1.2. Vraagstelling... 11 1.3. Conceptueel model ... 11 1.4. Deelvragen... 12 1.5. Vooronderstellingen ... 12 1.6. Onderzoeksgrenzen... 12 1.7. Onderzoeksmethoden ... 13 2. Theorie... 14 2.1. DOV-Model... 14 2.1.1. Diagnose... 14 2.1.2. Ontwerp ... 15 2.1.3. Verandering... 16 2.2. Pakketselectie ... 16 2.2.1. Voor en nadelen... 16

2.2.2. Aandachtpunten voor pakketselectie... 16

2.2.3. Aandachtspuntenoverzicht ... 18

2.3. AEG systemen ... 19

2.3.1. Ontstaan van AEG systemen... 19

2.3.2. Het ideale systeem... 19

2.3.3. Voordelen en beperkingen van AEG systemen... 20

2.4. Gebruikte technieken bij AEG systemen... 20

2.4.1. Latente Semantische Analyse... 21

2.4.2. Natural Language Processing... 21

2.4.3. Bayesiaanse statistische analyse... 21

2.4.4. Domeinmodel analyse ... 22

3. Toetsing binnen de faculteit Bedrijfskunde... 23

3.1. Verdieping van de situatie ... 23

3.2. Het Primaire proces ... 24

3.3. Probleemhebbersanalyse... 27 3.3.1. De betrokkenen... 27 3.3.2. De problemen ... 27 3.3.3. Het onderzoeksprobleem... 28 3.4. Requirements ... 28 3.5. Oplossingsmogelijkheden... 30

3.5.1. Vervanging door personeel ... 30

(6)

3.5.3. Conclusie... 31

4. AEG systemen... 32

4.1. De systemen... 32

4.1.1. Gebrek aan informatie ... 32

4.1.2. Gestopt in ontwikkeling ... 32

4.1.3. Systemen die zijn opgegaan in nieuwere versies ... 33

4.1.4. Werkende maar ongeschikte systemen... 33

4.1.5. Systemen in ontwikkeling ... 34

4.1.6. Potentiële systemen ... 35

4.1.7. Nagekomen systemen... 36

4.2. Conclusie ... 36

5. CODAS en SAGrader in detail ... 38

5.1. CODAS... 38 5.1.1. Geschiedenis CODAS ... 38 5.1.2. Kenmerken CODAS... 38 5.1.3. Mogelijkheden CODAS ... 41 5.1.4. Conclusie CODAS ... 44 5.2. SAGrader ... 44 5.2.1. Geschiedenis SAGrader ... 44 5.2.2. Kenmerken SAGrader ... 44 5.2.3. Mogelijkheden SAGrader... 48 5.2.4. Conclusie SAGrader... 49 5.3. Kostenbaten analyse ... 50

5.3.1. Kosten huidig systeem... 50

5.3.2. Kosten en baten CODAS... 50

5.3.3. Kosten en baten SAGrader ... 50

6. Testen... 52 6.1. Testcriteria ... 52 6.2. Testmateriaal... 53 6.2.1. Vereisten... 53 6.2.2. Gekozen tentamens... 53 6.2.3. Type openvragen ... 53 6.2.4. Testomvang ... 54 6.2.5. De antwoordmodellen ... 54 6.3. CODAS... 54 6.3.1. Testopzet CODAS... 54 6.3.2. Testresultaten... 56 6.3.3. Conclusie CODAS ... 58 6.4. SAGrader ... 58 6.4.1. Testopzet SAGrader ... 58 6.4.2. Testresultaten: ... 59 6.4.3. Conclusies SAGrader ... 61 6.5. Conclusie ... 61 7. Conclusie ... 63

7.1. Effecten van AEG systemen... 63

7.2. Het beste systeem ... 63

7.3. Veranderingen... 64

7.4. Aanbevelingen ... 64

7.4.1. Testen van CODAS en SAGrader bij gebruik voor tussentijdse toetsing... 64

(7)

7.4.3. Mogelijkheden onderzoeken IAT... 65 7.4.4. Blijven volgen van ontwikkelingen systemen... 65 Literatuurlijst ... 66

(8)

Inleiding

In deze inleiding wordt beschreven wat de aanleiding is van het onderzoek naar automatische beoordelingssystemen voor open vragen. Er zal kort uiteengezet worden welke computer gebaseerde hulpmiddelen er zijn voor het beoordelen van tentamens. De organisatie waar binnen de vraag gesteld is zal beschreven worden om de context van de vraag helder te krijgen. Vervolgens wordt beschreven welke kennis er al is binnen de organisatie en zal kort weergegeven worden wat er in Nederland aan ontwikkelingen plaatsvindt op het gebied van gebruik en ontwikkeling van automatische beoordelingssystemen. Tot slot zal besproken worden waarvoor de hulpmiddelen gebruikt kunnen worden, waarna er nog een conclusie volgt.

Aanleiding

De faculteit bedrijfskunde van de Rijksuniversiteit Groningen is voor een deel een onderwijs instelling die als doel heeft studenten kennis bij te brengen. Hiervoor worden er een grote verscheidenheid aan cursussen gegeven. Aan het eind van elke cursus wordt de opgedane kennis getest om het kennisniveau van de student te bepalen. De toetsing kan plaatsvinden door het maken van een opdracht of een tentamen. Tentamens worden in velerlei soorten en maten gegeven. De vragen die gesteld worden kunnen zowel open als gesloten zijn. Bij open vragen moet een student zelf een antwoord formuleren. Bij gesloten vragen heeft de student de keuze uit een aantal vooraf geformuleerde antwoordmogelijkheden.

Hoewel het tentamineren geen primair proces is, het draagt niet bij aan kennisoverdracht, is het wel een noodzakelijk proces, omdat het ter controle dient van het onderwijs.

De aanleiding voor dit onderzoek is de vraag van enkele docenten uit de basiseenheid Bestuurlijke Informatiekunde naar de mogelijkheden voor automatische beoordeling van open vragen tentamens. De vraag voor dit onderzoek is zowel technologie technologisch gedreven als ontstaan vanuit de organisatie.

Systemen voor automatische beoordeling bestaan, maar daar is binnen de universiteit nog weinig kennis van genomen. De docenten die erover gehoord hebben zouden graag te weten komen wat voor systemen er zijn en wat de mogelijkheden ervan zijn.

Tegelijk komt vanuit de organisatie de vraag naar een oplossing voor de tijd die het kost om openvragen te beoordelen. Docenten zouden graag open vragen gebruiken, omdat hierbij niet alleen herkenning maar ook parate kennis wordt getoetst, maar maken er geen gebruik van omdat het teveel tijd kost. Ook het faculteitsbestuur zou graag zien, mede door visitatieadviezen, dat er meer gebruik gemaakt wordt van openvragen. De multiplechoise tentamens zijn volgens de visitatiecommissie namelijk te weinig uitdagend (QANU 2004).

Computer gebaseerde hulpmiddelen

Voor hulp bij het beoordelen bestaan meerdere soorten systemen. Naast systemen die antwoorden volledig automatisch kunnen beoordelen bestaan er systemen die het beoordelingsproces kunnen ondersteunen. Dat zou kunnen door spreadsheets waarmee scores toegekend kunnen worden, totaalscores kunnen worden bepaald, enzovoort. Of door geavanceerdere systemen die het handmatig beoordelen structureren en sturen. Deze hulpmiddelen vallen echter buiten het onderzoek.

Automated Essay Grading (AEG) systemen zijn systemen die na geïnitieerd te zijn automatisch een openvragen tentamen kunnen beoordelen.

(9)

Organisatie RuG

Aan de Rijksuniversiteit Groningen studeren 22.000 studenten bij 10 faculteiten. Met de vele studenten en vakken zou er dus een aardig potentieel zijn voor automatische beoordelingssystemen voor open vragen. Binnen dit onderzoek wordt echter specifiek naar de mogelijkheden van toepassing binnen de faculteit bedrijfskunde gekeken.

De universiteit wordt bestuurd door het College van Bestuur. Over onderwijsaangelegenheden wordt zij geadviseerd door de Universitaire Commissie voor het Onderwijs (UCO). De faculteiten worden bestuurd door de faculteitsbesturen, die verantwoording verschuldigd zijn aan het College van Bestuur. Binnen de faculteit bedrijfskunde is er het Bureau Onderwijszaken (BOZ) dat het onderwijsproces binnen de faculteit ondersteund. De afdeling Onderwijsbeleid en Kwaliteitszorg daarvan heeft onder andere als taak om zich bezig te houden met ICT in het onderwijs.

Het Universitair Onderwijskundig Centrum Groningen (UOCG) is de onderzoeksafdeling van de RuG die zich richt op kwaliteitsverbetering van het onderwijs in brede zin. De afdeling Organisatie van het Onderwijs richt zich onder andere op de toetsondersteuning. Binnen ‘Beoordelen en Toetsen’ verleent het UOCG diensten, adviseert en doet onderzoek bij het verwerken van meerkeuze tentamens en bij het ontwikkelen en verbeteren van de kwaliteit van toetsen en toetsproces. Het UOCG kan adviezen geven richting faculteiten of het bestuur van de Universiteit.

AEG binnen de RuG

Het UOCG heeft in 2001 een pilot uitgevoerd met CODAS, om de prestaties te onderzoeken. CODAS is een Nederlands beoordelingssysteem dat afkomstig is van de Universiteit van Rotterdam. De pilot is uitgevoerd bij de studie biomedische wetenschappen. Drie andere benaderde faculteiten waaronder rechten en bedrijfskunde waren er niet echt in geïnteresseerd. Uit de pilot bij de studie biomedische wetenschappen kwam een correlatie van 0.65 met de beoordeling van de docenten. Deze overeenkomst tussen systeemscore en de score van de docent werd te laag bevonden voor eventuele toepassingen.

Na de pilot heeft het UOCG de prioriteiten verlegd en hebben ze zijdelings de ontwikkelingen van automatische beoordelingssystemen gevolgd. Naast CODAS hebben ze verder geen kennis van andere systemen. De prioriteiten van het onderzoek zijn meer komen te liggen bij manieren waarop ict de toetsing kan ondersteunen. Vervanging van de docentenbeoordeling door systemen wordt gezien als het eindpunt van de ontwikkeling naar volledige vervanging van de docentbeoordeling. Dit lijkt hen nog te ver weg.

Het UOCG is geïnteresseerd in de stand van zaken en de toekomstige ontwikkelingen van AEG systemen. Ook zijn ze geïnteresseerd in de mogelijkheden om de systemen op een andere wijze voor ondersteuning toe te passen.

AEG in Nederland

Over het gebruik van AEG systemen binnen het onderwijs in Nederland is maar weinig bekend. Bij overkoepelende onderwijsorganisaties als de Surf Foundation die zich bezig houdt met innovatieve ICT-voorzieningen in het onderwijs lijkt het niet echt een issue te zijn. Op de website is er niets over te vinden en ook de medewerkers zijn niet op de hoogte van automatische beoordelingssystemen voor het beoordelen van de antwoorden op openvragen. Van de Digitale Universiteit is in 2004 een handboek verschenen over ‘flexibilisering van Toetsing’ waarin een aantal systemen besproken worden (Draaijer 2004). Over de besproken systemen werd een negatief advies gegeven. Ze zouden niet geschikt zijn voor certificerende doeleinden, of te hoge inversteringskosten met zich meebrengen. Er zou gewacht moeten worden tot de systemen verder ontwikkeld zouden zijn.

(10)

Een onderzoek van Van Bruggen dat geschreven is voor de Open Universiteit was positiever over de daarin beschreven systemen (Van Bruggen 2002). Hij beveelde aan met CODAS te experimenteren als nakijkhulp en de SLA-techniek, die gebruikt wordt bij IEA, nader te onderzoek op interactiemogelijkheden met de student. Er is niet terug te vinden of er ook wat met het rapport is gedaan.

Het enige systeem voorzover het tijdens dit onderzoek naar voren is gekomen, dat in Nederland toegepast wordt is CODAS. Daar wordt onder andere binnen de Erasmusuniversiteit Rotterdam mee gewerkt.

Toetsing

Binnen de wijze van toetsing zijn een aantal aspecten te onderscheiden. Deze zullen hier kort besproken worden, zodat helder is waarover dit onderzoek zal gaan en waarover niet.

Toetsing kan op verschillende momenten in het lesprogramma gebruikt worden (Van Berkel, 2006):

- voortgangstoetsing tijdens het lesprogramma, ook wel formatieve toetsing genoemd

- beoordelingstoetsen na afloop van het lesprogramma, ook wel summatieve toetsing

genoemd.

De vraag vanuit de docenten heeft betrekking op de summatieve toetsing, daar zal het onderzoek dan ook op gericht zijn.

Er bestaan verschillende wijzen van toetsing. Het belangrijkste onderscheid dat gemaakt wordt is die tussen open en gesloten vragen. Open vragen kunnen aanvulvragen of essayvragen zijn. Bij gesloten vragen heb je de keuze uit meerdere gegeven antwoordalternatieven. Het onderzoek gaat zich richten op de essayvragen aangezien dat de vragen zijn waardoor de vraag naar dit onderzoek is ontstaan.

Conclusie

Enkele docenten aan de faculteit bedrijfskunde van de RuG willen meer weten over de mogelijkheden voor het automatisch beoordelen van open vragen. Binnen de faculteit en universiteit is hierover weinig kennis beschikbaar. In Nederland lijkt op het eerste gezicht nog maar weinig ervaring te zijn met AEG systemen. Wel zijn er bij verscheidende instellingen rapporten verschenen. Deze gaven aan dat de systemen nog niet ver genoeg gevorderd waren. Voor de universiteit kan aan kennisopbouw gedaan worden, gekeken worden hoever de huidige ontwikkelingen zijn en advies gegeven worden over eventuele aanschaf van een systeem.

(11)

1. Onderzoeksopzet

In dit hoofdstuk wordt eerst de doelstelling en vraagstelling weergegeven. Daarna worden de vooronderstellingen besproken en de afbakeningskeuzes. In het conceptueel model staan de elementen en relaties die voor het onderzoek van belang zijn. Daarna volgt de vraagstelling.

1.1. Doelstelling

De doelstelling specificeert wat de opdrachtgever van de onderzoeker kan verwachten (het ‘contract’ tussen opdrachtgever en onderzoeker). In de doelstelling wordt vastgelegd (1) over welk probleemsysteem de onderzoeksuitkomsten gaan, en (2) welk type product het onderzoek moet opleveren. De doelstelling is het instrument waarmee het onderzoek qua functie en vorm van de uitkomsten (niet qua inhoud van de uitkomsten) geëvalueerd kan worden (Verschuren 1986).

De doelstelling voor dit onderzoek luidt als volgt:

Zorgdragen voor kennisopbouw met betrekking tot AEG systemen bij de faculteit bedrijfskunde en evalueren welk AEG systeem daar het beste gebruikt zou kunnen worden.

1.2. Vraagstelling

Als vraagstelling in geformuleerd:

Wat is het effect van toepassing van de huidige AEG systemen op de efficiëntie en kwaliteit van het beoordelen van open vragen? Welk AEG systeem kan het beste worden toegepast bij de faculteit bedrijfskunde en welke consequenties brengt dat met zich mee?

1.3. Conceptueel model

Het conceptueel model geeft de elementen van het onderzoek en de onderlinge relaties weer.

Het onderzoek richt zich op het effect dat een AEG systeem heeft op de efficiëntie en kwaliteit van het beoordelen. Een AEG systeem kent daarbij een aantal attributen te weten: technologie, randvoorwaarden, prestaties, functionaliteiten en kosten.

Efficiëntie van het beoordelen heeft alles te maken met tijd en kosten die voor het beoordelen nodig zijn. Bij kwaliteit kan gedacht worden aan de objectiviteit, onderbouwing en juistheid van de beoordeling. Wat er binnen het onderzoek precies onder wordt verstaan komt aan bod bij deelvraag 4.

Naast effecten op de efficiëntie en de kwaliteit zal een AEG systeem ook effect hebben op andere zaken. Deze zijn nog niet duidelijk, maar zullen dat gedurende het onderzoek wel worden. AEG systeem - technologie - randvoorwaarden - prestaties - functionaliteiten - kosten Beoordelen - efficiëntie - kwaliteit

(12)

1.4. Deelvragen

1. Hoe wordt er binnen de faculteit bedrijfskunde gewerkt bij het beoordelen van open

vragen?

2. Welke AEG systemen zijn er en wat zijn hun kenmerken?

3. Welke AEG systemen zijn relevant om onderzocht te worden binnen de RuG?

4. Wat wordt er verstaan onder de efficiëntie en kwaliteit van het beoordelen?

5. Wat is het effect van de systemen op de efficiëntie en de kwaliteit van het beoordelen?

6. Wat zijn de kosten en baten van een systeem?

1.5. Vooronderstellingen

1. Op dit moment wordt uitgegaan dat alle openvragententamens gelijk benaderd kunnen

worden. Er zijn, naast de taal van het antwoord en de lengte van de antwoorden, geen wezenlijke verschillen tussen de openvragententamens van de ene docent en de andere binnen bedrijfskunde of binnen verschillende faculteiten. Door met een paar docenten gesproken te hebben kan dus al een algemeen beeld verkregen worden van de toepassing en gebruik van open vragen.

2. Open vragen verhogen de kwaliteit van de toetsing ten opzichte van gesloten vragen.

3. Open vragen worden minder vaak toegepast dan wenselijk in verband met de

tijdsinvestering die het beoordelen met zich meebrengt.

4. Dat wat met het eventuele nieuwe systeem bereikt zou moeten worden is een

verbetering van de efficiëntie en de kwaliteit. Het systeem dat daar het beste in presteert moet geadviseerd worden. Verdere aanpassingen zoals verandering van werkwijze, investeringen in apparatuur en licenties zijn van ondergeschikt belang, die zouden de RuG en de docenten graag willen doen ten behoeve van de efficiëntie en kwaliteitsverbetering.

1.6. Onderzoeksgrenzen

- Systemen gebruiken mogelijk andere criteria voor de beoordeling van een tentamen

dan docenten. Dit kan gevolgen hebben voor de kwaliteit van de beoordeling. Binnen dit onderzoek zal echter niet gekeken worden welke methode beter is maar of de beoordeling van een AEG-systeem tot een vergelijkbaar resultaat komt als een docent. Dit laatste is een veelvoudig toegepaste maatstaf in onderzoek naar AEG-systemen en onderzoek naar beoordelingscriteria ligt niet in de lijn met de doelstelling van dit onderzoek. De eerste is namelijk meer onderwijskundig terwijl dit onderzoek technologisch gericht is.

- Dit onderzoek is gericht op kennisverwerving van de mogelijkheden en gevolgen van

AEG-systemen. De beschrijving van eventuele invoering van een systeem valt buiten het onderzoek.

- Het onderzoek kan adviseren een systeem in te voeren, niet in te voeren of aangeven

op welke ontwikkelingen de komende tijd gelet moet worden en door wie dat het beste kan gebeuren.

- Het proces van tentamineren bestaat uit het opstellen van de vragen en de

beoordelingscriteria, het afnemen en beoordelen van het tentamen en het administreren van de beoordeling. Een AEG-systeem zou ingevoerd kunnen worden om het gehele proces van de tentaminering te verbeteren of alleen het beoordelingsproces.

In de praktijk zullen er gevolgen zijn voor het hele tentamineringsproces, maar in eerste instantie zal worden onderzocht welk systeem het beste presteert in het beoordelen. De gevolgen op de andere tentamineringsprocessen zullen daarna worden onderzocht en beschreven.

(13)

Of dit uitgangspunt terecht is zal nog moeten blijken tijdens het onderzoek als duidelijk wordt op welke processtappen de systemen ingrijpen.

1.7. Onderzoeksmethoden

Deelvraag 1: interviews met een aantal docenten, informatie van de website van de RuG en enkele bij de RuG betrokken instanties.

Deelvraag 2: Voor het beantwoorden van het eerste deel van deelvraag 2 is gebruik gemaakt van een literatuuronderzoek. Daarnaast is er ook onderzoek gedaan op de websites van de leveranciers van AEG systemen. Voor de inventarisatie van de kenmerken is waar mogelijk ook een interview gehouden met de leverancier. Voor de systemen waarvan de kenmerken verder onderzocht moesten worden is een uitgebreider interview gehouden met de leverancier en waar mogelijk ook met de gebruikers.

Deelvraag 3: literatuuronderzoek Deelvraag 4: literatuuronderzoek

Deelvraag 5: literatuuronderzoek en analyse door middel van testen Deelvraag 6: analyse van onderzoeksresultaten

(14)

2. Theorie

Dit tweede hoofdstuk zal de theoretische basis leggen voor het onderzoek. In de eerste twee paragrafen zal ik ingaan op de theorie over de wijze waarop de probleemsituatie aangepakt kan worden. De laatste twee paragrafen geven informatie weer over de AEG systemen. Hiermee zal een begin gemaakt worden met het beantwoorden van de tweede deelvraag:

Welke systemen zijn er en wat zijn hun kenmerken?

In dit hoofdstuk wordt in de eerste paragraaf het Diagnose, Ontwerp, Veranderingsmodel (DOV-Model) van De Leeuw beschreven. Omdat het onderzoek zich in de ontwerpfase toe zal gaan spitsen op het selecteren van een softwarepakket, wordt in de tweede paragraaf de theorie over pakketselectie beschreven.

De derde paragraaf beschrijft wat er in de literatuur over AEG systemen is gepubliceerd, waarna in de vierde paragraaf enkele technieken beschreven worden die gebruikt worden bij AEG systemen.

2.1. DOV-Model

De vraag waaruit dit onderzoek voortkomt kan gezien worden als een bedrijfskundig probleem dat opgelost moet worden. De Leeuw beschrijf in het boek Bedrijfskundig Management (De Leeuw 2000) een model aan de hand waarvan bedrijfskundige problemen aangepakt kunnen worden. Het is een algemeen model dat voor veel soorten bedrijfskundige problemen gebruikt kan worden. De Leeuw onderscheid drie fasen, het diagnosticeren, ontwerpen en veranderen die in een iteratief proces moeten worden. Dergelijke fasen komen ook voor in de System Life Cycle theorie waarin het ontwikkelingsproces beschreven wordt van softwaresystemen (Laudon and Laudon 2000; McLeod and Schell 2001; Kruchten 2003). Binnen dit onderzoek is gekozen voor de theorie van De Leeuw, aangezien de aard van de problemen die aan dit onderzoek ten grondslag liggen niet specifiek softwarematig zijn.

2.1.1. Diagnose

Bij het diagnose proces gaat het volgens De Leeuw om het transformeren van een vage probleemsituatie in een welomschreven organisatieprobleem. Hierbij wordt beschreven wie de probleemhebbers zijn, wat hun problemen zijn, hoe ze samenhangen, wat de omgeving is en hoe de probleemhebbers hun realiteit zien. Voor het ontwerpen van een oplossing hoort bij de diagnose ook het omschrijven van een Programma van Eisen (PvE); in andere literatuur requirements genoemd.

Soorten diagnoses

De Leeuw beschrijft vier karakters die diagnoses kunnen hebben: breed of smal, met of zonder voorafgaande probleemsignalen, met of zonder referentiemodel en specifiek of algemeen.

In het geval problemen verklaard dienen te worden kan een brede diagnose worden uitgevoerd. Vaak is alleen de bepaling voldoende. Dan wordt er gesproken van een smalle diagnose. Bij een voorafgaande probleemindicatie kan de situatie systematisch bekeken worden. Ontbreekt die, dan moet er in de situatie gezocht worden naar aanwezige problemen. Om een subjectieve kijk op de situatie te voorkomen kunnen expliciete referentiemodellen gebruikt worden. Daarnaast zou de diagnose gericht kunnen zijn op de gehele situatie of op een specifiek aspect ervan.

(15)

Diagnose fases

De Leeuw identificeert vier deel-activiteiten binnen de diagnosefase: pluriform kijken, beoordelen, beschrijven en analyseren.

Bij het pluriform kijken is het belangrijk om een compleet beeld te krijgen van de probleemsituatie. Hiervoor wordt het primaire proces beschreven, de organisatie vanuit verschillende (functionele)perspectieven benaderd en wordt er een probleemhebbersanalyse en/of belanghebbendenanalyse uitgevoerd, om de invalshoeken van de betrokkenen te achterhalen.

Een model dat gebruikt kan worden voor het creëren van een pluriforme kijk op een probleemsituatie is de Balanced Scorecard (Kaplan and Norton 1996). In de Balanced Scorecard zijn belangrijke beoordelingsdimensies van een organisatie weergegeven. De vijf dimensies zijn: visie en strategie, financieel, afnemers, internet bedrijfsvoering en leerresultaten en groei. De Balanced Scorecard zal bij het stellen van de diagnose gebruikt worden in hoofdstuk 3.1.

Het primaire proces kan overzichtelijk worden beschreven in de vorm van use-cases (Larman 2002). Hierbij wordt aan elk van de bij het proces betrokken actoren de achtereenvolgende handelingen beschreven. Voorafgaande aan dit handelingsoverzicht wordt beschreven wie de actoren zijn, wat de uitgangssituatie is en wat het doel is van het handelen. In hoofdstuk 3.2 zal de use-case voor de onderzoekssituatie beschreven worden.

Bij beoordelen gaat het erom een duidelijk omschreven probleem naar voren te krijgen uit het geheel aan problemen. Hiervoor kan een belanghebbenden- of ook de probleemhebbersanalyse gebruikt worden. Er moet beschreven worden welk deel van de organisatie aangepakt moet worden en hoe dat systeem werkt. De probleemhebbersanalyse is uitgewerkt in hoofdstuk 3.3.

Bij de analyse wordt de beschrijving van het systeem gegeven en een oordeel daarover waarbij ook beschreven wordt wat de eisen en wensen zijn voor het systeem. Het resultaat van de diagnosefase is een specificatie in functionele termen van het te (her)ontwerpen systeem. Daarnaast kunnen ook randvoorwaarden worden gespecificeerd.

Een overzicht van aandachtspunten betreffende de te stellen eisen en wensen wordt beschreven in de volgende paragraaf. In hoofdstuk 3.4 zullen de eisen en wensen van de faculteit bedrijfskunde beschreven worden die gelden voor de oplossing van de probleemsituatie.

2.1.2. Ontwerp

De tweede stap van het DOV-model van De Leeuw is het ontwerp. Hij omschrijft het ontwerpen als het uitvinden van hoe de black box van binnen in elkaar moet zitten om het gespecificeerde externe gedrag te vertonen waarbij rekening wordt gehouden met de randvoorwaarden.

Het ontwerpen is een creatief proces waarbij oplossingen bedacht moeten worden. Hierbij kan gebruik gemaakt worden van de oorzaken van het probleem, door denkbeelden van betrokkenen, door brainstorming, door elders te kijken of gebruik te maken van ontwerptheorie.

Wanneer er alternatieve oplossingen zijn gegenereerd, moet er worden getoetst en gekozen aan de hand van de specificaties.

Wanneer een softwarepakket als oplossing kan dienen, dan bestaan er verschillende methoden om in dat pakket te voorzien (Laudon and Laudon 2000; Dennis 2006):

- Eigen ontwikkeling (via de traditionele levenscyclus, prototyping of end-user

development) - Pakket selectie

(16)

- Uitbesteding

Aangezien het binnen de RuG aan technische kennis over het automatisch beoordelen ontbreekt zal in dit onderzoek de optie ‘eigen ontwikkeling’ buiten beschouwing worden gelaten. Voor het ontwikkelen van software zal op zoek gegaan worden naar een leverancier die een gewenst pakket kan leveren of een aan wie de processen uitbesteed kunnen worden. Wat de theorie schrijft over pakketselectie is beschreven in de volgende paragraaf.

De alternatieve oplossingen worden besproken in de laatste paragraaf van hoofdstuk 3. In de hoofdstukken 4 tot en met 6 worden vervolgens de oplossingen getoetst. De keuze voor een oplossing valt in hoofdstuk 7.

2.1.3. Verandering

De laatste fase is de verandering. Door de gekozen oplossing toe te passen moet de probleemsituatie veranderen in een verbeterde situatie. Er zijn vele factoren die van invloed zijn op de verandering. De Leeuw geeft enkele modellen die inzicht geven in die factoren. Allereerst moet er rekening gehouden worden dat het methodologisch denken in processtappen samen op moet gaan met het sociale proces, zodat ook de betrokken personen de verandering omarmen.

Daarnaast is het natuurlijk belangrijk wat er veranderd gaat worden. Hierbij moet naast wat in het ontwerp al beschreven is ook rekening worden gehouden met aspecten die niet zijn meegenomen in het ontwerpproces.

Er zijn drie samenhangende aspecten die van invloed zijn op de verandering: de cultuur, macht en belangen, en het brein en leren van de betrokkenen.

2.2. Pakketselectie

Pakket selectie is wanneer een organisatie ervoor kiest om uit bestaande softwarepakketten een pakket te kiezen die aansluit op de wensen van de organisatie. Dit kan toegepast worden in plaats van het zelfstandig ontwikkelen van de software die nodig is. De aandachtpunten die bij deze theorie genoemd worden zullen worden gebruikt om een overzicht samen te stellen waarop de systemen binnen dit onderzoek beoordeeld zullen worden.

2.2.1. Voor en nadelen

Als voordelen voor pakketselectie zijn te noemen (Laudon and Laudon 2000): de relatieve korte periode tot de invoering aangezien het systeem in de basis al is ontwikkeld en getest door de leverancier. De leverancier neemt ook het meeste onderhoud en ondersteuning op zich en draagt er zorg voor dat systeem meeontwikkeld met de laatste technische en organisatorische ontwikkelingen.

Een nadeel van pakket selectie zijn de tijd en kosten die het aanpassen van het pakket aan de organisatiebehoeften met zich meebrengt.

2.2.2. Aandachtpunten voor pakketselectie

Om tot een gegronde keuze te kunnen komen voor een bepaald softwarepakket worden in de literatuur door verschillende auteurs aandachtspunten benoemd waar op gelet moet worden. Elke auteur benoemd de punten op een eigen wijze. Niet allen werken de door hun genoemde punten uit. Voor de volledigheid is daarom ook gebruik gemaakt van requirementsoverzichten uit de softwareontwikkelingstheorie, aangezien die theorie een gedetailleerdere uitleg geeft bij de verschillende aandachtspunten. De theorie over pakketselectie is in principe ook een aanvulling op die van de softwareontwikkeling en wel op het gebied van aandachtspunten

(17)

betreffende de leverancier. Bij het gebruik van een pakket is men namelijk afhankelijk van de leverancier, wanneer men zelf een softwarepakket ontwikkeld bestaat die afhankelijkheid niet. Na bestudering van de gegeven aandachtspunten door Loudon (Laudon and Laudon 2000), Starinsky (Starinsky 2003), McLeod (McLeod and Schell 2001), Sommerville (Sommerville 2004), Maciaszek (Maciaszek 2001) en Grady (Grady 1992; Larman 2002) bleek Maciaszek de aandachtspunten het meest toegelicht te hebben. Hij onderscheidt de aandachtspunten in twee categorieën te weten functionele en niet-functionele aandachtspunten.

De functionele requirements beschrijven volgens Sommerville welke services het systeem moet leveren, hoe het systeem reageert op bepaalde input, en hoe het systeem zich in bepaalde situaties moet gedragen.

De niet-functionele requirements stellen voorwaarden aan hoe het systeem de services verleent. Maciaszek verdeelt ze onder in:

Usability Reusability Reliability Performance Efficiency Supportability Other constraints

Usability (gebruikersgemak) omschrijft het gemak waarmee het systeem gebruikt kan worden. De bruikbaarheid wordt bepaald door zaken als documentatie en helpfaciliteiten, de benodigde training voor efficiënt en effectief gebruik, de esthetiek en consistentie van de gebruikersinterface, foutafhandeling, enz. Bruikbaarheid hangt af van de gebruiker. Wat bruikbaar is voor een expert kan onbruikbaar zijn voor een starter en omgekeerd.

Reusability (herbruikbaarheid) omschrijft het gemak waarmee eerder geïmplementeerde softwarecomponenten in nieuwe systemen hergebruikt kunnen worden. Onder ‘softwarecomponenten’ kan elk deel van geïmplementeerde software worden verstaan, zelfs een idee (pattern). Hergebruik heeft betrekking op de interfaces, classes, packages, frameworks, enzovoorts. Dit is het enige aandachtspunt dat niet bij pakketselectie voorkomt. Reliability (betrouwbaarheid) is gerelateerd aan de frequentie en de ernst van systeemstoringen en hoe soepel het systeem van een storing herstelt kan worden. Betrouwbaarheid kan gedefinieerd worden door de gevraagde beschikbaarheid van het systeem, de tijd tussen storingen, de accuraatheid van de geproduceerde resultaten, enz. Performance (prestaties) omschrijft de verwachtingen wat betreft de responsetijd van het systeem, de doorvoer, verbruik van grondstoffen, aantal mogelijke gelijktijdige gebruikers, enzovoorts.

Efficiency (efficiëntie) is gerelateerd aan de kosten en tijd die het kost om resultaten te behalen die voldoen aan de gestelde prestatienormen. Efficiëntie is daarbij gerelateerd aan de kosten voor hardware, software, mensen en andere middelen. Hoe efficiënter het systeem hoe minder middelen er gebruikt hoeven te worden om de taak te verrichten.

Supportability (ondersteuning) is een set van drie randvoorwaarden begrijpbaarheid, beheersbaarheid en schaalbaarheid. Supportability is het gemak waarmee het systeem kan worden begrepen, gecorrigeerd, geperfectioneerd en uitgebreid. Supportability wordt bepaald door de helderheid en eenvoud van het architecturale ontwerp en de betrouwbaarheid van de implementatie tot het ontwerp.

(18)

Onder Other contraints vallen alle andere niet-funtionele requirements die aan een systeem gesteld kunnen worden. Dat zijn zaken die vallen binnen de categorie beleidsbeslissingen over projectinfrastructuur, wettelijke zaken die het project kunnen beïnvloeden, niveau van verplaatsbaarheid, de mate van interactie met andere systemen en de duur van de oplevering. Als aanvulling op deze requirements beschrijft Starinsky enkele aandachtspunten betreffende de leverancier. Hij stelt dat het bij de leveranciersrelatie draait het om de betrouwbaarheid van de leverancier. Aandachtspunten hierbij zijn hierbij onder te verdelen in het klantencontact (financiële stabiliteit, breedte van de werknemers, aansluiting op de organisatie, algemene succesfactoren) en projectprestaties (begrip van het project, methodologie, toevoeging van waarde, bedrijfstak kennis en projectervaring).

2.2.3. Aandachtspuntenoverzicht

De samengestelde theorie over requirements en pakketselectie resulteert in de onderstaande aandachtspuntenlijst.

Functioneel:

Mogelijkheden De functies die een systeem kan uitvoeren Beveiliging De manier waarop het systeem beveiligd is Gebruik:

Menselijke factoren Welke handelingen de gebruiker met systeem moet uitvoeren

Gebruikersvriendelijkheid Esthetiek en consistentie van de gebruikersinterface Helpfunctie De mogelijkheid om direct antwoord te krijgen op vragen

over het systeemgebruik

Documentatie Beschrijving van de opbouw en werking van het systeem om eventuele problemen het hoofd te kunnen bieden. Betrouwbaarheid:

Storingsfrequentie Frequentie van storingen

Herstelbaarheid Hoe snel en gemakkelijk een storing verholpen kan worden Voorspelbaarheid Of altijd duidelijk is wat het systeem doet

Prestaties:

Response tijden Hoe snel het systeem reageert op invoer van de gebruiker Doorvoertijd Hoe lang het gehele proces duurt

Accuraatheid Hoe accuraat de uitkomsten van het proces zijn Beschikbaarheid Waar en wanneer het systeem beschikbaar is

Bron gebruik Welke bronnen het systeem nodig heeft en hoeveel daar gebruik van gemaakt wordt

Gebruikersaantallen Aantal mogelijke gelijktijdige gebruikers Efficiëntie

Efficiëntie Hoeveel kosten en tijd het kost om de resultaten te behalen Ondersteuning:

Aanpasbaarheid De mate waarin het systeem aangepast kan worden om nieuwe situaties te bedienen

Beheersbaarheid Hoeveelheid onderhoud dat nodig is

Configuratiemogelijkheden Welke opties er zijn om het systeem anders in te stellen Leverancier

Kosten Kosten voor licentie en gebruik Betrouwbaarheid Levensvatbaarheid van de leverancier Bereikbaarheid Hoe en wanneer ze bereikt kunnen worden

(19)

Reactiesnelheid Hoe snel ze reageren en inspringen op vragen en problemen Services Ondersteuning en andere services die verleent worden, zoals

bijvoorbeeld trainingsmogelijkheden. Deskundigheid Aanwezige ervaring uit eerdere projecten

Gebruikers Bij welke organisaties het systeem al toegepast wordt Verwachtingen Verwachte productontwikkelingen

Overig:

Leverbaarheid Hoe snel het systeem geleverd kan worden

Implementeerbaarheid Tijd en arbeid die nodig is om het systeem te implementeren Integratie met bestaande

systemen Of het systeem met al bestaande systemen geïntegreerd kan worden

2.3. AEG systemen

Voor de kennisopbouw over AEG systemen worden in het tweede gedeelte van dit hoofdstuk enige zaken aangaande AEG systemen besproken zoals dat in de literatuur hierover aangetroffen is.

In deze paragraaf zal eerst het ontstaan besproken worden. Daarna een visie op het ideale systeem en de voor- en nadelen van AEG systemen.

Voor een bespreking van de bestaande systemen wordt u verwezen naar hoofdstuk 4. Daar worden ze besproken op basis van de relevantie voor de faculteit Bedrijfskunde. In de volgende paragraaf zullen voor het begrip van de werking van AEG systemen nog wel enkele technieken besproken worden waarmee de AEG systemen werken.

2.3.1. Ontstaan van AEG systemen

Het beoordelen van essays door docenten kost veel tijd, wat door hulp van een computer beperkt zou kunnen worden. In de jaren 60 is hier al over nagedacht door Page die toen begonnen is met de ontwikkeling van PEG. Beoordeling door de computer zou moeten plaatsvinden op basis van de criteria die ook door docenten gebruikt worden. De ontwikkeling van AEG systemen is pas echt begonnen met de verdere ontwikkeling van computer in de jaren negentig, toen het technisch mogelijk werd de computer te gebruiken voor de door Page bedachte analyses. Na de PEG van Page zijn er nog vele andere systemen ontwikkeld. Een ontwikkeling van AEG systemen in de tijd is te uitgewerkt door Pérez (Pérez Marín 2004).

2.3.2. Het ideale systeem

Over hoe het ideale systeem voor de beoordeling van inhoud, argumentatie en schrijfstijl eruit moet zien schrijft Van Bruggen (Van Bruggen 2002): “Het systeem vergt geavanceerde technieken voor natuurlijke taalverwerking (NLP – Natural Language Processing) waarmee de tekst eerst grammaticaal en syntactisch wordt ontleed. De semantiek van de herkende tekstfragmenten moet worden vastgelegd en grotere tekstgehelen moeten worden gecombineerd tot, bijvoorbeeld, retorische structuren om de opbouw van de argumentatie weer te geven en te beoordelen. Bij dat alles dient het ideale systeem te beschikken over domeinkennis om de conceptuele kennis van de student te kunnen beoordelen en over linguïstische kennis om een oordeel te kunnen geven over de schrijfstijl van de student. Tenslotte, zou het ideale systeem in staat zijn om de student gerichte terugkoppeling te geven op de beoordeelde aspecten. Een dergelijk ideaal systeem bestaat niet en het valt vooralsnog ook niet te verwachten.

In de praktijk van de computergebaseerde beoordeling van teksten wordt wel gebruik gemaakt van technieken uit de natuurlijke taalverwerking, bijvoorbeeld om de structuren in het antwoorden te ontdekken, maar van een diepe semantische verwerking is geen sprake.”

(20)

Voor zolang het ideale systeem nog niet bestaat zal er gewerkt moeten worden met systemen die delen van de toepassing bevatten.

2.3.3. Voordelen en beperkingen van AEG systemen

Het gebruik van AEG systemen kan twee soorten voordelen bieden. Doorgaans kan er met het systeem tijd bespaard worden op het beoordelen. Daarnaast zal een systeem altijd naar dezelfde richtlijnen oordelen. Dit zorgt voor een consistente beoordeling. Een menselijke beoordeling kan hierin wel eens tekortschieten.

Bij het gebruik van AEG systemen moet wel aangetekend worden dat het werkt volgens vooraf ingestelde structuren. Ze zijn niet in staat originele antwoorden juist te beoordelen. Toezicht van de docent en oplettendheid van de studenten lijken dus wel genoodzaakt bij gebruik van AEG systemen.

2.4. Gebruikte technieken bij AEG systemen

AEG systemen kunnen hun werk doen door de technieken die ontwikkeld zijn om teksten te analyseren en te vergelijken. Er bestaan verschillende technieken, enkele hiervan zullen kort besproken worden om de lezer een idee te geven van de werking van de systemen. Verwijzingen naar uitgebreide uitleg van de technieken kan gevonden worden in het artikel van Pérez, die een uitgebreid overzicht heeft gegeven van de verschillende gebruikte technieken. De technieken gaan elk uit van een andere invalshoek. De systemen hebben op basis van de gekozen technieken dan ook verschillende eigenschappen en (on)mogelijkheden. De technieken zijn niet allemaal openbaar, aangezien het de kern is van de systemen en ze die vanuit concurrentieoogpunt willen beschermen.

Onderstaande tabel voor een deel overgenomen uit het artikel van Pérez Marín (Pérez Marín 2004) geeft een overzicht van de technieken per systeem.

System Technique

PEG Measurement of surface linguistic features

IEA Latent Semantic Analysis

E-rater Hybrid approach that combines NLP with VSM

IntelliMetric Artificial Intelligence approach Larkey’s system Text Categorization Technique

C-rater Natural Language Processing

Automark Information Extraction

SEAR Pattern matching based on a schema model

Apex Assessor Latent Semantic Analysis

IEMS Pattern matching with the Indextron clustering algorithm

ATM Pattern matching based on finding out the concepts and their relationship

BETSY Statistical technique based on classification with the MBM or BM bayesian networks

PS-ME Natural Language Processing

Auto-marking Natural Language Processing and pattern matching

CarmelTC Hybrid approach based on machine learning and a naive bayesian

classification

SAGrader Knowledge model

IAT Knowledge model

De veel gebruikte technieken Latent Semantic Analysis en Natural Language Processing zullen hier kort beschreven worden. Ook zal een beschrijving gegeven worden van een Bayesiaanse statistische analyse en een analyse aan de hand van een Domeinmodel.

(21)

2.4.1. Latente Semantische Analyse

LSA is een techniek die oorspronkelijk is ontworpen ten behoeve van het automatisch indexeren en vinden van documenten in databases. In LSA wordt niet gewerkt met directe overeenkomsten en verschillen maar met achterliggende, latente factoren, dat is of de tekst over het bedoelde onderwerp gaat.

Latente Semantische Analyse bouwt een semantisch model van het domein op, gebaseerd op het gebruik van woorden in contexten. Om dat model te kunnen vormen, moet een LSA systeem worden getraind met domeinkennis. LSA werkt dus nooit alleen met antwoorden op essayvragen, maar heeft achtergrondmateriaal uit het domein nodig om zijn model te kunnen vormen (Van Bruggen 2002).

Technisch gezien is LSA een factoranalyse (Engels: singular value decomposition) die niet wordt uitgevoerd op een symmetrische matrix, maar op een Term x Document matrix. Term en Document moeten hier abstract worden opgevat: een term kan een enkel begrip zijn, maar ook uitvoerige passages bevatten. Een Document is de container waarin Termen zijn opgenomen: een alinea, een hoofdstuk, een document enz. In de cellen van de tabel zijn gewichten opgenomen die het belang van de Term in het Document weergeven (Van Bruggen 2002).

Door toepassing van de factoranalyse worden nieuwe relaties tussen Termen en Documenten ontdekt en worden bestaande relaties omgevormd om de significantie ervan vast te stellen. Door gebruik van LSA kunnen de overeenkomsten tussen twee essays gemeten worden ondanks het verschil in individueel woordgebruik. LSA levert het beste resultaat wanneer er één modelantwoord bestaat (Srihari 2006).

2.4.2. Natural Language Processing

NLP is een andere techniek waarvan systemen gebruik maken. Vantage, de leverancier van IntelliMetric legt het functioneren van het door hen gepatenteerde NLP model als volgt uit (Vantage Learning 2005): “Elke zin wordt geïdentificeerd met betrekking tot woordsoorten, woordgebruik, zinsstructuur, en conceptenuitdrukking. Verscheidene gepatenteerde technieken worden gebruikt om de tekst te begrijpen met inbegrip van morfologische analyse, spellingsherkenning, collocatiegrammatica, en detectie van woordafbakening. Een

woordenboek van 500.000 unieke woorden en een netwerk van 16 miljoen woordconcepten worden geraadpleegd om inzicht in de tekst te verkrijgen. Nadat al de informatie uit de tekst is gehaald, wordt het vertaald in numerieke vorm om berekening van de wiskundige modellen mogelijk te maken. Dit proces baseert zich op een verscheidenheid van statistische technieken en computertaalkunde om tot de meer dan 400 eerder beschreven eigenschappen te leiden. Op basis van verschillende technieken worden er meerdere wiskundige beoordelingen geformuleerd. Via andere wiskundige berekeningen komt daar een eindbeoordeling uit.”

2.4.3. Bayesiaanse statistische analyse

Het ordenen door de nakijkmodule van CODAS gebeurt met behulp van een (Bayesiaanse) statistische analyse van woordfrequenties (Draaijer 2004). CODAS houdt van elk document bij welke woorden er voorkomen in het document en hoe frequent. In elk document komen andere woorden voor en woorden in andere verhoudingen, waardoor ieder document zijn specifieke 'profiel' heeft van de frequentie van aan- en afwezige woorden. Als deze frequentieprofielen erg op elkaar lijken, dan is de kans groot dat de documenten ook erg op elkaar lijken en kan er dus een indicatie zijn voor fraude. Verder kan worden verwacht dat een door een menselijke beoordelaar als 'goed' beoordeeld document een profiel zal hebben dat meer overeenkomt met andere 'goede' documenten dan met 'slechte' documenten en vice versa. CODAS beoordeelt de inhoud van documenten dus niet op het 'microniveau' van de

(22)

precieze formulering en volgorde van zinnen, maar op een meer geabstraheerd, 'hoger', 'conceptueel' niveau.

2.4.4. Domeinmodel analyse

Van het antwoord wordt een uitgebreid domeinmodel gemaakt waarin alle begrippen die het antwoord kunnen vormen worden beschreven. Ook synoniemen en relaties tussen de begrippen worden opgenomen. De antwoorden van de studenten worden op basis van het domeinmodel beoordeeld. Begrippen die niet voorkomen in het model zullen niet beloond kunnen worden.

(23)

3. Toetsing binnen de faculteit Bedrijfskunde

In de inleiding van deze scriptie is al het een en ander uiteengezet over de aanleiding van dit onderzoek. In dit hoofdstuk zal de probleemsituatie verder uiteengezet worden en zal een diagnose gesteld worden. Op deze manier zal er antwoord gegeven worden op de eerste deelvraag:

Hoe wordt er binnen de faculteit bedrijfskunde gewerkt bij het beoordelen van open vragen?

In de beantwoording van deze deelvraag zal er verder gegaan worden dan alleen te beschrijven hoe er gewerkt wordt bij het beoordelen van openvragen. Zo worden ook de problemen bij het beoordelen beschreven evenals de eisen en wensen die aan een oplossing voor die problemen gesteld worden. Aan het eind zullen de oplossingsrichtingen voor de problemen besproken worden. Op deze manier wordt in dit hoofdstuk de hele situatie rondom het beoordelen van open vragen in beeld gebracht.

In dit hoofdstuk zal allereerst vanuit verschillende oogpunten gekeken worden naar de aspecten die van invloed zijn op het tentamineren van open vragen. Daarna zal het beoordelingsproces beschreven worden. Vervolgens wordt beschreven welke problemen de betrokken partijen hebben met het huidige beoordelingsproces. Als vereisten voor de oplossing zullen daarna de requirements beschreven worden. Tenslotte zullen ook de oplossingsrichtingen besproken worden.

Voor de verdieping is gebruik gemaakt van informatie die uit de gesprekken met docenten naar voren is gekomen en verder algemene informatie die beschikbaar is op de website van de universiteit. De verslaglegging van de gesprekken met de docenten is te vinden in Bijlage 2.

3.1. Verdieping van de situatie

Kijkend vanuit verschillende perspectieven zal in deze paragraaf de probleemsituatie verder uitgediept worden. Dit zal gebeuren aan de hand van de dimensies van de balanced scorecard, zoals besproken in hoofdstuk 2.1.1.

Visie en strategie

De visie en strategie hebben betrekking op de richtlijnen vanuit het faculteitsbestuur.

Het bestuur heeft naar aanleiding van het visitatiebezoek aandacht voor de kwaliteit van de toetsing, zoals ook al in de inleiding is beschreven.

Binnen de RuG heeft het Universitair Onderzoeks Centrum Groningen (UOCG), een adviserende rol voor onderwijskundige zaken. Zij geven adviezen om de toetsing te verbeteren.

Interne bedrijfsvoering

Binnen de interne bedrijfsvoering valt het hele toetsingsproces zoals beschreven in een volgende paragraaf.

Leerresultaten en groei

Uit de gehouden interviews kwam naar voren dat de docenten ieder voor zijn eigen cursussen de wijze van toetsing kan bepalen. Vrijwel alle geïnterviewde docenten gaven aan de beoordeling als iets moeilijks te zien. Ze maakten allen zelf keuzes in hoe de toetsing uit te voeren en volgens welke richtlijnen er beoordeeld wordt.

(24)

De manier waarop de toetsing gebeurt is wel een punt van onzekerheid voor de uitvoerende docenten, maar er wordt weinig mee gedaan. Er is geen structuur waarbinnen de docenten hun ervaringen onderling uitwisselen en waarbinnen gestuurd wordt op verbetering.

Financieel

De kosten voor de toetsing zitten voornamelijk in de kosten voor de uren die gemaakt worden rondom het toetsen. Een docent kost per uur ongeveer 45 euro.

Afnemers

Als afnemers van de toetsing kunnen de studenten worden gezien. Uit het visitatierapport kwam naar voren dat ze te weinig uitdaging zien in de multiplechoisetentamens die afgenomen werden. Daarnaast willen ze graag zo snel mogelijk de beoordeling weten. De nakijktermijn wordt voor het komende jaar daarom ook teruggebracht van vijftien tot tien dagen.

3.2. Het Primaire proces

Bij het tentamineren gaat het erom dat de kennis en vaardigheden van een student getoetst worden. Het primaire proces is als volgt als black-box weer te geven:

Wanneer dit proces nader bekeken wordt blijkt dat er twee klassen actoren zijn: de docent en de student. De docent voert het proces uit en de student neemt er aan deel.

Onderstaand zijn de processen weergegeven van de docent en student met betrekking tot de activiteiten rondom het tentamineren. Ondersteunende processen als inschrijving en facilitaire voorzieningen zijn buiten beschouwing gelaten, omdat het hier om het primaire proces gaat. Use-case primair proces

Doelstelling: Het beoordelen van de bij studenten aanwezige kennis en/of vaardigheden door middel van open vragen.

Actoren: Docent en studenten

Situatie vooraf: De docent heeft een vak gedoceerd en wil beoordelen of de kennis en/of vaardigheden van studenten aan vooraf bepaalde doelstellingen voldoen. De student heeft een vak gevolgd en zich ingeschreven voor het tentamen

Use-case:

Fase Docent Studenten

Constructie 1. Doelstellingen formuleren voor het tentamen

2. Tentamenvragen opstellen 3. Antwoordmodel opstellen 4. Medium klaarmaken

Afname 5. Tentamen uitdelen Tentamen ontvangen

Toetsing Onbeoordeelde

(25)

6. Toezicht houden op afname Tentamen maken

7. Tentamen innemen Tentamen inleveren

Beoordeling 8. Tentamen beoordelen 9. Beoordeling beschikbaar

stellen Kennisnemen van beoordeling

10. Inventariseren inzagen Inzage aanvragen

Inzage 11. Tentamen opzoeken Tentamen inzien

12. Bespreken beoordeling Bespreken beoordeling 13.Eventuele bijstelling

beoordeling

Situatie achteraf: De docent heeft de studenten beoordeeld op de aanwezige kennis en/of vaardigheden. De student heeft een beoordeling gekregen

Fasebeschrijvingen

Het onderzoek heeft zich gericht op de beoordeling, maar ook over de andere procesonderdelen hebben docenten opmerkingen gemaakt. Per fase zullen de aandachtspunten beschreven worden die met het primaire proces te maken hebben.

Bij de constructie proberen de docenten rekening te houden met een aantal uitgangspunten als spreiding en moeilijkheidsgraden. Doelstellingen zitten wel in het achterhoofd, maar worden meestal niet expliciet gemaakt. Ze hebben veelal de ruimte om naar eigen inzicht te handelen. Vragen worden meestal in aangepaste vorm hergebruikt in de jaren erna. Een enkele keer wordt een vraag letterlijk overgenomen, maar dan pas na enkele jaren.

De antwoordmodellen die opgesteld worden verschillen strek wat betreft gedetailleerdheid. Bij de een worden enkele termen gegeven die erin voor moeten komen. Een ander schrijft de antwoorden helemaal uit. Sommigen geven ook aan wat er fout gerekend wordt. Geen docent maakt een volledig uitgewerkt antwoordmodel waarin alle antwoordmogelijkheden voorkomen.

Er zijn voor deze fase geen problemen naar voren gekomen. Mogelijk zou er met regelmaat aandacht besteed kunnen worden aan de doelstellingen en uitgangspunten voor de vraagstelling om zo de docenten scherp te houden.

Bij de afname is meestal de docent aanwezig die geholpen kan worden door assistenten. De afname vindt schriftelijk plaats in de tentamenhal of tennishal.

De beoordeling vindt plaats aan de hand van een antwoordmodel. Deze modellen verschillen echter sterk per docent wat betreft gedetailleerdheid. Voor de een is het een strikte richtlijn voor de ander een aanduiding van een mogelijk goed antwoord. De docenten erkennen dat de beoordeling afhankelijk blijft van persoonlijke interpretatie, ook al is er een antwoordmodel voor handen. Een objectieve beoordeling op de rand van voldoende/onvoldoende kan erg lastig zijn als het belang voor de student erg groot blijkt te zijn.

(26)

De beoordeling wordt enkelvoudig door de docenten gedaan. Er wordt geen gebruik gemaakt van een tweede beoordeling.

Volgens de onderwijs en examenregelingen moeten de tentamens binnen 15 werkdagen beoordeeld zijn. Per september 2007 binnen 10 werkdagen (Van der Veen and Molenkamp 2007).

Een docent gaf aan dat hij het beoordelen waardevol vindt omdat het inzicht geeft in hoe de studiestof is blijven hangen bij de studenten. Uit andere gesprekken met docenten kwam naar voren dat ze het beoordelen van grote hoeveelheden openvragen beschouwen als saai en tijdrovend werk.

De manier waarop de inzage georganiseerd wordt verschilt ook per docent. De een ordent de tentamens op alfabet de ander laat ze in willekeurige volgorde liggen. Bij de inzage betekend de laatste methode een langere zoektocht naar het bij de student behorende tentamen. Docenten zijn bang voor meer inzagen wanneer de tentamens automatisch beoordeeld worden. Ze verwachten dat studenten extra punten proberen te scoren door de docent erna te laten kijken.

Kenmerken van het primaire proces

Hier zullen enkele nadere kenmerken van het primaire proces beschreven worden. Nakijktermijn

Een aspect dat te maken heeft met de tentamenafname en dan vooral de keuze tussen gebruik van openvragen of meerkeuzevragen is de nakijktermijn. Studenten willen hun cijfer zo snel mogelijk weten. De nakijktermijn is 15 dagen, maar daar waren de studenten niet positief over (SOG 2005). Ook niet omdat de termijn nog wel eens werd overschreden. Om de studenten tegemoet te komen wordt de nakijktermijn vanaf het cursusjaar 2007-2008 teruggebracht naar 10 werkdagen (Van der Veen and Molenkamp 2007).

Tijdsbelasting

Uit de gehouden interviews met de docenten kwam naar voren dat ze gemiddeld 4 dagen bezig zijn met het beoordelen van de antwoorden op openvragen tentamens en dat ze gemiddeld 16 minuten bezig zijn per student (zie Bijlage 2).

Beoordelingsverschillen

Het is bekend dat een menselijke beoordeling nooit volledig objectief is en dat beoordelingen van hetzelfde antwoord onderling kunnen verschillen. Enkele oorzaken zijn dat docenten hebben te maken met (1) normverschuivingen – het later minder streng beoordelen dan eerder -, (2) het sequentie-effect - voorafgaande beoordelingen die van invloed zijn op de beoordeling -, (3) het contaminatie-effect - andere functie toekennen aan de beoordeling bijvoorbeeld als meting van de kwaliteit van het onderwijs -, (4) het halo-effect - kennis over studenten die meespeelt - en (5) het signifisch-effect - verschil in strengheid en aandachtspunten tussen beoordelaars (Berkel and Bax 2006).

Juistheid beoordeling

Hoe opener een vraag is hoe moeilijker het wordt om te zeggen wanneer een beoordeling nou een rechtvaardige beoordeling is. Het is niet altijd makkelijk om een scoringsoverzicht helemaal waterdicht op te stellen. Er blijven altijd onderdelen waarbij interpretatie een rol speelt en de subjectieve aspecten zoals hiervoor beschreven. Hoewel de oordeel van een docent vaak als juist wordt beschouwd is dat dus maar de vraag. Een betere benadering van de juiste score is wanneer het oordeel van meerdere experts gemiddeld wordt.

Uit onderzoek naar de prestaties van IntelliMetric (Rudner, Garcia et al. 2006) blijkt dat menselijke oordelen maar 54-62% exact overeenkomen en dat binnen een verschil van 2 punten hun oordelen 94-98% overeenkomen. Voor 2-6% van de tentamens liggen de scores

(27)

zover uit elkaar dat ze door nog een derde persoon beoordeeld moeten worden om een doorslag te kunnen geven voor de te geven beoordeling. Het exact overeenkomen wordt in het artikel niet uitgelegd en wordt hier daarom geïnterpreteerd als alles dat binnen een punt van de menselijke scores ligt.

Bovenstaande afwijkingen zullen als richtlijn gebruikt worden voor de te toetsen oplossingen. Omvang

Binnen de faculteit verschilt het aantal studenten per vak tussen de 10 en 400 (zie Bijlage 1). Afname

Alle toetsen die de ondervraagde docenten afnemen zijn schriftelijk (zie Bijlage 2). Soorten tentamenvragen

Binnen de faculteit bedrijfskunde worden verschillende soorten openvragen gesteld. Soms is alleen het geven van een definitie voldoende, een andere keer wordt gevraagd naar de onderdelen van een bepaalde theorie.

Vragen kunnen ook uitgebreider zijn, wanneer er bijvoorbeeld gevraagd wordt naar de uitleg van een begrip voor een bepaalde situatie en het noemen van enkele maatregelen die tegen die situatie genomen kunnen worden.

Er kunnen ook vragen gesteld worden waarvan de antwoorden teveel uiteen kunnen lopen. Dat is bijvoorbeeld het geval wanneer gevraagd wordt naar algemene toepassing van een theorie.

3.3. Probleemhebbersanalyse

Het doel van de probleemhebbersanalyse is het identificeren van de probleemhebbers en hun problemen.

3.3.1. De betrokkenen

Rondom het toetsingsproces zijn drie belangrijke groepen belanghebbenden te onderscheiden: het faculteitsbestuur, de docenten en de studenten .

Faculteitsbestuur

Voor het faculteitsbestuur is het van belang dat de toetsing goed gebeurd, omdat de uiteindelijke verantwoording van het onderwijs binnen de faculteit bij hen als besturend orgaan ligt. Studenten moeten een bepaald niveau hebben, wanneer ze zijn afgestudeerd. Daarop wordt de opleiding beoordeeld door het bedrijfsleven en door nieuwe studenten die de prestaties van de faculteiten meewegen in hun studiekeuze.

Docenten

Voor de docenten is toetsing de manier om het niveau van de studenten in kaart te brengen en te bepalen of het aan de gestelde normen voldoet. Het is de afsluiting van een leerproces. Tegelijk kan de toetsing voor hen ook betrekking hebben op het niveau van hun onderwijs en zegt het iets over hun eigen onderwijskwaliteiten. Voor de docenten is de toetsing vooral ook onderdeel van hun werkzaamheden en wordt vaak niet als een van de leukste gezien.

Student

Voor de student is toetsing de afronding van een cursus. Hij komt te weten wat zijn kennisniveau is op en bepaald onderwerp, naar aanleiding van een cursus.

3.3.2. De problemen

Bij de groepen kunnen de volgende problemen aangeduid worden. Faculteitsbestuur

(28)

Het bestuur stelt kwaliteitseisen aan de toetsing. De nakijktermijn is hiervan een duidelijk voorbeeld. Of er ook kwaliteitseisen voor objectiviteit gesteld worden en hoe die toegepast worden is niet bekend, maar de kwaliteit is zeker een belangrijk aspect van de beoordeling. Het bestuur wil daarnaast dat zowel de docenten als de studenten het proces van toetsing positief ervaren, dus dat er aan hun eisen en wensen wordt gedacht.

Docenten

Docenten zouden graag minder tijd steken in het toetsingsproces en hun aandacht meer richten op het onderwijs en persoonlijke aandacht voor studenten. Vooral het beoordelen van open vragen kost hen, naar hun mening veel tijd.

Bij het opstellen van het antwoordmodel moet altijd de afweging gemaakt worden tussen gedetailleerdheid/volledigheid en tijdsbesteding/effectiviteit.

Voor de constructie van het tentamen kan de docent zijn eigen gang gaan. Ze zijn niet altijd zeker dat ze met alle mogelijke aspecten rekening hebben gehouden.

Bij de inzage kan een docent voor de afweging komen te staan om iets wel of niet goed te keuren. De belangen voor de student kunnen dan vaak groot zijn. Heeft de docent een juist en objectief oordeel gegeven?

Student

De student wil graag dat de toetsing plaatsvindt over de gehele stof van de cursus. De beoordeling zal voor hem objectief moeten plaatsvinden zodat die ook recht doet aan zijn niveau. De student wil zo snel mogelijk weten of hij een positieve beoordeling kan verwachten omdat hij anders nog meer tijd voor het vak moet inplannen.

3.3.3. Het onderzoeksprobleem

Bij de toetsing liggen op verschillende gebieden problemen. De tijdsbelasting van docenten, objectiviteit van de beoordeling, kwaliteit van de vragen, verantwoording van de beoordeling. Dit onderzoek is voortgekomen uit de vraag naar het terugbrengen van de tijdbelasting. Hiernaar zal uitgebreid onderzoek gedaan worden. Bij het onderzoeken van de oplossing zal ook gekeken worden naar de gevolgen en mogelijkheden voor de andere probleemgebieden.

3.4. Requirements

Als laatste onderdeel van de diagnose zal een overzicht gegeven worden van de gestelde requirements, zoals beschreven in hoofdstuk 2.2.4.

Sommige requirements liggen vast, deze zijn met een * aangegeven. Anderen zijn aandachtspunten die te maken hebben met de werking en toepassing van het systeem, maar waaraan geen eisen gesteld zijn.

Functioneel:

Mogelijkheden - * Het beoordelen van essayantwoorden - Engelse en Nederlandse antwoorden

Beveiliging * Er moet zorgvuldig worden omgegaan met de

studentengegevens, de antwoorden en de beoordelingen Gebruik:

Menselijke factoren Zo min mogelijk menselijke handelingen

Gebruikersvriendelijkheid Eenvoudig te begrijpen en toe te passen voor docenten en studenten. Ook voor hen die er voor het eerst mee te maken krijgen.

Helpfunctie Het liefst zowel Engels- als Nederlandstalige hulp voor gebruikersvragen

(29)

processen die het beïnvloed. Betrouwbaarheid:

Storingsfrequentie Storingen mogen niet voorkomen op moment van tentamenafname en beoordelingsproces.

Herstelbaarheid Snel herstelbaar om nakijktermijn te halen Voorspelbaarheid Werking systeem moet altijd hetzelfde zijn. Prestaties:

Response tijden Enkele seconden voor verwerken invoer.

* Cijfers moeten binnen 10 werkdagen bekend zijn. Doorvoertijd * Binnen 10 dagen moeten de cijfers bekend zijn

Accuraatheid 60% moet binnen een punt verschil liggen, 96% binnen 2 punten.

Om kunnen gaan met spellingsfouten.

Teksten met onzinnige tekstverbanden identificeren

Beschikbaarheid Docenten zouden zowel op de universiteit als thuis over de antwoorden en beoordeling moeten kunnen beschikken. Bron gebruik Liefst extern om geen eigen mensen op onderhoud en

beheer te zetten. Intern is ook mogelijk

Gebruikersaantallen * 400 – 1000 studenten die gelijktijdig aan tentamens werken.

In een tentamenperiode zouden (op de lange termijn) voor de faculteit bedrijfskunde 15 tentamens afgehandeld moeten kunnen worden.

Efficiëntie Minder tijd kosten dan huidige belasting Ondersteuning:

Aanpasbaarheid -

Beheersbaarheid Ze min mogelijk onderhoud vanuit de RuG. Configuratiemogelijkheden -

Leverancier

Kosten Beste als de kosten niet hoger zijn dan de huidige kosten die gemaakt worden. Bij voldoende baten is een grotere

investering ook mogelijk. Betrouwbaarheid Moet duurzame partner zijn Bereikbaarheid Dagelijks beschikbaar voor vragen

Reactiesnelheid Binnen een dag problemen kunnen oplossen Services Directe hulp bij storingen

Instructie samenkomsten en trainingsbijeenkomsten voor docenten is een pré.

Deskundigheid Voorkeur als het systeem en leverancier zich al bewezen hebben.

Gebruikers Ervaringen van vergelijkbare instellingen ter indicatie zijn welkom

Verwachtingen -

Overig:

Leverbaarheid Binnen enkele maanden, wanneer tot aanschaf besloten wordt.

Implementeerbaarheid Liefst zo minmogelijk inzet van RuG medewerkers Integratie met bestaande