Eksempler på testing av typer åpne testoppgaver. Typer prøver og former for prøveoppgaver - forelesning. Klassifisering av testoppgaver

TYPER TEST OG FORMER FOR TESTOPPGAVER

1. Hovedtyper av pedagogiske prøver.

2. Former for testoppgaver.

3. Empirisk verifisering og statistisk behandling av resultater.

4. Prinsipper for innholdsvalg. Kriterier for vurdering av prøveinnhold.

5. Forholdet mellom oppgavens form og type kunnskap, ferdigheter og evner som testes.


1. Hovedtyper av pedagogiske prøver

Det er to hovedtyper av tester: tradisjonelle og ikke-tradisjonelle.

Testen har sammensetning, integritet og struktur. Den består av oppgaver, regler for deres anvendelse, karakterer for å fullføre hver oppgave og anbefalinger for tolkning av testresultater. Testens integritet betyr sammenhengen mellom oppgaver, deres tilhørighet til en felles målt faktor. Hver testoppgave oppfyller sin tildelte rolle, og derfor kan ingen av dem fjernes fra testen uten tap av målekvalitet. Strukturen i testen dannes av måten oppgavene er knyttet til hverandre. I utgangspunktet er dette den såkalte faktorstrukturen, der hvert element er relatert til andre gjennom felles innhold og felles variasjon i testresultater.

En tradisjonell test er en enhet av minst tre systemer:

Et formelt system av oppgaver med økende vanskelighetsgrad;

Statistiske kjennetegn på oppgaver og testpersoners resultater.

Den tradisjonelle pedagogiske prøven må betraktes i to vesentlige betydninger: - som en metode for pedagogisk måling og som et resultat av bruk av prøven. Det er overraskende at tekster på russisk graviterer mot betydningen av metoden, mens i de fleste verk av vestlige forfattere blir begrepet test oftere vurdert i betydningen resultater. I mellomtiden karakteriserer begge disse betydningene testen fra ulike sider, fordi testen må forstås samtidig både som en metode og som et resultat av en pedagogisk måling. Det ene utfyller det andre. En test, som metode, kan ikke tenkes uten resultater som bekrefter kvaliteten på seg selv og kvaliteten på målevurderinger av emner på ulike beredskapsnivåer.

Flere ideer er utviklet i definisjonen ovenfor av en tradisjonell test.

Den første ideen er at testen ikke betraktes som et vanlig sett eller sett med spørsmål, oppgaver osv., men i form av begrepet et "oppgavesystem." Et slikt system dannes ikke av noen totalitet, men bare av det som bestemmer fremveksten av en ny integrativ kvalitet som skiller testen fra et elementært sett med oppgaver og fra andre midler for pedagogisk kontroll. Av de mange mulige systemene er det beste dannet av det integrerte settet der kvaliteten på testen manifesteres i relativt større grad. Derav ideen om å identifisere den første av de to viktigste systemdannende faktorene - den beste sammensetningen av testoppgaver som danner integriteten. Basert på dette kan vi gi en av de korteste definisjonene: en test er et system av oppgaver som danner den beste metodiske integriteten. Testens integritet er det stabile samspillet mellom oppgaver som utgjør testen som et utviklende system.

Den andre ideen er at i denne definisjonen av en test er det et avvik fra den dypt forankrede tradisjonen med å se en test som et enkelt middel for å sjekke, teste, teste. Hver test inkluderer et element av testing; det handler ikke bare om det. For en prøve er også et begrep, innhold, form, resultater og tolkning – alt som krever begrunnelse. Dette innebærer at testen er et kvalitativt middel for pedagogisk måling. I samsvar med bestemmelsene i teorien, prøveresultater er ikke nøyaktige vurderinger av fagene. Det er riktig å si at de bare representerer disse betydningene med en viss nøyaktighet.

Den tredje ideen utviklet i vår definisjon av en tradisjonell test er inkluderingen av et nytt konsept – testeffektivitet, som ikke tidligere har vært vurdert i testlitteraturen som et kriterium for analyse og testoppretting. Den ledende ideen med en tradisjonell test er å sammenligne kunnskapen til så mange studenter som mulig med et minimum antall oppgaver, på kort tid, raskt, effektivt og til lavest mulig pris.

I hovedsak reflekterer dette ideen om effektivitet pedagogisk virksomhet innen kunnskapskontroll. Jeg vil tro at det ikke er noen og det er ingen grunn til å protestere mot nettopp denne ideen. Hvis læreren vår kan avklare undervisningsmateriell ikke verre enn sin utenlandske kollega, da er det godt å teste den nødvendige kunnskapen, for alle studenter, for alt materialet som er studert, er han ikke i stand til det på grunn av det rådende klasse-leksjonssystemet i vårt land, mangelen data utstyr, tester og programmer for organisering av automatisert selvkontroll - den mest humane formen for kunnskapskontroll. Han klarer heller ikke dette fysisk. På grunn av mildt sagt feil sosial politikk Lønnene til lærerne våre har lenge ikke vært i stand til å kompensere for forbruket av selv den fysiske energien som er nødvendig for god undervisning, for ikke å nevne det økte forbruket av intellektuell energi, som bare kan oppnås ved å tenke avslappet og ikke opptatt av leting. for brød. Som nevnt i litteraturen mottar en kvalifisert arbeidstaker tre til fire ganger mindre enn lønnsnivået utover som normal livsaktivitet blir forstyrret og ødeleggelsen av arbeidspotensialet begynner.

Selv om det finnes hundrevis av eksempler på testdefinisjoner i litteraturen som det enten er vanskelig eller umulig å si seg enig i, betyr ikke dette i det hele tatt at denne definisjonen tradisjonell test - den ultimate sannheten. Som alle andre konsepter trenger det konstant forbedring. For forfatteren virker det bare som om det så langt er mer begrunnet enn noen andre kjente begreper i den pedagogiske prøven. Ønsket om å forbedre konsepter er imidlertid et helt normalt fenomen og nødvendig for å normalt utvikle praksis og vitenskap. Konstruktive forsøk på å gi andre definisjoner av testen eller utfordre eksisterende er alltid nyttige, men det er nettopp dette vi mangler.

Tradisjonelle tester inkluderer homogene og heterogene tester. En homogen test er et system av oppgaver med økende vanskelighetsgrad, spesifikk form og spesifikt innhold - et system laget med det formål å oppnå en objektiv, høykvalitets og effektiv metode for å vurdere strukturen og måle beredskapsnivået til studenter i ett akademisk disiplin. Det er lett å se at i sin kjerne sammenfaller definisjonen av en homogen test med definisjonen av en tradisjonell test.

Homogene tester er mer vanlig enn andre. I pedagogikk er de skapt for å kontrollere kunnskap i én akademisk disiplin eller i én seksjon, som for eksempel en omfangsrik akademisk disiplin som fysikk. I en homogen pedagogisk prøve er det ikke tillatt å bruke oppgaver som avslører andre egenskaper. Tilstedeværelsen av sistnevnte bryter med kravet om disiplinær renhet av den pedagogiske testen. Tross alt måler hver test noe forhåndsbestemt.

En test i fysikk måler for eksempel testtakernes kunnskap, ferdigheter og oppfatninger i denne vitenskapen. En av vanskelighetene med en slik måling er at fysisk kunnskap er tungt koblet med matematisk kunnskap. Derfor fastslår fysikktesten ekspertnivået på matematisk kunnskap som brukes til å løse fysikkproblemer. Overskridelse av akseptert nivå fører til en skjevhet i resultatene; etter hvert som de overskrides, begynner sistnevnte i økende grad ikke å avhenge så mye av kunnskap om fysikk, men av kunnskap om en annen vitenskap, matematikk. En annen viktig aspekt- ønsket fra noen forfattere om å inkludere i tester ikke så mye en kunnskapstest som evnen til å løse fysiske problemer, og dermed involvere den intellektuelle komponenten i å måle beredskap i fysikk.

En heterogen test er et system av oppgaver med økende vanskelighetsgrad, spesifikk form og spesifikt innhold - et system laget med det formål å en objektiv, høykvalitets og effektiv metode for å vurdere strukturen og måle beredskapsnivået til studenter i flere akademiske fag. disipliner. Ofte inkluderer slike tester også psykologiske oppgaver for å vurdere nivået på intellektuell utvikling.

Vanligvis brukes heterogene tester for en helhetlig vurdering av skolekandidater, personlighetsvurdering ved søknad om jobb, og for å velge de mest forberedte søkerne for opptak til universiteter. Siden hver heterogene test består av homogene tester, foretas tolkningen av testresultatene basert på svarene på oppgavene til hver test (her kalles de skalaer) og i tillegg forsøkes det gjennom ulike metoder for aggregering av poengsum. gi helhetsvurdering testpersonens beredskap.

La oss huske at en tradisjonell test er en metode for å diagnostisere forsøkspersoner der de svarer på de samme oppgavene, på samme tid, under samme forhold og med samme poengsum. Med denne orienteringen går oppgaven med å bestemme det nøyaktige volumet og strukturen til det mestrede pedagogiske materialet, nødvendigvis i bakgrunnen. Testen velger et minimum tilstrekkelig antall oppgaver som lar en relativt nøyaktig bestemme, billedlig talt, ikke "hvem som vet hva", men "hvem som vet mer." Tolking av testresultater utføres først og fremst på testologiens språk, basert på aritmetisk gjennomsnitt, modus eller median og på de såkalte persentilnormene, som viser hvor mange prosent av forsøkspersonene som har et testresultat som er dårligere enn det for ethvert emne tatt for analyse med testresultatet. Denne tolkningen kalles normativt orientert. Her er konklusjonen supplert med en vurdering: oppgaver svarer konklusjoner om kunnskapen om faget vurdering, forstått som en konklusjon om fagets plass eller rangering.

Integrative tester. En integrativ test kan kalles en test som består av et system av oppgaver som oppfyller kravene til integrert innhold, en testform og økende vanskelighetsgrad for oppgaver rettet mot en generalisert sluttdiagnose av kandidatens beredskap utdanningsinstitusjon. Diagnostikk utføres ved å presentere slike oppgaver, der de riktige svarene krever integrert (generalisert, klart sammenhengende) kunnskap om to eller flere akademiske disipliner. Opprettelsen av slike tester gis kun til de lærere som har kunnskap om en rekke akademiske disipliner, forstår den viktige rollen tverrfaglige forbindelser har i læringen, og som er i stand til å lage oppgaver som de riktige svarene krever at studentene har kunnskap om ulike disipliner og evnen til å anvende slik kunnskap.

Integrativ testing innledes med organisering av integrativ trening. Dessverre vil dagens klassetimeform for å gjennomføre klasser, kombinert med overdreven fragmentering av akademiske disipliner, sammen med tradisjonen med å undervise individuelle disipliner (snarere enn generaliserte kurs), i lang tid hindre implementeringen av en integrerende tilnærming i prosessene. av læring og overvåking av beredskap. Fordelen med integrative tester fremfor heterogene ligger i det større informative innholdet i hver oppgave og i det mindre antallet oppgaver i seg selv. Behovet for å lage integrerende tester øker etter hvert som utdanningsnivået og antall akademiske disipliner som studeres øker. Derfor noteres forsøk på å lage slike tester hovedsakelig i høyere skole. Integrative tester er spesielt nyttige for å øke objektiviteten og effektiviteten til den endelige sertifiseringen av studenter.

Metodikken for å lage integrerende tester ligner på metodikken for å lage tradisjonelle tester, med unntak av arbeidet med å fastsette innholdet i oppgaver. For å velge innholdet i integrerende tester er bruk av ekspertmetoder obligatorisk. Dette skyldes det faktum at kun eksperter kan fastslå tilstrekkeligheten av innholdet i oppgavene for testens formål. Men først og fremst vil det være viktig for ekspertene selv å bestemme målene for utdanning og studier av visse utdanningsprogrammer, og deretter bli enige seg imellom om grunnleggende spørsmål, og etterlater kun variasjoner i forståelsen av graden av betydning av enkeltelementer i den overordnede strukturen av beredskapen til undersøkelse. En utvalgt sammensetning av eksperter i utenlandsk litteratur, enighet om grunnleggende spørsmål, er ofte et panel. Eller gitt forskjellene i betydningen av det siste ordet på det russiske språket, kan en slik sammensetning kalles en representativ ekspertgruppe. Gruppen er valgt for å representere tilnærmingen som brukes for å lage den aktuelle testen på en adekvat måte.

Adaptive tester. Gjennomførbarheten av adaptiv kontroll oppstår fra behovet for å rasjonalisere tradisjonell testing. Hver lærer forstår at en godt forberedt elev ikke trenger å gi enkle eller veldig enkle oppgaver. Fordi sannsynligheten for å ta den riktige avgjørelsen er for høy. I tillegg har ikke lette materialer nevneverdig utviklingspotensial. Symmetrisk, på grunn av den høye sannsynligheten for en feil beslutning, er det ingen vits i å gi vanskelige oppgaver til en svak elev. Det er kjent at vanskelige og svært vanskelige oppgaver reduserer læringsmotivasjonen til mange elever. Det var nødvendig å finne et sammenlignbart, på én skala, mål på oppgavenes vanskelighetsgrad og et mål på kunnskapsnivået. Dette målet ble funnet i pedagogisk måleteori. Den danske matematikeren G. Rask kalte dette målet ordet «logit». Etter bruken av datamaskiner, dannet dette tiltaket grunnlaget for den adaptive kunnskapskontrollmetodikken, som bruker metoder for å regulere vanskelighetsgraden og antallet oppgaver som presenteres, avhengig av elevenes respons. Hvis svaret er vellykket, velger datamaskinen neste oppgave vanskeligere; hvis svaret ikke lykkes, vil neste oppgave være lettere. Naturligvis krever denne algoritmen foreløpig testing av alle oppgaver, bestemme vanskelighetsgraden deres, samt opprette en bank med oppgaver og et spesielt program.

Bruk av oppgaver som tilsvarer beredskapsnivået øker nøyaktigheten av målingene betydelig og minimerer tiden for individuell testing til ca 5 - 10 minutter Adaptiv testing gir mulighet for datamaskinbasert utstedelse av oppgaver på det optimale, ca. 50 % nivå av sannsynligheten for riktig svar for hver elev.

I vestlig litteratur skilles det mellom tre alternativer for adaptiv testing. Den første kalles pyramidetesting. I mangel av foreløpige vurderinger får alle emner en oppgave med gjennomsnittlig vanskelighetsgrad og først da, avhengig av svaret, får hvert emne en oppgave lettere eller vanskeligere; På hvert trinn er det nyttig å bruke regelen om å dele vanskelighetsskalaen i to. I det andre alternativet begynner kontrollen med et hvilket som helst vanskelighetsnivå som testpersonen ønsker, med en gradvis tilnærming til det reelle kunnskapsnivået. Det tredje alternativet er når testing utføres gjennom en bank med oppgaver delt på vanskelighetsnivåer.

Dermed er en adaptiv test en variant av et automatisert testsystem der parametrene for vanskelighetsgrad og differensieringsevne for hver oppgave er kjent på forhånd. Dette systemet er opprettet i form av en databank med oppgaver, ordnet i samsvar med egenskapene til oppgavene av interesse. Det meste hovedkjennetegn adaptive testoppgaver er deres vanskelighetsgrad, oppnådd empirisk, noe som betyr: før de kommer til banken, gjennomgår hver oppgave empirisk testing på et tilstrekkelig stort antall typiske studenter i populasjonen av interesse. Ordene «interessebetinget» er ment å representere betydningen av det mer strenge konseptet «den generelle befolkningen» kjent i vitenskapen.

Vår utbredte utdanningsmodell av den adaptive skolen E.A. Yamburg, går i hovedsak ut fra de generelle ideene om adaptiv læring og adaptiv kunnskapskontroll. Opprinnelsen til denne tilnærmingen kan spores tilbake til fremveksten av de pedagogiske verkene til Comenius, Pestalozzi og Disterweg, som ble forent av ideene om samsvar med naturen og undervisningens menneskelighet. Studenten var i sentrum av deres pedagogiske systemer. For eksempel kan du i A. Disterwegs lite kjente verk «Daktiske regler» lese følgende ord: «Undervis i overensstemmelse med naturen... Undervis uten hull... Start undervisningen der eleven slapp... Før du starter undervisning må man undersøke utgangspunktet... Uten å vite hvor eleven stoppet, er det umulig å lære ham ordentlig.» Mangel på bevissthet om det virkelige kunnskapsnivået til studenter og naturlige forskjeller i deres evner til å assimilere den foreslåtte kunnskapen har blitt hovedårsaken til fremveksten av adaptive systemer basert på prinsippet om individualisering av læring. Dette prinsippet er vanskelig å implementere i en tradisjonell klassetimeform.

Før ankomsten av de første datamaskinene, de fleste kjent system, nær adaptiv læring, var det såkalte "Systemet for fullstendig assimilering av kunnskap."

Kriteriebaserte tester. Med en kriteriebasert tilnærming lages tester for å sammenligne utdanningsresultatene til hver elev med mengden kunnskap, ferdigheter eller evner som er planlagt å tilegnes. I dette tilfellet brukes et spesifikt innholdsområde i stedet for et bestemt utvalg av elever som tolkningsramme. Det legges vekt på hva eleven kan og hva han kan, snarere enn på hvordan han sammenligner seg med andre.

Det er også vanskeligheter med den kriterieorienterte tilnærmingen. Som regel er de knyttet til valg av testinnhold. Innenfor rammen av den kriterierefererte tilnærmingen forsøker testen å reflektere hele innholdet i det kontrollerte emnet, eller i det minste det som kan oppfattes som dette fulle volumet. Prosentandelen av korrekt fullføring av oppgaver betraktes som forberedelsesnivået eller som graden av mestring av det totale volumet av kursinnhold. Innenfor rammen av en kriterieorientert tilnærming er det selvsagt all grunn til sistnevnte tolkning, siden testen inkluderer alt som kan betinget aksepteres som 100 %.

Kriteriebaserte tester dekker et ganske bredt spekter av oppgaver. Spesielt bidrar de til å samle inn fullstendig og objektiv informasjon om utdanningsresultatene til hver enkelt elev og en gruppe elever; sammenligne studentens kunnskaper, ferdigheter og evner med kravene fastsatt i staten pedagogiske standarder; velge elever som har nådd det planlagte beredskapsnivået; vurdere effektiviteten profesjonell aktivitet individuelle lærere og lærergrupper; evaluere effektiviteten til ulike treningsprogrammer.

En vektlegging av en innholdsbasert tilnærming kan ha en gunstig effekt på lærertestingen som helhet. Denne tilnærmingen gagner for eksempel tolkningen av testresultater under pågående overvåking. Eleven får informasjon ikke om hvordan han ser ut sammenlignet med andre, men om hva han kan og hva han kan i forhold til de gitte kravene til opplæringsnivået i faget. Selvfølgelig utelukker ikke en slik tolkning en kombinasjon med tilskrivning av resultater til normer, som som regel oppstår under den pågående overvåkingen av elevenes kunnskap i hverdagen. pedagogisk prosess. I dette tilfellet er testing integrert med læring og hjelper studenten med å identifisere mulige vanskeligheter, samt rettidig korrigere feil i å mestre innholdet i pedagogisk materiale.



Under studentens resonnement blir kjeden avbrutt (inkonsekvens av konseptet eller forklaringen), deretter bestemmes antall signifikante operasjoner før den logiske kjeden brytes. Det særegne med å kompilere testoppgaver på dette mestringsnivået er at det er nesten umulig å lage en entydig standard. Standarden kan lages i form av et problemløsningsdiagram. Eksempel: logisk kjede. ...

Plan

    Hovedtyper av pedagogiske prøver.

    Former for testoppgaver.

    Empirisk verifisering og statistisk behandling av resultater.

    Prinsipper for innholdsvalg. Kriterier for vurdering av prøveinnhold.

    Forholdet mellom oppgavens form og type kunnskap, ferdigheter og evner som testes.

  1. Hovedtyper av pedagogiske prøver

Det er to hovedtyper av tester: tradisjonelle og ikke-tradisjonelle.

Testen har sammensetning, integritet og struktur. Den består av oppgaver, regler for deres anvendelse, karakterer for å fullføre hver oppgave og anbefalinger for tolkning av testresultater. Testens integritet betyr sammenhengen mellom oppgaver, deres tilhørighet til en felles målt faktor. Hver testoppgave oppfyller sin tildelte rolle, og derfor kan ingen av dem fjernes fra testen uten tap av målekvalitet. Strukturen i testen dannes av måten oppgavene er knyttet til hverandre. I utgangspunktet er dette den såkalte faktorstrukturen, der hvert element er relatert til andre gjennom felles innhold og felles variasjon i testresultater.

En tradisjonell test er en enhet av minst tre systemer:

Et formelt system av oppgaver med økende vanskelighetsgrad;

Statistiske kjennetegn på oppgaver og testpersoners resultater.

Den tradisjonelle pedagogiske prøven må betraktes i to vesentlige betydninger: - som en metode for pedagogisk måling og som et resultat av bruk av prøven. Det er overraskende at tekster på russisk graviterer mot betydningen av metoden, mens i de fleste verk av vestlige forfattere blir begrepet test oftere vurdert i betydningen resultater. I mellomtiden karakteriserer begge disse betydningene testen fra ulike sider, fordi testen må forstås samtidig både som en metode og som et resultat av en pedagogisk måling. Det ene utfyller det andre. En test, som metode, kan ikke tenkes uten resultater som bekrefter kvaliteten på seg selv og kvaliteten på målevurderinger av emner på ulike beredskapsnivåer.

Flere ideer er utviklet i definisjonen ovenfor av en tradisjonell test.

Den første ideen er at testen ikke betraktes som et vanlig sett eller sett med spørsmål, oppgaver osv., men i form av begrepet et "oppgavesystem." Et slikt system dannes ikke av noen totalitet, men bare av det som bestemmer fremveksten av en ny integrativ kvalitet som skiller testen fra et elementært sett med oppgaver og fra andre midler for pedagogisk kontroll. Av de mange mulige systemene er det beste dannet av det integrerte settet der kvaliteten på testen manifesteres i relativt større grad. Derav ideen om å identifisere den første av de to viktigste systemdannende faktorene - den beste sammensetningen av testoppgaver som danner integriteten. Basert på dette kan vi gi en av de korteste definisjonene: en test er et system av oppgaver som danner den beste metodiske integriteten. Testens integritet er det stabile samspillet mellom oppgaver som utgjør testen som et utviklende system.

Den andre ideen er at i denne definisjonen av en test er det et avvik fra den dypt forankrede tradisjonen med å se en test som et enkelt middel for å sjekke, teste, teste. Hver test inkluderer et element av testing; det handler ikke bare om det. For en prøve er også et begrep, innhold, form, resultater og tolkning – alt som krever begrunnelse. Dette innebærer at testen er et kvalitativt middel for pedagogisk måling. I følge teorien er ikke testresultater nøyaktige vurderinger av fag. Det er riktig å si at de bare representerer disse betydningene med en viss nøyaktighet.

Den tredje ideen utviklet i vår definisjon av en tradisjonell test er inkluderingen av et nytt konsept – testeffektivitet, som ikke tidligere har vært vurdert i testlitteraturen som et kriterium for analyse og testoppretting. Den ledende ideen med en tradisjonell test er å sammenligne kunnskapen til så mange studenter som mulig med et minimum antall oppgaver, på kort tid, raskt, effektivt og til lavest mulig pris.

I hovedsak reflekterer dette ideen om effektiviteten til pedagogiske aktiviteter innen kunnskapskontroll. Jeg vil tro at det ikke er noen og det er ingen grunn til å protestere mot nettopp denne ideen. Hvis læreren vår kan forklare utdanningsmaterialet ikke dårligere enn sin utenlandske kollega, er det greit å sjekke den nødvendige kunnskapen, for alle elever, for alt materialet som er studert, er han ikke i stand til det på grunn av det rådende klasse-leksjonssystemet. i vårt land, mangelen på datautstyr, tester og programmer for å organisere automatisert selvkontroll - den mest humane formen for kunnskapskontroll. Han klarer heller ikke dette fysisk. På grunn av mildt sagt feilaktig sosialpolitikk har lønnene til våre lærere lenge ikke vært i stand til å kompensere for utgiftene til selv den fysiske energien som er nødvendig for god undervisning, for ikke å nevne de økte utgiftene til intellektuell energi, som bare kan oppnås ved å tenke som er uhemmet og ikke opptatt av søken etter brød. Som nevnt i litteraturen mottar en kvalifisert arbeidstaker tre til fire ganger mindre enn lønnsnivået utover som normal livsaktivitet blir forstyrret og ødeleggelsen av arbeidspotensialet begynner.

Selv om det finnes hundrevis av eksempler på testdefinisjoner i litteraturen som det enten er vanskelige eller umulige å si seg enig i, betyr ikke dette i det hele tatt at denne definisjonen av en tradisjonell test er den ultimate sannheten. Som alle andre konsepter trenger det konstant forbedring. For forfatteren virker det bare som om det så langt er mer begrunnet enn noen andre kjente begreper i den pedagogiske prøven. Ønsket om å forbedre konsepter er imidlertid et helt normalt fenomen og nødvendig for å normalt utvikle praksis og vitenskap. Konstruktive forsøk på å gi andre definisjoner av testen eller utfordre eksisterende er alltid nyttige, men det er nettopp dette vi mangler.

Tradisjonelle tester inkluderer homogene og heterogene tester. En homogen test er et system av oppgaver med økende vanskelighetsgrad, spesifikk form og spesifikt innhold - et system laget med det formål å oppnå en objektiv, høykvalitets og effektiv metode for å vurdere strukturen og måle beredskapsnivået til studenter i ett akademisk disiplin. Det er lett å se at i sin kjerne sammenfaller definisjonen av en homogen test med definisjonen av en tradisjonell test.

Homogene tester er mer vanlig enn andre. I pedagogikk er de skapt for å kontrollere kunnskap i en akademisk disiplin eller i en del av en slik, for eksempel, voluminøs akademisk disiplin som fysikk. I en homogen pedagogisk prøve er det ikke tillatt å bruke oppgaver som avslører andre egenskaper. Tilstedeværelsen av sistnevnte bryter med kravet om disiplinær renhet av den pedagogiske testen. Tross alt måler hver test noe forhåndsbestemt.

En test i fysikk måler for eksempel testtakernes kunnskap, ferdigheter og oppfatninger i denne vitenskapen. En av vanskelighetene med en slik måling er at fysisk kunnskap er tungt koblet med matematisk kunnskap. Derfor fastslår fysikktesten ekspertnivået på matematisk kunnskap som brukes til å løse fysikkproblemer. Overskridelse av akseptert nivå fører til en skjevhet i resultatene; etter hvert som de overskrides, begynner sistnevnte i økende grad ikke å avhenge så mye av kunnskap om fysikk, men av kunnskap om en annen vitenskap, matematikk. Et annet viktig aspekt er ønsket til noen forfattere om å inkludere i tester ikke så mye en kunnskapstest som evnen til å løse fysiske problemer, og dermed involvere den intellektuelle komponenten i å måle beredskap i fysikk.

En heterogen test er et system av oppgaver med økende vanskelighetsgrad, spesifikk form og spesifikt innhold - et system laget med det formål å en objektiv, høykvalitets og effektiv metode for å vurdere strukturen og måle beredskapsnivået til studenter i flere akademiske fag. disipliner. Ofte inkluderer slike tester også psykologiske oppgaver for å vurdere nivået på intellektuell utvikling.

Vanligvis brukes heterogene tester for en helhetlig vurdering av skolekandidater, personlighetsvurdering ved søknad om jobb, og for å velge de mest forberedte søkerne for opptak til universiteter. Siden hver heterogene test består av homogene tester, foretas tolkningen av testresultatene basert på svarene på oppgavene til hver test (her kalles de skalaer) og i tillegg forsøkes det gjennom ulike metoder for aggregering av poengsum. gi en samlet vurdering av testpersonens beredskap.

La oss huske at en tradisjonell test er en metode for å diagnostisere forsøkspersoner der de svarer på de samme oppgavene, på samme tid, under samme forhold og med samme poengsum. Med denne orienteringen går oppgaven med å bestemme det nøyaktige volumet og strukturen til det mestrede pedagogiske materialet, nødvendigvis i bakgrunnen. Testen velger et minimum tilstrekkelig antall oppgaver som lar en relativt nøyaktig bestemme, billedlig talt, ikke "hvem som vet hva", men "hvem som vet mer." Tolking av testresultater utføres først og fremst på testologiens språk, basert på aritmetisk gjennomsnitt, modus eller median og på de såkalte persentilnormene, som viser hvor mange prosent av forsøkspersonene som har et testresultat som er dårligere enn det for ethvert emne tatt for analyse med testresultatet. Denne tolkningen kalles normativt orientert. Her er konklusjonen supplert med en vurdering: oppgaver svarer konklusjoner om kunnskapen om faget vurdering, forstått som en konklusjon om fagets plass eller rangering.

Integrative tester. En integrativ test kan kalles en test som består av et system av oppgaver som oppfyller kravene til integrerende innhold, en testform og økende vanskelighetsgrad for oppgaver rettet mot en generalisert endelig diagnose av beredskapen til en utdannet ved en utdanningsinstitusjon. Diagnostikk utføres ved å presentere slike oppgaver, der de riktige svarene krever integrert (generalisert, klart sammenhengende) kunnskap om to eller flere akademiske disipliner. Opprettelsen av slike tester gis kun til de lærere som har kunnskap om en rekke akademiske disipliner, forstår den viktige rollen tverrfaglige forbindelser har i læringen, og som er i stand til å lage oppgaver som de riktige svarene krever at studentene har kunnskap om ulike disipliner og evnen til å anvende slik kunnskap.

Integrativ testing innledes med organisering av integrativ trening. Dessverre vil dagens klassetimeform for å gjennomføre klasser, kombinert med overdreven fragmentering av akademiske disipliner, sammen med tradisjonen med å undervise individuelle disipliner (snarere enn generaliserte kurs), i lang tid hindre implementeringen av en integrerende tilnærming i prosessene. av læring og overvåking av beredskap. Fordelen med integrative tester fremfor heterogene ligger i det større informative innholdet i hver oppgave og i det mindre antallet oppgaver i seg selv. Behovet for å lage integrerende tester øker etter hvert som utdanningsnivået og antall akademiske disipliner som studeres øker. Derfor er forsøk på å lage slike tester notert hovedsakelig i høyere utdanning. Integrative tester er spesielt nyttige for å øke objektiviteten og effektiviteten til den endelige sertifiseringen av studenter.

Metodikken for å lage integrerende tester ligner på metodikken for å lage tradisjonelle tester, med unntak av arbeidet med å fastsette innholdet i oppgaver. For å velge innholdet i integrerende tester er bruk av ekspertmetoder obligatorisk. Dette skyldes det faktum at kun eksperter kan fastslå tilstrekkeligheten av innholdet i oppgavene for testens formål. Men først og fremst vil det være viktig for ekspertene selv å bestemme målene for utdanning og studier av visse utdanningsprogrammer, og deretter bli enige seg imellom om grunnleggende spørsmål, og etterlate til eksamen kun variasjoner i forståelsen av graden av betydning av enkeltelementer i den overordnede beredskapsstrukturen. En utvalgt sammensetning av eksperter i utenlandsk litteratur, enighet om grunnleggende spørsmål, er ofte et panel. Eller gitt forskjellene i betydningen av det siste ordet på det russiske språket, kan en slik sammensetning kalles en representativ ekspertgruppe. Gruppen er valgt for å representere tilnærmingen som brukes for å lage den aktuelle testen på en adekvat måte.

Adaptive tester. Gjennomførbarheten av adaptiv kontroll oppstår fra behovet for å rasjonalisere tradisjonell testing. Hver lærer forstår at en godt forberedt elev ikke trenger å gi enkle eller veldig enkle oppgaver. Fordi sannsynligheten for å ta den riktige avgjørelsen er for høy. I tillegg har ikke lette materialer nevneverdig utviklingspotensial. Symmetrisk, på grunn av den høye sannsynligheten for en feil beslutning, er det ingen vits i å gi vanskelige oppgaver til en svak elev. Det er kjent at vanskelige og svært vanskelige oppgaver reduserer læringsmotivasjonen til mange elever. Det var nødvendig å finne et sammenlignbart, på én skala, mål på oppgavenes vanskelighetsgrad og et mål på kunnskapsnivået. Dette målet ble funnet i pedagogisk måleteori. Den danske matematikeren G. Rask kalte dette målet ordet «logit». Etter bruken av datamaskiner, dannet dette tiltaket grunnlaget for den adaptive kunnskapskontrollmetodikken, som bruker metoder for å regulere vanskelighetsgraden og antallet oppgaver som presenteres, avhengig av elevenes respons. Hvis svaret er vellykket, velger datamaskinen neste oppgave vanskeligere; hvis svaret ikke lykkes, vil neste oppgave være lettere. Naturligvis krever denne algoritmen foreløpig testing av alle oppgaver, bestemme vanskelighetsgraden deres, samt opprette en bank med oppgaver og et spesielt program.

Bruk av oppgaver som tilsvarer beredskapsnivået øker nøyaktigheten av målingene betydelig og minimerer tiden for individuell testing til ca 5 - 10 minutter Adaptiv testing gir mulighet for datamaskinbasert utstedelse av oppgaver på det optimale, ca. 50 % nivå av sannsynligheten for riktig svar for hver elev.

I vestlig litteratur skilles det mellom tre alternativer for adaptiv testing. Den første kalles pyramidetesting. I mangel av foreløpige vurderinger får alle emner en oppgave med gjennomsnittlig vanskelighetsgrad og først da, avhengig av svaret, får hvert emne en oppgave lettere eller vanskeligere; På hvert trinn er det nyttig å bruke regelen om å dele vanskelighetsskalaen i to. I det andre alternativet begynner kontrollen med et hvilket som helst vanskelighetsnivå som testpersonen ønsker, med en gradvis tilnærming til det reelle kunnskapsnivået. Det tredje alternativet er når testing utføres gjennom en bank med oppgaver delt på vanskelighetsnivåer.

Dermed er en adaptiv test en variant av et automatisert testsystem der parametrene for vanskelighetsgrad og differensieringsevne for hver oppgave er kjent på forhånd. Dette systemet er opprettet i form av en databank med oppgaver, ordnet i samsvar med egenskapene til oppgavene av interesse. Den viktigste egenskapen til adaptive testoppgaver er deres vanskelighetsgrad, oppnådd empirisk, noe som betyr: før du kommer til banken, gjennomgår hver oppgave empirisk testing på et tilstrekkelig stort antall typiske studenter i populasjonen av interesse. Ordene «interessebetinget» er ment å representere betydningen av det mer strenge konseptet «den generelle befolkningen» kjent i vitenskapen.

Vår utbredte utdanningsmodell av den adaptive skolen E.A. Yamburg, går i hovedsak ut fra de generelle ideene om adaptiv læring og adaptiv kunnskapskontroll. Opprinnelsen til denne tilnærmingen kan spores tilbake til fremveksten av de pedagogiske verkene til Comenius, Pestalozzi og Disterweg, som ble forent av ideene om samsvar med naturen og undervisningens menneskelighet. Studenten var i sentrum av deres pedagogiske systemer. For eksempel kan du i A. Disterwegs lite kjente verk «Daktiske regler» lese følgende ord: «Undervis i overensstemmelse med naturen... Undervis uten hull... Start undervisningen der eleven slapp... Før du starter undervisning må man undersøke utgangspunktet... Uten å vite hvor eleven stoppet, er det umulig å lære ham ordentlig.» Mangel på bevissthet om det virkelige kunnskapsnivået til studenter og naturlige forskjeller i deres evner til å assimilere den foreslåtte kunnskapen har blitt hovedårsaken til fremveksten av adaptive systemer basert på prinsippet om individualisering av læring. Dette prinsippet er vanskelig å implementere i en tradisjonell klassetimeform.

Før de første datamaskinene kom, var det mest kjente systemet nær adaptiv læring det såkalte "Complete Knowledge Assimilation System".

Kriteriebaserte tester. Med en kriteriebasert tilnærming lages tester for å sammenligne utdanningsresultatene til hver elev med mengden kunnskap, ferdigheter eller evner som er planlagt å tilegnes. I dette tilfellet brukes et spesifikt innholdsområde i stedet for et bestemt utvalg av elever som tolkningsramme. Det legges vekt på hva eleven kan og hva han kan, snarere enn på hvordan han sammenligner seg med andre.

Det er også vanskeligheter med den kriterieorienterte tilnærmingen. Som regel er de knyttet til valg av testinnhold. Innenfor rammen av den kriterierefererte tilnærmingen forsøker testen å reflektere hele innholdet i det kontrollerte emnet, eller i det minste det som kan oppfattes som dette fulle volumet. Prosentandelen av korrekt fullføring av oppgaver betraktes som forberedelsesnivået eller som graden av mestring av det totale volumet av kursinnhold. Innenfor rammen av en kriterieorientert tilnærming er det selvsagt all grunn til sistnevnte tolkning, siden testen inkluderer alt som kan betinget aksepteres som 100 %.

Kriteriebaserte tester dekker et ganske bredt spekter av oppgaver. Spesielt bidrar de til å samle inn fullstendig og objektiv informasjon om utdanningsresultatene til hver enkelt elev og en gruppe elever; sammenligne studentens kunnskap, ferdigheter og evner med kravene fastsatt i statlige utdanningsstandarder; velge elever som har nådd det planlagte beredskapsnivået; vurdere effektiviteten av de profesjonelle aktivitetene til individuelle lærere og lærergrupper; evaluere effektiviteten til ulike treningsprogrammer.

En vektlegging av en innholdsbasert tilnærming kan ha en gunstig effekt på lærertestingen som helhet. Denne tilnærmingen gagner for eksempel tolkningen av testresultater under pågående overvåking. Eleven får informasjon ikke om hvordan han ser ut sammenlignet med andre, men om hva han kan og hva han kan i forhold til de gitte kravene til opplæringsnivået i faget. Selvfølgelig utelukker ikke en slik tolkning en kombinasjon med tilskrivning av resultater til normer, som som regel skjer under den pågående overvåkingen av studentenes kunnskap i den daglige utdanningsprosessen. I dette tilfellet er testing integrert med læring og hjelper studenten med å identifisere mulige vanskeligheter, samt rettidig korrigere feil i å mestre innholdet i pedagogisk materiale.

  1. Former for testoppgaver

I moderne testing (Avanesov V.S., Chelyshkova M.B., Mayorov A.N., etc.) er det 4 typer oppgaver i testform: oppgaver for å velge ett eller flere riktige svar, oppgaver i åpen form eller for addisjon, oppgaver for å etablere riktig rekkefølge og oppgaver for å etablere korrespondanser. Den vanligste er den første formen.

La oss vurdere i detalj hver form for oppgaver i henhold til V.S.s klassifisering. Avanesova.

Oppgaver for å velge ett eller flere riktige svar er best egnet for datatesting av kunnskap. Det er praktisk å dele opp slike oppgaver i følgende typer: oppgaver med to, tre, fire, fem og flere svar. Instruksjonen for denne formen for oppgaver er setningen: "Sirkel (sjekk, indiker) nummeret på det riktige svaret."

Eksempel 1. Merk nummeret på riktig svar.

Stedet som er okkupert av et siffer i et tall kalles

    posisjon;

    utslipp;

    posisjon;

    bekjent.

Oppgaven bør formuleres kort og tydelig, slik at betydningen er klar ved første lesning.

Innholdet i oppgaven er formulert så klart og så kort som mulig. Korthet er sikret av et nøye utvalg av ord, symboler og grafikk, som tillater et minimum av midler for å oppnå maksimal klarhet i betydningen av oppgaven. Det er nødvendig å fullstendig eliminere repetisjoner av ord, bruk av obskure, sjelden brukt, samt symboler ukjente for studenter, og fremmedord som gjør det vanskelig å oppfatte betydningen. Det er bra når oppgaven ikke inneholder mer enn én bisetning.

For å oppnå korthet er det bedre å spørre om én ting i hver oppgave. Å gjøre oppgaver tyngre med krav om å finne noe, løse det og deretter forklare det har en negativ innvirkning på oppgavens kvalitet, selv om det fra et pedagogisk synspunkt er lett å forstå årsaken til denne formuleringen.

Det er enda bedre når både oppgaven og svaret er kort. Et feil, men plausibelt svar i amerikansk testlitteratur kalles en distractor (fra det engelske verbet å distrahere - å distrahere). Generelt, jo bedre distraktorene er valgt, jo bedre er oppgaven. Utviklerens talent manifesterer seg først og fremst i utviklingen av effektive distraktorer. Man tror vanligvis at jo høyere prosentandel av feil svarvalg, jo bedre formulert er det. Det skal bemerkes at dette kun er sant til en viss grad; I jakten på distraktørers attraktivitet går ofte en følelse av proporsjoner tapt. Attraktiviteten til hvert svar er empirisk testet.

Oppgaver med valg av ett eller flere svar er den mest kritiserte formen. Tilhengere av konvensjonelle tilnærminger hevder at kunnskap bare virkelig kan testes i prosessen med direkte kommunikasjon med studenten, og stiller ham oppklarende spørsmål, noe som bidrar til å bedre klargjøre kunnskapens sanne dybde, styrke og gyldighet. Man må si seg enig i slike utsagn. Imidlertid er det også spørsmål om å spare lærernes og studenters levende arbeidskraft, spare tidskostnader og problemet med å øke effektiviteten i utdanningsprosessen.

Man tror ofte at det er mye lettere å finne det rette svaret enn å formulere det selv. Men i godt utførte oppgaver virker feil svar ofte mer plausible for en uvitende elev enn riktige. Testutviklerens talent avsløres i prosessen med å lage nøyaktig feil, men svært plausible svar. En annen innvending er at en prøveoppgave med valg av ett eller flere riktige svar kun egner seg for å vurdere kunnskap på såkalt lavere nivå.

En variant av oppgaver med valg av ett, det mest korrekte svaret blant de foreslåtte, er uthevet. Instruksjonene for slike oppgaver er skrevet tilsvarende: "Skriv ring rundt nummeret på det mest riktige svaret." Det forutsettes naturligvis at alle andre svar på oppgavene er riktige, men i varierende grad.

Det er tre grunner til å innføre slike oppgaver i praksis.

Den første er den gamle ideen om å ekskludere feil svar fra oppgaver, som svake elever visstnok kan huske. Hvis vi følger denne svært kontroversielle oppgaven, kan det ikke gis feil svar under testing i det hele tatt.

Den andre grunnen til å innføre slike oppgaver i praksis er mer realistisk. Det dreier seg om behovet for å utvikle hos elevene ikke bare evnen til å skille riktige svar fra feil, men også evnen til å skille mål for riktighet av svar. Dette er veldig viktig, både i den generelle videregående og høyere yrkesfaglige utdanningen.

Den tredje grunnen til å bruke oppgaver med å velge det mest korrekte svaret er ønsket om å bruke dem til å kontrollere fullstendigheten av kunnskapen.

Uansett hvor overbevisende grunnene for å introdusere slike oppgaver i praksis, er det usannsynlig at sistnevnte vil finne bred anvendelse.

I åpne oppgaver gis ikke ferdige svar: testpersonen må komme med eller motta dem selv. Noen ganger, i stedet for begrepet "oppgaver i åpen form", brukes begrepene "oppgaver for tillegg" eller "oppgaver med et konstruert svar". For et åpent skjema er det vanlig å bruke instruksjoner som består av ett ord: "Legg til".

Eksempel 2. Legg til.

I det binære tallsystemet 10-1=_________.

Tilleggsoppgaver kommer i to merkbart forskjellige typer:

1) med restriksjoner pålagt svar, muligheten for å få som er hensiktsmessig bestemt av innholdet og presentasjonsformen;

2) oppgaver med et fritt konstruert svar, der det er nødvendig å komponere et detaljert svar i form av en fullstendig løsning på problemet eller gi et svar i form av et mikro-essay.

I oppgaver med begrensninger bestemmes det på forhånd hva som klart anses som riktig svar, og graden av fullstendighet av svaret settes. Vanligvis er det ganske kort - ett ord, tall, symbol osv. Noen ganger - lengre, men ikke over to eller tre ord. Naturligvis stiller den regulerte kortfattetheten av svar visse krav til anvendelsesomfanget, så oppgaver av den første typen brukes hovedsakelig til å vurdere et ganske snevert spekter av ferdigheter.

Et særtrekk ved oppgaver med restriksjoner på utfyllende svar er at de kun må generere ett riktig svar, planlagt av utvikleren.

Oppgaver av den andre typen med fritt konstruert besvarelse har ingen begrensninger på innhold og presentasjonsform av besvarelser. I en viss tid kan eleven skrive hva han vil. Den nøye utformingen av slike oppgaver forutsetter imidlertid tilstedeværelsen av en standard, som vanligvis er det mest korrekte svaret med egenskaper og kvalitetstegn som beskriver det.

I oppgaver for å etablere korrespondanse sjekker læreren kunnskap om sammenhengene mellom elementer i to sett. Elementer for sammenligning er skrevet i to kolonner: til venstre er vanligvis elementene i det definerende settet som inneholder problemformuleringen, og til høyre er elementene som skal velges.

Oppgavene får standardinstruksjoner: "Samsvar korrespondansen."


Eksempel 3: Match

a B C) - _____________.

Det skal bemerkes at det er ønskelig at det er flere elementer i høyre kolonne enn i venstre. I denne situasjonen oppstår det visse vanskeligheter knyttet til valg av plausible overflødige elementer. Noen ganger for ett element i venstre sett er det nødvendig å velge flere riktige svar fra høyre kolonne. I tillegg kan korrespondansene utvides til tre eller flere sett. Effektiviteten av oppgaven reduseres betydelig hvis usannsynlige alternativer lett kan skilles ut selv av uvitende studenter.

Effektiviteten av oppgaven reduseres også i tilfeller hvor antall elementer i venstre og høyre kolonne er likt og det rett og slett ikke er noe å velge mellom når man skal etablere samsvar for det siste elementet til venstre. Det siste riktige eller ukorrekte treffet etableres automatisk ved å sekvensielt eliminere elementer for tidligere treff.

Testoppgaver for å etablere riktig rekkefølge er designet for å vurdere ferdighetsnivået i rekkefølgen av handlinger, prosesser, etc. I oppgaver er handlinger, prosesser og elementer knyttet til en spesifikk oppgave gitt i en vilkårlig, tilfeldig rekkefølge. Standardinstruksjonene for disse oppgavene er som følger: "Etabler riktig rekkefølge av handlinger."

Eksempel 4: Få sekvensen riktig

Den fullstendige grenkommandoen på UAY har formatet:

    ellers<серия 2>

    At<серия 1>

    Hvis<условие>

Oppgaver med å etablere riktig rekkefølge får vennlig støtte fra mange lærere, noe som forklares av den viktige rollen til ordnet tenkning og aktivitetsalgoritmer.

Hensikten med å introdusere slike oppgaver i utdanningsprosessen er dannelsen av algoritmisk tenkning, algoritmisk kunnskap, ferdigheter og evner.

Algoritmisk tenkning kan defineres som en intellektuell evne som manifesterer seg i å bestemme den beste rekkefølgen av handlinger når man løser pedagogiske og praktiske problemer. Typiske eksempler på slik tenkning er vellykket gjennomføring av ulike oppgaver på kort tid, utvikling av det mest effektive dataprogrammet, etc.

Valget av oppgaveformer bestemmes av mange svært motstridende faktorer, inkludert spesifikasjonene til innholdet, testmålene, og også spesifikasjonene til testpopulasjonen. Kontroll er lettere når du bruker oppgaver i lukket form, men slike oppgaver er mindre informative. Åpne oppgaver er mer informative, men det er vanskeligere å organisere verifiseringen. En enda vanskeligere oppgave er å lage dataprogrammer for å kontrollere riktigheten av svar på slike oppgaver. Dette er på grunn av rikdommen i fagenes ordforråd (synonymer kan brukes når du svarer), oppmerksomhet (skrivefeil, kasusfeil), etc.

For å lykkes med å navigere i oppgaveskjemaene kan du bruke en spesiell tabell (se tabell 1) for en sammenlignende analyse av oppgaver, foreslått av M.B. Chelyshkova.

I følge utvikleren er denne tabellen rent veiledende, men bruken av den kan lette prosessen med å velge testelementer av forskjellige former for å løse visse diagnostiske problemer.


Tabell 1

Komparativ analyse av testoppgavens egenskaper

Kjennetegn Lukket skjemaoppgaver Kompletteringsoppgaver Samsvarsoppgaver SekvenseringsoppgaverSjekke faktakunnskapene Passable Passable Passable PassableAnvendelse av kunnskap etter modellen Bestått Bestått Bestått BeståttAnvendelse av kunnskap i ikke-standardiserte situasjoner Uegnet Passabel Uegnet PassabelEnkel utforming Ja Ja Nei NeiUnntaksgjetting Ikke ekskludert Ikke ekskludert Ikke ekskludert Ikke ekskludertObjektivitet ved vurdering Ja Nei Ja JaEliminering av skrivefeil Nei Ja Nei NeiMulighet for originalt svar Nei Ja Ja/Nei Nei

Overholdelse av oppgaver i prøveform med kravene til pedagogisk riktighet av innhold og form er nødvendig, men ikke tilstrekkelige betingelser for å kalle dem prøver.

Transformasjonen av oppgaver i testform til testoppgaver begynner fra øyeblikket av statistisk verifisering av hver oppgave for tilstedeværelsen av testdannende egenskaper.

  1. Empirisk verifisering og statistisk behandling av resultater

Tilstedeværelsen av et tilstrekkelig antall testoppgaver gjør at vi kan gå videre til å utvikle testen som et system med integritet, sammensetning og struktur. På det tredje trinnet velges oppgaver og tester opprettes, kvaliteten og effektiviteten til testen forbedres.

Testens integritet dannes av forholdet mellom testtakernes svar på testoppgavene og tilstedeværelsen av en felles målbar faktor som påvirker kvaliteten på kunnskapen.

Sammensetningen av testen danner det riktige utvalget av oppgaver, slik at det minste nødvendige antallet gjenspeiler de essensielle elementene i språkkompetansen til testtakerne.

Nivået og strukturen på kunnskap avsløres ved å analysere svarene til hver testtaker på alle testelementene. Jo flere riktige svar, desto høyere er den individuelle prøveskåren til fagene. Vanligvis er denne testskåren assosiert med begrepet "kunnskapsnivå" og gjennomgår en avklaringsprosedyre basert på en eller annen modell for pedagogisk måling. Samme kunnskapsnivå kan oppnås ved å svare på ulike oppgaver. For eksempel, i en test med tretti elementer, fikk forsøkspersonen ti poeng. Disse poengene oppnås mest sannsynlig gjennom riktige svar på de første ti, relativt enkle oppgavene. Sekvensen av enere og deretter nuller som er iboende i et slikt tilfelle, kan kalles den riktige strukturen av fagets beredskap. Hvis det motsatte bildet avsløres, når forsøkspersonen svarer riktig på vanskelige oppgaver og feil på enkle, så motsier dette testens logikk og derfor kan en slik kunnskapsprofil kalles invertert. Det skjer sjelden, og oftest, på grunn av feilen i testen, der oppgavene er ordnet i strid med kravene til økende vanskelighetsgrad. Forutsatt at testen er utført riktig, angir hver profil kunnskapens struktur. Denne strukturen kan kalles elementær (siden det også finnes faktorstrukturer som identifiseres ved hjelp av faktoranalysemetoder).

For å bestemme nivået av strukturert beredskap, kan du bruke L. Gutman-koeffisienten, tidligere unøyaktig kalt et mål på "testpålitelighet".


hvor r g struktureringskoeffisient;.

Kunnskapsnivået avhenger i stor grad av personlig innsats og evner, mens kunnskapsstrukturen i stor grad avhenger av riktig organisering av utdanningsprosessen, av individualisering av opplæring, av lærerens dyktighet, av objektiviteten til kontroll - generelt, på alt som vanligvis mangler. Veien til å oppnå dette idealet går gjennom vanskelighetene med å lage kvalitetstester.

Utviklingen av tester starter med en analyse av innholdet i den lærte kunnskapen og mestring av prinsippene for å formulere testoppgaver. Dessverre blir tester fortsatt sett på som noe det er lett å finne på, mens styrken til tester er deres effektivitet, som stammer fra teoretisk og empirisk validitet.

På den tredje fasen vil utviklerne av den nye generasjonen tester trenge litt matematisk og statistisk opplæring og kunnskap om testteori. Testteori kan defineres som et sett med konsistente konsepter, former, metoder, aksiomer, formler og utsagn som bidrar til å forbedre effektiviteten og kvaliteten på testprosessen. I tillegg kan det være nødvendig med noe erfaring i bruk av multivariate statistiske analysemetoder og erfaring med korrekt tolkning av testresultater.

Spørsmålet dukker ofte opp: "Hvordan vil de slettede oppgavene oppføre seg i andre faggrupper?" Svaret avhenger av kvaliteten på utvalget av grupper, eller mer presist på den statistiske planen for å danne utvalgspopulasjoner. Det riktige svaret på dette spørsmålet bør søkes i betydningen begrepet "målgruppe"; dette er settet med personer i populasjonen som testen som utvikles er ment for.

Følgelig, hvis oppgavene til den utformede testen oppfører seg forskjellig i forskjellige grupper, er dette mest sannsynlig en indikasjon på feil i dannelsen av prøver av emner. Sistnevnte skal være like homogene som fagene i målgruppen. På statistisk språk betyr dette at forsøkspersoner i mål- og forsøksgruppen skal tilhøre samme generelle populasjon.

Logaritmiske estimater, kalt logits, av slike tilsynelatende virkelig forskjellige fenomener som kunnskapsnivået til faget med vanskelighetsgraden for hver oppgave, ble brukt for å direkte sammenligne vanskelighetsgraden med beredskapsnivået til faget.

Ifølge Bespalko V.P. og Tatur Yu.G., bør testing være et mål på kvaliteten på assimilering av kunnskap, ferdigheter og evner. Å sammenligne reglene for å fullføre en oppgave (oppgave) foreslått i teksten med standardsvaret lar oss bestemme koeffisienten for kunnskapsassimilering (K us). Det skal bemerkes at , hvor A er antall riktige svar, og P er antall oppgaver i de foreslåtte testene.

Definisjon K us er en operasjon for å måle kvaliteten på kunnskapsinnhenting. K us kan normaliseres (0< К us < 1), процедура же контроля усвоения легко автоматизируется. По коэффициенту судят о завершенности процесса обучения: если К us >0,7, så kan læringsprosessen anses som fullført. Når man mestrer kunnskap med K us ≤ 0,7, gjør en elev systematisk feil i sine profesjonelle aktiviteter og er ikke i stand til å rette dem på grunn av sin manglende evne til å finne dem. Den nedre akseptable grensen for gjennomføring av opplæringsprosessen økes til den verdien som er nødvendig ut fra et driftssikkerhetssynspunkt.

  1. Prinsipper for innholdsvalg. Kriterier for vurdering av prøveinnhold

Når du lager en test, trekkes utviklerens oppmerksomhet først og fremst til spørsmålene om innholdsvalg, som kan defineres som den optimale refleksjonen av innholdet i en akademisk disiplin i systemet med testoppgaver. Kravet om optimalitet forutsetter bruk av en viss utvelgelsesmetodikk, herunder spørsmål om målsetting, planlegging og vurdering av kvaliteten på prøveinnholdet.

Målsettingsstadiet er det vanskeligste og samtidig det viktigste: Kvaliteten på testinnholdet avhenger først og fremst av resultatene av implementeringen. I prosessen med målsetting må læreren bestemme hvilke elevresultater han vil evaluere ved hjelp av testen.

Årsakene til feil i en lærers konklusjoner er ikke alltid knyttet til de teknologiske manglene ved tradisjonelle kontrollmidler. Noen ganger er de forårsaket av mangler hos læreren på målsettingsstadiet, når tyngdepunktet for testen skifter til sekundære læringsmål, og noen ganger er målsettingsstadiet helt fraværende, siden noen lærere er sikre på ufeilbarligheten til deres erfaring og intuisjon, spesielt hvis de har jobbet på skolen i mange år. Imidlertid vil ingen engang svært avanserte kontrollmetoder og ingen erfaring gi grunnlag for pålitelige konklusjoner om oppnåelse av læringsmål før det er tillit til riktig innstilling av kontrollmål og deres korrekte, objektive visning i innholdet i testen.

Når du lager en test, er oppgaven å reflektere i innholdet det viktigste elevene bør vite som et resultat av læring, så det er umulig å begrense seg til en enkel opplisting av læringsmål. Jeg vil gjerne inkludere alt i testen, men dessverre er dette umulig, så noen av målene må rett og slett forkastes, og det kontrolleres ikke i hvilken grad elevene har oppnådd dem. For ikke å miste det viktigste, er det nødvendig å strukturere målene og innføre et visst hierarki i deres relative ordning. Uten tvil er det ikke og kan ikke være ferdige generelle oppskrifter, siden hver disiplin har sine egne prioriteringer. I tillegg er individuelle mål merkbart sammenkoblet, og derfor er en enkel idé om et system med mål som et ordnet sett uten å vurdere forbindelsene mellom elementene tydeligvis ikke nok.

Når testmålene er bestemt og spesifisert, må en testplan og spesifikasjon utvikles.

Når du utvikler en plan, foretas en omtrentlig fordeling av prosentandelen av innholdet i seksjonene, og det nødvendige antall oppgaver bestemmes for hver seksjon av disiplinen basert på viktigheten av seksjonen og antall timer som er tildelt til studiet i studiet. program.

Oppsettet begynner med å beregne det planlagte innledende antallet oppgaver i testen, som deretter gjentatte ganger endres i retning av å øke eller redusere under prosessen med å jobbe med testen. Vanligvis overstiger det maksimale antallet ikke 60 - 80 oppgaver, siden testtiden er valgt i området 1,5 - 2 timer, og i gjennomsnitt ikke mer enn 2 minutter er tildelt for å fullføre en oppgave.

Etter å ha fullført det første trinnet i innholdsplanleggingen, utvikles en testspesifikasjon, som fikser strukturen, innholdet i testen og prosentandelen av oppgaver i testen. Noen ganger er spesifikasjonen laget i en detaljert form, som inneholder indikasjoner på hvilken type oppgaver som skal brukes til å vurdere elevprestasjoner i samsvar med de tiltenkte formålene med å lage testen, testgjennomføringstid, antall oppgaver, funksjoner ved testing som kan påvirke testens egenskaper osv.

Spesifikasjonen i utvidet form inkluderer:

    formålet med å lage testen, begrunnelse for valg av tilnærming til opprettelsen, beskrivelse av mulige anvendelsesområder for testen;

    en liste over normative dokumenter som brukes ved planlegging av innholdet i testen;

    beskrivelse av den generelle strukturen til testen, inkludert en liste over undertester (hvis noen) som indikerer tilnærminger til utviklingen av dem;

    antall oppgaver av ulike former, som indikerer antall svar på lukkede oppgaver, det totale antallet oppgaver i testen;

    antall parallelle testalternativer eller en kobling til en klynge som inneholder antall og antall klyngeoppgaver;

    forholdet mellom oppgaver i ulike seksjoner og typer utdanningsaktiviteter til skolebarn;

    dekning av standardkrav (for sertifiseringstester);

    liste over krav som ikke er inkludert i testen (for sertifiseringstester);

Kunnskap og ferdigheter er fordelt på følgende måte:

A – kunnskap om begreper, definisjoner, termer;

B – kunnskap om lover og formler;

C – evne til å anvende lover og formler for å løse problemer;

D – evne til å tolke resultater på grafer og diagrammer;

E – evne til å foreta verdivurderinger.

Følgende proporsjoner er ofte etablert:


A – 10 %, B – 20 %, C – 30 %, D – 30 %, E – 10 %.

I tillegg til kriteriene er det generelle prinsipper som til en viss grad bidrar til riktig valg av prøveinnhold.

Representativitetsprinsippet regulerer ikke bare fullstendigheten av visningen, men også betydningen av testens innholdselementer. Innholdet i oppgavene bør være slik at svarene på dem kan brukes til å trekke en konklusjon om kunnskap eller uvitenhet om hele programmet til seksjonen eller emnet som testes.

Konsistensprinsippet innebærer valg av innholdselementer som oppfyller kravene til konsistens og er sammenkoblet av den generelle kunnskapsstrukturen. Hvis konsistensprinsippet overholdes, kan testen brukes til å identifisere ikke bare mengden kunnskap, men også for å vurdere kvaliteten på strukturen til elevenes kunnskap.

Etter å ha valgt testinnholdet, begynner det viktigste stadiet med å lage pre-testoppgaver. Dette arbeidet er vanligvis betrodd de mest erfarne lærerne med lang erfaring i skolen. Men erfaring alene er ikke nok til å skape oppgaver. Spesiell kunnskap om teori og metodikk for å utvikle pedagogiske tester er også nødvendig, noe som gir en profesjonell tilnærming til å lage pre-testoppgaver.

V.S. Avanesov identifiserte 3 kriterier for å velge innholdet i testoppgaver:

1) sikkerhet for innholdet i testen;

2) konsistens av innholdet i oppgaver;

3) gyldigheten av innholdet i testoppgaver.

1. Sikkerheten om prøvens innhold utgjør gjenstand for pedagogisk måling. Ved en homogen prøve oppstår spørsmålet om tillit til at alle testelementer tester kunnskap i en bestemt akademisk disiplin, og ikke i noen andre. Ganske ofte hender det at de riktige svarene på noen oppgaver krever kunnskap ikke bare om disiplinen av interesse, men også om en rekke andre, vanligvis relaterte og tidligere akademiske disipliner. Nærheten og tilknytningen gjør det vanskelig å nøyaktig bestemme emnet for kunnskapen som måles.

For eksempel, i fysiske beregninger brukes mye matematisk kunnskap, og derfor er matematikken som brukes til å løse fysiske problemer vanligvis inkludert i systemet med fysisk kunnskap. Feil i matematiske beregninger resulterer i feil i besvarelsen av fysikkprøveelementer. En negativ poengsum gis følgelig for uvitenhet om fysikk, selv om faget gjorde matematiske feil. Hvis en slik test inkluderer mange oppgaver som for riktig løsning ikke krever så mye fysisk kunnskap som evnen til å utføre komplekse beregninger, kan dette være et eksempel på et unøyaktig definert innhold i en fysikktest. Jo mindre overlapping er mellom kunnskapen om en akademisk disiplin og kunnskapen til en annen, desto tydeligere kommer innholdet i den akademiske disiplinen til uttrykk i testen. Spesifikt innhold kreves i alle andre tester. I en heterogen test oppnås dette ved å eksplisitt skille oppgaver fra en akademisk disiplin inn i en egen skala. Samtidig er det ofte oppgaver som fungerer godt ikke bare på én, men også på to, tre og enda flere skalaer.

I enhver prøveoppgave bestemmes det på forhånd hva som klart anses som svar på oppgaven, og med hvilken grad av fullstendighet det riktige svaret skal være. Det er ikke tillatt å definere et konsept ved å liste opp elementer som ikke er inkludert i det.

2. Konsistensen i oppgaveinnholdet krever at vurderinger som samtidig bekrefter og avkrefter det ikke oppstår angående samme tanke. Eksistensen av to eksklusive svar på samme testelement er uakseptabelt. Hvis testtakere blir bedt om å "sirkle rundt nummeret på det riktige svaret," og deretter et av svarene sier at det ikke er noe riktig svar, skaper dette et eksempel på inkonsekvens i tenkningen til testdesigneren. I noen tester er det svar som overhodet ikke er relatert til oppgavens innhold. Slike svar gjenkjennes ganske lett av fag som feil, og derfor viser testen seg å være ineffektiv. For å øke effektiviteten blir testen først testet på et typisk utvalg av emner. Og oppdages slike svar på oppgaver som forsøkspersonene ikke velger i det hele tatt, så fjernes slike svar fra testen. Fordi de ikke utfører funksjonen til såkalte distraktorer, designet for å avlede oppmerksomheten til uvitende emner fra det riktige svaret. I tillegg er slike distraktorer skadelige for testen, fordi de reduserer nøyaktigheten av målingene (men dette vil bli diskutert i artikler der spørsmål om testpålitelighet vil bli diskutert).

3. Gyldigheten av innholdet i testelementer gjør at de har grunnlag for sannhet. Validitet er knyttet til argumentene som kan gis til fordel for en eller annen formulering av testelementer. Hvis det ikke finnes bevismessige argumenter for riktigheten av den formulerte oppgaven, er den ikke inkludert i testen, under noe påskudd. Det samme skjer dersom det under sakkyndigdiskusjonen oppstår minst ett motargument, eller det er tillatt et vilkår der en gitt påstand kan vise seg å være tvetydig eller falsk. Ideen om gyldigheten av testinnhold er nært sammenvevd med prinsippet om materiell korrekthet av testelementer, som allerede diskutert i forrige artikkel. La oss minne om at testen bare inkluderer det innholdet i den akademiske disiplinen som er objektivt sant og som egner seg til en viss rasjonell argumentasjon. Følgelig anbefales ikke kontroversielle synspunkter, som er ganske akseptable i vitenskapen, å inkluderes i innholdet i testoppgaver.

Falskheten i innholdet i testelementene er forskjellig fra feilformuleringen. Usannhet, som nevnt ovenfor, bestemmes av det tilsvarende svaret, mens en feil formulert oppgave kan gi både riktige og feilaktige svar, og til og med forårsake forvirring. Dette inkluderer også unøyaktige eller tvetydig formulerte oppgaver som genererer flere riktige eller betinget riktige svar. Derfor oppstår behovet for å innføre ytterligere sannhetsbetingelser, som forlenger selve oppgaven og kompliserer dens semantikk. Feil i formuleringen avklares vanligvis i prosessen med å diskutere innholdet i oppgaver med erfarne ekspertlærere. Suksessen til en slik diskusjon er mulig ved å skape et passende kulturmiljø hvor kun konstruktive og taktfulle vurderinger er akseptable. Akk, erfaring overbeviser oss om at dette ikke skjer ofte. I mellomtiden kan bare en felles og vennlig diskusjon av materialer av utviklere og eksperter skape en atmosfære av å søke etter de beste alternativene for testinnhold. Dette søket er nesten uendelig, og det er ingen ultimate sannhet her.

  1. Forholdet mellom oppgavens form og type kunnskap, ferdigheter og evner som testes

Som nevnt i tidligere artikler, for testformål, kan kunnskap deles inn i tre typer: tilbudt, ervervet og testet. La oss nå se på dette problemet litt mer detaljert.

Kunnskapen som tilbys gis studentene i form av lærebøker, materiell, tekster, forelesninger, fortellinger osv., som gjenspeiler hoveddelen av utdanningsprogrammet. Denne kunnskapen formuleres også i et oppgavesystem, hvor elevene selv kan sjekke graden av beredskap.

Kunnskapen studentene tilegner seg er vanligvis bare en del av kunnskapen som tilbys, mer eller mindre, avhengig av læringsaktiviteten til studentene. Med utviklingen av dataopplæring har det oppstått betingelser for at volumet av tilegnet kunnskap kan overstige volumet av kunnskap som tilbys. Dette er en ny situasjon knyttet til mulighetene for massenedsenking av studenter i det globale utdanningsrommet, der den ledende rollen til oppgaver i prosessen med å tilegne seg kunnskap allerede er ganske godt forstått. Å løse pedagogiske oppgaver er hovedincentivet for å intensivere læring og elevenes egne aktiviteter. Denne aktiviteten kan foregå i form av arbeid med lærer, i gruppe eller selvstendig. Diskusjoner om assimileringsnivåer som er vanlig i litteraturen, refererer utelukkende til ervervet kunnskap.

Kunnskapen som testes utgjør hovedinnholdet i dokumentet, som kan kalles et eksamens- eller testprogram, avhengig av den valgte formen for kunnskapskontroll. Hovedtrekket ved kunnskapen som testes er dens relevans, som betyr testpersonenes beredskap for praktisk anvendelse av kunnskap for å løse oppgaver brukt på testtidspunktet. I høyere utdanning kalles denne samme funksjonen noen ganger kunnskapens effektivitet.

I prosessen med å teste skoleelever og søkere testes vanligvis kun kunnskap som er i RAM, det som ikke krever henvisning til oppslagsverk, ordbøker, kart, tabeller, etc. Blant kunnskapen som testes, kan man også fremheve normativ kunnskap, som er underlagt obligatorisk assimilering av studentene og påfølgende kontroll av utdanningsmyndighetene gjennom et fagmessig utvalgt og godkjent av det styrende organet system av oppdrag, oppgaver og annet kontrollmateriell.

I tillegg belyses kunnskapens egenskaper. I OG. Ginetsinsky identifiserer følgende egenskaper ved kunnskap:

 refleksivitet (jeg vet ikke bare noe, men vet også at jeg vet det);

 transitivitet (hvis jeg vet at noen vet noe, så følger det at jeg vet dette noe);

 antisymmetri (hvis jeg kjenner noen, betyr ikke dette at han kjenner meg).

Klassifisering av typer og kunnskapsnivåer

Klassifikasjoner av typer og kunnskapsnivåer formulert av Bloom for å løse praktiske problemer med pedagogisk måling.

    Kjennskap til navn. Sokrates sa: Den som forstår navn vil også forstå hva disse navnene tilhører. Som den kjente utenlandske filosofen J. Austin bemerker, er kunnskap om en gjenstand eller et fenomen i stor grad bestemt av om vi kjenner navnet, eller mer presist, dets riktige navn.

    Å kjenne betydningen av titler og navn. Det har lenge vært kjent at slik vi forstår, så handler vi. Å forstå betydningen av navn og titler hjelper dem å bli husket og brukt riktig. For eksempel med navnet "Baikal" noen av ungdomsskolebarn tenker kanskje ikke på den berømte innsjøen, Russlands perle, men på fruktvannet som selges under samme navn. Et annet eksempel kan hentes fra feltet politisk bevissthet. Som Yu.N. med rette bemerker i sin bok. Afanasyev, A.S. Stroganov og S.G. Shekhovtsev, bevisstheten til tidligere sovjetiske folk viste seg å være ute av stand til å se de forskjellige betydningene av slike abstraksjoner av språk som "frihet", "makt", "demokrati", "stat", "folk", "samfunn", med tanke på dem som om det er klart som standard. Noe som var en av grunnene som gjorde det mulig, med aktiv medvirkning fra disse menneskene, å ødelegge sitt eget livsstøttesystem.

    Faktakunnskap. Å kjenne fakta lar deg unngå å gjenta feil, dine egne og andres, og å berike bevisgrunnlaget for kunnskap. De er ofte registrert i form av vitenskapelige tekster, observasjonsresultater, anbefalinger som sikkerhetstiltak, verdslig visdom, ordtak, ordtak. Fra det gamle Kina kom for eksempel ordtaket til den kinesiske tenkeren Ju Xi: ikke kok sand i håp om å få grøt.

    Kunnskap om definisjoner. Det svakeste punktet i skoleopplæringen er fordi definisjoner ikke kan læres; de kan bare forstås og assimileres som et resultat av uavhengig innsats for å mestre de nødvendige konseptene. Kunnskap om definisjonssystemet er et av de beste bevisene på teoretisk beredskap. I utdanningsprosessen kan alle fire typer kunnskap som vurderes kombineres til en gruppe reproduktiv kunnskap. Som bemerket av I.Ya. Lerner, gjennom årene med skolegang fullfører elevene over 10 tusen oppgaver. Læreren blir tvunget til å organisere reproduktiv aktivitet, uten hvilken innholdet i utgangspunktet ikke absorberes.

Dette er kunnskap som ikke krever merkbar transformasjon når den assimileres, og derfor gjengis den i samme form som den ble oppfattet. De kan, med en viss konvensjon, kalles førstenivåkunnskap.

    Komparativ, komparativ kunnskap. De er utbredt i praksis og i vitenskap, og er hovedsakelig karakteristiske for intellektuelt utviklede individer, spesielt spesialister. De er i stand til å analysere og velge de beste alternativene for å oppnå et bestemt mål. Som N. Kuzansky bemerket, "bedømmer alle forskere det ukjente ved hjelp av en tilsvarende sammenligning med noe som allerede er kjent, så alt blir studert i sammenligning."

    Kunnskap om motsetninger, motsetninger, antonymer, etc. gjenstander. Slik kunnskap er verdifull i trening, spesielt helt i begynnelsen. På noen områder er slik kunnskap vesentlig. For eksempel, i et skolelivssikkerhetskurs, må du vite nøyaktig hva elever kan gjøre og hva de ikke kan gjøre, under noen omstendigheter.

    Assosiativ kunnskap. De er karakteristiske for en intellektuelt utviklet og kreativ person. Jo rikere assosiasjoner, jo flere forhold og større sannsynlighet for kreativitet. I stor grad er det på assosiasjonsrikdommen den språklige kulturen til den enkelte, forfatterskapet og arbeidet til kunstnere, designere og arbeidere i andre kreative yrker bygges.

    Klassifikasjonskunnskap. Hovedsakelig brukt i vitenskap; Eksempler - Linnés klassifikasjoner, D.I.s periodiske system av grunnstoffer. Mendeleev, testklassifiseringer, etc. Klassifikasjonskunnskap er generalisert, systemisk kunnskap. Dette type kunnskap er iboende kun for personer med tilstrekkelig intellektuell utvikling, da det krever utviklet abstrakt tenkning, en helhetlig og sammenkoblet visjon av helheten av fenomener og prosesser. Et kunnskapssystem er for det første å ha effektive definisjoner av de grunnleggende begrepene til vitenskapene som studeres.

Kunnskap ss. 5-8 kan klassifiseres som andre nivå. Slik kunnskap lar studentene løse standardoppgaver som et resultat av å legge hver spesifikk oppgave under de kjente klassene av fenomener og metoder som studeres.

    Årsakskunnskap, kunnskap om årsak-virkningsforhold, kunnskap om grunnlag. Som W. Shakespeare skrev, er tiden for det uforklarlige forbi, alt må finnes av grunner. I moderne vitenskap er årsaksanalyse hovedretningen for forskning. Som L. Wittgenstein bemerket, sier de "jeg vet" når de er klare til å gi ubestridelige grunner.

    Prosedyremessig, algoritmisk, prosedyrekunnskap. De er grunnleggende i praktiske aktiviteter. Mestring av denne kunnskapen er et vesentlig tegn på faglig beredskap og kultur. Denne gruppen inkluderer også teknologisk kunnskap som gjør det mulig å uunngåelig oppnå det planlagte resultatet.

    Teknologisk kunnskap. Denne kunnskapen representerer en spesiell type kunnskap som manifesterer seg i ulike nivåer beredskap. Dette kan være relativt enkel kunnskap om en separat operasjon av den teknologiske kjeden, eller et sett med kunnskap som helt sikkert vil tillate deg å nå dine mål til lavest mulig kostnad.

Kunnskap ss. 9-11 kan klassifiseres som kunnskap på et høyere, tredje nivå. De anskaffes hovedsakelig i systemet for videregående og høyere yrkesutdanning.

Det høyeste, fjerde kunnskapsnivået inkluderer følgende typer kunnskap:

    Sannsynlighetskunnskap. Slik kunnskap er nødvendig i tilfeller av usikkerhet, mangel på tilgjengelig kunnskap, unøyaktighet av tilgjengelig informasjon, og om nødvendig for å minimere risikoen for feil ved beslutninger. Dette er kunnskap om mønstrene for datadistribusjon, påliteligheten til forskjeller og graden av validitet av hypoteser.

    Abstrakt kunnskap. Disse spesiell type kunnskap, der de opererer med idealiserte konsepter og objekter som ikke eksisterer i virkeligheten. Det er mange slike objekter innen geometri, naturvitenskap og i de samfunnsvitenskapene som i Vesten kalles atferdsmessige – psykologi, sosiologi, pedagogikk. Sannsynlighetsorientert, abstrakt og spesielt vitenskapelig kunnskap i hver enkelt disiplin danner kunnskap grunnlaget for teoretisk kunnskap. Dette er nivået av teoretisk kunnskap.

    Metodisk kunnskap. Dette er kunnskap om metoder for å transformere virkeligheten, vitenskapelig kunnskap om å bygge effektive aktiviteter. Dette er kunnskap på høyeste, femte nivå.

De listede kunnskapstypene utgjør ennå ikke et komplett klassifiseringssystem og gir derfor mulighet for en merkbar utvidelse av den presenterte nomenklaturen, erstatte noen typer kunnskap med andre og kombinere dem i ulike grupper.

Hver av de listede kunnskapstypene uttrykkes av den tilsvarende formen for testoppgaver.

For å bestemme graden av opplæring i hver akademisk disiplin, identifiseres mengden kunnskap som er nødvendig for å mestre i henhold til læreplanen, som utgjør den grunnleggende kunnskapsmengden. Grunnleggende kunnskap representerer den minste statlige utdanningsstandarden. Men blant den grunnleggende kunnskapen skilles de som må forbli i minnet i enhver disiplin; sammen danner de verdensbildekunnskap. BØ. Rodionov og A.O. Tatur (MEPhI testing center) skiller ut flere deler av verdensbildekunnskap: grunnleggende kunnskap, programkunnskap, superprogramkunnskap. Pedagogiske tester er det eneste verktøyet som ikke bare lar deg måle læring, men også evnen til å bruke kunnskap. Hvis vi bare snakker om ferdigheter, kan vi på alle nivåer av kunnskapsinnhenting skille fire typer ferdigheter:

1) evnen til å gjenkjenne objekter, konsepter, fakta, lover, modeller;

2) evnen til å handle i henhold til en modell, i henhold til en kjent algoritme, regel;

3) evnen til å analysere en situasjon, isolere det viktigste og bygge prosedyrer fra mestrede operasjoner som gjør det mulig å få en løsning på en testoppgave;

4) evnen og evnen til å finne originale løsninger.

Fire typer ferdigheter, navngitt av B.U. Rodionov og A.O. Tatur, ikke motsi teorien om gradvis dannelse av mentale handlinger, som er basert på metoden for å utvikle automatisert testing med det formål å vurdere assimilering av kunnskap, tilegnelse av ferdigheter og evner. Dette gjør det mulig å lage ikke bare ekspertsystemer for å vurdere graden av studentlæring, men også å bygge et fleksibelt, dynamisk vurderingssystem for kunnskapsovervåking.

I henhold til den vanligste klassifiseringen av fortestoppgaver i innenlandsk og utenlandsk litteratur, er det:

Flervalgselementer der elevene velger riktig svar fra et gitt sett med svar;

Konstruerte responsoppgaver som krever at eleven selvstendig innhenter svar;

Oppgaver for å etablere korrespondanse, hvis implementering er assosiert med å identifisere korrespondanse mellom elementer i to sett;

Korrekte sekvenseringsoppgaver der studenten er pålagt å angi rekkefølgen på elementer, handlinger eller prosesser som er oppført i betingelsen.

De foreslåtte fire formene for testoppgaver er de viktigste og vanligste, men det er ingen grunn til å gjøre dem absolutte. Ofte krever det spesifikke innholdet i det kontrollerte faget bruk av nye skjemaer som er mer passende for formålet med testutvikling. Vanligvis bygges slike innovasjoner på grunnlag av en kombinasjon av individuelle elementer i de oppførte grunnleggende formene.

Uavhengig av form skal oppgavene i testen oppfylle de generelle kravene:

Hver oppgave har sitt eget serienummer, som kan endres etter en statistisk vurdering av oppgavens vanskelighetsgrad og valg av strategi for presentasjon av testoppgaver;

Hver oppgave har en standard for riktig svar (karakterstandard for oppgaver med et fritt konstruert svar);

Alle elementer i oppgaven er plassert på klart definerte steder, fast i den valgte formen;

For oppgaver utvikles standardinstruksjoner for gjennomføring, som ikke endres innenfor hvert skjema og går foran formuleringen av oppgaver i testen;

For hver oppgave er det utviklet en regel for å tildele en dikotom eller polytom vurdering, felles for alle oppgaver av samme form og ledsaget av verifikasjonsinstruksjoner med standardiserte prosedyrer for beregning av rå (primær) testscore.

Testmålingsprosessen er ekstremt standardisert hvis:

Ingen elever gis noen fordel fremfor andre;

Et forhåndsutviklet poengsystem brukes på alle elevsvar uten unntak;

Testen inkluderer oppgaver av samme form eller forskjellige former med regulerte vektkoeffisienter, hvis verdier oppnås statistisk;

Testing av forskjellige grupper av emner utføres samtidig under lignende forhold;

Gruppen av testpersoner er innrettet etter motivasjon;

Alle fagene utfører de samme oppgavene.

Den siste betingelsen utelukker ikke muligheten for juks, hint og andre brudd, så vanligvis prøver de å lage flere versjoner av en test som er parallelle i innhold og vanskelighetsgrad. Generelt avhenger valg av oppgaveform og antall testalternativer av innholdet i det kontrollerte kurset, målene for kontroll og det nødvendige nivået av testpålitelighet. Spesielt under sertifisering prøver de å inkludere flere flervalgsoppgaver, siden de på grunn av deres høyteknologi og takket være automatiserte verifiseringsprosedyrer kan øke mengden innhold som dekkes i testen, lengden på testen, påliteligheten og innholdet validiteten av resultatene av pedagogiske målinger.

5.2. Oppgaver med valg av ett eller flere riktige svar

I oppgaver med et valg (eller lukkede oppgaver - et navn brukt i noen innenlandsk litteratur av metodisk karakter), kan man skille hoveddelen som inneholder problemformuleringen og ferdige svar formulert av læreren. Blant svarene er det som oftest kun ett som er riktig, selv om andre alternativer med valg av flere riktige svar, også i varierende grad, ikke er utelukket.

Feil, men plausible svar kalles distraktorer. Hvis det er to svar i en oppgave, hvorav den ene er en distraktor, er sannsynligheten for å velge riktig svar tilfeldig ved å gjette 50 %. Antall distraktorer er valgt slik at oppgaven ikke blir for tungvint og vanskelig å lese, men samtidig forsøker de å hindre for høy sannsynlighet for å gjette riktig svar. Derfor er det oftest 4 eller 5 distraktorer i oppgaver, men i noen tilfeller, når det er et slikt behov, kan antallet nå 6–7.

Oppgaver med to svar brukes vanligvis til ekspressdiagnostikk, for eksempel i automatiserte kontroll- og treningsprogrammer for å gå inn i en treningsmodul, under adaptiv testing, eller til selvkontroll, når testpersonen raskt trenger å identifisere hull i sin egen kunnskap. Bruk av oppgaver med to og tre svar i den endelige kontrollen fører til en økning i målefeil på grunn av gjetting, så de blir aldri inkludert i sertifiseringstester, hvor man for større pålitelighet plasserer alle oppgaver med like mange svar.

Hvis distraktorer er formulert feil, uten den minste appell selv for de svakeste fagene i gruppen, slutter de å oppfylle sin funksjon, og faktisk viser oppgaven seg ikke med den planlagte, men med et mindre antall svar. I verste fall, når alle distraktorer i en oppgave mislykkes, vil de fleste elevene fullføre oppgaven riktig, og velge det eneste plausible riktige svaret. Ideelt sett bør hver distraktor tiltrekke seg alle personer som velger feil svar. Målingen på distraktorers attraktivitet vurderes etter den første testingen av testen på et representativt utvalg av fag ved å beregne andelen elever som valgte hver av distraktorene som riktig svar. Selvsagt er eksakt likestilling av aksjer en viss idealisering, praktisk talt uoppnåelig med empirisk testing, men likevel må man, når man lager oppgaver, etterstrebe denne likheten.

En grundig analyse av valgfrekvensen til hver distraktor av elever med ulike beredskapsnivåer lar oss trekke en konklusjon om gyldigheten av feil svar. Hvis en distraktor oftere tiltrekker seg svake elever som bare fullførte et lite antall oppgaver i testen riktig, anses den som gyldig. Ellers, når en distraktor virker attraktiv hovedsakelig for sterke elever, er dens gyldighet lav og oppgaven må omarbeides. Generelt kan vi si at en testoppgave anses å "fungere bra" hvis kunnskapsrike elever utfører den riktig, og uvitende elever velger noen av distraktorene med like stor sannsynlighet.

Hvis testing utføres ved hjelp av skjemaer, blir oppgaver med valg av ett riktig svar ledsaget av instruksjonen: "SIRKRING AV NUMMERET (BOKSTAVEN) PÅ DET RIKTIGE SVARET."

Oppgaver med flere riktige svar brukes vanligvis i løpende kontroll for å teste klassifisering og faktakunnskap, selv om det er tilfeller hvor det spesifikke innholdet i faget tvinger dem til å inkluderes i de avsluttende prøvene. De er ledsaget av spesielle instruksjoner som understreker behovet for å velge alle de riktige svarene og ha skjemaet: "SIRKRING AV TALLENE PÅ ALLE RIKTIGE SVAR."

Når det er for få distraktører og det er mange flere riktige svar, er det lett å gjette dem. Som en vei ut av denne situasjonen kan du inkludere kun ett feilsvar i antall svar, og be elevene velge ett feilsvar, dersom dette ikke strider mot de didaktiske målene for kontroll og er tillatt av innholdet i faget. I dette tilfellet ser instruksjonene slik ut: "SIRKRING AV NUMMERET PÅ FEIL SVAR."

Noen ganger, i henhold til forfatterens intensjon, når du utvikler en oppgave, er flere riktige svar inkludert, blant dem er det en mer riktig og en mindre å foretrekke. I dette tilfellet er oppgaven ledsaget av instruksjonen: "SIRKRING AV NUMMERET PÅ DET MEST RIKTIGE SVARET."

Når du utsteder oppgaver på en datamaskin, kan instruksjonene se slik ut: "FOR Å SVARE, TRYKK PÅ NØKKEL MED NUMMERET (BOKSTAVEN) PÅ RIKTIG SVAR."

Vanligvis, hvis alle oppgavene er formulert i samme form, gis instruksjonene i begynnelsen av testen. Ellers, når testen inkluderer elementer av forskjellige former, endres instruksjonene hver gang skjemaet endres. Det er lett å forestille seg hvor vanskelig det ville være å veksle instruksjoner for å velge riktige og feil svar. Uoppmerksomme elever som ikke kan konsentrere seg om å endre instruksjoner vil uunngåelig bli forvirret og fullføre noen av oppgavene feil, selv når de sannsynligvis vet det riktige svaret. Derfor anbefales det å endre instruksjonene i testen så sjelden som mulig - nøyaktig så mange ganger som det kreves av strategien for presentasjon av testelementer.

Oppgaver med valgmuligheter har en rekke fordeler knyttet til hastigheten på gjennomføringen, det er enkelt å beregne endelige testresultater, muligheten til å automatisere prosedyrer for kontroll av elevsvar og den resulterende minimeringen av den subjektive faktoren ved vurdering av testresultater. Med deres hjelp er det mulig å dekke innholdet i emnet som testes mer fullstendig, og følgelig øke innholdsvaliditeten til testen. Den utvilsomme fordelen med valgoppgaveformen er dens allsidighet; den passer for nesten alle fag.

Blant ulempene med valgoppgaver er gjetteeffekten, som er typisk for dårlig forberedte testpersoner når de skal svare på de vanskeligste testpunktene. Selv om muligheten for å gjette finnes, har testologer lært å bekjempe det ved hjelp av ulike metoder. Noen ganger introduseres spesielle instruksjoner som leder forsøkspersonene til å hoppe over en ukjent oppgave i stedet for å svare ved å gjette. I andre tilfeller legges spesielle vektkoeffisienter nær null til ved beregning av skårene til svake elever oppnådd på de vanskeligste prøvepunktene. Noen ganger brukes en spesiell formel for å korrigere individuelle poengsum, justert for gjetting. Den siste metoden og formelen som forklarer den er gitt på slutten av dette kapittelet.

Visse vanskeligheter oppstår ved bruk av valgoppgaver for å teste ferdigheter på produktivt nivå knyttet til bruk av kunnskap i en ukjent situasjon, kreative aspekter ved forberedelse og tilfeller der det er nødvendig å transformere betingelsene for oppgaven som er tildelt elevene. Da er oppgaver med valg av ferdige svar som oftest umulig å bruke. Når det gjelder massesertifiseringstesting, når det er nødvendig å bruke effektive datastyrte teknologier for å beregne testresultater og oppnå høy objektivitet av resultatene av pedagogisk måling, oppveier fordelene med valgoppgaver klart ulempene. Derfor dominerer denne formen ofte utviklingen av endelige sertifiseringstester.

Flervalgsoppgaver må tilfredsstille en rekke krav, hvis oppfyllelse kan forbedre kvaliteten på testen:

Eventuelle tvetydigheter eller uklare formuleringer skal elimineres i oppgaveteksten;

Hoveddelen av oppgaven er ekstremt kort formulert, helst ikke mer enn én setning på 7-8 ord;

Den syntaktiske utformingen av oppgaven er ekstremt forenklet uten at det går på bekostning av riktigheten av innholdet og dens entydige forståelse av elevene;

Hoveddelen av oppgaven inkluderer de fleste betingelsene for oppgaven, og lar ikke mer enn 2-3 av de viktigste stå til svaret. søkeord for problemet formulert i betingelsen;

Alle svar på en oppgave må være omtrent like lange, eller det riktige svaret kan være kortere enn andre, men ikke i alle testoppgaver;

Alle verbale assosiasjoner som bidrar til å velge riktig svar ved hjelp av en gjetning er ekskludert fra oppgaveteksten;

Hyppigheten av å velge plassnummer for riktig svar i ulike testoppgaver bør være omtrent lik, eller plassnummeret for riktig svar velges tilfeldig;

Alle distraktorer for hver oppgave bør ha like stor sannsynlighet for å være attraktive for personer som ikke vet det riktige svaret.

Når du utvikler oppgaver, er det nødvendig å sikre deres relative uavhengighet, unntatt kjedeutførelseslogikk, når svaret fra en oppgave fungerer som en betingelse for en annen testoppgave. Akademiske prestasjonstester kan ikke inneholde fellegjenstander funnet i psykologiske tester.

Den enkleste måten å velge distraktorer i oppgaver med to svar er ved å benekte det som er sant. Det anbefales imidlertid ikke å bruke "ja-nei"-ord i stedet for distraktorer, siden det ellers er ganske vanskelig å formulere utsagn som kan gis et entydig svar på.

EKSEMPLER PÅ OPPGAVER

Øvelse 1

HVIS SUBTRAKTET ØKES MED 12 ENHETER, OG FORSKJELLEN OGSÅ ØKER MED 15 ENHETER, SÅ MINSKAS DEN

A. Økt

B. Redusert


Oppgaver med tre svar, samt med to svar, brukes vanligvis i ekspressdiagnostikk. Noen ganger vises tre svar på grunn av fjerning av dysfunksjonelle distraktorer. Generelt kan de anses som mislykkede fordi de ikke er korte nok, og samtidig har de stor sannsynlighet for å gjette riktig svar.

Oppgave 2

HØYE URBANISERINGSPRISER I LATIN-AMERIKA ER KNYTTET MED

A. Rask økonomisk vekst

B. Styrking av storbyenes rolle

B. Massemigrasjon av mennesker fra landsbyer til byer


I de fleste prøver er det oppgaver med 4–5 svar, hvorav en er riktig. Når de utvikles dyktig, er de ganske korte, og de har lav sannsynlighet for å gjette riktig svar (0,25 med fire svar og 0,20 med fem).

Oppgave 3

ANTAGELSEN OM AT PENGER ER EN SPESIFIK VARE, ER KONSENSENT MED PENGETEORIEN

A. Nominalistisk

B. Metall

B. Kvantitativ

G. Trudovoy


Oppgave 4

HVILKEN STRUKTUR ER EN LATRIZERT ORGANISASJON BYGGET PÅ PRINSIPPET OM DOBBELT INNLEGG AV UTFØRER?

A. Design

B. System

B. Matrise

G. Funksjonell

D. Geografisk


Oppgave 5

FUNKSJONEN TIL KOSTNADSMÅLET UTFØRES AV:

A. Metallpenger

B. Ideelle penger

B. Ekte penger

D. Mentalt å forestille seg penger

D. Kredittpenger


Noen ganger har en valgoppgave en dobbel struktur, og tilbyr et sett med utsagn eller utsagn som vurderes ved sammenligning med de foreslåtte svarene. For eksempel, i oppgave 6, må utsagn som karakteriserer konseptet "ledelse" sammenlignes med ulike alternativer for deres sannhet.

Oppgave 6

HVILKE UTTALELSER GIR KJENNETEGN AV KONSEPTET «LEDELSE»?

1. Prosessen med fordeling og bevegelse av ressurser i en organisasjon med et forhåndsbestemt mål, i henhold til en forhåndsutviklet plan og med kontinuerlig overvåking av resultatresultater.

2. Et sett med metoder, prinsipper, midler og former for å administrere organisasjoner med sikte på å øke effektiviteten til aktiviteter.

A. Bare den første

B. Bare den andre

B. Verken den første eller den andre


Til tross for sin tilsynelatende attraktivitet, innholdsmessig, er oppgave 6 dårlig formulert, siden den kan føre til en tvetydig tolkning av elevenes svar. Valget av to svar A og B tilsvarer valget av svar D, selv om svarene på oppgaven alltid skal ha egenskapen til relativ uavhengighet og billedlig talt negere hverandre.

Et annet eksempel på å endre formen til en oppgave med svarvalg er gitt i oppgave 7, der det valgte svaret blir bedt om å bli mentalt erstattet i stedet for bindestreken i hoveddelen.

Oppgave 7

LEDELSE ER KOORDINERING AV _________ RESSURSER FOR FORMÅL MED Å LØSE SET MANAGEMENTOPPGAVER.

A. Informasjon

B. Menneske

B. Midlertidig

G. Materiale


Selv med en velorganisert testprosess, kan ikke én versjon av en test administreres på grunn av juks, antydninger og andre lignende uønskede effekter. Derfor må du alltid utvikle 5–8 parallelle versjoner av testen, som fasetterte oppgaver kan brukes til. En fasett er en form som gir representasjon av flere varianter av samme element av testinnhold. Hvert emne får bare ett oppgavealternativ fra fasetten. I dette tilfellet utfører alle testgruppene samme type oppgaver, men med ulike fasettelementer og følgelig med ulike svar. Dermed løses to oppgaver samtidig: muligheten for juks er eliminert og parallelliteten til testalternativene er sikret. For eksempel inneholder oppgave 8 to testoppgaver oppnådd for hver av byene gitt i krøllete parentes.

Oppgave 8

TIL PALASSKOMPLEKSENE I OMGIVELSENE

{Moskva

St. Petersburg)

RELATE:

1) Pavlovsk, Oranienbaum

2) Arkhangelskoye, Tsaritsino

3) Peterhof, Gatchina

4) Tsarskoje Selo, Strelnya


I oppgave 9 foreslår forfatteren å velge et element som ikke er relatert til faget økonomisk teori, noe som ikke er helt berettiget didaktiske formål kontroll, men er i dette tilfellet tillatt av innholdet i faget.

Oppgave 9

BESTEMMELSER IKKE KNYTTET TIL EMNET ØKONOMISK TEORI

A. Økonomisk god

B. Ubegrensede ressurser

B. Maksimere behovstilfredsstillelse D. Effektiv bruk av ressurser

D. Juridiske forhold


Slike oppgaver, samt oppgaver med flere riktige svar, som i oppgave 10, unngås vanligvis å inkluderes i sertifiseringstester, hvis resultater brukes til å ta administrative og ledelsesmessige beslutninger i utdanningen.

Oppgave 10

SPESIFISER TRE INTEGRALE MILJØPARAMETRE SOM PÅVIRKER BESLUTNINGSFUNKSJONEN

A. Usikkerhet

B. Kompleksitet

B. Dynamisme

D. Sikkerhet

D. Begrenset


Tilsynekomsten av delvis riktige svar fra studenter, som oppstår når ikke alle planlagte riktige svar er valgt i hver slik testoppgave, fører til en reduksjon i objektiviteten og sammenlignbarheten av testresultatene. Hvis det er umulig å unngå flere riktige svar, for å øke standardiseringen av vurderingsprosedyrer, en viss avgjørende regel. For eksempel, hvis emnet velger alle de riktige svarene, får han 1 poeng, i alle andre tilfeller - 0 poeng.

Ved beregning av resultater av oppgaver med valg av ett riktig svar, foretrekkes vanligvis en dikotom vurdering. For korrekt gjennomføring av en oppgave får faget 1 poeng, og for feil svar eller utelatelse - 0. Summeringen av alle enheter lar en beregne den individuelle (primære eller rå) poengsummen til faget, som ved en dikotom vurdering er rett og slett lik antall korrekt utførte oppgaver i testen. Hvis det riktige svaret ikke er det eneste, brukes oftest en polytom vurdering, som settes i forhold til antall riktig valgte svar.

Hvis testen består av flervalgselementer, vil de individuelle poengsummene til testtakerne bli betydelig forvrengt av effekten av tilfeldig gjetting av svar. Derfor prøver de å korrigere råskårene ved å innføre korrigeringer for gjetting. Formelen for å korrigere poeng oppnådd som et resultat av å fullføre oppgaver med svar der bare ett er riktig, har formen

X" Jeg = X Jeg – [W Jeg / (k – 1)]

Hvor Jeg– antall emner i gruppen; X" Jeg - justert poengsum Jeg-te emnet; X Jeg - testresultat før korrigering; W Jeg– antall uoppfylte (feilfullførte, tapte og uoppnådde) testoppgaver, og X+W Jeg = n, Hvor n- antall oppgaver i testen.

Når du fullfører oppgaver med to svar k – 1 = 1, derfor beregnes for hvert emne forskjellen mellom antall korrekt utførte og ikke beståtte testoppgaver. Etter hvert som antallet distraktorer til en oppgave øker, reduseres antall poeng som trekkes fra, noe som er ganske naturlig, siden jo flere distraktorer det er, desto vanskeligere er det å gjette riktig svar.

Korreksjonsformelen i seg selv har visse ulemper som reduserer nøyaktigheten av testmålinger. Dette skyldes det faktum at konstruksjonen er basert på en rekke kunstige forutsetninger, som ofte er inkonsistente med den faktiske prosedyren for å utføre testen. Spesielt antakelsen om at alle feil svar er et resultat av tilfeldig gjetting er langt fra helt oppfylt. Like betinget er en annen antakelse om lik sannsynlighet for å velge hvert svar på en testoppgave.

I prosessen med å lage oppgaver blir visse formkrav ubevisst brutt. Som regel skyldes dette det faktum at all utviklerens oppmerksomhet absorberes av innholdet, og ikke av formen. Brudd på visse krav gir opphav til en rekke karakteristiske mangler som oppstår selv blant erfarne forfattere i prosessen med å jobbe med testoppgaver. De vanligste manglene ved forhåndstestoppgaver inkluderer:

Mangel på logisk korrekthet i ordlyden av testelementer, noe som fører til uplanlagte riktige svar;

Brudd på de riktige proporsjonene i oppgaveskjemaet, når svarene er mye lengre enn hoveddelen av oppgaven;

Brudd på korthet forårsaket av inkludering unødvendige ord eller ved å presentere i testform innhold som ikke er egnet for testing ved test;

Velge svar av ulike grunner;

Feilberegninger av oppgaveutviklere som bidrar til å gjette riktige svar uten å fullføre testoppgaver.

For eksempel kan oppgave 11, som inneholder en kort hoveddel og lange svar, anses som mislykket på grunn av at utvikleren åpenbart har omorganisert dem forgjeves. Hvis selve definisjonen av sirkulasjonen av kapital, gitt på andre plass under bokstaven "B", er plassert i begynnelsen av oppgaven, kan svarene bestå av bare ett eller flere ord.

Oppgave 11

SIRKULERING AV KAPITAL ER

A. Kontinuerlig og konsekvent bevegelse av pengekapital

B. Konsekvent transformasjon av kapital fra en funksjonell form til en annen

B. Refusjon av forskuddsverdi

D. Funksjon av råvarekapital


Svarene i oppgave 12 var dårlig utvalgt, hvis vi vurderer dem uten hensyn til forfatterens materielle feilberegninger. Hvis de tre første svarene sammenligner volumet av produksjonen til monopolisten og konkurransen, er det fjerde rettet mot å etablere en årsakssammenheng mellom objekter.

Oppgave 12

VOLUMET PÅ PRODUKTUTSETTET AV MONOPOLIET VIL SAMMENLIGNES MED PERFEKT KONKURRANSE

Velsigne

B. Samme

D. Avhenger av markedsforhold


Det er ingen innholdsmessig og logisk riktighet i oppgave 13, hvor av de åtte parametrene som er gitt, er det kun fem som er brukt i svarene.

Oppgave 13

HVILKE TO PARAMETRE BRUKER IKKE FOR Å ANALYSE FORSKJELLENE PÅ LANDSKULTURER FRA HVERANDRE?

1. Forholdet mellom menneske og miljø

2. Tidsestimat

3. Menneskets natur

4. Kommunikasjonsstil

5. Vurdere graden av aktivitet

6. Frihet til tilgang til informasjon

7. Relasjoner mellom mennesker

8. Holdning til å eie plass


A. Fjerde og sjette

B. Tredje og sjette

B. Tredje og femte

D. Fjerde og syvende


Oppgave 14

A. Lydhør overfor endringer i det ytre miljø og endringer i samsvar med dem

B. Oppfatter alle nye trender fra det ytre miljø og bruker dem nødvendigvis i sine aktiviteter

B. Åpen for enhver innovasjon som eieren krever

D. Reagerer følsomt på oppførselen til konkurrenter og oppfatter de mest effektive prinsippene for å løse ledelsesproblemer


Oppgave 15, selv om den ser ganske tungvint ut, skiller seg gunstig fra de fleste av eksemplene gitt ovenfor, siden den inneholder en redegjørelse for problemet, og ikke er rettet, som oftest er tilfellet, mot å teste fakta- eller konseptuelt materiale.

Oppgave 15

HVORDAN VIL MÅLFUNKSJONEN SER UT I DEN MATEMATISKE MODELLEN AV KONTROLLPROSESSEN VED ANVENDELSE PÅ FØLGENDE PROBLEM:

Selskapet produserer to drinker: "Tonic" og "Estragon". Produksjonsvolumet er begrenset av antall hjelpetilsetningsstoffer og produksjonskapasitet. Produksjonen av 1 liter "Tonic" tar 0,02 timers utstyrsdrift, produksjonen av 1 liter "Estragon" tar 0,04 timer. Forbruket av hjelpetilsetningsstoffer er 0,01 kg/l for Tonic og 0,04 kg/l for Estragon. Daglig driftstid for utstyret er 24 timer. Ressursen av hjelpetilsetningsstoffer er 16 kg per dag. Fortjenesten fra salget av 1 liter "Tonic" er 0,1 rubler/l, og fortjenesten til "Estragon" er 0,3 rubler/l.

Hvor mange tonic- og estragonprodukter bør produseres daglig for å maksimere daglig fortjeneste?

A.0.01 X 1 + 0,04 X 2 > maks

B. 0,02 X 1 + 0,03 X 2 > maks

B.0.02 X 1 + 0,04 X 2 > maks

G. 0,03 X 1 + 0,01 X 2 > maks

5.3. Konstruerte svarspørsmål

I oppgaver med et konstruert svar (også kalt: tilleggsoppgaver, åpne oppgaver) gis det ikke ferdige svar, de må være oppfunnet eller skaffet av eleven selv. Det er to typer konstruert responsoppgaver, hvorav den ene krever at faget får korrekte svar som er strengt regulert i innhold og presentasjonsform. Den andre er oppgaver med fritt konstruerte svar, der fagene lager detaljerte svar, vilkårlige i innhold og presentasjonsform og inkludert en komplett løsning på oppgaven med forklaringer, mikrooppgaver (essays) etc.

Elevene synes konstruerte svarspørsmål er vanskeligere fordi de eliminerer gjetting. Det er faktisk lettere å velge riktig svar fra de foreslåtte, noen ganger basert ikke så mye på kunnskap som på intuisjon, enn å formulere det selv eller finne det i prosessen med å løse problemene som stilles. Men det er nettopp denne egenskapen som er ekstremt attraktiv for lærere, spesielt for de som er vant til å stole på tradisjonelle kontrollmidler i arbeidet og ikke stoler på tester.

I oppgaver av den første typen er svaret vanligvis ganske kort: i form av et ord, tall, formel, symbol osv. For å utvikle oppgaver med et konstruert, regulert svar, må du mentalt formulere et spørsmål, og deretter skrive ned et klart og konsist svar, der en strek er plassert i stedet for nøkkelordet, symbolet eller tallet. På grunn av utvetydigheten til det riktige svaret, er det ganske objektivt å kontrollere resultatene av oppgaver med et konstruert regulert svar; det utføres i en datamaskinform med påfølgende rekontroll av alle feil svar fra studenter med ekspertmidler. Svar på oppgaver gis i stedet for bindestreken eller legges inn av elevene på et spesielt skjema.

For eksempel: Skriv inn riktig svar.

Øvelse 1

Å bestemme sluttresultatene som skal oppnås og de tilsvarende midlene som er nødvendige for å oppnå visse sluttresultater inkluderer funksjonene til __________________.


Oppgave 2

En form for påvirkning som innebærer å maskere reelle intensjoner og mål – _______________.


Ved utføring av oppgaver med et konstruert regulert svar dukker ofte delvis riktige og riktige svar i ulik grad opp. Ved å legge til svaret i stedet for bindestreken, kan testpersonen tilby synonymer for det manglende ordet planlagt av utvikleren eller endre rekkefølgen på elementene i den manglende formelen, noe som betydelig kompliserer den automatiserte verifiseringen og evalueringen av testtakernes resultater. Av disse grunnene er det ikke uvanlig at revisjonsprosessen utvikler ytterligere skåringskonvensjoner for delvis riktige svar.

Oppgaver med konstruerte regulerte besvarelser skal tilfredsstille en rekke krav:

Hver oppgave må være rettet mot kun ett komplementært ord, symbol osv., hvor stedet anbefales å merkes med en strek eller prikker;

En strek er plassert i stedet for nøkkelelementet, hvis kunnskap er mest avgjørende for materialet som kontrolleres;

Det anbefales at alle streker i oppgaver for én test er like lange;

Det er bedre å tildele en plass for svaret på slutten av oppgaven eller så nær slutten som mulig;

Etter streken, om mulig, angis måleenhetene;

Oppgaveteksten skal ha en ekstremt enkel syntaktisk struktur og inneholde minimal mengde informasjon som er nødvendig for å fullføre oppgaven riktig.

Oppgaver av den andre typen med fritt konstruert besvarelse har ingen begrensninger på innhold og form for presentasjon av besvarelser. I løpet av den tildelte tiden kan testpersonen skrive hva som helst og som han vil på spesielle svarskjemaer. Slike oppfyllelsesbetingelser er utvilsomt på mange måter nær tradisjonelle skriftlige verk, og derfor oppfattes oppgaver med fritt konstruerte svar positivt av det absolutte flertallet av lærerne. De er interessante og varierte i innhold.

Å utvikle oppgaver av den andre typen kan virke urimelig enkelt. Faktisk er det vanskelig å ikke formulere oppgaven, men å tilby en standard for det optimale svaret sammen med standardiserte regler for å vurdere resultatene av implementeringen. For eksempel er ordlyden av en historieoppgave med et detaljert svar ganske kort.

Oppgave 3

NEVN HOVEDOPPGAVENE SOM BLEV LØST I RUSSLANDS UTENRIKSPOLITIKK PÅ DET 17. ÅRHUNDRET (INDISER MINST TO OPPGAVER). GI EKSEMPLER PÅ KRIG, KAMPANJER OG EKSPEDISJONER PÅ 1600-tallet som ble foretatt for å LØSE DISSE PROBLEMENE (MINST TRE EKSEMPLER).


Men for at en oppgave skal inkluderes i testen, må forfatteren standardisere verifiseringsprosedyren, og dette er et omfangsrikt arbeid som noen ganger forårsaker mye kritikk på grunn av tvetydigheten i resultatene av implementeringen.

I naturvitenskap det er mye lettere å foreslå en ytelsesstandard sammen med evalueringskriterier. For oppgave 4 kan du for eksempel tilby følgende kriterier for å vurdere resultatene av fullføringen

Oppgave 4

TIL HVILKE VERDIER X TILSVARENDE FUNKSJONSVERDIER f(x) = logg 2 x Og g(x) = logg 2 (3 – x) VIL DE AVSKILLE MED MINDRE ENN 1?


Testing av oppgaver med detaljerte svar utføres av eksperter i samsvar med standardiserte instruksjoner som inneholder standarden for det optimale svaret med dets egenskaper og kvalitetsegenskaper, som i eksemplet gitt. Standarden må ledsages av evalueringskategorier for å utstede en polytom vurdering, som krever testing og statistisk underbyggelse av kvalitet, siden det blant dem kan være noen som ikke fungerer og de som reduserer den differensierende effekten av testen.

Oppgaver med detaljerte svar krever betydelig undervisningsarbeid ved kontroll, når eksperter skal analysere mange svar som er riktige i ulik grad og sammenligne dem med standarden, uten å ta hensyn til fullstendigheten, eksternt format på svarene, stavefeil og alt som er ikke inkludert i kriteriene for å tildele en polytom vurdering. Noen ganger prøver de å standardisere verifisering ved å utvikle dataekspertprogrammer.

Utenfor automatiserte systemer er det ganske subjektivt å sjekke resultatene av å fullføre oppgaver med detaljerte svar, og det er vanskelig å koordinere vurderingene fra flere eksperter, så vanligvis tar slike oppgaver ikke mer enn 10–15 % av den totale lengden av sertifiseringstesten.

Fri-respons-elementer er først og fremst designet for å vurdere kognitive ferdigheter. De bør bare utvikles i tilfeller der enklere former ikke kan brukes;

Lengden og kompleksiteten på svaret kan variere mye (opptil flere sider med svartekst, begrunnelse for den gitte løsningen på oppgaven osv.). Det er tilrådelig å innføre begrensninger på maksimal lengde på svaret for hver oppgave i instruksjonene;

Formuleringen av oppgaven bør inneholde en problemstilling, en ytelsesstandard og evalueringskriterier. Produksjonsdelen skal være så oversiktlig at den minimerer mulige avvik i riktige svar fra studentene fra utførelsesstandarden planlagt av utbygger;

Valget av tidsramme for å fullføre hver oppgave skal gi eleven mulighet til å formulere et tilstrekkelig detaljert svar og ha tid til å skrive det ned.

Påliteligheten til vurderinger av resultatene av oppgaver med fritt konstruerte svar kan økes hvis:

Kompetent komponer oppgaven, veiledet av anbefalingene ovenfor;

Når du sjekker, bruk kun det utviklet standardiserte vurderingsskjemaet med ikke mer enn tre vurderingskategorier (0, 1, 2);

Trene oppdragsbedømmere til å bruke standardiserte vurderingskriterier;

Involver minst to eksperter til å sjekke hver oppgave og inviter en tredje ekspert hvis poengsummen til de to første avviker med mer enn ett poeng;

Bruk prinsippene om anonymitet for arbeidet som kontrolleres og uavhengighet av ekspertvurderinger;

Ikke se på karakteren gitt til en tidligere oppgave når du setter en påfølgende oppgave.

Oppgaver av essaytype kan graderes i henhold til følgende:

Enkle vurderingsopplegg, når kriterier bygges med fokus på innholdet i elevenes svar;

Kompliserte vurderingsskjemaer som under eksamen tar hensyn til innholdet i svarene, tekstens kvalitetsegenskaper, dens fullstendighet og stil, eller andre faktorer som virker viktige for utvikleren av oppgaven;

Under enhver karakterordning krever elementer med fritt konstruerte svar polytom poengsum, noe som noen ganger uberettiget øker deres samlede vekt i testresultatet. For å unngå slik overestimering og redusere påvirkningen av den subjektive komponenten, prøver de vanligvis å gjøre antallet evalueringskriterier ganske lite, og begrenser seg til polytome vurderinger, for eksempel fra 0 til 3 eller fra 0 til 2.

For oppgaver med et kort, regulert svar, formulert i form av uferdige utsagn og presentert uten spesielle svarskjemaer, brukes vanligvis en instruksjon bestående av ett ord: «ADD». I tilfeller hvor det for svar på oppgaver med kort regulert besvarelse er nødvendig å gi svar i spesielle skjemaer, og ikke ved siden av oppgavene, kan instruksjonene se slik ut: «Skriv SVAR PÅ OPPGAVER I SVARSKJEMAET TIL HØYRE FOR DE TILSVARENDE OPPGAVENUMRE. SKRIV HVER BOKSTAV I EN EGEN EKSKE I HENHOLD TIL PRØVENE SOM ER LEVERET PÅ SVARSKJEMAET.»

Instruksjoner for oppgaver med fritt konstruerte svar har vanligvis en fri form. Det viktigste er å si så mye som mulig for å lette og standardisere arbeidet til eksperter ved kontroll av testresultater for å redusere påvirkningen av subjektive faktorer og øke påliteligheten til pedagogiske målinger. I den mest generelle formen, for humanistiske fag, kan instruksjonene se slik ut: «FOR SVAR PÅ OPPGAVER, BRUK ET SEPARAT SVARSKJEMA. SKRIV FØRST NED OPPGAVENUMMERET OG SÅ ET DETALJERT SVAR PÅ DEN. SKRIV SVARENE DINE Tydelig.»

5.4. Compliance oppgaver

Korrespondanseoppgaver har en bestemt form, der det under instruksjonene er elementer av to sett, korrespondansen mellom disse blir bedt om å bli etablert av faget. Til venstre er vanligvis elementene i det definerende settet som inneholder problemformuleringen, til høyre er elementene som skal velges.

Korrespondansen mellom elementer i to kolonner kan være en-til-en når hvert element til høyre tilsvarer nøyaktig ett element til venstre. Hvis antallet elementer i to kolonner er det samme, vil ikke det siste elementet i det angitte settet bli valgt. Det er tilfeller, bestemt av det spesifikke innholdet i emnet, når de samme elementene til høyre er valgt for flere elementer i venstre kolonne, så det kan være færre av dem enn til venstre. Til slutt er den optimale oppgaven en der det riktige settet inneholder flere elementer, som hver er valgt bare én gang. For eksempel er suksess 1, ikke suksess 2, fordi antall elementer som skal velges til høyre er lik antall elementer i venstre kolonne.

Øvelse 1

FOR HVERT AV DE TRE ELEMENTENE (1, 2, 3) VALges ETT TILSVARENDE ELEMENT FRA HØYRE SIDE MED BOKSTAVENE (A, B, C, D, E, E, G, Z, I, K).

Bestem korrespondansen mellom lederroller til tre blokker i henhold til G. Mintzbergs modell


Svarene kan presenteres i form av en tabell, i så fall er det ikke behov for detaljerte instruksjoner som de som er gitt for oppgave 1.


Oppgave 2

KAMP



Ekstra elementer i høyre kolonne som ikke kan velges hvis svarene er riktige kalles distraktorer. Som i flervalgsoppgaver er de største vanskelighetene i utviklingen knyttet til valg av plausible overflødige elementer i riktig sett. Troverdighetsmålet til hver distraktor er etablert empirisk.

Når du utvikler overholdelsesoppgaver, bør du bli veiledet av følgende regler:

Oppgaven er formulert slik at alt innhold kan uttrykkes i form av to sett med passende navn;

Elementene i den spesifiserte kolonnen er plassert til venstre, og elementene for valg er plassert til høyre;

Det er ønskelig at hver kolonne har et spesifikt navn som oppsummerer alle elementene i kolonnen;

Det er nødvendig at høyre kolonne inneholder minst flere distraktorer. Det er enda bedre hvis antall elementer i det høyre settet er omtrent dobbelt så stort som antallet elementer i venstre kolonne;

Det er nødvendig at alle distraktorer i en oppgave har like sannsynlighet for å være plausible;

Kolonneelementer bør velges på én basis for å sikre at kun homogent materiale er inkludert i hvert testelement.

I en sertifiseringstest er samsvarsoppgaver ineffektive på grunn av deres besværlighet, som ikke tillater dekning av store mengder innhold.

Matchende oppgaver kommer med en standard instruksjon på to ord: «MATCH». Noen ganger utvides instruksjonene, spesielt i tilfeller hvor det finnes et eget svarskjema. For eksempel kan instruksjonen se slik ut: "SKRIV FØRST BOKSTAVENE SOM SVARER TIL DE SPESIFISEREDE ELEMENTENE I TABELLEN GITT I OPPGAVETEKSTEN, OG OVERFØR DEM TIL SKJEMAET."

Ytelse på matchende oppgaver vurderes enten ved hjelp av en dikotom eller en polytom vurdering. Ved dikotom poengsum gis det 1 poeng for alle korrekt identifiserte treff i testelementet. Hvis minst én kamp er feil, får forsøkspersonen 0 poeng for en delvis korrekt utført matchingsoppgave. En annen måte er å tildele ett poeng for hver riktig kamp, ​​så når du sjekker elementer for kamper, brukes polytom poengsum, og det totale antallet poeng for elementet er lik antall korrekt identifiserte kamper.

5.5. Oppgaver for å etablere riktig rekkefølge

Testoppgaver i fjerde form er ment å vurdere ferdighetsnivået i en sekvens av handlinger, prosesser osv. I slike oppgaver presenteres elementer knyttet til en spesifikk oppgave i tilfeldig rekkefølge, og forsøkspersonen skal etablere riktig rekkefølge på de foreslåtte elementene og angi det på en gitt måte på et spesielt anvist sted.

Standardinstruksjonene for oppgaver i den fjerde formen er: "ETABLER DEN RIKTIGE sekvensen." Noen ganger er instruksjoner inkludert i oppgaveteksten.

Øvelse 1

PLASSER NAVNENE PÅ DE RUSSISKE KOMMANDOENE I DEN KRONOLOGISKE sekvensen av deres AKTIVITETER. SKRIV BOKSTAVENE SOM ANGIVER NAVNENE I RIKTIG REKKEFØLGE I TABELLEN GITT I OPPGAVETEKSTEN, OG OVERFØR DEM TIL SKJEMAET.

A) Dmitry Pozharsky

B) Alexey Ermolov

B) Mikhail Skobelev

D) Alexey Orlov


Oppgave 2

ETABLER DEN RIKTIGE sekvensen av utpustmekanismen VED PLASSERING AV NUMRENE PÅ DE ANGITTE PLASSENE:

? – kollaps av lungene

? – hemming av respirasjonsmuskelsenteret i ryggmargen

? – stimulering av ekspirasjonssenteret i medulla oblongata

? – avspenning av mellomgulvet og hjelpemusklene

? – reduksjon av brysthulen


I mange tilfeller er oppgaver for å etablere riktig rekkefølge ekstremt lavteknologiske eller er ikke anvendelige på grunn av det spesifikke innholdet i faget. De er tungvinte og gir ofte mulighet for en tvetydig rekkefølge av svar, så de anbefales ikke brukt i sertifiseringstester.

5.6. Sammenlignende kjennetegn ved testoppgaveskjemaer

I prosessen med å utvikle en test har forfatteren alltid et spørsmål: skal han holde seg til bare én form for oppgaver eller bestemme seg for å kombinere ulike former i én test? Og hvis du stopper ved en, hvilken bør du foretrekke? Forfatterens valg bestemmes i stor grad av det spesifikke innholdet i den akademiske disiplinen, målene med å lage og bruke testen. Mye her avhenger av teknologien for testing, innsamling og behandling av empiriske data, på teknisk og materiell støtte for prosessen med å bruke testen. Det er enkelt å organisere datastyrt innsamling og analyse av testresultater i tilfeller der alle oppgaver er flervalgsoppgaver.

Resultatene av å fullføre oppgaver med konstruerte svar krever manuell behandling. Som regel må eksperter være involvert for å evaluere resultatene av implementeringen, og dette krever ekstra materialkostnader og tid for verifisering.


Fordeler og ulemper ved ulike oppdragsformer

1. Oppgaver med to svar

Fordeler: På grunn av deres korthet lar de deg dekke en stor mengde materiale, er enkle å utvikle (bare en distraktor), og resultatene av utførelse behandles raskt med høy objektivitet.

Feil: stimulere utenat utenat, oppmuntre til gjetting, kreve en økning i antall oppgaver og følgelig testtid for å kompensere for effekten av gjetting.

2. Oppgaver med valg mellom fire til fem svar

Fordeler: egnet for et bredt spekter av akademiske emner, på grunn av kortfattet ordlyd i testen, kan en stor mengde innhold dekkes, gir mulighet for automatisert testing og høy objektivitet av studentvurderinger, gir mulighet for detaljerte Statistisk analyse deres egenskaper, justere dem og øke påliteligheten til pedagogiske målinger betydelig.

Feil: krever betydelig arbeid fra forfatterne når de skal velge distraktorer og korrigere elevenes poengsum; de er ikke egnet for å teste det produktive aktivitetsnivået og kognitive ferdighetene.

3. Oppgaver med konstruerte regulerte besvarelser

Fordeler: enkel å utvikle, eliminerer gjetting, delvis egnet for automatisert verifisering.

Feil: de sjekker hovedsakelig kunnskap om faktamateriale eller konseptuelle apparater, vanligvis (i humanitære emner) er for enkle, noen ganger fører til tvetydige korrekte og delvis riktige svar.

4. Oppgaver med fritt konstruerte svar

Fordeler: lar deg evaluere komplekse pedagogiske prestasjoner, inkludert kommunikasjonsferdigheter, kreativt nivå aktiviteter, er lett formulert som tradisjonelle oppgaver, og eliminerer gjetting.

Feil: de krever en lang, kostbar verifiseringsprosedyre, betydelig gjennomføringstid, tillater ikke dekning av en betydelig mengde faginnhold, og reduserer påliteligheten til pedagogiske målinger.

5. Samsvarsoppgaver

Fordeler: lett å utvikle, ideell for å vurdere assosiativ kunnskap og utføre løpende overvåking, redusere effekten av gjetting.

Feil: oftest brukt når du sjekker det reproduktive aktivitetsnivået og algoritmiske ferdigheter, de er tungvinte i form av presentasjon.


Sammenlignende egenskaper for de teknologiske egenskapene til forskjellige testformer er presentert i tabell. 5.1.


Tabell 5.1Komparative teknologiske egenskaper av støpeformer





Valget av form for forhåndstestoppgaver bestemmes av spesifikasjonene til det kontrollerte innholdet og målene for å lage testen. Hver form for oppgaver har sine egne fordeler og ulemper, sitt eget bruksområde.

Utviklingen av pre-testoppgaver utføres i samsvar med standardiserte krav, hvis innhold avhenger av spesifikasjonene til testskjemaet. Oppgaver med flervalgssvar er mest hensiktsmessige for sluttkontroll på grunn av en rekke teknologiske fordeler som øker effektiviteten i prosessene med å ta sluttprøven og vurdere elevresultater. Komplementeringsoppgaver er å foretrekke for læringskontroll.

Moderne trender i utviklingen av sluttprøver er assosiert med avvik fra monoformitet og utbredt bruk av tilleggsoppgaver, siden mangfoldet av kunnskap og ferdigheter som testes krever introduksjon av ulike former i testen.

Øv øvelser og diskusjonsspørsmål

1. Sett ring rundt tallet på det riktige svaret.

Det er mer effektivt å bruke testelementer med to svar i kontroll:

1) gjeldende

2) tematisk

3) endelig

4) input

2. Sett ring rundt tallet på det riktige svaret.

1) gjeldende

2) endelig

3) input

3. Sett ring rundt tallet på det riktige svaret.

Sannsynligheten for å gjette plasseringsnummeret til det riktige svaret i en oppgave med fem distraktorer vil være:

4. Finn to vesentlige mangler ved oppgaven, omformuler oppgaven for å eliminere manglene.

Hvilken dyreklasse kjennetegnes av følgende egenskaper: kaldblodig, lever i vann og på land, yngler i vann?

1. Fiskeklasse

2. Klasse av krypdyr

3. Klasse av amfibier

4. Klasse av pattedyr

5. Foreslå en metode for å forbedre ordlyden av oppgaver.

Hvilket av følgende ble eliminert av reformene på 60-tallet av 1800-tallet i Russland?

1. Autokrati

2. Livegenskap

3. Eiendom

4. Grunneierskap av grunn

5. Nasjonal undertrykkelse

Ekspert: i informasjonsteknologi og pedagogisk video

Før vi kommer inn på prinsippene for testdesign, er det noen få punkter som må gjøres.

Forskjeller mellom prøven og oppgaver i prøveskjemaet

Begreper blir stadig forvirret i hverdagens bevissthet test Og test oppgavesystemer(eller forhåndstestoppgaver).

Som regel er testen utviklet av et team av forskere og testet over en viss tidsperiode. Etter testing gjøres justeringer på testen. Testen består av testoppgaver. I engelskspråklig litteratur brukes begrepet «Quiz» (men ikke «Test»!) for å referere til en test.

Dermed kan ikke læreren (læreren) lage prøver. I stedet utvikler han oppgaver i testform som overfladisk ligner testen, men som ikke gjennomgår statistisk eller annen testing. Slike oppgaver kan brukes i pedagogisk prosesså løse visse pedagogiske problemer.

Det følger av dette at det er grunnleggende umulig å bruke en rekke testegenskaper. For eksempel bestemmes vanskelighetsgraden til en testoppgave eksperimentelt, basert på resultatene fra et stort utvalg elever. I praksis har ikke læreren både tid til å gjennomføre forsøket og nødvendig utvalgsstørrelse. Derfor bestemmes vanskelighetsgraden ofte "av øyet".

Generelt oppfyller oppgaver i testform (samt testoppgaver) følgende krav:

  • korthet;
  • produksjonsevne;
  • visshet om formål;
  • logisk utsagnsform;
  • sikkerhet om plass for svar;
  • de samme reglene for å vurdere svar;
  • riktig plassering av oppgaveelementer;
  • identiske instruksjoner for alle fag;
  • instruksjonene er tilstrekkelige til oppgavens form og innhold.

Så, korthet oppgaver i testformen er sikret ved et nøye utvalg av ord, symboler og grafikk, slik at man med et minimum av midler kan oppnå maksimal klarhet i det semantiske innholdet i oppgaven.Produserbarhet av oppgaver er definert som en egenskap som gjør at testprosessen kan utføres ved hjelp av tekniske midler, og å gjøre det nøyaktig, raskt, økonomisk og objektivt.Logisk form for utsagnet er et middel for å effektivisere og effektivt organisere innholdet i en oppgave.

Former for testoppgaver

I tillegg er prinsippene for utvikling av testoppgaver (oppgaver i testform) knyttet til deres skjemaer. Ulike forfattere Formene for testoppgaver er klassifisert forskjellig. For å gjøre vondt verre, navngir hvert automatisert testsystem de samme skjemaene annerledes. La oss oppsummere mangfoldet av former for testoppgaver med følgende klassifisering.

  1. Sant usant (True or False, fra engelsk True or False)– inneholder en påstand som studenten enten må være enig eller uenig i.

For eksempel:

Den første amerikanske presidenten var George Washington

  1. Ikke sant
  2. Feil

I Unified State Exam finnes lignende oppgaver i KIM iht fremmedspråk i lytteoppgaver: elevene lytter til teksten, og går deretter videre til oppgaver av typen Sant eller usant.

Denne formen for testoppgaver er den enkleste for både læreren å sette sammen og elevene å svare på. Slike oppdragsformer er preget høy grad gjette riktig svar.

2. Flervalg (oppgaver med valg av ett eller flere riktige svar). Dette er den vanligste formen for testoppgaver. Den inneholder en påstand (spørsmål) og alternative svar.

For oppgaver med valg av ett riktig svar, anbefales det å bruke minst 4 (hvis mindre, øker sannsynligheten for å gjette riktig svar) og ikke mer enn 6 (det er vanskelig å komme opp med plausible alternativer).

For oppgaver med flere riktige svar anbefales minst 6 alternativer.

3. Oppgaver for å etablere samsvar. Det er et sett med elementer i to kolonner - studenten må etablere samsvar mellom elementene i venstre og høyre kolonne. Å ha en overskrift for hvert sett med kolonner er et must – det lar studenten unngå å kaste bort tid på å oppsummere elementene i kolonnene og gå rett til aktiviteten.

Sammenligne:

  1. en merkelapp
  2. b) Ulus
  3. c) Volosten
  4. d) Vice
  5. e) Plintha
  1. Batteriveggstruktur
  2. Murstein
  3. Khans charter
  4. Guvernør i volosten
  5. Besittelse

Også en oppgave, omformatert under hensyntagen til spesifikke krav:

Som vi ser, i det andre tilfellet er oppgaven mer lesbar, dens betydning er lett å forstå. Vær oppmerksom på at for eksempel OnlineTestPad-tjenesten og noen andre lar deg legge til slike overskrifter. Andre (som Moodle) har ikke denne funksjonaliteten. I dette tilfellet er det nødvendig å skrive en fullstendig instruksjon, for eksempel "Samstem korrespondansen mellom .... og ...."

I papirprøver av denne formen for oppgaver for riktig svar Du blir bedt om å fylle ut et spesielt skjema. Alternativet med piler anses som mindre teknologisk avansert for testing, så det bør unngås.

2 3 4

Også ønskelig angi et oddetall av elementer venstre og høyre kolonne slik at det siste elementet ikke velges ved eliminering.

Se på denne oppgaven:

Ordne navnene på russiske befal i kronologisk rekkefølge (i stigende rekkefølge) av deres aktiviteter

Dmitry Pozharsky

Alexey Ermolov

Mikhail Skobelev

Alexey Orlov

Dette er også en oppgave å etablere korrespondanse, eller mer presist, dens variasjon - en oppgave å etablere riktig rekkefølge. En rekke utenlandske forskere er tilbøyelige til en slik forening. Derfor finner vi for eksempel ikke en slik form i Moodle. Men det kan lett konstrueres fra en matchende oppgave. For klarhets skyld, la oss omformatere den forrige oppgaven litt:

Vi ser en klassisk matchingsoppgave, bare venstre kolonne representerer den numeriske rekkefølgen. Eleven skal også legge inn de riktige svarene i en spesiell tabell.

2 3

Noen ganger er oppgavene beskrevet ovenfor sanne eller usanne, flervalg og korrespondanser kombineres til en lukket arbeidsgruppe, som har følgende fellestrekk:

  • Det riktige svaret er tydelig til stede, du trenger bare å velge det på en eller annen måte;
  • Svar på spørsmål kan gjettes (sannsynligheten for å gjette øker ettersom antall alternativer reduseres);
  • Svar kan tilbakekalles
  • Svar kan velges logisk, og forkaster åpenbart feil alternativer.

5. Tillegg (kort svar). I disse oppgavene skal eleven fullføre riktig svar. Noen ganger kalles denne typen oppgaver åpne type oppgaver. I motsetning til formene for testoppgaver diskutert ovenfor, "fungerer ikke strategier som å gjette, huske riktig svar." Derfor anses denne typen oppgaver som vanskeligere for elevene.

6. Essay– et kort svar fra studenten til essensen av spørsmålet. Et essay er strengt tatt ikke en form for test, fordi... den oppfyller ikke de nødvendige kriteriene for korthet, produksjonsevne osv. Etter vår mening ble essayet introdusert for å overvinne velkjente vanskeligheter med å komponere typiske testoppgaver, hvor den viktigste er manglende evne til å presenterealleundervisningsmateriell i testform og den reproduktive karakteren til typiske testoppgaver.

Essayoppgaver må imidlertid foreslå standard(er) for et optimalt svar sammen med standardiserte regler for vurdering av resultatene av implementeringen.

For hvilke verdier av x er de tilsvarende verdiene til funksjonene f(x)=log 2 x og g(x) = log2 (3 – x) vil avvike med mindre enn 1?

Kriterier for å vurdere riktig svar

Poeng Kriterier for vurdering av gjennomføring av oppgave 9
2 Riktig rekkefølge av løsningstrinn er gitt:

1) kompilering av en ulikhet som inneholder en modul;

2) løsning av ulikheten.

Alle transformasjoner og beregninger ble utført korrekt, riktig svar ble oppnådd

1 Riktig rekkefølge av løsningstrinn er gitt. Ved løsning av ulikheten i trinn 2 ble det gjort en skrivefeil og/eller en mindre regnefeil, som ikke påvirker riktigheten av den videre fremdriften av løsningen. Denne skrivefeilen og/eller feilen kan resultere i feil svar.
0 Alle tilfeller av løsning som ikke oppfyller kriteriene ovenfor for å score 1 eller 2 poeng

Prinsipper for utvikling av oppgaver i testform

Det neste vi bør fokusere på er prinsippene for å utvikle oppgaver i testform.

I lang tid var det en tro på at testen i seg selv var et objektivt kontrollmiddel. Men så kom forståelsen av at testen først og fremst gir prosessuell objektivitet. For å vurdere kvaliteten på en test er det en rekke relaterte områder - reliabilitet (garantien for at det ikke er tilfeldige feil i testen), validitet (garantien for at testen måler nøyaktig det den skal måle), vanskelighetsgrad, etc. Som vi indikerte ovenfor, er alle disse parameterne utviklet basert på ulike matematiske modeller i løpet av eksperimentelt arbeid forfatterens team og er ikke tilgjengelig for lærere og professorer. Derfor vil vi kun dvele ved en rekke teoretiske krav til utvikling av oppgaver i testform.

  1. Begynn å konstruere en oppgave med riktig svar. Det hender ofte at en oppgave formelt inneholder flere riktige svar enn planlagt. Det er også motsatte tilfeller - oppgaven inneholder ikke riktig svar i det hele tatt.
  2. Innholdet i oppgaven er basert på kravene til programmet og reflekterer fagets (meta-fag) innhold. Noen ganger prøver de å inkludere spørsmål i testen som det rett og slett ikke er riktig svar på.

For eksempel:

Vi skal studere latinsk språk fordi…

  1. Det snakkes i mange land rundt om i verden
  2. Vi ønsker å forstå bedre morsmål, siden den inneholder mange ord lånt fra latin
  3. Vi ønsker å bedre forstå historien og kulturen til den antikke verden

Dette Godt jobbet. Men det skal brukes i en sosiologisk undersøkelse, og ikke i oppgaver for å teste utdanningsprestasjoner.

  1. Spørsmålet bør være rettet mot å identifisere ett element av kunnskap, en fullstendig tanke. Ellers er det vanskelig å diagnostisere årsaken til oppgavesvikt.

Konfucius..

  1. bodde i Afrika
  2. bodde i Kina
  3. var lege
  4. var en hersker
  5. var en filosof

Denne oppgaven er rettet mot å identifisere to elementer samtidig - hvor Konfucius bodde og hvem han var. Det er nødvendig å skille disse to spørsmålene.

  1. Når du skriver spørsmål, bør du unngå ordene "noen ganger", "ofte", "alltid", "litt", "mer" osv. Slike ord har en subjektiv betydning og kan føre til feilaktige svar. Testoppgaver (oppgaver i prøveform) skal ha et klart og entydig svar.
  2. Unngå innledende fraser eller setninger som har liten sammenheng med hovedideen, og ikke ty til lange utsagn.

For eksempel:

"Anadyr depresjon. Det er veldig flatt, og Anadyret logrer langs det som en enorm boa-konstriktor ... "The Anadyr is a yellow river," det er hvordan essayet kan kalles senere. Tundra og innsjøer gjennom hele depresjonen. Det er vanskelig å forstå hva mer er: enten innsjøer eller land» (O. Kuvaev). Hvilket hav renner denne elva ut i?

  1. Riktige svar må være plausible, dyktig utvalgt, det skal ikke være noen åpenbare feil svar (de er et slags hint - dette svaret er absolutt feil). Feilsvar som er veldig like de riktige kallesdistraktører. For eksempel:

Fødested til Karl Marx:

  1. Trier
  2. Karl-Marx-Stadt
  3. Sturgard
  4. München

Her kan vi anta at byen Karl-Marx-Stadt har fått navnet sitt fordi det var der Karl Marx ble født. Det riktige svaret er imidlertid Trier.

  1. Ikke still lurespørsmål – de mest dyktige eller kunnskapsrike studentene som vet nok til å gå i fellen vil sannsynligvis bli villedet, og det motvirker også hensikten med å bestemme kunnskaps- og forståelsesnivået.
  2. Det bør brukes lengre spørsmål og kortere svar som er grammatisk konsistente med hoveddelen av oppgaven. .

For eksempel:

Hvilken påstand er riktig?

  1. Ufullstendige setninger– dette er setninger hvor et av hovedmedlemmene mangler
  2. Ufullstendige setninger er setninger der ett av de mindreårige medlemmene mangler
  3. Ufullstendige setninger er setninger der et hvilket som helst medlem av setningen mangler - hoved- eller sekundært

Det er lett å se at det er en gjentatt setning her, som bør inkluderes i oppgavens ordlyd:

Ufullstendige setninger er setninger som mangler

  1. et av hovedmedlemmene
  2. et av de mindre medlemmene
  3. ethvert medlem av setningen - hoved eller sekundær
  1. Ikke bruk negativer i hoveddelen av spørsmålet. For det første fører dette til en misforståelse av essensen av oppgaven. For det andre bør objektet for kontroll være elementer av kunnskap, ikke elementer av uvitenhet.

For eksempel:

Hvorvidt disse menneskene faktisk bodde i eller ikke Antikkens Hellas?

  1. Homer
  2. Akilles
  3. Zevs
  4. Perikles
  5. Phidias
  6. Aristoteles
  7. Sokrates

I i dette tilfellet Det er ikke klart hvordan man skal svare - ja de levde, eller ja de levde ikke. Derfor må spørsmålet formuleres mer presist, for eksempel: Nevn de mytologiske karakterene i antikkens Hellas.

  1. Når du veksler riktige svar i spørsmål, bør det ikke være noe åpenbart system – for eksempel, bare 1 alternativ er alltid riktig, eller de riktige alternativene er sekvensielt det første, andre, tredje, fjerde alternativet. I datamaskintesting eksisterer vanligvis ikke dette problemet fordi datamaskinen automatisk blander alternativene.
  2. Hvis spørsmålet er av kvantitativ karakter, er det nødvendig å angi rekkefølgen (fra minst til de fleste eller omvendt) for å velge de riktige svarene .

For eksempel:

Avstand fra solen

a) Saturn

b) Kvikksølv

c) Jorden

d) Uran

e) Venus

f) Mars

I dette eksemplet er det som det var to sett med riktige svaralternativer - en sekvens fra nærmeste planet fra solen, den andre fra den fjerneste.

  1. Spørsmålet og svaret bør variere i font og romlig design. For eksempel er et spørsmål (oppgave) uthevet med fet skrift, svaret er med vanlig skrift. Ytterligere innrykk brukes til å registrere svar. Men denne regelen gjelder bare for papirtester - i dataautomatiserte systemer er designet satt av programvare, som ikke er tilrådelig å endre.

Og husk – ikke alle oppgaver kan presenteres som en testkontroll.

Ved skriving av artikkelen ble det brukt eksempler http://koi.tspu.ru/koi_books/samolyuk/

Som kjent er testens enhet, dens strukturelle element, testoppgaven. Det kan defineres som «det enkleste og samtidig helhetlige strukturelt element test. Selve oppgavene som inngår i testen kan varieres både i presentasjonsform og i innhold. Det er ulike tilnærminger til å klassifisere testoppgaver i henhold til presentasjonsformen. De vanligste typene testoppgaver er vist i figur 3.1.

Hovedfaktoren som påvirker formen på testoppgaven er metoden for å få svaret (velge fra alternativene som tilbys eller selvstendig formulere svaret). Da kan denne klassifiseringen representeres av følgende skjema.


Det skal bemerkes at testoppgaver har en rekke egenskaper. Hver testoppgave har sitt eget serienummer. Som regel er oppgavene i testen ordnet i økende vanskelighetsrekkefølge, selv om det er mulig at kompleksiteten til oppgavene svinger i ulike retninger etter hvert som du går gjennom testen.

Hver testoppgave har et standard riktig svar. Som regel er oppgaver som ikke har riktig svar med i prøven.

Testelementer av en form er vanligvis ledsaget av standardinstruksjoner, som går foran formuleringen av elementene i testen.

For hver prøveoppgave utvikles det en regel for karaktersetting (poengdeling).

Test med tanke på presentasjonsform og gjennomføringstid er den som regel ganske kort. Når du formulerer en oppgave, vær oppmerksom på at alle utsagn i testen er forståelige for alle elever uten unntak (formulert i enkle uttrykk med vanlig brukte ordforråd, uten termer som bruker fremmede eller sjelden brukte ord. Hvis mulig, i oppgaver, setninger med negasjonen "ikke" unngås, siden det anses at det er å foretrekke å bekrefte noe (både positivt og negativt).

Åpne oppgaver. I åpne oppgaver (oppgaver for tillegg) gis det ikke ferdige svar, de må innhentes. Det er to typer åpne oppgaver:

  • 1) med begrensninger pålagt svaret;
  • 2) uten begrensninger pålagt besvarelsen, der testtakere skal komponere et detaljert svar i form av en løsning på problemet.

Oppgaver av den andre typen skiller seg lite fra tradisjonelle tester, krever større testkostnader og er vanskeligere å standardisere.

Ved besvarelse av en åpen oppgave med et begrenset svar, fyller eleven inn det manglende ordet, formelen eller tallet i stedet for bindestreken eller på et spesielt angitt sted på svarskjemaet.

Instruksjoner for oppgaver av åpen type er vanligvis ledsaget av ordene: "Skriv det manglende ordet i stedet for bindestreken" eller "Få og skriv svaret på svarskjemaet," osv.

Lukket type oppgaver. Flervalgsoppgaver. En lukket oppgave med valg av svar inkluderer som regel et spørsmål og flere mulige svar på det (de er indikert med bokstavene A, B, C, D,... eller tall: 1,2,3,4 ,...). Eleven skal velge de riktige blant svarene. I de fleste tester er det kun én som er riktig. Men noen ganger inkluderer testutviklere flere riktige svar blant svarene. Plausible svar kalles distraktorer. Antallet deres i en oppgave er vanligvis ikke mer enn fem. Distraktorer velges med hensyn til typiske feil skolebarn.

En lukket prøveoppgave med svarvalg anses å «fungere bra» dersom elever som kan lærestoffet fullfører det riktig, og de som ikke vet velger noen av svarene med like stor sannsynlighet.

Oppgaver med flervalgssvar innledes vanligvis med følgende instruksjoner: Angi tallet (bokstaven) til riktig svar (for blanktesting) eller: Trykk på tasten med tallet (bokstaven) til riktig svar (for datamaskintesting).

Testelementer med valg av ett riktig svar har som regel følgende egenskaper:

tvetydighet og tvetydighet unngås i oppgaveteksten;

oppgaven har en enkel syntaktisk struktur;

hoveddelen inneholder så mange ord som mulig, og det er ikke mer enn 2-3 nøkkelord for svaret for en gitt oppgave. Alle gjentatte ord ekskluderes fra svarene ved å legge dem inn i oppgavens hovedtekst;

svar på en oppgave gir vanligvis samme lengde;

de prøver å utelukke alle verbale assosiasjoner som bidrar til å velge riktig svar ved å bruke en gjetning;

hyppigheten av å velge det samme tallet av det riktige svaret i forskjellige tekstoppgaver er vanligvis det samme, eller dette tallet er tilfeldig;

  • *Testelementer som inneholder verdivurderinger og meninger fra testpersonen om ethvert problem, er vanligvis ekskludert;
  • *antall svaralternativer i hver oppgave er det samme og vanligvis ikke mer enn fem (sjelden - 7);
  • *når du formulerer distraktorer (plausible svar), unngå uttrykkene "ingen av de oppførte", "alle de oppførte", etc., som bidrar til å gjette; prøv å ikke bruke ord som "alle", "ingen" i svarene , "aldri" ", "alltid" osv., for å gjøre det lettere å gjette;
  • *distraksjoner tilbys slik at de er like attraktive for forsøkspersoner som ikke vet det riktige svaret;

ingen av distraktorene er et delvis riktig svar som blir til et riktig svar under visse forhold;

svar som følger av hverandre er ekskludert fra listen over feil;

svar velges slik at nøkkelen til en oppgave ikke fungerer som nøkkelen til de riktige svarene til en annen oppgave, det vil si at distraktører fra en oppgave ikke brukes som de riktige svarene til en annen;

alle svar, som regel, er parallelle i utforming og grammatisk konsistente med hoveddelen av testoppgaven;

*hvis det er alternative svar i en oppgave, plasseres de ikke ved siden av den riktige, da dette umiddelbart fokuserer oppmerksomheten på dem.

Sammenlignende egenskaper for testoppgavetyper. Valget av testoppgavetyper bestemmes av mange parametere: det spesifikke innholdet i det akademiske emnet, testingsmål, kompleksitetsnivået til oppgavene, profesjonaliteten til utvikleren, etc.

Hver type testoppgave har sine egne fordeler og ulemper. For eksempel er flervalgsoppgaver i lukket form preget av fordelene som alle tester har, nemlig:

  • - objektivitet ved vurdering av resultatene av arbeidet;
  • - hastighet på å kontrollere fullførte oppgaver;
  • - systematisk testing av et tilstrekkelig stort volum av undervisningsmateriell.

Samtidig har de positive egenskaper, kun iboende denne arten oppgaver. For eksempel er de de enkleste å behandle, lar deg organisere datamaskininnsamling og analyse av resultater, etc., uten store kostnader. Men slike tester har også sine ulemper:

sjekker bare de endelige resultatene av arbeidet;

manglende evne til å spore logikken i en elevs resonnement når de fullfører oppgaver;

en viss sannsynlighet for å velge et tilfeldig svar;

umuligheten av å teste visse typer pedagogiske aktiviteter (for eksempel uavhengig finne retninger for løsninger).

Et ganske stort antall oppgaver i testen (vanligvis mer enn 20) og stort antall svaralternativer (mer enn 4).

Noen av disse ulempene (for eksempel å gjette svaret) kan unngås med åpne tester. Men samtidig er resultatene av disse oppgavene vanskeligere å statistisk behandle, og for å evaluere oppgaver med et detaljert svar, kreves involvering av eksperter, noe som igjen reduserer objektiviteten til kontrollen, kompliserer standardiseringen av testen, og øker tiden og de økonomiske kostnadene ved behandling av testresultater.

I testteori kommer det synet i økende grad til uttrykk om at det i en test er ønskelig å bruke så få ulike former for testelementer som mulig. Profesjonelle tester kjennetegnes ofte av monoformiteten til oppgavene deres. Dette kravet er imidlertid ikke alltid gjennomførbart på grunn av spesifikasjonene til et bestemt emne. Derfor kombinerer utviklere ofte i én test forskjellige typer testoppgaver (for eksempel lukket og åpent).

For eksempel tester sentralisert testing inneholder to deler (del A og del B). Del A inneholder testoppgaver av lukket type, og del B inneholder tester av åpen type.

Tabell 1.2 og 1.3 viser de komparative egenskapene til testoppgaver av ulike typer.

Tabell 1.2. Komparativ analyse av testoppgaver i samsvar med mestringsnivåene i undervisningsmateriell

Basert på noen av disse egenskapene kan testskapere velge en form for testelementer som passer for bestemte formål. Det bør også bemerkes at bare en rimelig kombinasjon av tester med tradisjonelle former og metoder for kontroll vil gjøre det mulig å få et helhetlig bilde av kunnskapsnivået.

Tabell 1.3. Komparativ analyse av testoppgaver i henhold til testdesignindikatorer

Designindikatorer

Typer oppgaver

Lukket

Åpen

Flervalg

For å etablere samsvar

For å etablere riktig rekkefølge

Med et begrenset svar

Gratis svar

Enkel design

Ikke alltid

Ikke alltid

Ikke alltid

Gjette effekt

Objektivitet ved vurdering av resultat av gjennomføring

Avhenger av kvaliteten på oppgaven

Nei, vurderingen er subjektiv

Mulighet for elevfeil ved skriving av svar

Del med venner eller spar selv:

Laster inn...