Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Roman Dolata Zakład Ewaluacji Instytucji Edukacyjnych Dyżury: piątki, 15.30-17.00, s. 314.

Podobne prezentacje


Prezentacja na temat: "Roman Dolata Zakład Ewaluacji Instytucji Edukacyjnych Dyżury: piątki, 15.30-17.00, s. 314."— Zapis prezentacji:

1 Roman Dolata Zakład Ewaluacji Instytucji Edukacyjnych Dyżury: piątki, , s. 314

2 - Streszczenie  Przedstawienie problemu badawczego  Metoda, czyli opis sposobu rozwiązania problemu badawczego  Przedstawienie wyników  Dyskusja wyników - Bibliografia - Aneks

3  Abstrakt to krótki opis badania  Zawiera opis: ◦ pytania/hipotezy badawczej ◦ metody badania (próba, podstawowe pomiary, model analizy danych) ◦ najważniejszych wyników oraz słowa kluczowe

4  Wstępne określenie problemu, dlaczego jest ważny?  Przegląd literatury – co wiemy?  Definicje kluczowych pojęć  Sformułowanie pytania/hipotezy badawczej na poziomie teoretycznym

5  Podręczniki (spis treści, indeks rzeczowy, słowniczki kluczowych pojęć)  Encyklopedie przedmiotowe  Monografie danego zagadnienia  Artykuły w prasie naukowej, w tym elektroniczne bazy tekstów: ◦ artykuły przeglądowe, metaanalizy ◦ raporty badawcze

6  Krytycyzm i szacowanie wartości źródła  Unikanie omawiania „z drugiej ręki”  Dokumentowanie źródeł  Pamiętanie cały czas, czemu służy przegląd literatury: synteza dotychczasowej wiedzy na dany temat  Zwracanie uwagi zarówno na otrzymane wyniki jak i na stosowane metody badania  Poszukiwanie badania „wzorcowego” dla naszego problemu badawczego

7 Cytowanie prac w tekście: psychologia, system amerykański Jeden autor –(Feldman, 1966) –Feldman (1966) – jeśli w zdaniu wymieniamy nazwisko Dwóch autorów –(Kahneman i Tversky, 1984) Kilku autorów –Pierwszy raz wymieniamy wszystkich (Cacioppo, Gardner i Berntson, 1997) –Kolejne odwoływania do tej pracy (Cacioppo i inni, 1997) Kilka prac na ten sam temat –(Ganzach, 1995; Gardner, 1996; Rowe, 1989)

8 Bibliografia Alfabetyczny spis prac cytowanych w raporcie Artykuły w prasie naukowej: – Markman J., M., Hanushek E., A., Kain J., F., Rivkin S., G. (2003) Does peer ability affect student achievement? Journal of Applied Econometrics, vol. 18(5), s – Seppänen P. (2003) Patterns of „public-school markets” in the Finnish comprehensive school from a comparative perspective. Journal of Educational Policy, vol. 18, no. 5, pp Książki: – Sternberg R., J., Wagner R. (1986) Practical intelligence: Origins of competence in everyday world. New York, Cambridge University Press. – Sanders W.L., Saxton A., Horn S. (1997) The Tennessee value-added assessment system: A quantitative, outcomes-based approach to educational assessment. W: J. Millman (ed.) Grading Teachers, Grading Schools: Is student achievements a valid measure? Thousand Oaks, CA, Corwin Press.

9  Definicja realna (DR) – stwierdzenie zasadniczej natury lub cech istotnych danego zjawiska  Poszukiwanie DR jest przejawem naiwnego realizmu. DR ewentualnie wieńczy proces badawczy, a nie go otwiera

10  Definicja nominalna (DN) – znaczenie przypisane do danego terminu bez żadnych roszczeń co do oddania „istoty rzeczy”. Konwencja terminologiczna  DN nie przysługuje wartość logiczna  Regulacyjne i projektujące DN  Wartość DN - użyteczność

11  Definicja sprawozdawcza (DS) – jak wspólnota naukowa definiuje dany termin; rekonstrukcja różnych sposobów definiowania  DS są ważne w naukach społecznych, pozwalają świadomie wybrać odpowiednią dla danego badania DN

12  Definicja operacyjna (DO) – określenie, jak będzie wyglądał sposób badania/mierzenia danego zjawiska  DO są pochodną metody badawczej  DO wyznaczają zakres dopuszczalnych interpretacji wyników badania (uogólnienia wyniku)  Operacjonizm – szersza koncepcja metodologiczna, która dopuszcza stosowanie w języku nauki tylko operacyjne zdefiniowanych terminów  Przykład operacjonizmu w psychologii – Inteligencja to to, co mierzą testy inteligencji. Mamy więc tyle inteligencji, ile narzędzi do pomiaru inteligencji.

13  Najważniejsze błędy w definiowaniu ◦ nieznane przez nieznane ◦ błędne koło ◦ wielosłowie, zbyteczna komplikacja ◦ niejasność ◦ wieloznaczność

14  Określenie badanej populacji, jednostki analizy, jednostki obserwacji  Pobieranie próby  Schemat badania  Pomiar zmiennych, wskaźniki  Model analizy wyników  Pytanie badawcze/hipoteza w postaci operacyjnej

15  Populacja – zbiór obiektów, na który będziemy uogólniać otrzymane wyniki ◦ Populacje jednoelementowe: studia przypadków, podejście idiograficzne ◦ Populacje jednorodne – w badaniach społecznych praktycznie nie występują ◦ Populacje niejednorodne – badania wyczerpujące i badania na reprezentatywnych próbkach

16  Przesłanki praktyczne: ◦ Skąd biorą się problemy w nauce szkolnej Jasia? ◦ Dlaczego szkoła X tak nieefektywnie uczy?  Przesłanki teoretyczne: ◦ Czy zaburzenia relacji emocjonalnych matka-dziecko są koniecznym warunkiem wystąpienia autyzmu? ◦ Czy poprawa warunków życia grup społecznie upośledzonych zawsze poprzedza rewolucje społeczne?

17  Badania wyczerpujące dużych populacji są rzadkie ◦ Spisy powszechne ◦ Powszechne testy lub egzaminy szkolne

18  Próba (próbka) – zbiór obiektów pobranych z populacji i poddanych badaniu  Wyniki uzyskane w próbie można uogólniać na populację tylko wtedy, gdy próba jest reprezentatywna  Próba jest reprezentatywna, jeżeli jest „populacją w miniaturze”  Jedyną, w pełni akceptowalną metodą tworzenia prób reprezentatywnych jest losowanie obiektów z populacji

19  Jednostka analizy: kto lub co jest obiektem, którego dotyczy pytanie badawcze lub hipoteza  Jednostka obserwacji (badania): kto lub co jest obiektem pomiaru/zbierania danych ◦ Wyuczona bezradność prowadzi do niskich osiągnięć szkolnych. ◦ Rywalizacyjny klimat klasy zwiększa zróżnicowanie osiągnięć szkolnych. ◦ Granie w gry komputerowe zawierające agresję podwyższa poziom lęku. ◦ Dokumenty oficjalne zawierają mniej przymiotników niż dokumenty prywatne.

20  Dobór przypadkowy (np. dostępność)  Dobór celowy  Metoda kuli śnieżnej  Dobór kwotowy  Dobór parami w badaniu porównawczym

21  Populacja pożądana i faktycznie badana  Operat losowania  Metody losowania ◦ Prosty dobór losowy ◦ Systematyczny dobór losowy ◦ Dobór warstwowy ◦ Dobór grupowy

22  By móc wyniki z próby prawomocnie uogólnić na populację (uznać je za reprezentatywne) ważny jest nie tylko sposób doboru próby, ale również tzw. stopa realizacji badania.  Losowe i nielosowe braki danych.

23 Nomotetyczny vs idiograficzne Nomotetyczne: ◦ Badanie surveyowe (przeglądowe, opisowe): jedna populacja, pytanie o nasilenie zjawiska ◦ Badania korelacyjne: jedna populacja, pytanie o korelację ◦ Badania porównawcze: dwie lub więcej populacji, pytanie o nasilenie ◦ Badania eksperymentalne: jedna populacja, weryfikacja hipotez przyczynowo-skutkowych

24 Wymiar czasu: Badania poprzeczne (przekrojowe, statyczne) Badania podłużne (panelowe, dynamiczne) -Ta sama kohorta przez wiele lat -Różne kohorty w tej samej fazie rozwojowej

25  Obserwacja etnograficzna  Wywiad pogłębiony  Analiza treści (dokumentów)

26  Obserwacja ilościowa  Testy  Wywiad standaryzowany – ankieta

27  Liczby jako wynik pomiaru ◦ relacje między liczbami – wynikami pomiaru - mają oddawać relacje między badanymi obiektami pod danym względem  Skale pomiarowe: ◦ skala nominalna ◦ skala porządkowa ◦ skala interwałowa ◦ skala ilorazowa  Typ skali pomiarowej decyduje o dopuszczalnych interpretacjach wyników pomiaru i możliwych do zastosowaniach modelach statystycznych analizy danych

28 Skala nominalna Nominalna – nazwy kategorii Skala dychotomiczna: tylko dwie możliwe wartości –wykonał/nie wykonał zadania –kobieta/mężczyzna Więcej możliwych wartości –wyznanie religijne –ulubione kolory

29 Skala porządkowa Porządkowa: miejsce w porządku Poziom wykształcenia: zawodowe średnie wyższe Wynik rangowania przez badanego jakiś obiektów, np. hierarchia wartości Liczba uzyskanych punktów w teście umiejętności (wynik surowy)

30 Skala interwałowa Interwałowa – miejsce w porządku i stała jednostka –Skala temperatury Celsjusza –Wynik testu wyrażony w znormalizowanej skali standardowej Ogólnie: ustalona jednostka, ale arbitralny punkt zerowy

31

32 Ilorazowa: miejsce w porządku, stała jednostka, niearbitralny punkt zerowy ◦ Wzrost wyrażony w ustalonej jednostce ◦ Temperatura w skali Kelwina ◦ Liczba uczniów w klasie

33 Obserwacja ilościowa Obserwacja ilościowa jest: skategoryzowana niskoinferencyjna Obserwacja szerokiego spektrum zjawisk w krótkich okresach czasu – próbki czasowe np. interakcje uczniowie- nauczyciel na lekcji Obserwacja wystąpienia określonego zjawiska w długim okresie czasu - próbki zdarzeń np. zachowania agresywne uczniów na przerwie

34  Zjawiska, które badamy często mają charakter bezpośrednio nieobserwowalny  Wnioskuje się wtedy o wystąpieniu/nasileniu zjawiska na podstawie wskaźników  Wiązki wskaźników spełniające warunki dobrego pomiaru to testy

35 Wskaźniki (przykłady) Zapamiętania – poprawne odtworzenie, liczba rozpoznanych elementów, przewidzenie kolejnego elementu, ilość zniekształceń, czas rozpoznania; Zadowolenia – odwzajemnienie uśmiechu, ocena neutralnej fotografii, odpowiedź na skali szacunkowej, testy fizjologiczne (szerokość źrenic), postawa ciała, szybkość chodzenia; Lęku – długość utrzymywania kontaktu wzrokowego, wskaźniki fizjologiczne, szybkość przechodzenia przez ulicę, tiki, ocena prawdopodobieństwa, że spotka nas nieszczęście ; Wpływu społecznego – skłonność do ulegania prośbom, naśladownictwo, zmiana postawy;

36 Co można badać za pomocą testów Inteligencję i inne cechy osobowości Osiągnięcia szkolne Dyspozycje zawodowe Uprzedzenia etniczne Klimat klasy szkolnej Typ przywództwa w instytucji I wiele innych cech jednostek, grup czy instytucji

37 Cechy dobrego testu Obiektywność Explicite sformułowane przesłanki budowy testu Standaryzacja Ustalona, powtarzalna procedura testowania Trafność Czy test mierzy, to co ma mierzyć Rzetelność Jak dokładnie test mierzy to, co ma mierzyć

38

39 Cecha ukryta, którą chcemy zmierzyć To, co faktycznie mierzymy

40 Aspekty trafności testu Definicyjny Czy wskaźniki są zgodne z przyjętą definicją badanego zjawiska Fasadowy Czy test zdaniem użytkowników i odbiorców jest adekwatny Prognostyczny Czy test pozwala prognozować wystąpienie interesujących badacza zjawisk Teoretyczny Czy układ zależności uzyskanych w badaniu sprawdzającym jakość testu jest zgodny z teoretycznymi przewidywaniami

41

42 Rzetelność testu  Każdy pomiar obarczony jest niepewnością pomiarową  Klasyczne ujęcie niepewności pomiarowej wynik empiryczny = wynik prawdziwy + błąd pomiaru Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu

43 Wyniki Wysokie Niskie Uczeń Błąd pomiaru Wynik osoby w teście

44 Wyniki WysokieNiskie Uczeń Błąd pomiaru Wynik prawdziwy Wynik osoby w teście

45 Wyniki Wysokie Niskie Uczeń Błąd pomiaru Wynik prawdziwy Wynik osoby w teście Błąd pomiaru

46 Główne źródła błędu pomiaru na przykładzie testów osiągnięć szkolnych  Arbitralność doboru zadań testowych  Niedostatki standaryzacji procedury testowej  Zgadywanie w zadaniach zamkniętych  Punktowanie zadań otwartych  Ściąganie  Losowe wahania dyspozycji intelektualnych ucznia  Błędy systematyczne: stronniczość testu

47  Dwukrotne testowanie ◦ Korelacja między wynikami dwóch testów  Metoda połówkowa ◦ Korelacja między wynikami dwóch połówek  Wewnętrzna spójność testu ◦ Wsp. rzetelności Alfa Cronbacha  Eksperymentalne określanie rzetelności kodowania

48

49 Wykorzystanie współczynnika rzetelności w interpretacji wyniku testu  Wyznaczanie przedziału ufności dla wyniku indywidualnego

50 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności Wynik ucznia w teście

51 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności

52 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności

53 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności

54 Wyniki Wysokie Niskie Uczeń Przedział ufności Idea szacowania przedziału ufności

55 Wyniki Wysokie Niskie Wynik najmniej prawdopodobny(2,5%) Funkcja prawdopodobieństwa Wynik najmniej prawdopodobny(2,5%) Wynik najbardziej prawdopodobny (95%) Rzetelność testu

56 Przykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo, że wynik ucznia znajduje się w przedziale wyznaczonym przez prostokąt wynosi 95%

57

58

59

60

61

62

63

64 Rzetelność punktacji – opis eksperymentu Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma egzaminu maturalnego: oceny i rekomendacje Instytut Spraw Publicznych, badanie sfinansowane przez MENiS

65 Analiza rzetelności systemów punktacji  Przedmiotem analiz były systemy punktacji przygotowane na maturę 2002: ◦ Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II). ◦ Historia – test i interpretacja źródeł (arkusz I i II). ◦ Matematyka – poziom podstawowy i rozszerzony (arkusz I i II).

66 Procedura badania rzetelności  Dobór prac.  Przygotowanie prac do ponownego sprawdzania.  Dobór egzaminatorów.

67 Problem trafności ekologicznej eksperymentu  Czynniki mogące zawyżać oszacowanie rzetelności: - dobór egzaminatorów (posługiwanie się dobrze znanym schematem punktacji), - pominięcie opcji (polski, historia).  Czynniki mogące zaniżać oszacowanie rzetelności: - upływ czasu, - brak procedur oceniania grupowego

68 Metoda badania rzetelności systemów punktacji  Każda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki.  Zbiór danych (dla każdego kryterium): Lp E1E2E3E4E5E6E7E … ……………………

69 Model analizy statystycznej Całkowita zmienność ocen Efekt jakości pracy Interakcyjny efekt egzaminatora Prosty efekt egzaminatora

70 Wyniki analizy rzetelności punktacji dla wypracowania, arkusz III Całkowita zmienność ocen 49%29%22% Efekt jakości pracy Prosty efekt egzaminatoraInterakcyjny efekt egzaminatora

71 Efekt egzaminatora dla przykładowych wypracowań Lp.Średnia ocena Rozrzut ocen (SD) MinimalnaMaksymalna 3960,318, ,918, ,418, ,517, ,016,61977

72 Co odpowiada za niską rzetelności systemu punktacji arkusza III?  Zawiodła przede wszystkim kryterialna skala rozwinięcia tematu (rzetelność=54%).  Zła budowa skal szacunkowych: ◦ skala kompozycji (rzetelność=33%), ◦ skala stylu (rzetelność=31%), ◦ skala poprawności językowej (rzetelność=34%).  Użyto z założenia subiektywnej skali szczególnych walorów pracy (rzetelność=23%).

73 Najmniej i najbardziej rzetelne kryterium skali rozwinięcia tematu, arkusz III  Kryterium 17: 77% ◦ Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji łacińskiej i wkroczenia barbarzyńców)  Kryterium 15.1.: 14% ◦ Za pogłębione wnioski  Ogólna prawidłowość: im wyższy poziom taksonomiczny, tym niższa rzetelność kryterium.

74 Przykład wadliwie skonstruowanej skali szacunkowej Skala poprawności językowej wypracowania Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt. Oto ich opis:  0 – brak opisu,  5 – w większości poprawna składnia i frazeologia, zgodna z normą fleksja, nieliczne usterki leksykalne oraz nieliczne błędy ortograficzne i interpunkcyjne,  10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja, sporadycznie pojawiają się błędy ortograficzne i interpunkcyjne,  21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.

75 Zestawienie wyników analizy rzetelności systemów punktacji ArkuszRzetelnośćProsty efekt egzaminatora Interakcyjny efekt egzaminatora Polski, arkusz I55%16%29% Polski, arkusz III49%22%29% Polski, arkusz II80%7%13% Historia, arkusz I95%2%3% Historia, arkusz II58%29%13% Matematyka, arkusz I 99%1%0% Matematyka, arkusz II 97%1%2%

76 Koniec opisu eksperymentu


Pobierz ppt "Roman Dolata Zakład Ewaluacji Instytucji Edukacyjnych Dyżury: piątki, 15.30-17.00, s. 314."

Podobne prezentacje


Reklamy Google