Bölüm 3 Ölçme ve Öğrenme Analitiğinde Kullanımı
Yoav Bergner
Yoav Bergner
Öğrenme Analitiği Araştırma Ağı, New York Üniversitesi, ABD
DOI: 10.18608/hla17.003
ÖZ
Psikolojik ölçme, zihinsel durumlar hakkında uygunluğu kanıtlanmış iddialarda bulunma sürecidir. ]Bu haliyle, tipik olarak şunları içermektedir: Bir yapının tanımlanması; bir ölçme modeli belirlemek ve güvenilir bir araç geliştirmek; çeşitli hata kaynaklarını analiz etmek (operatör hatası dâhil) ve sonucun belirli kullanımları için geçerli bir argüman çerçevelemek. Örtük değişkenlerin ölçümü, sonuçta, bireyler ve gruplar için yüksek riskli sonuçlar doğurabilecek yüksek perdeden bir girişimdir. Bu bölüm, analitik ve eğitsel veri madenciliği öğrenen uygulayıcılar için eğitsel ve psikolojik ölçmeye bir giriş niteliğindedir. Yapılar, araçlar ve ölçme hata kaynakları hakkındaki daha kavramsal malzemeden, belirli ölçme modelleri ve kullanımları hakkında teknik detayların arttırılmasına yönelik olarak, tarihsel olmaktan ziyade tematik olarak düzenlenmiştir. Açıklayıcı ve kestirimci modelleme arasındaki felsefi farklılıkların bazıları sona doğru incelenmiştir.
Anahtar Kelimeler: Ölçme, örtük sınıf modelleri, model uyumu
Öğrencilerin ne bildiğinin ve -duyuşsal ölçütlere giderek daha fazla önem verildiği göz önüne alındığında- nasıl hissettiklerini bilmek, öğrenmeye ilişkin çoğu sohbetin özünü oluşturur. Bununla birlikte, bir öğrencinin bilgi, becerilerini, tutumlarını/ istidat / yeteneklerini (BBİ) ve / veya duygularını ölçmek, boy veya kilosunu ölçmekten daha karmaşık bir iştir. Psikolojik ölçme, özel bir programa tahsis edilme (ileri düzey veya telafi), bir üniversiteye kabul, işe alım, hastaneye yatış veya tutuklanma gibi yüksek riskli sonuçlar doğurabilecek rahatsız edici bir uğraştır. Bireysel seviyedeki küçük ölçme yanılgıları bile bulguları gruplar için birleştirildiğinde büyük sonuçlar doğurabilir. (Kane, 2010). Bu sonuçlardaki hassasiyet, Eğitsel ve Psikolojik Ölçme Standartlarında yer alan bir yüzyıldan fazla süren yöntem bilim araştırmasıyla ortaya çıkmıştır.(AERA, APA ve NCME, 2014). Ölçme bu düzeyde, öğrenme ve öğrenme ortamlarını anlamak ve en iyi hale getirmek amacıyla öğrenme analitiği ve eğitsel veri madenciliğinde kullanılabiliyorsa (Siemens ve Baker, 2012), ölçmede kabul edilebilir hatalar neler olacaktır? Ne de olsa verinin “dijital okyanusundan faydalanmanın” nihayetinde ayrı değerlendirmelere duyulan ihtiyacın yerini alabileceği iddia edilmiştir (Behrens ve DiCerbo, 2014). Bir taraftan da kişi en azından öğrenmeyi yanlış anlamaktan veya eksilen öğrenen deneyimlerinden kaçınmak isteyecektir.
ÖLÇME NEDİR? FELSEFE VE TEMEL FİKİRLER
Psikolojik ölçme tartışmaları, genellikle fiziksel ölçme ile zıtlıklar çizerek başlamaktadır (ör. Armstrong, 1967; Borsboom, 2008 DeVellis, 2003; Lord ve Novick, 1968; Maul, Irribarra ve Wilson, 2016; Michell, 1999; Sijtsma, 2011). Süreçte, araçsallaştırma veya işlemselleştirme, ölçümlerin tekrarlanabilirliği veya kesinliği, hata kaynakları ve önlemin kendisinin yorumlanması gibi bir dizi önemli psikolojik ölçme faktörü ortaya çıkar. Psikolojik ölçmenin aşağıdakileri içerdiği söylenebilir; bir yapıyı tanımlamak, bir ölçme yöntemi belirlemek ve güvenilir bir araç (geliştirmek); çeşitli hata kaynaklarını analiz etmek ve nedenlerini açıklamak (uygulayıcı hatası dâhil) ve sonucun belirli kullanımları için geçerli bir argüman çerçevelemek.
Yapılar
Psikolojik yapılar gerçekten var mı? Hangi anlamda öğrencinin halet-i ruhiyesini gerçekten bilebiliriz? Bir nesnenin fiziksel uzunluğu gibi değişkenlerin doğrudan gözlendiğini veya tezahür ettiğini söylerken, bireyin zihinsel durumlarını veya psikolojik özelliklerini yalnızca dolaylı olarak gözlemlendiği veya gizlendiğini söylüyoruz. Yapı terimi, örtük değişkenle değişmeli olarak kullanılırken özellik, yapının zamana göre sabit oluşunu ima etmek için kullanılır (Lord ve Novick, 1968). Aslında, fiziksel ölçme bile dolaylı olarak gerçekleştirilir. Uzunluğu doğrudan duyularımızla algılayabilmemize rağmen, uzunluğun ölçülmesi, bir mezura gibi bir referans nesnesi veya alet ile bir karşılaştırma işlemini içerir. Mezura, uzunluk karşılaştırmalarını resmileştiren inç veya santimetre gibi bir ölçek sağlar. Örneğin, iki uzunluk arasındaki farkı bir ölçümü diğerinden çıkartarak inceleyebiliriz.
Yirminci yüzyılın ilk yarısında, ölçmenin felsefi ölçme meselelerini çözme çabaları Bridgman’ı (1927) ve diğerlerini işlemselciliğe yönlendirdi; burada uzunluk, kütle ve yoğunluk gibi fiziksel kavramlar ile bunları ölçmek için kullanılan işlemlerin “eş anlamlı” olduğu anlaşıldı. Yani, uzunluk (muhtemelen farazî) bir uzunluk ölçüm yönteminin ürünü olarak anlaşılmaktadır. Bu fikir, yapıları onları ölçmek için kullanılan araçlardaki puanlarla eşleştirme yoluyla matematik yeteneği ve dışa dönüklük gibi psikolojik yapılara aktarılabilir. Böylelikle matematik yeteneği daha sonra bir matematik testindeki bir puana ve dışa dönüklük, Likert madde anketinde verilen bir puana eş değer olur. Bu pozitivist tutum, Stevens’ın “nesnelere ya da olaylara kurallara göre sayıların atanması” olarak yaptığı ölçme tanımında yansıtılmaktadır (1946, s. 677). Yapılara ilişkin işlemselci görüş geçmişte oldukça etkiliydi ancak birçok nedenden dolayı özellikle de işlemselcilik yapının onu ölçmek için var olan her araç için yeniden tanımlamayı gerektirmesi nedeniyle reddedildi (Maul, Irribarra ve Wilson, 2016; Michell, 1999).
İşlemselci bir yorum reddedildiğinde örtük değişkenlere dair epistemolojik ve ontolojik soruları açıkta bıraktığı görülmektedir. Mislevy (2009, 2012), yapılandırmacı-gerçekçi bir konumu açıkça belirtir; yani, model temelli bir akıl yürütmeyi taahhüt ederek, katı gerçekçiliğe bağlı olmadan bir yapı varmış gibi konuşabiliriz. Model temelli akıl yürütme, bir sistemin -örneğin, kişiler ve cevaplar arasındaki yapı aracılı ilişki- göze çarpan yönleri (ör. örüntüler) yakalayan basitleştirilmiş bir temsilini, kabul etmek anlamına gelir ve olguları açıklamamızı veya tahmin etmemizi sağlar (Mislevy, 2009; açıklayıcı / kestirimci modelleri bu bölümün ilerleyen kısımlarında ele alacağız). George Box’ın ünlü sözünde dediği gibi, “tüm modeller yanlış ancak bazıları yararlıdır” (Box, 1979). Zorluk, faydalı modeller veya Stevens’ın tanımı ile ifade edildiğinde, yararlı ölçme kuralları ile ortaya çıkmaya devam etmektedir.
Fiziksel teoriler sayıca az ve daha kapsamlı olma eğilimindeyken, psikolojik teoriler çok sayıda ve sınırlı bir şekilde tanımlıdırlar (DeVellis, 2003). Yapılar uydurulmuş/icat edilen şeyler olduğu için, sayıları için deneysel bir sınır yoktur. Bir yapı hakkında bir ölçüm aracının yokluğunda konuşmak mümkündür ancak bir ölçüm aracı her zaman bir şeyi ölçmek için tasarlanmıştır. Bu nedenle, kendilerini ölçmek için önceden geliştirilen araçlara uygun ve son derece kısmi bir öğrenme analitiğine ilişkin yapılar listesi çıkarsaması yapabiliriz. Örnekler arasında zekâ (ör. Stanford-Binet Zekâ Ölçeği), akademik yatkınlık (ör. bu SAT1 testi), akademik başarı (hem büyük ölçekli sınavlar hem de ders başarı sınavları dâhil sayısız örnek), kişilik (ör. “büyük beş” faktör modeli; Digman, 1990), başarı hedef oryantasyonu (ör. Midgley vd., 2000), tatmin duyguları (Pekrun, Goetz, Frenzel, Barchfeld ve Perry, 2011), sabır (Duckworth, Peterson, Matthews ve Kelly, 2007), öz yeterlilik teorileri ve sabit / büyüme zihniyeti teorileri (Dweck, 2000; Yeager ve Dweck, 2012), içsel motivasyon (Deci ve Ryan, 1985; Guay, Vallerand ve Blanchard, 2000), öz yönetimli öğrenme ve öz yeterlik (ör. Pintrich ve De Groot, 1990), öğrenme gücü (Buckingham Shum ve Deakin Crick, 2012; Crick, Broadfoot ve Claxton, 2004) ve kitle kaynaklı öğrenme yeteneği (Milligan ve Griffin, 2016) vardır.
Yukarıda listelenen yapıların birçoğu çok boyutludur, yani birden çok faktör içerirler. İlişkili yapıları ayrıştırmanın ya da birleştirmenin değeri bir tartışma konusudur (Edwards, 2001; Schwartz, 2007).
Ölçme Araçları
Psikolojik ölçme araçlarına genellikle test veya soru formları (ayrıca anketler ve envanterler) denir ve maddelerden veya göstergelerden oluşurlar. Test kelimesi daha çok zekâ, bilişsel yetenek ve psikomotor becerileri gibi yapılar için kullanılır; burada derse veya sınava giren kişinin performansını en üst seviyeye çıkarmaya çalışması istenir (Sijtsma, 2011). Soru formu katılımcılarından, aksine, düşünceleri, duyguları ve davranışları ile ilgili dürüstçe cevaplar vermeleri istenir. (Tepki yanlılık değeri, geçerliliğe geldiğimizde tanımlayacağımız gibi, bu ayrımı bulanıklaştırabilir). Deneklerin araçlarla nasıl etkileşime girmesi beklendiğine ilişkin bu tanımlamanın bir ölçme modelinin temel ilkelerini ortaya çıkardığına dikkat ediniz. Daha yetenekli bir sınav katılımcısının bir yetenek sınavında daha yüksek puan alacağını ve daha endişeli bireyin kaygı anketinde daha yüksek puan alacağını varsayıyoruz.
Bazen ölçme ölçeği terimi, enstrümanla değişimli olarak kullanılır (DeVellis, 2003). Ölçek test veya anketin puanlandığını gösterir. Doğru ve yanlış cevapları olan ve evet / hayır sorularına sahip olan ikili maddeler genellikle {0, 1} ‘de yer alan değerlerle ikili bir şekilde puanlanır. Likert ölçeği, puanlama ölçeği ve görsel-analog ölçekler (Luria, 1975), kesikli veya sürekli sayısal değerler alabilen diğer madde türleridir. Bireysel maddelerin puanlarının toplanarak bir toplam puana (ayrıca ham puan olarak) dönüştürülmesi, bir aracın puanlanması için bir yöntemdir ancak tek veya zorunlu olarak en iyi yöntem değildir (Lord ve Novick, 1968; Millsap, 2012). Ağırlıklı toplam puanlar ve madde tepki teorisi (MTK; Baker ve Kim, 2004) bir dizi alternatif sunar.
Testlerin ve soru formlarının kullanılması, insanları gerçek hayatta gözlemlemenin ve kendiliğinden düşünceleri ifade etmelerini veya ilgilenilen davranışları sergilemelerini beklemenin alternatifine kıyasla hem verimlilik hem de standardizasyon meselesidir (Sijtsma, 2011). Öğrenme analitiğinde, verilerin verimli bir şekilde toplanması genellikle sorun değildir ancak standardizasyon eksikliği ölçme hatasına bir açıklama getirmeyi zorlaştırabilir.
Ölçmede Hata Kaynağı
Tecrübelerden biliyoruz ki psikolojik ölçmeler fiziksel ölçmeler kadar tutarlı bir şekilde tekrar edilebilir değildir. İnsanların bir araca verdiği cevapların yeteneklerini, tutumlarını veya diğer ilgi alanlarını güvenilir bir şekilde yansıtmayabileceğini de biliyoruz. İstatistiksel modeller, ögeleri, göstergeleri veya testleri örtük bir değişkenin rastgele örnekleri olarak düşünmemize izin verir. Örtük değişken rastgele bir değişken olabilir veya gerçek puan teorisinde olduğu gibi sabitlenebilir (Lord ve Novick, 1968). Her iki durumda da ölçme numuneleri bazen rastgele hata olarak adlandırılan ve özünde içsel tekrarlanamazlıktan kaynaklanan ve yansız olan hataya sahip olacaktır (tekrarlanan ölçümlerin bir miktarının dağıtımı üzerine sıfır beklentisine sahip olma anlamında). Ön yargılı sistematik, yanlı olan bir hata da bulunabilir.
Bir ölçme çerçevesi veya modeli benimsediğimizde hatayla ilgili daha kesin veya biçimsel ifadeler ortaya çıkar. Örneğin, gerçek puan teorisi ve faktör analizinde, bir aracın güvenilirliğine ilişkin tahminler türetmek için paralel testler veya eşdeğer formlar açısından akıl yürütebiliriz. Ölçüm hatası, modelde açıklandığı gibi verilerdeki yapıya atfedilmemiş herhangi bir değişiklik olarak da tanımlanabilir (AERA, APA ve NCME, 2014). Ölçme modelleri konusundaki tartışmamızı bitirdikten sonra hata kaynaklarını tekrar gözden geçireceğiz.
Güvenilirlik
Güvenilirlik, bir araca atfedilir ve puanların tutarlılığının (AERA, APA ve NCME, 2014), özellikle de toplam değişkenliğin örtük değişkene atfedilen puanlardaki oranının bir ölçüsüdür (DeVellis, 2003). Örnekleme (gerçek puan teorisinde) ve modele bağlı (daha karmaşık modellerde) olabilir. Bu kelime bazen, yaygın olarak Cronbach’s (1951) alfa a olan, [0, 1] arasında değişen belirli bir güvenilirlik katsayısı anlamına gelir. Bununla birlikte, güvenilirlik terimi, aslında bir korelasyon olan ve test- tekrar test güvenilirliği ve puanlayıcılar arası güvenirlik anlamında da kullanılmaktadır (ör. Cohen’in kappa, k; Cohen, 1968). Uygulayıcılar bazen, ölçeklerin kullanmak için yeterince iyi olduğuna karar vermek için .70 alt sınır a olarak kabul edilebilir (Cortina, 1993) değerlere dair yönergelere sorgulamadan bağlı kalırlar. Ancak istatistiksel gücün a‘nın daha yüksek değerlerle arttığına dikkat edilmelidir (DeVellis, 2003). Bu nedenle, bir ölçeğin güvenilirliğini geliştirme çabası, daha büyük örneklemeler alınmasının faydalarından ağır basabilir.
Geçerlik
Geçerlilik, Standartlarının ilk bölümü “Geçerlilik, kanıtların ve teorinin, testlerin önerilen kullanımı için test puanlarının yorumlanmasını destekleme derecesini belirtir. ….testin geçerliği” şeklindeki niteliksiz ifadeyi kullanmak doğru değildir. ” (s.11) olarak başlayan standartlar’ın en önemli konusudur. Daha geniş olan “ölçü” terimini daha dar olan “test”in yerine geçirme sayesinde, geçerliliğin öğrenme analitiği için ne büyük önem taşıdığı açıkça görülmelidir. Standartlar‘da doğrulama argümanlarında kullanılan dili şekillendirmeye dair Messick’in (1995), Cronbach ve Meehl’i (1955) etkili bir şekilde elden geçirmesinde de belirgin olan bir yaklaşım olarak (bk. Ayrıca Kane, 2001) dili şekillendirmeye dair somut bir odaklanma vardır. Geçerliğe ilişkin kanıt türleri (“geçerlilik türleri”nden ziyade), tepki süreçleri hakkındaki kanıt, aracın iç yapısı hakkındaki kanıt, yakınsak ve ayırıcı kanıt, kriter referansları (öngörülen kriterler dâhil) ve genellenebilirlik hakkında kanıt içerir.
Bu bölümün başlarında, anketlere verilen cevapların dürüst düşüncelere ve duygulara karşılık geldiği varsayımına değinmiştik. Bununla birlikte, tepki yanlılığı türleri hakkında kabul edilebilme yanlılığından (evet diyerek; Messick ve Jackson, 1961) sosyal istenirlik yanlılığına (ayrıca, iyiyi oynama; Nederhof, 1985) aşırı ve ılımlı cevaplayıcı yanlılığına (yani, Likert-skalalarının aşırı uçlarını seçme eğiliminde olan insanlar) geniş bir literatür bulunmaktadır. (Bachman ve O’Malley, 1984). Hile yapmaya istekli olma, cinsel fanteziler veya ırkla ilgili tutumlar gibi hassas konular hakkındaki soru formları ve anketler için daha sık belgelenmesine rağmen, Newtoncu düşünceyi değerlendirmek için kullanılan kuvvet kavramı envanteri gibi (KKE; Hestenes, Wells ve Swackhamer, 1992) cevapların öz uyumlanma ve oto sansürü de eğitsel testlerde gerçekleşebilir. Mazur (2007), özellikle “Bu sorulara nasıl cevap vermeliyim? diye soran bir öğrenci olduğunu bildirmiştir. Bize öğrettiklerinize göre, ya da bu şeylerle ilgili olarak benim düşündüklerim gibi mi?” sorusunu soran bir öğreneni bildirmiştir. Son olarak, kasıtlı hızlı tahmin etme davranışı bir cevap yanlılığı biçimi olarak düşünülebilir (Wise ve Kong, 2005). Tüm bu cevap yanlılığının kaynakları ölçek puanlarının eleştirel olmayan yorumlarına meydan okuduğu bilinmelidir.
Ölçme Modelleri
Bu sürecin en zorlu kısmı ölçme modellerinin teknik detaylarındadır. Ölçme modeli, örtük bir değişken veya değişken kümesi ile gözlemlenebilir bir değişken veya değişken kümesi arasındaki resmî bir matematiksel ilişkidir. Tamamen istatistiksel bir ölçme modeli örtük değişken(ler) için bir dağılım, gözlenen değişken(ler) için bir dağılım ve aralarındaki fonksiyonel bir ilişkiyi belirtebilir. Örtük değişkenler çoğu zaman hatalara tabi olan gözlemleri nedensel olarak açıklayanlar şeklinde anlaşılmaktadır. Rasgele değişkenlerin varyansları ve kovaryansları, modelde açıkça veya örtük olarak açıklanmıştır. Modeller, örneğin yapı ile ölçü arasındaki ilişkinin monotonluk (veya daha katı, doğrusallık) varsayımı ya da tekil ögelerin hata terimleri arasında sıfır kovaryans varsayımı yapar. Bir modelin varsayımları ihlal edilirse, model kullanılarak yapılan çıkarımlar yanlış olabilir (Lord ve Novick, 1968).
Kategorik ve sürekli değişkenler farklı istatistiksel yöntemler içerdiğinden, ölçme modelleri türleri bazen Tablo 3.1’de gösterildiği gibi örtük ve gözlenen değişkenlerin türüne göre aileler olarak tasnif edilir. Bu tasnif ayrıntılı değildir, çünkü hibrit modellerin yanı sıra bu model ailelerin özel durumlar haline geldiği genelleştirilmiş çatılar (Skrondal ve Rabe-Hesketh, 2004) da vardır. Büyüme modelleri, ölçme modellerinin tekrarlanan ölçümlere genişletilmesidir ve hem sürekli hem de kategorik örtük değişkenlere uygulanabilir (ör. Meredith ve Tisak, 1990; Rabiner, 1989; Raudenbush ve Bryk, 2002).
Tablo 3.1. Gizli Değişken Modellerin Aileleri
Örtük/ Gözlenen |
Gözlenen sürekli |
Gözlenen kategorik |
Örtük sürekli | Faktör modelleri (Bollen, 1989; Mulaik, 2009) | Madde tepki modelleri (Lord ve Novick, 1968; Baker ve Kim, 2004) |
Örtük kategorik | Örtük karışım modelleri (McLachlan ve Peel, 2004) | Örtük sınıf modelleri (Goodman, 2002) |
ÖĞRENME ANALİTİĞİNDE ÖLÇME MODELLERİNİN ÖZEL KULLANIMI
Daha önce, psikolojik ve eğitsel ölçmenin, sınıflandırma, tanılama, sıralama, yerleştirme ve bireylerin belgelendirilmesinin yanı sıra gruplara dair uygun çıkarımlar dâhil olmak üzere çeşitli amaçlar için kullanıldığını belirtmiştik. Öğrenme analitiği ve eğitsel veri madenciliği alanındaki çalışmalar, dijital öğrenme ortamlarındaki psikolojik ölçekler, davranışlar ve performans arasındaki karmaşık ilişki ağını da araştırmaktadır (Tempelaar, Rienties ve Giesbers, 2015). Bu temanın amacı, modeller ve bunların analitik ve eğitsel veri madenciliğini öğrenmedeki kullanımları hakkında biraz daha derinlik sağlamaktır. Tüm konular eşit ölçüde ele alınmaz, bu da hem alan kısıtlamalarını hem de seçim yanlılığını yansıtır.
Faktör analizi
Faktör analizi (Mulaik, 2009), gözlenen değişkenler arasındaki korelasyonları, faktör olarak bilinen bir dizi örtük değişkenle doğrusal bir ilişki yoluyla modellemektedir. Orijinal tek faktörlü model Spearman’ın (1904) genel zekâ g modelidir, ilgisiz konu testlerindeki puanlar arasındaki ilişkileri açıklamak için kullanılır. Klasik test teorisi (Lord ve Novick, 1968) olarak da bilinen gerçek puan teorisi, tüm madde faktörü yüklerinin aynı olduğu tek faktör modelinin özel bir hali olarak elde edilebilir. Thurstone (1947), çoklu (yedi) faktör zekâ modelini geliştirdi.
Faktör analizi, genellikle iki teşebbüse bölünmüştür. Açımlayıcı faktör analizi (AFA), güçlü teorik varsayımlar olmadan verilerdeki örtük faktörlerin sayısını belirlemek için kullanılır ve genellikle ölçek geliştirmenin bir parçasıdır. Bununla birlikte, AFA, eğer zayıf yapılırsa sorunlu sonuçlara yol açabilecek birkaç önemli metodolojik karar gerektirir (Fabrigar, Wegener, MacCallum ve Strahan, 1999). Fabrigar vd. (1999), AFA’nın, gerçek faktör yapısı hakkında hatalı çıkarımlara yol açabilecek, bir boyutsallık azaltma tekniği olan temel bileşenler analizi (TBA) ile karıştırılmaması konusunda uyarılarda bulundu. Doğrulayıcı faktör analizi (DFA), beklenen ve gözlemlenen korelasyonlar arasındaki kalıntıları inceleyerek teorik olarak önerilen bir faktör modelini test etmek için yapılmış tamamlayıcı teknikler setidir. Böylece, bir modeli reddetmek için DFA kullanılabilir. DFA, yol çözümlemesi ve gizli büyüme modelleri ile birlikte, yapısal eşitlik modellemesi ile güvence altına alınmıştır (SEM; Bollen, 1989; Kline, 2010). Doğrulayıcı faktör analizi, durum ikincisini gerçekleştirmek için yapılmış olmasına rağmen AFA’nın farklı popülasyon örnekleriyle birden fazla kez çalıştırılması ile aynı şey değildir. (DeVellis, 2003).
Bazı öğrenme analitiği araştırmaları, ölçek geliştirme ve bunun öğrenme yönetimi sistemlerinden toplanan verilerle birleştirilmesi ile doğrudan ilgilidir (ör. Buckingham Shum ve Deakin Crick, 2012; Milligan ve Griffin, 2016). Diğer çalışmalar, başarı ölçekleri (Pekrun vd., 2011) ile yüz yüze ve çevrimiçi eğitim (Tempelaar, Niculescu, Rienties, Giesbers ve Gijselaers, 2012) arasındaki ilişki gibi mevcut ölçekler ve sonuç ölçümleri veya motivasyon önlemleri ile kitlesel açık çevrimiçi dersin tamamlanması arasındaki ilişkilere odaklanmaktadır (Wang ve Baker, 2015). Bir aracı veya özellikle bir aracın bir bölümünü yeni amaçlar için uyarlarken, uygulayıcılar bu yeni kullanımların yeni doğrulama argümanlarına değip değmediği konusunda dikkatli olmalıdır.
Örtük Sınıf ve Örtük Karışım Modelleri
Dedic, Rosenfeld ve Lasry (2010), öğrencilerin bir fizik kavramı testindeki yanlış cevaplarına dayanarak fizik kavram yanılgılarının dağılımını anlamak için örtük sınıf analizini kullanmıştır. Veriler, bir fizik kursu öncesi ve sonrasındaki uygulamalardan gelmiştir. (ön ve son test). Yazarlar, kesikli baskınlık yanılma sınıfları aracılığıyla, Aristotelist’ ten Newtoncu düşünceye kadar bariz bir ilerleme tespit etmiştir. Belgelerin konu modellemesi için yaygın olarak kullanılan bir yöntem olan gizli Dirichlet tahsisi (GDT; Blei, Ng ve Jordan, 2003; ayrıca, bu ciltte birkaç bölüme bakınız) örtük bir karışım modelidir. Karışık üyelik modelleri (Erosheva, Fienberg ve Lafferty, 2004), bir bireyin birden fazla sınıfa “belirsiz” veya ağırlıklı olarak atanmasına izin vererek örtük karışımları daha da genellemektedir. Gauss karışım modeli, KAÇD öğrenenlerin performans güzergâhlarına uygulanan model tabanlı kümeleme analizi (Fraley ve Raftery, 1998) için temel oluşturmaktadır (Bergner, Kerr ve Pritchard, 2015). Bununla birlikte, kümeleme algoritmalarının hepsinin örtük karışım modeli olmadığı unutulmamalıdır.
Madde Tepki Kuramı (MTK)
Madde tepki kuramı, klasik test teorisinde olduğu gibi, toplam test puanlarından ziyade bireysel kişilik-madde etkileşimlerini modelleyerek, test teorisinin tarihsel gelişiminde kendisine ayrı bir yer edinmiştir. Kavramsal olarak, MTK’nin amacı “maddeleri, madde parametrelerine göre ve sınava girenleri, inceleme parametrelerine göre; benzer sınava girenler daha önce benzer maddeleri hiç cevaplamadıysa bile herhangi bir sınava girenin herhangi bir maddeye cevabını olasılığa dayalı olarak tahmin edebilecek şekilde tanımlamaktır” (Lord, 1980, s. 11). İki bileşenli bir madde için (ör. doğru / yanlış, aynı fikirde / katılmıyorum, vb.) bir örnek madde karakteristik eğrisi (MKE) veya eşdeğerde madde tepki fonksiyonu (MTF), Şekil 3.1’de gösterilmektedir.
Şekil 3.1. Bir örnek madde karakteristik eğrisi (MKE). Noktalı çizgiler P = 0.5 kesişimini gösterir.
Şekil 3.1’in belirgin özellikleri aşağıdaki gibidir:
-
Özellik (ör. yetenek) sürekli rastgele bir değişken olarak ölçülür ve yatay eksende Ө ile temsil edilir. Değişken, ilgilenilen popülasyonda ortalama sıfıra ve 1 varyansına sahip olacak şekilde standardize edilmiştir. Daha yüksek bir Ө değerine karşılık gelen özellikten daha fazlasının, pozitif (veya doğru) bir cevabın P olasılığını arttırması beklenir. Gözlenen bir monotonluk ihlali, temel şahıs-madde ilişkisinin yanlış olduğu ve teste maddenin dâhil edilmesinin kötü bir uyum olacağı ve güvenilmez çıkarımlara yol açacağı anlamına gelir.
-
Bu eğrileri yorumlamanın iki yolu Holland (1990) tarafından tanımlanmıştır. Stokastik denek yorumunda, kişi bu eğrinin, performansı öngörülemeyen bir bireye uygulandığını düşünür. Holland’ı anlamsal olarak alıntılayacak olursak, stokastik denek açıklaması sezgiseldir ancak tamamen tatmin edici değildir; öznenin stokastik doğası için mekanik bir açıklamamız yoktur. Öte yandan, rastgele örneklem yorumunda, bu eğri, sınava girenlerin örneklem popülasyonuna uygulandığında anlamlıdır. Örneğin, belirli bir yetenek aralığındaki sınava girenler arasında, bazı oranlar doğru cevap verecektir. Şekildeki noktalar ve hata çubukları bu gözlemi yansıtmaktadır.2
-
P = 0.5 olan Ө değeri, bir bilişsel yetenek test maddesi için zorluk olarak adlandırılan bir referans kesişimidir. Zorluğun, yetenek ile ipso facto (kendiliğinden) aynı ölçekte olduğunu ve böylece bir kişinin yeteneği ile bir maddenin zorluğu arasındaki fark hakkında konuşmanın mantıklı olabileceği unutulmamalıdır.
-
Olasılık bağlantısının şekli, bireyin Өi özelliği i ve j maddesi için bir dizi Bj, madde parametreleri yönünden genellikle parametriktir,
Pij = P(Xij = 1|θi, βj) = f(θi, βj), (1)
Rasch modelinde (bir tekil zorluk parametresi) veya iki parametreli lojistik (2PL) modelinde olduğu gibi. 2PL modeli, Şekil 3.2’de gösterilmektedir; verilere uygunluk gözle görülür derecede iyi ve örtüşme düzeyi testi G2 aynı miktardadır. Parametrik olmayan MTK yöntemlerinin var olduğu belirtilmelidir (Sijtsma, 1998).
Bir kişi bir ölçme aracında birkaç maddeye cevap verdiğinde, buradaki fikir, özelliğin sonsal tahminlerini yapmak için cevap bilgilerini birleştirmektir. Bir cevap vektörünün, bireysel madde seviyesindeki olasılıkların bir ürününe çarpan olabilirlik durumu için, cevaplar, niteliğe bağlı olarak aksi takdirde bağımsız olmalıdır. Bu koşullu bağımsızlık varsayımı maddeler arası bağımlılığı (ör. Rijmen, 2010) açıklayan ek faktörlerin takdimini gerektirebilir.
MTK’nin yüksek riskli test uygulamaları dışında eğitimde bir miktar çekim gücüne sahip olduğuna dair kanıtlar fizik eğitimi araştırma uygulamalarında kuvvet kavramı envanterine (KKE; Hestenes vd., 1992) ve temel mekanik bilgi testine bakılarak bulunabilir (MBT; Hestenes ve Wells, 1992). Bu araçlar yirmi beş yıldır kullanılmakta iken, madde tepki modeli analizleri daha yakın zamanda ortaya çıkmaya başlamıştır (Morris vd., 2006; Wang ve Bao, 2010). KKE için model-veri uygunluğu genel olarak kabul edilebilir durumdaydı. Bununla birlikte Cardamone vd. (2011), MBT’de, madde tepki fonksiyonlarını inceleyerek, kötü çalışan iki maddeyi keşfetmiştir. Şekil 3.2’de gösterilmiştir.
Şekil 3.2. Mekanik bilgi testinden (MBT) kötü uyum sağlayan bir madde.
Düşük yetenekli öğrencilerin ortalama yetenekli öğrencilere göre bir maddeye doğru cevap vermeleri daha muhtemel ise, burada şüpheli bir durum vardır. Daha detaylı bir inceleme ile bu test maddesindeki muğlak ifadelerin öğrencilerin algılarını hatalı yönlendirdiği ve yanlışlıkla doğru cevabı bulmalarını sağladığı tespit edilmiştir. Bu durumda, iki yanlış bir doğru yapmış oldu.
Birden fazla boyut tanımlayan KKE’nin açımlayıcı faktör analizlerini takiben (Ding ve Beichner, 2009; Scott, Schumayer ve Gray, 2012), MBT’ye çok boyutlu MTK’nin bir varyasyonu uygulandı (Bergner, Rayyan, Seaton ve Pritchard, 2013). Madde tepki kuramı modelleri de çevrimiçi ödevlerde sıkça görülen bir kolaylık olan, birden fazla cevap verme girişimlerinin (doğru olana dek cevaplama) ardındaki kendinden sıralı sürece genişletildi (Attali, 2011; Bergner, Colvin ve Pritchard, 2015; 2014).
Büyüme Modelleri
Büyüme modelleri, örtük bir özelliğin ölçümler arasında sistematik olarak değiştiği herhangi bir anda uygulanır. Değişen tutumlara uygulanabilirler (ör. George, 2000), fakat biz burada bilişsel yetenek alanları uygulamasına odaklanıyoruz. Öğretim programı düzenleme öğreticilerinden3 ayırt edilen akıllı problem çözme öğreticileri için öğrenci modellerine dair eğitsel veri madenciliğinde kapsamlı bir literatür bulunmaktadır (Desmarais ve Baker, 2011).
Matematik için bilişsel öğreticilerde (Anderson, Corbett, Koedinger ve Pelletier, 1995), uygulama madde dizilimleri, bilişsel bir modele göre ince taneli bilgi bileşenlerinin tam öğrenilmesini desteklemek için tasarlanmıştır. Bu sistemlerde verilerde ustalığa doğru büyümeyi modelleme amacı olan iki yaklaşımdan biri Bayesci bilgi takibi (BBT; Corbett ve Anderson, 1995) ve toplamsal faktör modelleridir; Cen, Koedinger ve Junker, 2008; Draney, Pirolli ve Wilson, 1995). Öğrenme eğrileri analizi (Kaser, Koedinger ve Gross, 2014; Martin’in, Mitrovic, Mathan ve Koedinger, 2010), verilerle öğreticinin temelindeki bilişsel model ve veri arasındaki uyuşmazlıkları kontrol etmek için de kullanılmıştır.
“Uygulama Yasası” na göre (Newell ve Rosenbloom, 1981), B ve a‘ nın deneysel olarak belirlendiği “T = Bn-a, “güç yasasına göre”, n uygulama fırsatının bir fonksiyonu olarak toplam hata oranı T azalmalıdır. Veri ve model arasındaki uyum, örneğin r kare ölçümleri kullanmak, bilgi eşlemedeki gelişmeleri motive edebilir. Bu hatalı bir maddenin tespit edildiği Şekil 3.2’deki madde analizine benzeşik olarak görülebilir. Bununla birlikte, bu durumda, bir bilgi bileşenine bir madde diziliminin atanması hatalı olarak görülmektedir.
BBT’de örtük değişken, bir işlemsel bilgi bileşeninin ustalığıdır ve ikili değere sahiptir, M ∈ {0, 1}. Herhangi bir fırsatta ustalık ve doğruluk X ∈ {0, 1} arasındaki bağlantısı ancak Eq ile benzeşik olarak bir 2×2 koşullu olasılık tablosudur. (1) tahmin (g) ve kayma (s) parametreleri yönünden şöyle yazılabilir,
P(X = 1|M) = (1 – s)M g(1-M) (2)
Önemli biçimde, girişimler bağımsız olarak görülmemektedir. Aksine, BBT’deki kilit fikir, öğrencilerin kurallara göre her bir uygulama durumunda ön bir ustalık olasılığı ile başlamaları ve ustalığa doğru hareket ediyor (öğrenirler) olmalarıdır,
P(Mn) = P(Mn-1) + t(1 – P(Mn-1)) (3)
Burada t bir büyüme parametresidir. Son zamanlarda, van de Sande (2013) BBT’nin uygulama girişimleri ve hata oranları arasında bir güç yasası ilişkisinden ziyade bir üstellik belirttiğini göstermiştir. Bu BBT’yi uygulamanın güç yasasını sağlayan veriler için yanlış tanımlanmış bir model yapar. Aksine, toplamsal faktör modeli, uygulama paradigmasının güç yasasına uyacak şekilde tasarlanmıştır. Kaser vd. (2014) BBT’nin kestirimsel keskinliğinin TFM’den ayırt edilemez olduğunu gösterdi. İkincisinin uyumu ile ilgili olarak, toplam kalıntı analizlerinde sistematik yanlılığa dikkat çektiler.
TFM, MTK’nin bir uzantısı olarak adlandırılmıştır (Koedinger, McLaughlin ve Stamper, 2012) ve aslında doğrusal lojistik test modeliyle olan (DLTM, Fischer, 1973) ilişki bu modelin öncülünde açıktı (Draney vd., 1995). Bununla birlikte, mevcut şekline geçerken, model kritik bir şekilde değiştirildi. DLTM, bir maddenin zorluğunun, maddenin potansiyel özellikleri üzerinde bir toplam olarak ayrıştırıldığı Rasch tipi bir MTK modelidir. Rasch modelini şöyle yazabiliriz,
logit(Pij) = ln(Pij/(1-Pij)) = θi – βj, (4)
β ögesinin zorluğu j ayrıca ayrıştırılır,
βj=cj + Σk wjkαk, (5)
ak, “temel” işlemlerin (Fischer’in terimi) zorluklarıdır ve wik göstergeleri, bu işlemlerin j maddesinde gerekip gerekmediğine bağlı olarak 0 veya 1’dir. Tüm ögeler aynı işlemleri kullanıyorsa model basit bir kayma ile Rasch modeline açıkça indirgenir,
βj=cj +α. (6)
Draney vd. (1995)’nın modeli madde seviyesinde bir zorluk parametresi içermekte olsa da TFM’de sadece bileşen becerilerinin zorlukları korunmaktadır. Ek olarak, bir uygulama terimi getirilir,4
βjAFM = Σkwjkαk – ΣkwjkγkTik , (7)
buradaki yk, bir büyüme parametresidir ve Tik, öğrenen i‘ nin beceri k üzerindeki önceki uygulama girişimlerinin bir sayısıdır. Bir uygulama problemi diziliminin tümü, öğretici uygulamaları için ortak olan aynı becerileri içeriyorsa, o zaman her bir dizi için, bu parametre,
βjAFM = α–γTi . (8)
Önemli olarak, bu aslında, sağ taraftaki alt simgelerden de açıkça anlaşıldığı gibi, maddenin hiçbir özelliğine değil yalnızca öğrenmeye bağlıdır. cj parametresini Denklem(7) – (8) ‘de bırakma sayesinde, TFM aslında sabit bir etki büyüme modeli haline gelmiştir.
Modelleme açısından bakıldığında hem zorluk hem de büyüme parametrelerinin saklanması tanımlanabilirlik için bir sorun oluşturduğundan madde düzeyinde zorluk parametresinin kaldırılması şaşırtıcı değildir. Bir model, parametreleri yeterli veri göz önüne alındığında açıkça öğrenilebiliyorsa tanımlanabilir. Ancak sabit bir madde dizilim üzerinde çalışan öğrenciler için, öğrenme / büyüme nedeniyle artan başarı oranı, azalan madde zorluğuna bağlanabilir. Büyüme olmayan koşullar altında madde zorlukları ayrı ayrı kalibre edilmedikçe, iki etki ayırt edilemez.
Bilişsel Teşhis Modelleri
Bilişsel görev analizi kullanılarak yapılan karışık sayıdaki çıkarma çalışmasına dair çığır açıcı bir çalışma, Tatsuoka’yı (1983), bir eğitim testinde Q-matris yöntemini ve belirli alt becerilerin teşhisi için bir model (ör. bir sayının tamamını kesire dönüştürme) geliştirmesine yol açtı. Q-matrisi, alt becerileri gerektirecek maddelerin kesikli bir haritasıdır ve değerlendirme modelinde geleneksel olarak belirtilir. Bilişsel tanısal modeller o zamandan beri oldukça yaygınlaştırılmıştır (Rupp ve Templin, 2008; von Davier, 2005) ve Q matrisini verilerden öğrenme çabaları, eğitsel veri madenciliği araştırmalarında ortaya çıkmıştır (Barnes, 2005; Desmarais, 2012; Koedinger vd., 2012).
HATA KAYNAKLARI, TEKRAR GÖZDEN GEÇİRİLMESİ
Motivasyon, duygu ve biliş çalışmalarına dâhil olan bazı ölçme modellerini araştırdıktan sonra, önemli olan hata konusu tekrar gözden geçirmeye değer. Uygulayıcılar, yanlış parametreli modeller kullanarak, yanlış modeller kullanarak veya modelleri yanlış kullanarak ek hata kaynaklarının ortaya çıkabileceğine dikkat etmelidir.
Bir modelin kullanımı, tahmini hataya tabi olan parametrelere bağlı olabilir. Bu belirsizlikler kabul edilmelidir ancak model gözlenen veriler için veri üreten bir model olarak tutarlıysa, bunlar ille de ciddi belirsizlikler değildir. Yani, istatistiksel modeli veri üretmek için de kullanılabilecek stokastik bir süreç olarak görüyoruz (ayrıca, örnekleme veya benzetme) (Breiman, 2001). Örneğin, gerçek madeni paranın hilesiz olup olmadığından emin olmasak bile, bir Bernoulli işlemi kullanarak madeni para atma deneyi verilerini simüle edebiliriz. Prensip olarak, modelimizdeki tura olasılıkları parametresi, gerçek madeni paradan daha fazla veri ile geliştirilebilir. Bu modelin kendisinin ya örtük değişkenler ya da bağlantı işlevleri açısından, gerçek üretici modelle tutarsız olduğu durumdan farklıdır. İkinci vaka modelin yanlış tanımlanması olarak adlandırılır (White, 1996). Uyumluluk testleri, modeli korumak veya reddetmek için gözlenen veriler ile üretici model arasındaki tutarlılığı değerlendirir (White, 1996; Haberman, 2009; Ames ve Penfield, 2015).
AÇIKLAMA VE YORDAMA
Kestirimci modelleme, eğitsel veri madenciliğinde en önemli metodolojik yaklaşımlardan biridir (Baker ve Siemens, 2014; Baker ve Yacef, 2009). Ölçme teorisi, aksine, sosyal bilimlerde geleneksel olarak kullanılan istatistiksel yöntemlerin çoğunda olduğu gibi, tamamen açıklayıcıdır (Breiman, 2001; Shmueli, 2010). Açıklayıcı bir model, öngörülerde bulunmak için kullanılabilirken -ve hatasız- bir açıklayıcı model, kusursuz tahminlerde bulunabilir; kestirimci bir model muhakkak açıklayıcı olmak zorunda değildir. Breiman (2001) iki kültür açısından ayrımı ifade etmiştir: veri modelleme kültürü (Breiman’a göre gayriresmî olarak istatistiklerin %98’i) ve algoritmik modelleme kültürü (Breiman’ın kendisini içerdiği %2).5 Shmueli (2010), bir tahmin veya açıklama merceğinden bakıldığında istatistiksel modelleme için tüm tasarım sürecinin karşılaştırmasını yapmıştır. Yordayıcıların karmaşık bir tahmin modelinde yorumlanabilirliği veya yorumlanamazlığı, ayrımın yalnızca bir yönüdür (ayrıca bk. Liu ve Koedinger, bu sayı). Farklı bakış açıları, araştırmacıların hata ve belirsizlikle nasıl başa çıktıkları hakkında temel olarak bilgilendirmektedir.
Kestirimci görüş, örneğin, eğitsel veri madenciliği konferansındaki en son ve en iyi makalede açıklanmıştır. Yazarlar, “model varsayımlarının doğru olup olmadığını belirlemenin tek yolu, farklı varsayımlar yapan alternatif bir model oluşturmak ve alternatifin [tahmin dışı] BBT’ den daha iyi performans gösterip göstermediğini belirlemektir” iddiasındadır (Khajah, Lindsey ve Mozer, 2016, 95, editör notu eklendi). Açıkçası model tahmin performansı model varsayımlarının ihlal edilip edilmediğinin belirlemesi için bir yolu değildir. Aksine hem gayriresmî kontroller hem de uyumluluğa yönelik resmî testler yukarıda tartışılmıştır. Bununla birlikte, alıntı, modellerin öngörücü doğrulukla onaylandığı algoritmik modelleme kültürünün bir yansımasıdır (Breiman, 2001). Daha problematik olarak, bu yordayıcı gücün daha gerçekçi bir modele işaret ettiği varsayımını taşır. Aslında, bu rolü oynayan açıklayıcı bir güçtür. Varyans bileşenleri açısından, “açıklayıcı modellemede odak, temel teorinin en doğru temsilini elde etmek için yanlılığı en aza indirmektir. Buna karşılık, kestirimci modelleme önyargı ve varyans kombinasyonunu en aza indirmeyi, zaman zamansa gelişmiş deneysel kesinlik için teorik doğruluğu feda etmeyi amaçlamaktadır ”(Shmueli, 2010, s. 293). Açıklayıcı gücün ve yordayıcı gücün her zaman aynı yöne işaret etmediği vurgulanmalıdır. Nitekim, Hagerty ve Srinivasan (1991), karmaşık durumlarda, yetersiz tanımlanmış çoklu regresyon modellerinin doğru (gerçek) modelden daha fazla yordayıcı güce sahip olduğunu kanıtlamıştır.
Suthers ve Verbert (2013) öğrenme analitiğini, öğrenme bilimi ve analitik arasında “orta alan” olarak tanımlamıştır. Belki de açıklayıcı ve kestirimci yaklaşımlar arasında metodolojik bir orta alanı işgal ettiği düşünülebilir. Bu durumda, alan her iki bakışın nüanslarını anlamakta fayda elde edebilir.
DAHA FAZLA OKUMA
Psikolojik ölçmeler neredeyse psikolojinin kendisi ve istatistikler kadar eskidir. Güvenilir, teknik ve bir nevi ansiklopedik kaynaklar, İstatistik El Kitabı serisindeki psikometri antolojisi(Rao ve Sinharay, 2006) ve şu an da dördüncü baskısında olan Eğitsel Ölçmenin “İncil’i”dir (Brennan, 2006). Belirli sayıların güvenilirlik, geçerlilik, genelleştirilebilirlik, karşılaştırılabilirlik ve doğruluk olduğu eğitsel ölçme sorunları ve Standartlar sınavlara vurgu yapar (AERA, APA ve NCME, 2014). DeVellis’in (2003) ölçek geliştirmede özlü hacim makalesi, psikolojik ölçmeye teknik olmayan bir giriş sunar ve paralel test formlarından alınan puanları birbirine bağlamak gibi büyük ölçekli testlere özgü konuları göz ardı etmektedir.
KAYNAKÇA
AERA, APA, & NCME (American Educational Research Association, American Psychological Association, & National Council on Measurement in Education). (2014). Standards for educational and psychological testing. Washington, DC: AERA.
Ames, A. J., & Penfield, R. D. (2015). An NCME instructional module on polytomous item response theory models. Educational Measurement: Issues and Practice, 34(3), 39–48. doi:10.1111/emip.12023
Anderson, J. R., Corbett, A. T., Koedinger, K. R., & Pelletier, R. (1995). Cognitive tutors: Lessons learned. The Journal of the Learning Sciences, 4(2), 167–207.
Armstrong, J. S. (1967). Derivation of theory by means of factor analysis or Tom Swift and his electric factor analysis machine. The American Statistician, 21, 17–21.
Attali, Y. (2011). Immediate feedback and opportunity to revise answers: Application of a graded response IRT model. Applied Psychological Measurement, 35(6), 472–479.
Baker, F. B., & Kim, S.-H. (Eds.). (2004). Item response theory: Parameter estimation techniques. Boca Raton, FL: CRC Press.
Baker, R. S., & Siemens, G. (2014). Educational data mining and learning analytics. In R. Sawyer (Ed), The Cambridge handbook of the learning sciences (pp. 253–272). Cambridge University Press.
Baker, R. S., & Yacef, K. (2009). The state of educational data mining in 2009: A review and future visions. Journal of Educational Data Mining, 1(1), 3–17.
Barnes, T. (2005). The Q-matrix method: Mining student response data for knowledge. In the Technical Report (WS-05-02) of the AAAI-05 Workshop on Educational Data Mining.
Behrens, J. T., & DiCerbo, K. E. (2014). Harnessing the currents of the digital ocean. In J. A. Larusson & B. White (Eds.), Learning analytics: From research to practice (pp. 39–60). New York: Springer.
Bachman, J. G., & O’Malley, P.M. (1984). Yea-saying, nay-saying, and going to extremes: Black-white differences in response styles. Public Opinion Quarterly, 48, 491–509.
Bergner, Y., Colvin, K., & Pritchard, D. E. (2015). Estimation of ability from homework items when there are missing and/or multiple attempts. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 118–125). New York: ACM.
Bergner, Y., Kerr, D., & Pritchard, D. E. (2015). Methodological challenges in the analysis of MOOC data for exploring the relationship between discussion forum views and learning outcomes. In O. C. Santos et al. (Eds.), Proceedings of the 8th International Conference on Educational Data Mining (EDM2015), 26–29 June 2015, Madrid, Spain (pp. 234–241). International Educational Data Mining Society.
Bergner, Y., Rayyan, S., Seaton, D., & Pritchard, D. E. (2013). Multidimensional student skills with collaborative filtering. AIP Conference Proceedings, 1513(1), 74–77. doi:10.1063/1.4789655
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3(Jan.), 993–1022.
Bollen, K. A. (1989). Structural equations with latent variables. John Wiley & Sons.
Borsboom, D. (2008). Latent variable theory. Measurement: Interdisciplinary Research & Perspective, 6(1–2), 25–53. http://doi.org/10.1080/15366360802035497
Box, G. E. (1979). Robustness in the strategy of scientific model building. Robustness in Statistics, 1, 201–236.
Breiman, L. (2001). Statistical modeling: The two cultures. Statistical Science, 16(3), 199–215. http://doi.org/10.2307/2676681
Brennan, R. L. (Ed.). (2006). Educational measurement. Praeger Publishers.
Bridgman, P. W. (1927). The logic of modern physics. New York: Macmillan.
Buckingham Shum, S., & Deakin Crick, R. (2012). Learning dispositions and transferable competencies: Pedagogy, modeling and learning analytics. Proceedings of the 2nd International Conference on Learning Analytics and Knowledge (LAK’12), 29 April–2 May 2012, Vancouver, BC, Canada (pp. 92–101). New York: ACM.
Cardamone, C. N., Abbott, J. E., Rayyan, S., Seaton, D. T., Pawl, A., & Pritchard, D. E. (2011). Item response theory analysis of the mechanics baseline test. Proceedings of the 2011 Physics Education Research Conference (PERC 2011), 3–4 August 2011, Omaha, NE, USA (pp. 135–138). doi:10.1063/1.3680012
Cen, H., Koedinger, K. R., & Junker, B. (2008). Comparing two IRT models for conjunctive skills. In B. Woolf, E. Aïmeur, R. Nkambou, & S. Lajoie (Eds.), Proceedings of the 9th International Conference on Intelligent Tutoring Systems (ITS 2008), 23–27 June 2008, Montreal, PQ, Canada (pp. 796–798). Springer.
Cohen, J. (1968). Weighted kappa: Nominal scale agreement provision for scaled disagreement or partial credit. Psychological Bulletin, 70(4), 213–220.
Corbett, A. T., & Anderson, J. R. (1995). Knowledge tracing: Modeling the acquisition of procedural knowledge. User Modeling and User-Adapted Interaction, 4, 253–278.
Cortina, J.M. (1993). What is coefficient alpha? An examination of theory and applications. Journal of Applied Psychology, 78(1), 98.
Crick, R. D., Broadfoot, P., & Claxton, G. (2004). Developing an effective lifelong learning inventory: The ELLI project. Assessment in Education: Principles, Policy & Practice, 11(3), 247–272.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334.
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281–302.
Culpepper, S. A. (2014). If at first you don’t succeed, try, try again: Applications of sequential IRT models to cognitive assessments. Applied Psychological Measurement, 38(8), 632–644. doi:10.1177/0146621614536464
Deci, E. L., & Ryan, R. M. (1985). Intrinsic motivation and self-determination in human behaviour. New York: Plenum.
Dedic, H., Rosenfield, S., & Lasry, N. (2010). Are all wrong FCI answers equivalent? AIP Conference Proceedings, 1289, 125–128. doi.org/10.1063/1.3515177
Desmarais, M.C. (2012). Mapping question items to skills with non-negative matrix factorization. ACM SIGKDD Explorations Newsletter, 13(2), 30–36.
Desmarais, M. C., & Baker, R. S. (2011). A review of recent advances in learner and skill modeling in intelligent learning environments. User Modeling and User-Adapted Interaction, 22(1–2), 9–38. doi:10.1007/s11257-011- 9106-8
DeVellis, R. F. (2003). Scale development: Theory and applications. Applied Social Research Methods Series (Vol. 26). Thousand Oaks, CA: Sage Publications.
Digman, J.M. (1990). Personality structure: Emergence of the five-factor model. Annual Review of Psychology, 41(1), 417–440.
Ding, L., & Beichner, R. (2009). Approaches to data analysis of multiple-choice questions. Physical Review Special Topics: Physics Education Research, 5(2), 1–17. doi:10.1103/PhysRevSTPER.5.020103
Draney, K., Pirolli, P., & Wilson, M. R. (1995). A measurement model for a complex cognitive skill. In P. Nichols, S. Chipman, & R. Brennan (Eds.), Cognitively diagnostic assessment. Hillsdale, NJ: Lawrence Erlbaum Associates.
Duckworth, A. L., Peterson, C., Matthews, M. D., & Kelly, D. R. (2007). Grit: Perseverance and passion for long-term goals. Journal of Personality and Social Psychology, 9, 1087–1101.
Dweck, C. S. (2000). Self-theories: Their role in motivation, personality and development. Philadelphia, PA: Taylor & Francis.
Edwards, J. R. (2001). Multidimensional constructs in organizational behavior research: An integrative analytical framework. Organizational Research Methods, 4(2), 144–192.
Erosheva, E., Fienberg, S., & Lafferty, J. (2004). Mixed-membership models of scientific publications. Proceedings of the National Academy of Sciences, 101(suppl 1), 5220–5227.
Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J. (1999). Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, 4(3), 272.
Fischer, G.H. (1973). The linear logistic test model as an instrument in educational research. Acta Psychologica, 37(6), 359–374.
Fraley, C., & Raftery, A. E. (1998). How many clusters? Which clustering method? Answers via model-based cluster analysis. The Computer Journal, 41(8), 578–588.
George, R. (2000). Measuring change in students’ attitudes toward science over time: An application of latent variable growth modeling. Journal of Science Education and Technology, 9(3), 213–225.
Goodman, L. (2002) Latent class analysis: The empirical study of latent types, latent variables, and latent structures. In J. A. Hagenaars & A. L. McCutcheon (Eds.), Applied latent class analysis (pp. 3–55). Cambridge, UK: Cambridge University Press.
Guay, F., Vallerand, R. J., & Blanchard, C. (2000). On the assessment of situational intrinsic and extrinsic motivation: The situational motivation scale (SIMS). Motivation and Emotion, 24(3), 175–213.
Haberman, S. J. (2009). Use of generalized residuals to examine goodness of fit of item response models. ETS Research Report RR-09-15.
Hagerty, M. R., & Srinivasan, V. (1991). Comparing the predictive powers of alternative multiple regression models. Psychometrika, 56(1), 77–85.
Hestenes, D., & Wells, M. (1992). A mechanics baseline test. The Physics Teacher, 30(3), 159–166.
Hestenes, D., Wells, M., & Swackhamer, G. (1992). Force concept inventory. The Physics Teacher, 30(3), 141. doi:10.1119/1.2343497
Holland, P.W. (1990). On the sampling theory roundations of item response theory models. Psychometrika, 55(4), 577–601. http://doi.org/10.1007/BF02294609
Kane, M.T. (2001). Current concerns in validity theory. Journal of Educational Measurement, 38(4), 319–342.
Kane, M. (2010). Errors of measurement, theory, and public policy. William H. Angoff Memorial Lecture Series. Educational Testing Service. https://www.ets.org/Media/Research/pdf/PICANG12.pdf
Käser, T., Koedinger, K. R., & Gross, M. (2014). Different parameters — same prediction: An analysis of learning curves. In S. K. D’Mello, R. A. Calvo, & A. Olney (Eds.), Proceedings of the 6th International Conference on Educational Data Mining (EDM2013), 6–9 July 2013, Memphis, TN, USA (pp. 52–59). International Educational Data Mining Society/Springer.
Khajah, M., Lindsey, R. V., & Mozer, M. C. (2016). How deep is knowledge tracing? In T. Barnes, M. Chi, & M. Feng (Eds.), Proceedings of the 9th International Conference on Educational Data Mining (EDM2016), 29 June–2 July 2016, Raleigh, NC, USA (pp. 94–101). International Educational Data Mining Society.
Kline, R. B. (2010). Principles and practice of structural equation modeling. New York: Guilford.
Koedinger, K. R., McLaughlin, E. A., & Stamper, J. (2012). Automated student model improvement. In K. Yacef et al. (Eds.), Proceedings of the 5th International Conference on Educational Data Mining (EDM2012), 19–21 June 2012, Chania, Greece. International Educational Data Mining Society. http://www.learnlab.org/research/ wiki/images/e/e1/KoedingerMcLaughlinStamperEDM12.pdf
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Routledge.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Addison-Wesley.
Luria, R. E. (1975). The validity and reliability of the visual analogue mood scale. Journal of Psychiatric Research, 12(1), 51–57.
Martin, B., Mitrovic, T., Mathan, S., & Koedinger, K. R. (2010). Evaluating and improving adaptive educational systems with learning curves. User Modeling and User-Adapted Interaction: The Journal of Personalization Research, 21, 249–283.
Maul, A., Irribarra, D. T., & Wilson, M. (2016). On the philosophical foundations of psychological measurement. Measurement, 79, 311–320. http://doi.org/10.1016/j.measurement.2015.11.001
Mazur, E. (2007). Confessions of a converted lecturer. https://www.math.upenn.edu/~pemantle/active-papers/Mazurpubs_605.pdf
McLachlan, G., & Peel, D. (2004). Finite mixture models. John Wiley & Sons.
Meredith, W., & Tisak, J. (1990). Latent curve analysis. Psychometrika, 55(1), 107–122.
Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50(9), 741–749.
Messick, S., & Jackson, D. (1961). Acquiescence and the factorial interpretation of the MMPI. Psychological Bulletin, 58(4), 299–304
Michell, J. (1999). Measurement in psychology: A critical history of a methodological concept (Vol. 53). Cambridge University Press.
Midgley, C., Maehr, M. L., Hruda, L., Anderman, E. M., Anderman, L., Freeman, K. E., et al. (2000). Manual for the patterns of adaptive learning scales (PALS). Ann Arbor, MI: University of Michigan.
Milligan, S. K., & Griffin, P. (2016). Understanding learning and learning design in MOOCs: A measurement-based interpretation. Journal of Learning Analytics, 3(2), 88–115.
Millsap, R.E. (2012). Statistical approaches to measurement invariance. Routledge.
Mislevy, R. J. (2009). Validity from the perspective of model-based reasoning. In R. L. Lissitz (Ed.), The concept of validity: Revisions, new directions and applications (pp. 83–108). Charlotte, NC: Information Age Publishing.
Mislevy, R. J. (2012). Four metaphors we need to understand assessment. Draft paper commissioned by the Gordon Commission. http://www.gordoncommission.com/rsc/pdfs/mislevy_four_metaphors_understand_assessment.pdf
Morris, G. A., Branum-Martin, L., Harshman, N., Baker, S. D., Mazur, E., Dutta, S., … McCauley, V. (2006). Testing the test: Item response curves and test quality. American Journal of Physics, 74(5), 449. doi:10.1119/1.2174053
Mulaik, S. A. (2009). Foundations of factor analysis. Boca Raton, FL: CRC Press.
Nederhof, A. J. (1985). Methods of coping with social desirability bias: A review. European Journal of Social Psychology, 15(3), 263–280. http://doi.org/10.1002/ejsp.2420150303
Newell, A., & Rosenbloom, P. S. (1981). Mechanisms of skill acquisition and the law of practice. Cognitive Skills and their Acquisition, 6, 1–55.
Pekrun, R., Goetz, T., Frenzel, A. C., Barchfeld, P., & Perry, R. P. (2011). Measuring emotions in students’ learning and performance: The achievement emotions questionnaire (AEQ). Contemporary Educational Psychology, 36(1), 36–48. http://doi.org/10.1016/j.cedpsych.2010.10.002
Pintrich, P. R., & De Groot, E. V. (1990). Motivational and self-regulated learning components of classroom academic performance. Journal of Educational Psychology, 82(1), 33.
Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2), 257–286.
Rao, C. R., & Sinharay, S. (Eds.). (2006). Handbook of statistics 26: Psychometrics. Elsevier. doi:10.1016/S0169- 7161(06)26037-1
Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical linear models: Applications and data analysis methods (Vol. 1). Sage.
Rijmen, F. (2010). Formal relations and an empirical comparison among the bi-factor, the testlet, and a second-order multidimensional IRT model. Journal of Educational Measurement, 47(3), 361–372. doi:10.1111/ j.1745-3984.2010.00118.x
Rupp, A., & Templin, J. L. (2008). Unique characteristics of diagnostic classification models: A comprehensive review of the current state-of-the-art. Measurement: Interdisciplinary Research & Perspective, 6(4), 219– 262. doi:10.1080/15366360802490866
Schwartz, S. (2007). The structure of identity consolidation: Multiple correlated constructs or one superordinate construct? Identity, 7(1), 27–49.
Scott, T. F., Schumayer, D., & Gray, A. R. (2012). Exploratory factor analysis of a force concept inventory data set. Physical Review Special Topics: Physics Education Research, 8(2). doi:10.1103/PhysRevSTPER.8.020105
Shmueli, G. (2010). To explain or to predict? Statistical Science, 25(3), 289–310. http://doi.org/10.1214/10- STS330
Siemens, G., & Baker, R. S. (2012). Learning analytics and educational data mining: Towards communication and collaboration. Proceedings of the 2nd International Conference on Learning Analytics and Knowledge (LAK’12), 29 April–2 May 2012, Vancouver, BC, Canada (pp. 252–254). New York: ACM.
Sijtsma, K. (2011). Introduction to the measurement of psychological attributes. Measurement, 44(7), 1209–1219. doi: 10.1016 / j.measurement.2011.03.019
Sijtsma, K. (1998). Methodology review: Nonparametric IRT approaches to the analysis of dichotomous item scores. Applied Psychological Measurement, 22(1), 3–31. doi:10.1177/01466216980221001
Skrondal, A., & Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multilevel, longitudinal and structural equation models. Boca Raton, FL: Chapman & Hall/CRC Press.
Spearman, C. (1904). “General intelligence,” objectively determined and measured. The American Journal of Psychology, 15(2), 201–292.
Spray, J. A. (1997). Multiple-attempt, single-item response models. In W. J. van der Linden & R. K. Hambleton (Eds.), Handbook of modern item response theory (pp. 209–220). New York: Springer.
Stevens, S.S. (1946). On the theory of scales of measurement. Science, 103(2684), 677–680.
Suthers, D., & Verbert, K. (2013). Learning analytics as a middle space. Proceedings of the 3rd International Conference on Learning Analytics and Knowledge (LAK’13), 8–12 April 2013, Leuven, Belgium (pp. 1–4). New York: ACM.
Tatsuoka, K.K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement, 20, 345–354.
Tempelaar, D. T., Niculescu, A., Rienties, B., Giesbers, B., & Gijselaers, W. H. (2012). How achievement emotions impact students’ decisions for online learning, and what precedes those emotions. Internet and Higher Education, 15(3), 161–169. doi: 10.1016 / j.iheduc.2011.10.003
Tempelaar, D. T., Rienties, B., & Giesbers, B. (2015). In search for the most informative data for feedback generation: Learning analytics in a data-rich context. Computers in Human Behavior, 47, 157–167. doi:10.1016/j. chb.2014.05.038
Thurstone, L.L. (1947). Multiple factor analysis. Chicago, IL: University of Chicago Press.
van de Sande, B. (2013). Properties of the Bayesian knowledge tracing model. Journal of Educational Data Mining, 5(2), 1–10.
von Davier, M. (2005). A general diagnostic model applied to language testing data. The British Journal of Mathematical and Statistical Psychology, 61(Pt 2), 287–307. doi:10.1348/000711007X193957
Wang, Y., & Baker, R. S. (2015). Content or platform: Why do students complete MOOCs? Journal of Online Learning and Teaching, 11(1), 17.
Wang, J., & Bao, L. (2010). Analyzing force concept inventory with item response theory. American Journal of Physics, 78(10), 1064. doi:10.1119/1.3443565
White, H. (1996). Estimation, inference and specification analysis (No. 22). Cambridge University Press.
Wise, S., & Kong, X. (2005). Response time effort: A new measure of examinee motivation in computer-based tests. Applied Measurement in Education, 18(2), 163–183.
Yeager, D. S., & Dweck, C. S. (2012). Mindsets that promote resilience: When students belie
1 Amerika’daki yüksekokul ve üniversitelere girişte hem amerikan vatandaşları hem de yabancı uyruklu öğrenciler tarafından kullanılan aynı zamanda Türkiye’deki yabancı uyruklu öğrencilerin Türk üniversitelerine yerleştirilmesi sürecinde de birçok üniversite tarafından kabul edilen bir sınavdır.
2 Stokastik konu için, bu örnek değerler rep diğer çalışmalarda hiçbir bellek ile aynı konuyu aynı deneyler bir dizi kırgın olurdu. Bu bilişsel test ögesi garip görünse de, psikomotor bir bağlamda büyük bir ihtimaldir. Bknz Sprey (1997).
3 orj. curriculum sequencing
4 Cen vd.nin işaret uzlaşımı kuralı (2008), modeli alışılmış Rasch modeli ile tutarlı hale getirmek için kolaylıktan çok bir zorluk parametresi olarak değiştirildi.
5 Breiman açıklama ve tahmin için incontrast yerine dönem bilgileri kullanır.