Bölüm 5 Kestirimci Modelleme İçinde Eğitim ve Öğretim
Christopher Brooks1, Craig Thompson2
1İletişim Okulu, Michigan Üniversitesi, ABD
2Saskatchewan Üniversitesi, Bilgisayar Bilimi Bölümü, Kanada
DOI: 10.18608/hla17.005
ÖZ
Bu makale, öğretme ve öğrenmede kestirimci modelleme kullanmanın süreci, uygulaması ve zorlukları ele almaktadır. Kestirimci modelleme hem eğitsel veri madenciliği (EVM) hem de öğrenme analitiği (ÖA) alanında öğrenci başarısını tahmin etmeye odaklanmış araştırmacıların temel bir uygulaması haline gelmiştir. Bu bölümde, kestirimci modelleme kullanılırken dikkat edilecek hususlara genel bir bakış ile birlikte bir eğitsel veri bilimcisinin sürece dâhil olurken göz önünde bulundurması gereken adımlar ve alandaki en popüler tekniklere kısa bir genel bakış sunulmaktadır.
Anahtar Kelimeler: Kestirimci modelleme, makine öğrenmesi, eğitsel veri madenciliği (EVM), özellik seçimi, model değerlendirme
Kestirimci analitik, gelecekteki belirsiz olaylar hakkında çıkarımlarda bulunmak için kullanılan bir teknikler grubudur. Eğitim alanında, kişi öğrenme (örneğin, öğrencinin akademik başarısı veya beceri kazanması), öğretme (örneğin, belirli bir öğretim tarzının veya belirli bir öğretenin bir birey üzerindeki etkisini) veya yöneticiler için değerli olan diğer vekil ölçü birimlerini ölçmekle (örneğin, okulda tutma veya ders kaydı tahminleri) ilgilenebilir. Eğitimde kestirimci analitik, sağlam bir araştırma alanıdır ve bazı ticari ürünler artık öğrenme içeriği yönetim sistemlerinde (ör. D2L1, Starfish Retention2 Solutions, Ellucian3 ve Blackboard4) tahmine dayalı analitik içermektedir. Ayrıca, uzman şirketler (ör. Blue Canary5 Civitas Learning6) şimdi yükseköğrenim için kestirime dayalı analitik danışmanlığı ve ürünleri sunmaktadır.
Bu bölümde, bu tekniklerin özellikle öğretme ve öğrenmede nasıl uygulandığına değinerek, kestirimci modellemeye ilişkin terimleri ve iş akışını tanıtıyoruz. Alan yazının tam bir incelemesi bu bölümün kapsamı dışında kalsa da okuyuculara uygulamalı eğitsel kestirimci modellemeye dair daha fazla örnek için Öğrenme Analitikleri ve Araştırmaları Derneği (SoLAR) ve Uluslararası Eğitsel Veri Madenciliği Derneği (IEDMS) ile ilgili konferans bildirileri ve dergilerini dikkate almalarını tavsiye ediyoruz.
Öncelikle, kestirimci modellemeyi açıklayıcı modellemeden ayırmak önemlidir7. Açıklayıcı modellemede amaç, verilen bir sonuç için bir açıklama sağlamak amacıyla mevcut tüm kanıtları kullanmaktır. Örneğin, bir öğrenen popülasyonun yaş, cinsiyet ve sosyoekonomik durumuna ait gözlemler, bunların belirli bir öğrencinin başarı sonucuna nasıl katkıda bulunduklarını açıklamak için bir regresyon modelinde kullanılabilir. Bu açıklamaların amacı genellikle nedensel (yalnızca bağıntılı olmanın dışında) olmakla birlikte bu yaklaşımları kullanarak sunulan bulgular genellikle deneysel çalışmalardan kaçınır ve nedenselliği göstermek için teorik yorumlamaya dayanır (Shmueli, 2010 tarafından da açıklandığı gibi).
Kestirimci modellemede amaç, gözlemlere dayanarak yeni verilerin değerlerini (veya kestirimin sayısal veriyle ilgilenmediği durumlarda ise sınıflandırılmasını) tahmin edecek bir model oluşturmaktır. Açıklayıcı modellemeden farklı olarak, kestirimci modelleme bir dizi bilinen veri (veri madenciliğinde araştırma durumları olarak adlandırılır) gözlenen değişkenlere dayanan yeni verilerin değerini veya sınıfını tahmin etmek için kullanılabilecek olduğu varsayımına dayanır (kestirimci modelleme literatüründeki özellikler olarak adlandırılır). Bu nedenle, açıklayıcı modelleme ile kestirimci modelleme arasındaki temel fark, açıklayıcı modellemenin geleceğe ilişkin herhangi bir iddiada bulunmayı amaçlamadığı ancak kestirimci modellemenin amaçladığıdır.
Daha açık bir şekilde, açıklayıcı modelleme ve kestirimci modelleme, eğitsel verilere uygulandığında çoğu zaman uygulamada bazı farklılıklara sahiptir. Açıklayıcı modelleme, bir olguya dair anlayış geliştirmeyi amaçlayan post-hoc ve yansıtıcı bir etkinliktir. Kestirimci modelleme, sistemleri altta yatan verilerdeki değişikliklere duyarlı hale getirmeyi amaçlayan ait olduğu yerde yapılan bir etkinliktir. Her iki modelleme biçimini de yükseköğrenimde kullanılan teknolojiye uygulamak mümkündür. Örneğin, Lonn ve Teasley (2014), açıklayıcı modellere dayanan bir öğrenci başarı sistemini tanımlarken, Brooks, Thompson ve Teasley (2015), kestirimci modellemeye dayanan bir yaklaşımı tanımlamaktadır. Her iki yöntem de müdahale sistemlerinin tasarımına bilgi sunmayı amaçlasa da birincisi, uzmanlar tarafından açıklayıcı modellerin gözden geçirilmesi sırasında geliştirilen teoriye dayanan bir yazılım geliştirerek, ikincisi bunu geçmiş kayıt dosyalarından toplanan verileri kullanarak yapar (bu durumda, tıklama verisi).
İki modelleme yaklaşımı arasındaki en büyük metodolojik fark, genelleştirilebilirlik sorununa nasıl hitap ettikleridir. Açıklayıcı modellemede, bir örneklemeden toplanan verilerin tümü (ör. belirli bir kursa kayıtlı öğrenciler) daha genel olarak bir popülasyon tanımlamak için kullanılır (ör. belirli bir kursa kayıt olabilecek tüm öğrenciler). Genellenebilirlik ile ilgili konular büyük ölçüde örnekleme tekniklerine dayanmaktadır. Genellikle rastgele veya katmanlı örnekleme yoluyla ve araştırmacının kabul etmek istediği popülasyon büyüklüğü ve hata seviyelerinin bir analizi yapılarak uygun bir örneklem temin etmek için gereken güç miktarını belirleyerek seçim yanlılığını azaltmak örneklemin popülasyonu temsil etmesini sağlar. Bir kestirim modelinde, bir modelin tahmin için uygunluğunu değerlendirmek ve modellerin eğitim için kullanılan verilere aşırı yüklenmesine8 karşı korumak için bir holdout veri kümesi kullanılır. Hold out veri kümelerini üretmek için, k-katlamalı çapraz doğrulama9, tek çıkışlı çapraz doğrulama, rastlantısal alt örnekleme ve uygulamaya özel stratejiler gibi birkaç farklı strateji vardır.
Yapılan bu karşılaştırmalarla, bu bölümün geri kalanı, öğrenme ve öğretme alanında kestirimci modellemenin nasıl kullanıldığına odaklanacak ve araştırmacıların kestirimci modelleme sürecinde nasıl yer aldığına dair genel bir bakış sunacaktır.
KESTİRİMCİ MODELLEME İŞ AKIŞI
Problem Teşhisi
Öğretme ve öğrenme alanında, kestirimci modelleme, daha büyük eylem odaklı bir eğitim politikası ve teknoloji bağlamında konumlanma eğilimindedir ve kurumlar bu modelleri öğrencilerin ihtiyaçlarına gerçek zamanlı olarak cevap vermek için kullanırlar. Kestirimci modelleme etkinliğinin amacı, yeni bir müdahalenin olmadığı varsayılarak belirli bir öğrencinin çıktılarını doğru şekilde açıklayacak bir senaryo oluşturmaktır. Örneğin, belirli bir bireyin akademik öğrenimini ne zaman tamamlaması gerektiğine karar vermek için öngörücü bir model kullanılabilir. Bu modeli her bir öğrenciye uygulamak, hiçbir müdahale stratejisinin kullanılmadığı varsayıldığında öğrenimlerini ne zaman tamamlayabilecekleri konusunda fikir verecektir. Bu nedenle, kestirimci bir modelin doğru senaryolar üretmesi önemli olsa da bu modeller genellikle bir müdahale veya iyileştirme stratejisi göz önünde bulundurulmadan kullanılmaz.
Başarılı bir kestirimci modelleme yaklaşımı için güçlü problem adayları, modellenmekte olan konunun ölçülebilir özelliklerinin olduğu, ilgilenilen konunun net bir sonucunun, yerinde müdahale etme kabiliyetinin ve büyük bir veri kümesinin olduğu problemlerdir. En önemlisi, öğrenenlerle ilgili geçmiş verilerin (eğitim seti10) gelecekteki öğrenenlerin (test seti) göstergesi olduğu, yıldan yıla sıralanan bir sınıf gibi sürekli bir ihtiyaç oluşması gerekir.
Diğer taraftan, birçok faktör kestirimci modellemeyi daha az uygun hale getirir veya zorlaştırır. Örneğin hem seyrek hem de gürültülü veriler11, doğru tahmin modelleri oluşturmaya çalışırken zorluklar ortaya çıkarır. Veri dağılımı veya eksik veriler, isteğe bağlı bilgi vermemeyi seçen öğrenciler gibi çeşitli nedenlerle ortaya çıkabilir. Bazı öğrenciler sanal özel ağlar kullanırken (bölge kısıtlamalarını aşmak için kullanılan vekil sunucular, Çin gibi ülkelerde alışılmadık bir uygulama olan vekil sunucular), bir öğrencinin IP adresinden konumunu belirleme gibi bir ölçüm amaçlanan verileri doğru şekilde yakalayamadığında gürültülü veriler ortaya çıkar. Son olarak, bazı alanlarda, kestirimci modellerin ürettiği çıkarımlar, risk altındaki öğrenci tahmini modelleri kullanıldığında söz konusu öğrencilerin kabul almalarını zorlaştırmak gibi etik veya adil uygulamalar ile ters düşebilir (Stripling vd., 2016’da örneklenmiştir).
Veri Koleksiyonu
Kestirimci modellemede, geçmiş veriler, özellikler arasındaki ilişki modelleri üretmek için kullanılır. Araştırmacı için ilk faaliyetlerden biri, çıktı değişkeninin (ör. sınıf veya başarı düzeyi) yanı sıra bu değişkene dair kuşkulanılan korelasyonları (ör. cinsiyet, etnik yapı, verilen kaynaklara erişim) tanımlamaktır. Modelleme etkinliğinin durumsal niteliği göz önüne alındığında, yalnızca müdahalenin yapılabileceği zamanda veya öncesinde mevcut olan korelasyonları seçmek önemlidir. Örneğin, bir ara sınav notu, dersin bir final notu için öngörücü olabilir ancak eğer ara sınavdan önce müdahale etmek isteniyorsa, bu veri değeri modelleme etkinliğinin dışında bırakılmalıdır.
Öğrencinin final notunun tahmini gibi zamana dayalı modelleme faaliyetlerinde, her biri farklı bir zaman dilimine ve gözlenen değişkenlere karşılık gelen birden fazla modelin oluşturulması yaygındır (ör. Barber ve Sharkey, 2012). Örneğin, bir dersin her haftası için kestirimci modeller oluşturabilir, her modele haftalık sınavların sonuçları, öğrenci demografisi ve öğrencinin derse bugüne kadarki dijital kaynaklar ile ilgili sahip oldukları katılım miktarı dâhil edilebilir.
Nüfus (ör. cinsiyet, etnik köken), ilişkiler (ör. ders kayıtları), psikolojik ölçümler (ör. sabır, Duckworth, Peterson, Matthews ve Kelly, 2007 ve yetenek testleri) ve performans (ör. standart test puanları, not ortalamaları) verileri gibi resmi veriler eğitsel kestirimci modeller için önemli olmakla birlikte, olay odaklı büyük veri derlemlerinin son zamanlardaki yükselişi kestirimci modellerin etkin olmasında özellikle güçlü bir etken olmuştur (Daha detaylı bir tartışma için bk. Alhadad vd., 2015). Olay odaklı veri büyük ölçüde öğrenci etkinliği temellidir ve öğrencilerin öğrenme içerik yönetim sistemleri, tartışma forumları, aktif öğrenme teknolojileri ve video tabanlı öğretim araçları gibi etkileşime giren öğrenme teknolojilerinden elde edilir. Bu veriler büyük ve karmaşıktır (genellikle tek bir ders için milyonlarca veritabanı satırı sırasına göre) ve makine öğrenmesi için anlamlı özelliklere dönüştürmek büyük çaba gerektirir.
Eğitsel araştırmacının pragmatik olarak düşünmesi gereken şey olay verisine erişimin sağlanması ve kestirimci modelleme süreci için gerekli özelliklerin oluşturulmasıdır. Erişim konusu oldukça içeriğe özgüdür ve kurumsal politikalara ve süreçlerin yanı sıra devlet kısıtlamalarına (ABD’deki FERPA gibi) tabidir. Karmaşık verilerin (olaya dayalı verilerde olduğu gibi) kestirimci modellemeye uygun özelliklere dönüştürülmesi konusu özellik mühendisliği olarak adlandırılır ve geniş bir araştırma alanıdır.
Sınıflandırma ve Regresyon
İstatistiksel modellemede, genel olarak dört tür veri göz önünde bulundurulur: kategorik, sıra, aralık ve oran. Her veri türü, ilişki türlerine ve dolayısıyla bireysel ögelerden türetilebilecek matematiksel işlemlere göre farklılık gösterir. Uygulamada, sıralı değişkenler genellikle kategoriye göre değerlendirilir ve aralıklı ve oranlı veriler sayısal olarak kabul edilir. Kategorik değerler ikili (ör. bir öğrencinin bir dersi geçip geçmeyeceğini tahmin etmek gibi) veya çok değerli (ör. muhtemel uygulama soruları grubundan hangisinin bir öğrenci için en uygun olacağını tahmin etmek gibi) olabilir. Bu uygulamalar için iki farklı algoritma sınıfı vardır; kategorik değerleri tahmin etmek için sınıflandırma algoritmaları kullanılırken sayısal değerleri tahmin etmek için regresyon algoritmaları kullanılır.
Özellik Seçimi
Kestirime dayalı bir model oluşturmak ve uygulamak için tahmin edilecek değerle ilişkilendirilen özelliklerin oluşturulması gerekir. Uygulayıcı hangi verilerin toplanacağına karar verirken sonradan bilgiyi çıkarmanın nispeten kolay ancak bilgi eklemenin zor hatta imkansız olacağını göz önünde bulundurarak daha fazla bilgi toplama eğiliminde olmalıdır. İdeal olarak, seçilen çıktı öngürüsü ile mükemmel bir şekilde ilişkili olan tek bir özellik olacaktır. Ancak bu pratikte nadiren gerçekleşir. Bazı öğrenme algoritmaları çok bilgilendirici olup olmadıklarına bakılmaksızın, kestirimde bulunmak için mevcut tüm nitelikleri kullanırken, diğerleri ise modelden bilgilendirici olmayan öznitelikleri elemek için bir çeşit değişken seçimi uygulamaktadır.
Kestirimci bir model oluşturmak için kullanılan algoritmaya bağlı olarak, özellikler arasındaki korelasyonu incelemek ve yüksek derecede ilişkili nitelikleri kaldırmak (regresyon analizlerinde çoklu doğrusallık problemi) veya bağıntıyı ortadan kaldırmak için özelliklere bir dönüşüm uygulamak yararlı olabilir. Öz niteliklerin bağımsızlığını naif bir şekilde varsayan bir öğrenme algoritması uygulamak, tekrarlanan veya ilişkilendirilen özellikleri aşırı vurgulayan tahminlerle sonuçlanabilir. Örneğin, bir kişi bir sınıftaki öğrencinin notunu tahmin etmeye çalışıyorsa ve bir öğrencinin belirli bir günde bir soru sorup sormamasının yanı sıra devamsızlık niteliğini de kullanıyorsa, araştırmacının iki özelliğin birbirinden bağımsız olmadığını kabul etmesi önemlidir (ör. öğrenci devamsızlık yapmışsa soru soramaz). Uygulamada, özellikler arasındaki bağımlılıklar genellikle göz ardı edilir ancak verileri temizlemek ve işlemek için kullanılan bazı tekniklerin bağımsızlık12 varsayımına dayanabileceğini belirtmek önemlidir. Özelliklerin bilgilendirici bir alt kümesini belirlemek, tahmine dayalı modelin bilgi işlemsel karmaşıklığı, veri depolama ve toplama gereksinimleri azaltılabilir ve açıklama için tahmine dayalı modellerin basitleştirilmesine yardımcı olabilir.
Bir veri setindeki eksik değerler birkaç şekilde ele alınabilir ve kullanılan yaklaşım verilerin bilinmemesi veya uygulanamaması nedeniyle eksik olmasına bağlıdır. En basit yaklaşım eksik değerleri olan öznitelikleri (sütunlar) ya da örnekleri (satırları) kaldırmaktır. Bu tekniklerin her ikisinin de sakıncaları vardır. Örneğin, toplam veri miktarının oldukça küçük olduğu alanlarda, veri kümesinin küçük bir kısmının bile kaldırılmasının etkisi, özellikle de bazı verilerin çıkarılması mevcut bir sınıflama dengesizliği artırıyorsa önemli olabilir. Aynı şekilde, tüm niteliklerin çok az eksik değere sahipken, kaldırılması tüm verileri kaldıracak ve bu da kullanışlı olmayacaktır. Eksik veri içeren satırları veya sütunları silmek yerine bilinen diğer verilerden eksik değerleri de çıkartılabilir. Bir yaklaşım da eksik değerlerin bilinen değerlerin ortalaması gibi “normal” bir değerle değiştirilmesidir. Diğer bir yaklaşım da veri kümesindeki diğer benzer kayıtları bularak ve eksik değerleri kayıtlardan kopyalayarak kayıtlardaki eksik değerleri doldurmaktır.
Eksik verilerin etkisi büyük ölçüde, öğrenme algoritması (yöntem mantığı) seçimine bağlıdır. Naif Bayes sınıflandırıcı gibi bazı algoritmalar, bazı özellikler bilinmediğinde bile tahminler yapabilir; sadece eksik nitelikler bir tahmin yapmak için kullanılmaz. En yakın komşu sınıflandırıcı, iki veri noktası arasındaki mesafeyi hesaplamaya dayalıdır ve bazı uygulamalarda, bilinen bir değer ile eksik bir değer arasındaki mesafenin, bu özellik için mümkün olan en büyük mesafe olduğu varsayımı yapılır. Son olarak, C4.5 karar ağacı algoritması, eksik bir değere sahip bir örnek üzerinde bir testle karşılaştığında, örneğin ağaçta yayılan ve ağırlıklı oylama için kullanılan kısmi bölümlere ayrılır. Kısacası, eksik veriler hem düzenli olarak meydana gelen hem de kullanılan makine öğrenme yöntemine ve kullanılan araç setine bağlı olarak farklı şekilde ele alınan önemli bir husustur.
Kestirimci Model Oluşturma Yöntemleri
Bir veri kümesi topladıktan ve özellik seçimi yaptıktan sonra, geçmiş verilerden kestirimci bir model oluşturulabilir. En genel anlam, kestirimci bir modelin amacı, bilinen bilgiler göz önüne alınarak, bazı bilinmeyen miktar veya niteliklerin bir tahminini yapmaktır. Bu bölümde kısaca, kestirimci modeller oluşturmak için bunun gibi birkaç yöntem tanıtılacaktır. Kestirimci modellemenin temel varsayımı, geçmişte toplanan verilerde var olan ilişkilerin gelecekte de devam edeceğidir. Bununla birlikte, pratikte bu varsayım geçerli olmayabilir. Örneğin (toplanan geçmiş verilere göre) bir öğrencinin Hesaplamaya Giriş dersindeki notunun 4 yıl içinde bir kadame tamamlama olasılığı ile yüksek kademe ile ilişkili olması durumu söz konusu olabilir. Ancak dersi veren öğretende, kullanılan pedagojik teknikte veya dersin ön koşul olduğu lisans programlarında bir değişiklik varsa, bu ders değişiklik öncesindeki lisans programı için önkoşul olma özelliğini artık yitirebilir. Uygulayıcı her zaman geçmiş verilerde keşfedilen örüntülerin gelecekteki verilerde beklenip beklenmeyeceğini düşünmelidir.
Kestirimci modeller oluşturmak için çeşitli algoritmalar vardır. Eğitsel verilerinde, aşağıdaki gibi yöntemler kullanılarak oluşturulmuş modelleri görmek yaygındır:
-
Doğrusal Regresyon niteliklerin doğrusal bir birleşimi sürekli bir sayısal çıktı öngörür.
-
Lojistik Regresyon kategorik tahminlere imkân tanıyan iki veya daha fazla sonucun olasılığını tahmin eder.
-
En Yakın Komşu Sınıflandırıcılar yeni veriler için uygun öngörülen etiketleri belirlemek için sadece eğitim veri kümesindeki en yakın etiketli veri noktalarını kullanır.
-
Karar Ağaçları (ör. C4.5 algoritması), bir dizi “öznitelik” özelliğine dayanan verilerin tekrarlanan bölümleridir.
-
Naif Bayes Sınıflandırıcılarsınıflandırmada verilen her bir özelliğin istatistiksel bağımsızlığını kabul eder ve sınıflandırmaların olası yorumlarını sağlar.
-
Bayezyan Ağlar manuel olarak oluşturulmuş çizgesel modellere sahiptir ve sınıflandırmaların olası yorumlarını sağlar.
-
Destek Vektör Makinaları çeşitli sınıflar arasında en büyük ayrım hiper düzlemini bulmak için yüksek boyutlu bir veri projeksiyonu kullanır.
-
Yapay Sinir Ağları veriyi bir çıktı üretmek için seyrek olarak birbirine bağlı hesaplama düğümleri (nöronlar) katmanlarından geçiren biyolojik olarak ilham veren algoritmalardır. Derin öğrenme başlığı altındaki sinir ağı yaklaşımlarına gösterilen ilgi artmıştır.
-
Topluluk Yöntemleri, homojen veya heterojen sınıflandırıcılardan oluşan bir oylama havuzu kullanır. Önde gelen iki teknik, birkaç veri modelinin veri kümesinin rastgele alt örneklerinden oluşturulduğu önyükleme toplaması13 ve art arda ilerleyen modellerin önceki modellerin yanlış sınıflandırmalarını hesaba katacak şekilde tasarlandığı14 yükseltmedir.
Bu yöntemlerin çoğu ve bunların temelindeki yazılım uygulamaları, algoritmanın veri kümesinin beklentilerine bağlı olarak çalışma şeklini değiştiren ayarlanabilir parametrelere sahiptir. Örneğin, karar ağaçları oluştururken, bir araştırmacı bir miktar genellenebilirlik düzeyi sağlamak için kullanılan minimum yaprak büyüklüğünü veya maksimum ağaç parametresi derinliğini belirleyebilir.
Kestirimci modelleme için çok sayıda yazılım paketi bulunmaktadır ve doğru paketi seçmek araştırmacının deneyimine, istenen sınıflandırma veya regresyon yaklaşımına ve gereken veri ve veri temizlemesi miktarına bağlıdır. Bu platformlara ilişkin kapsamlı bir tartışma bu bölümün kapsamı dışında ise de serbestçe kullanılabilir ve açık kaynak paket olan Weka (Hall vd., 2009) daha önce bahsedilen bir dizi modelleme yöntemlerinin uygulamalarını sağlar, programlama bilgisi kullanımı gerektirmez ve (Witten ve Frank ve Hall, 2011) ders kitabı (Witten, 2016) ücretsiz çevrimiçi ders serisi de dâhil olmak üzere eğitim materyalleri de bulunmaktadır.
Belirli bir yazılım paketinde yer alan tekniklerin kapsama genişliği, araştırmacıların (eğitsel veri bilimcileri de dâhil olmak üzere) bir dizi farklı yöntem için sınıflandırma doğruluk tabloları yayınlamalarını olağan hale getirmişse de yazarlar buna karşı uyarıda bulunur. Belirli bir teknik umut vaat ediyorsa, sınıflandırıcıların temel varsayımlarına (ör. eksik veri veya veri kümesi dengesizliği ile ilgili olarak), sınıflayıcı gruplarını inceleyerek veya kullanılan belirli yöntemlerin parametrelerini ayarlayarak daha iyi zaman harcanır. Araştırma faaliyetinin amacı, iki istatistiki modelleme yaklaşımını özel olarak karşılaştırmaktan ibaret değilse, eğitsel veri bilimcileri bulgularını yeni veya mevcut teorik yapılara bağlama ile ilgili daha iyi durumda olurlar ve bu da belirli bir olgunun anlaşılmasında derinleşmeye yol açar. Verileri ve analiz betiklerini açık bilimsel veri olarak paylaşmak, küçük teknik yinelemeler için (çoğunlukla) bir yayını ilgisiz keskinlik ve hassasiyet değerleri tablolarıyla doldurmaktan daha iyi bir fırsat sunar.
Bir Modeli Değerlendirme
Kestirimci modelin niteliğini değerlendirmek için bilinen etiketlere sahip bir test veri kümesi gereklidir. Model tarafından test setinde15 yapılan tahminler, modeli değerlendirmek amacıyla test setinin bilinen gerçek etiketleriyle karşılaştırılabilir. Bilinen gerçek etiketlerin ve öngörülen etiketlerin benzerliğini karşılaştırmak için çok çeşitli önlemler mevcuttur. Bazı örnekler, kestirim doğruluğunu (doğru şekilde sınıflandırılmış test örneklerinin ham kısmı), kesinliği ve hassasiyeti içerir.
Çoğunlukla, kestirimci bir modelleme sorununa yaklaşırken, bina için yalnızca bir adet çok amaçlı veri kümesi kullanılabilir. Bu aynı veri kümesini, model niteliğini değerlendirmek için bir test seti olarak tekrar kullanmak cazip gelse de bu veri kümesinde kestirimci modelin performansı, yeni bir veri kümesinde (modele göre aşırı uygunluk olarak görülüyor) görülenden önemli ölçüde daha fazla olacaktır. Bunun yerine, veri kümesinin bir kısmını “tutmak”16 ve onu model kalitesini değerlendirmek için yalnızca bir test kümesi olarak kullanmak yaygın bir uygulamadır.
En basit yaklaşım verinin yarısını kaldırmak ve test için ayırmaktır. Bununla birlikte, bu yaklaşımın iki sakıncası vardır. İlk olarak, kestirimci model test için verilerin yarısını ayırmakla, model uydurma için verilerin yarısını yalnızca kullanabilecektir. Genel olarak, model doğruluğu kullanılabilir veri miktarı arttıkça artar. Bu nedenle, mevcut verilerin yalnızca yarısını kullanarak deneme eğitimi yapmak, tüm veriler kullanılmış olsa vereceği performanstan daha düşük performansa sahip kestirimci modellere neden olabilir. İkincisi, model niteliği değerlendirmemiz, yalnızca mevcut verilerin yarısı için yapılan tahminlere dayanacaktır. Genel olarak, test setindeki örneklerin sayısının arttırılması sonuçların güvenilirliğini arttırır. Verileri sadece eğitim ve test kısımlarına bölmek yerine, veri kümesinin rastgele olarak bölümlerine bölündüğü bir k-katlamalı çapraz doğrulama işlemi kullanmak yaygındır; bölümlerden biri hariç tüm model eğitimleri ve tek ayrı dilimdeki ayrı testler ile k ayrık kestirimci modeller oluşturulur. Test sonuçları daha sonra tüm k test bölümlerinden toplanır ve bir model niteliği değerlendirmesi yapılabilir. K-katlamalı çapraz doğrulamanın önemli faydaları, her mevcut veri noktasının test setinin bir parçası olarak kullanılabilmesi, tek bir veri noktasının aynı sınıflandırıcının hem eğitim setinde hem de test setinde aynı anda kullanılmadığı ve kullanılan eğitim setleri neredeyse tüm veriler kadar büyük olmasıdır.
Kestirimci modellemeyi uygulamaya koyarken göz önünde bulundurulması gereken önemli bir husus, modeli eğitmek için kullanılan veriler ile kestirimler yapılması gerektiğinde mevcut olan veriler arasındaki benzerliktir. Genellikle eğitim alanında kestirimci modeller, bir veya daha fazla zaman diliminden (ör. bir dönem veya tüm yıl) elde edilen veriler kullanılarak oluşturulur ve ardından bir sonraki zaman dilimindeki öğrenci verilerine uygulanır. Tahmini modeli oluşturmak için kullanılan özellikler, öğrencilerin bireysel ödev notları gibi faktörleri içeriyorsa, modelin doğruluğu ödevlerin bir yıldan diğerine ne kadar benzer olduğuna bağlı olacaktır. Model performansının doğru bir değerlendirmesini elde etmek için modeli yerinde kullanılacağı şekilde değerlendirmek önemlidir. Bir yıldaki verileri kullanarak kestirimci modeli oluşturun ve ardından bir yılın verilerini eğitim ve test kümelerine bölmek yerine, izleyen yıldaki verilerden oluşan bir test seti oluşturun.
UYGULAMADA KESTİRİMCİ ANALİTİK
Kestirimci analitik, öğretme ve öğrenme alanında, akademik programlarda risk altındaki öğrencileri tanımlamayı amaçlayan önemli bir çalışma birimini de içeren birçok amaç için kullanılır. Örneğin, Aguiar vd. (2015), öğrencilerin ortaokuldan zamanında mezun olup olmayacaklarını belirlemek için kestirimci modellerin kullanımını tanımlamakta, öğrencilerin ilkokuldan ortaokula geçerken kestirimlerin doğruluğunun nasıl değiştiğini göstermektedir. Öngörülen sonuçlar oldukça değişkendir ve bir öğrenci veya başarı azmi için değer biçmeye yönelik belirli bir notu veya not dağılımı içerebilir (Brooks vd., 2015). Baker, Gowda ve Corbett (2011), öğrencinin akıllı öğretici sistemle olan önceki etkileşimlerine dayanarak biçimlendirici bir başarıyı öngören bir yöntemi açıklar. Kitlesel açık çevrimiçi dersler (KAÇD’ler) gibi düşük riskli ve yarı resmî ortamlarda, öğrenenin ders ortasında öğrenme etkinliğinden ayrılma olasılığı da yoğun olarak çalışılmış bir başka sonuçtur. (Xing, Chen, Stein ve Marcinkowski, 2016; Taylor, Veeramachaneni ve O’Reilly, 2014).
Performans ölçütlerinin ötesinde, kestirimci modeller öğrenme ve öğretmede, soruları öğrenme olmadan doğru bir şekilde cevaplamak için “sistemle oyun oynamak” gibi görev dışı davranışlarla uğraşan öğrenenleri (Xing ve Goggins, 2015; Baker, 2007) tespit etmede kullanılmıştır. (Baker, Corbett, Koedinger ve Wagner, 2004). Duyuşsal ve duygusal durumlar gibi psikolojik yapılar da metinsel söylem veya yüz özellikleri gibi birçok temel veri özellikleri kullanarak kestirimci bir şekilde modellenmiştir (D’Mello, Craig, Witherspoon, McDaniel ve Graesser, 2007; Wang, Heffernan ve Heffernan, 2015). Kestirmci modellemenin özellikle Eğitsel Veri Madenciliğinde kullanıldığı yöntemlerden bazılarına daha fazla örnek, Koedinger, D’Mello, McLaughlin, Pardos ve Rose’da (2015) bulunabilir.
ZORLUKLAR VE FIRSATLAR
Kestirimci modelleme için bilgi işlemsel ve istatistiksel yöntemler olgunlaşmıştır ve son on yılda eğitim araştırmacılarının öğretme ve öğrenme verilerine kestirimci modelleme uygulamaları için bir dizi sağlam araç sunulmuştur. Yine de tahmine dayalı modelleri oluştururken, onaylarken ve uygularken öğrenme analitiği topluluğu bir takım zorluklar ve fırsatlarla karşı karşıyadır. Kestirimci modelleme tekniklerinin sağlayabileceği etkiyi artırmak için yatırım yapılabileceğini düşündüğümüz üç alanda şunlar olabilir:
-
Bilgisayar dışı bilim insanlarını kestirimci modelleme faaliyetlerinde desteklemek. Öğrenme analitiği alanı oldukça disiplinler arasıdır ve eğitsel araştırmacılar, psikometri uzmanları, bilişsel ve sosyal psikologlar ve politika uzmanları açıklayıcı modellemede sağlam bir altyapıya sahip olma eğilimindedirler. Kestirimci modelleme tekniklerinin uygulanmasında destek sağlanması, kullanıcı dostu araçların inovasyonu veya kestirimci modelleme konusunda eğitim kaynaklarının geliştirilmesi, bu teknikleri kullanan eğitim araştırmacıları grubunu daha da çeşitlendirebilir.
-
Topluluk öncülüğünde eğitsel veri bilimi meydan okuma girişimlerini yaratmak. Araştırmacıların aynı genel çalışma temasını ele almaları ancak biraz farklı veri kümeleri, uygulamalar ve sonuçlar kullanmaları ve bu nedenle, karşılaştırması zor sonuçları elde etmeleri nadir değildir. Bu durum çok sayıda farklı yazarın (ör. Brooks vd., 2015; Xing vd., 2016; Taylor vd., 2014; Whitehill, Williams, Lopez, Coleman ve Reich, 2015) katıldığı hepsinin farklı veri kümeleri, sonuç değişkenleri ve yaklaşımlarla çalıştığı kitlesel açık çevrimiçi dersleri yarıda bırakma ile ilgili yakın zamanlı bir kestirimci modelleme araştırmasında örneklenmiştir.
Tekniklerin etkinliğini ve mevcut sorunlara modelleme yöntemlerinin uygunluğunu karşılaştırmak amacıyla ortak ve net bir sonuç kümesine, açık verilere ve paylaşılan uygulamalara doğru ilerlemek topluluk için faydalı olabilir. Bu yaklaşım, benzer araştırma alanlarında ve daha geniş veri bilimi topluluğunda değerlidir ve eğitsel veri bilimi zorluklarının, kestirimci modelleme bilgisinin, eğitsel araştırma topluluğuna yayılmasına yardımcı olabileceğine ve aynı zamanda özellikle özellik mühendisliğine ilişkin yeni disiplinler arası yöntemlerin geliştirilmesi için bir fırsat sunduğuna inanıyoruz.
-
İkinci dereceden kestirim modellemesi ile ilgilenmek. Öğrenme analitiği bağlamında, ikinci dereceden kestirimci modelleri, modelin kendisinde etki ve müdahaleye ilişkin tarihsel bilgiyi içeren modeller olarak tanımlarız. Dolayısıyla (ör.) okuldan atılma ile ilgili içerikle öğrenci etkileşimlerini kullanan kestirimsel model bir birinci dereceden kestirimci modelleme örneği iken, bir müdahalenin etkisiyle ilgili geçmiş verileri de içeren bir model (bir e-posta istemi veya dürtmek) ikinci dereceden bir öngörü modeli olarak kabul edilir. Müdahale etkililiğinin modellenmesine doğru ilerlemek, çoklu müdahaleler mevcut olduğunda ve kişiselleştirilmiş öğrenme yolları istendiğinde önemlidir.
Öğrenme analitiği ve eğitsel veri madenciliği topluluklarının çok disiplinli doğasına rağmen, bu alanda çalışan farklı araştırmacılar arasında köprü kurmaya yönelik bir anlayışa halen ihtiyaç duyulmaktadır. Öğrenme analitiği konferanslarında öğrenme konusundaki bir ilginç tematik gizli etki, eğitim araştırmalarının itici güçleri olarak teori ve verilerin rollerinin (bazen hararetli şekilde) tartışılmasıdır. Eğitim araştırmalarında “teorinin sonu” (Anderson, 2008) noktasına ulaştık mı? Pek olası değil, fakat bu soru öğretme ve öğrenmenin kestirimci modelleme alt alanı içinde en belirgin olanıdır: bazı araştırmacılar için amaç biliş ve öğrenme süreçlerini anlamak iken, diğerleri gelecekteki olayları ve başarıyı mümkün olduğunca doğru tahmin etmekle ilgilenmektedir. Giderek bir kişi için (genellikle kara kutular) daha karmaşık ve anlaşılmaz hale gelmekte olan kestirimci modeller ile açıklayıcı ve tahmine dayalı modelleme teknikleri arasındaki yöntemsel seçimleri daha iyi yönlendirmek için alandaki araştırma gündemlerinin hedeflerini daha açık bir şekilde tartışmaya başlamak önemlidir.
KAYNAKÇA
Aguiar, E., Lakkaraju, H., Bhanpuri, N., Miller, D., Yuhas, B., & Addison, K. L. (2015). Who, when, and why: A machine learning approach to prioritizing students at risk of not graduating high school on time. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 93–102). New York: ACM.
Alhadad, S., Arnold, K., Baron, J., Bayer, I., Brooks, C., Little, R. R., Rocchio, R. A., Shehata, S., & Whitmer, J. (2015, October 7). The predictive learning analytics revolution: Leveraging learning data for student success. Technical report, EDUCAUSE Center for Analysis and Research.
Anderson, C. (2008, June 23). The end of theory: The data deluge makes the scientific method obsolete. Wired. https://www.wired.com/2008/06/pb-theory/
Baker. R. S. J. d. (2007). Modeling and understanding students’ on-task behaviour in intelligent tutoring systems. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI’07), 28 April–3 May 2007, San Jose, CA (pp. 1059–1068). New York: ACM.
Baker, R. S. J. d., Corbett, A. T., Koedinger, K. R., & Wagner, A. Z. (2004). On-task behaviour in the cognitive tutor classroom: When students game the system. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI’04), 24–29 April 2004, Vienna, Austria (pp. 383–390). New York: ACM.
Baker, R. S. J. d., Gowda, S. M., & Corbett, A. T. (2011). Towards predicting future transfer of learning. Proceedings of the 15th International Conference on Artificial Intelligence in Education (AIED’11), 28 June–2 July 2011, Auckland, New Zealand (pp. 23–30). Lecture Notes in Computer Science. Springer Berlin Heidelberg.
Barber, R., & Sharkey, M. (2012). Course correction: Using analytics to predict course success. Proceedings of the 2nd International Conference on Learning Analytics and Knowledge (LAK’12), 29 April–2 May 2012, Vancouver, BC, Canada (pp. 259–262). New York: ACM. doi:10.1145/2330601.2330664
Brooks, C., Thompson, C., & Teasley, S. (2015). A time series interaction analysis method for building predictive models of learners using log data. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 126–135). New York: ACM.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). Smote: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16, 321–357.
D’Mello, S. K., Craig, S. D., Witherspoon, A., McDaniel, B., & Graesser, A. (2007). Automatic detection of learner’s affect from conversational cues. User Modeling and User-Adapted Interaction, 18(1–2), 45–80.
Duckworth, A. L., Peterson, C., Matthews, M. D., & Kelly, D. R. (2007). Grit: Perseverance and passion for long-term goals. Journal of Personality and Social Psychology, 92(6), 1087–1101.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The Weka data mining software: An update. SIGKDD Explorations Newsletter, 11(1), 10–18. doi:10.1145/1656274.1656278.
Koedinger, K. R., D’Mello, S., McLaughlin, E. A., Pardos, Z. A., & Rosé, C. P. (2015). Data mining and education. Wiley Interdisciplinary Reviews: Cognitive Science, 6(4), 333–353.
Lonn, S., & Teasley, S.D. (2014). Student explorer: A tool for supporting academic advising at scale. Proceed-ings of the 1st ACM Conference on Learning @ Scale (L@S 2014), 4–5 March 2014, Atlanta, Georgia, USA (pp. 175–176). New York: ACM. doi:10.1145/2556325.2567867
Shmueli, G. (2010). To explain or to predict? Statistical Science, 25(3), 289–310. doi:10.1214/10-STS330
Stripling, J., Mangan, K., DeSantis, N., Fernandes, R., Brown, S., Kolowich, S., McGuire, P., & Hendershott, A. (2016, March 2). Uproar at Mount St. Mary’s. The Chronicle of Higher Education. http://chronicle.com/ specialreport/Uproar-at-Mount-St-Marys/30.
Taylor, C., Veeramachaneni, K., & O’Reilly, U.-M. (2014, August 14). Likely to stop? Predicting stopout in massive open online courses. http://dai.lids.mit.edu/pdf/1408.3382v1.pdf
Wang, Y., Heffernan, N. T., & Heffernan, C. (2015). Towards better affect detectors: Effect of missing skills, class features and common wrong answers. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 31–35). New York: ACM.
Whitehill, J., Williams, J. J., Lopez, G., Coleman, C. A., & Reich, J. (2015). Beyond prediction: First steps toward automatic intervention in MOOC student stopout. In O. C. Santos et al. (Eds.), Proceedings of the 8th International Conference on Educational Data Mining (EDM2015), 26–29 June 2015, Madrid, Spain (pp. XXX– XXX). International Educational Data Mining Society. http://www.educationaldatamining.org/EDM2015/ yüklenenler / evraklar / paper_112.pdf
Witten, I. H. (2016). Weka courses. The University of Waikato. https://weka.waikato.ac.nz/explorer
Witten, I. H., Frank, E., & Hall, M. A. (2011). Data mining: Practical machine learning tools and techniques, 3rd ed. San Francisco, CA: Morgan Kaufmann Publishers.
Xing, W., Chen, X., Stein, J., & Marcinkowski, M. (2016). Temporal predication of dropouts in MOOCs: Reaching the low-hanging fruit through stacking generalization. Computers in Human Behavior, 58, 119–129.
Xing, W., & Goggins, S. (2015). Learning analytics in outer space: A hidden naive Bayes model for automatic students’ on-task behaviour detection. Proceedings of the 5th International Conference on Learning Analytics and Knowledge (LAK’15), 16–20 March 2015, Poughkeepsie, NY, USA (pp. 176–183). New York: ACM.
1 http://www.d2l.com/
2 http://www.starfishsolutions.com/
3 http://www.ellucian.com/
4 http://www.blackboard.com/
5 http://bluecanarydata.com
6 http://www.civitaslearning.com/
7 Shmueli (2010), açıklayıcı modellemeye benzer olan ancak nedensellik iddialarının bulunmadığı üçüncü bir modelleme biçiminden, tanımlayıcı modellemeden söz etmektedir. Yükseköğrenim literatüründe, nedensellik sıklıkla ima edilir ve tanımlayıcı analizlerin çoğunluğunun karar vermeyi etkilemek için nedensel kanıt olarak kullanılması amaçlanmıştır.
8 orj. overfitting
9 orj. k–fold cross validation
10 orj. training set
11 Çevirenin notu: noisy data. Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalara gürültülü veri denir. Gürültülü veri değişken varyans veya rassak hata olarak da adlandırılabilir.
12 Yazarlar, sentetik azınlık örnekleme tekniğini uygulamada belirli veri sınıflarını güçlendirmek için örnekleme tekniklerini kullanırken öz niteliklerin bağımsızlığını üstlenmenin tehlikesine düşen bir analizin anekdotunu paylaşmaktadırlar (Chawla, Bowyer, Hall, &Kegelmeyer, 2002). Bu durumda, şehir ve eyalet ile ilgili verilerin eksik olması, coğrafi olarak imkânsız kombinasyonları içeren, niteliklerin etkinliğini azaltan ve modelin doğruluğunu düşüren bir veri kümesiyle sonuçlanmıştır.
13 orj. bootstrap aggregating
14 orj. boosting
15 orj. test set
16 orj. hold out