2.3 Web Madenciliği Teknikleri
22 Temmuz 2009 – 08:35Ön işlemden geçirilen veriler üzerinde Web Madenciliği teknikleri uygulanarak bir takım çıkarımlarda bulunulur. Yaygın olarak kullanılan Web Madenciliği teknikleri:
· İstatistik: İstatistiksel teknikler bir web sitesi ve ziyaretçileri hakkında bilgi açığa çıkarmaya yarayan en güçlü araçlardır. Analizciler oturum dosyasını analiz ederken farklı değişkenler üzerinde farklı açıklamalı istatistiksel analiz tiplerini yerine getirirler. Bu sayede web sayfasındaki güvenlik sorunları, sistem performansı ve benzeri konularda bilgiler elde edebilirler.
==> Hangi kullanıcılar tarafından hangi sayfalar kullanılıyor?
==> Hangi web tarayıcıları ile sayfalara erişiliyor?
==> Resim ve diğer bağlı dosyalar olmadan kaç ziyaretçi var?
İstatistik analiz yapmak için internette bir çok serbest yazılım bulunmaktadır. Bunlar arasında en çok bilinenleri AWSTAT (http://awstats.sourceforge.net/), ANALOG (http://www.analog.cx/) ve WEBALİZER (http://www.mrunix.net/webalizer/) yazılımlarıdır.
· İlişkilendirme Kuralları (Association Rules): Genellikle alışveriş uygulamalarında kullanıldığı için İlişkilendirme Kuralları aynı zamanda Alış Veriş Sepeti (Market Basket) analizi olarak da tanınmaktadır. Bu yöntemdeki amaç bir küme içerisindeki nesnelerin birbirleri ile olan bağlarının tespit edilmesidir. Bu Veri Madenciliği yöntemi yaygın olarak alışveriş sistemlerinde kullanıldığı görülse de başka uygulamalarda da kullanılmaktadır.
İlişkilendirme Kuralı yöntemine örnek verecek olursak A ürününün alınması ile B ürününün veya C ürünün alınması arasında bir bağlantı olup olmadığının tespit edilmesi ve eğer bağlantı var ise bu bağlantılar arasındaki kuvvet veya önem derecesinin (confidence or strength) ortaya çıkarılması sağlanır. Bu analizin amacı A ürününü alan kişilerin B veya C ürünleri alımlarıyla ilgili olarak kuvvetli bir bağlantı bulup sistemde bir takım değişiklikler gerçekleştirmektir. Örneğin, süpermarket sisteminde çeşitli promosyonların gerçekleşmesi, ürün raflarının elde edilen sonuçlar doğrultusunda yerleştirilmesi olabilir. Bu işlemi bir web sitesi içerisinde sayfaların yapılandırılmasında kullanılır.
· Sıralı Patern (Sequential Patern) : Sıralı patern yöntemiyle kullanıcı oturumları arasında patern bulunmaya çalışılır. Sıralı patern bulma işleminde, belirli zaman aralıklarında oturumlar incelenir ve karşılaştırma yapılır. Sıralı patern yönteminde, eğilim analizi, değişen nokta bulma veya benzerlik analizleri gibi bazı geçici analiz tipleri kullanır. Sıralı paternlerin bulunması, örneğin gelecekteki eğilimi tahmin edecek web pazarlamacıları için oldukça anlamlıdır. Böylece ilanlar belirli kullanıcı gruplarına yönlendirilebilinir.
· Kümeleme (Clustering): Kümeleme yöntemi aynı karakteristiğe sahip olan nesnelerin bir araya getirilmesi işlemidir. Web Madenciliğinde genel olarak iki kümeleme yaklaşımı vardır: Kullanıcı Grupları (User Clusters), Sayfa Grupları (Page Clusters).
Birinci yaklaşımda (Kullanıcı Grupları) amaç, benzer sayfa görüntülemesi yapan kullanıcıları tespit edip bir grup içerisine almaktır. Bu yöntem özellikle web kişileştirme işleminde oldukça yararlıdır. Örneğin, bir portal içerisinde oyun ve spor sayfalarına girenleri bir grup içerisinde toplayıp kişilerin bir sonraki bağlantısında oyun ve spor konulu reklamların ekrana gelmesi gibi.
İkinci yaklaşımda (Sayfa Grupları), benzer içerikli sayfaların bir araya gruplandırılması özellikle arama motorları için çok yararlı olmaktadır. Böylelikle bir kullanıcının aramış olduğu bilgilere daha hızlı şekilde ulaşılabilmesi sağlanır.
· Sınıflandırma (Classification): Sınıflandırma bir veriyi daha önceden tanımlanmış sınıflara dağıtma tekniğidir. Sınıflandırma işleminde, verilen bir sınıf veya kategorinin özelliklerini en iyi biçimde açıklamak için seçim ve açığa çıkarma uygulamalarına ihtiyaç duyulur. Sınıflandırma; karar ağaçları, bayezian sınıflayıcıları, en yakın komşu ve destek vektör makineleri gibi denetlenen tümevarımsal öğrenim algoritmaları kullanılarak yapılabilir.

