2.2.3 Web Kullanım Madenciliği

15 Haziran 2009 – 09:46

Web kullanım madenciliği, bir veya birçok web sunucusundan kullanıcı erişim desenlerinin otomatik keşfinin ve analizinin yapıldığı bir tip veri madenciliği etkinliğidir. Web kullanım madenciliği amacı, kullanıcının siteyi ziyaretinden sonra gerisinde bıraktığı erişim bilgilerinden veri üretmektir. Bu veriler ikinci sınıf verilerdir, yani kullanıcının isteği dışında oluşan verilerdir. Kuruluşlar bu yolla her gün yüzlerce MB veri toplamaktadır. Bu bilgilerin çoğu web sunucuların otomatik olarak tuttuğu günlük dosyalarından elde edilir. Günlük dosyaları (Şekil 4), istemciden sunucuya gönderilen her bir isteğin bir kayıt olarak eklenmesi ile meydana gelir.

Günlük dosyalarının analizi, müşterilerin ilgi alanları, ürünler üzerinden pazar stratejileri oluşturma, promosyon kampanyalarının etkisi gibi hususlarda, kurumlara karar süreçlerinde yardımcı olur. Sunucu erişim kayıtlarının ve kullanıcı kaydı verilerinin analizi, aynı zamanda kurumun daha etkili bir sunumunun yapılabilmesi için Web sitesini nasıl daha iyi hale getirebileceği hakkında değerli bilgiler sağlar.

Şekil 4. Web Kayıt Dosyası

Web kullanım madenciliği; Önişlem (Preprocessing), patern keşfi (Pattern Discovery) ve patern analizi (Pattern Analysis) aşamalarından oluşur (Şekil 5). Web kullanım madenciliği esnasında harmanlanacak veriler aşağıdaki tiplerde olabilir:

· İçerik verisi: Web dokümanlarında, genellikle metin şeklinde yer alan verilerdir. Herhangi bir web sayfası üzerinde yer alan veriler bu tip için bir örnektir.

· Yapı verisi: Web sitesinin bağlantı yapısı hakkındaki verilerdir. Web sitesinde yer alan sayfaların hangi alt dizinler içerisinde bulunduğunu gösteren verilerden oluşur.

· Kullanım verisi: Web sitesini ziyaret eden kullanıcıların oluşturdukları veri tipidir. Kullanım verisi genellikle hangi kullanıcı, ne zaman, hangi sayfaları ziyaret etti, ne kadar süre sitede kaldı gibi soruların cevaplarını içerir.

· Kullanıcı profili: Web sitesini ziyaret eden kullanıcı hakkındaki; kullanıcı kimlik verileri gibi bilgilerden oluşur.

Şekil 5. Web Kullanım Madenciliği Süreci

2.2.3 Web Kullanım Madenciliği Aşamaları

Ön İşlem (Preprocessing): Ön işlem web kullanım madenciliğinin ilk aşamasıdır. Ham veri bir takım işlemlerden geçirilerek soyutlaştırılır ve patern keşfi (Pattern Discovery) için hazır hale getirilir. Soyutlaştırma bir çeşit istatistiksel özet çıkarmadır ve kullanıcı (users), sayfa görünümü (pageviews), tıklama akışı (click stream), kullanıcı oturumu (sessions), sunucu oturumu gibi çeşitleri olabilmektedir. Genel olarak yapılan ön işlemler: (Şekil 6.)

· Veri Ayrıştırma (Data Cleaning): Kayıt dosyalarından, gereksiz ve ilişkisiz veriler çıkarılır.

· Kullanıcı Kimliği (User Identification): Birçok kişi internete çıkışını tek bir internet adresi üzerinden gerçekleştirir. Bu nedenler çeşitli yöntemler kullanılarak (çerezler, kullanıcı girişi vb.) kişiler web kayıt dosyaları üzerinde tespit edilir.

· Oturum Kimliği (Session Identification): Kullanıcının web üzerinde yaptığı sayfa görüntülemeleri oturumlara bölünür (sessionize).

· Yol Tamamlama (Path Completion): Web tarayıcının ön belleği veya kullanıcının kullandığı Proxy server’dan dolayı kayıt dışı kalan bağlantılar tamamlanır.

Şekil 6. Web Kullanım Madenciliğinde Ön İşlem Aşaması

Patern keşfi (Pattern Discovery): Ön işlemden geçirilen verilere veri madenciliği tekniklerinin uygulandığı aşamadır. En sık kullanılan veri madenciliği yöntemleri; istatistiksel yöntemler, eşleştirme kuralları (Association Rules), kümeleme (Clustering), sınıflandırma (Classification) ve sıralı paternlerdir (Sequential Pattern).

Patern analizi (Pattern Analysis): Patern keşfi aşamasında ortaya çıkarılan kural veya paternlerin analiz edilmesi işlemidir. Bazı patern analiz işlemleri:

· Görselleştirme (Visualization): Patern keşif aşamasında elde edilen sonuçların (özetler gibi) anlaşılabilmesi için görselleştirme tekniklerinden faydalanılır. Görselleştirmede daireler, grafikler kullanılır. WebViz, web’i görselleştirmek için kullanılan Patern Analiz aracıdır.

· Veri ve Bilgi Sorgulama (Query mechanism): Sorgu mekanizması, kısıtlamalar tanımlayarak analistlerin sadece konu ile ilgili ve yararlı şablonlar çıkarabilmesini sağlar. WEBMINER, veri ve bilgi sorgulama amacıyla yaygın kullanılan bir araçtır.

WEBMINER sorgu örneği:

Finds all ARs with min support of 1% and min confidence of 90%. The analyst only interested in clients from “.edu” domain and data later than Nov. 1st, 2003 with page accesses start with URL A and contains B and C in that order:

SELECT association-rules(A*B*C*)

FROM log.data

WHERE date>=031101 AND domain=“edu”

AND support = 1.0 AND confidence = 90.0

· OLAP teknikleri (On-Line Analytical Processing): OLAP, doğrudan ilişkisel veri tabanları üzerinde çalışabilir, analiz için veri küplerinden faydalanılır. Analistlerin, verinin analizini çeşitli boyutlarda yaparak karar verebilmelerini sağlar. WebLogMiner, web kayıt dosyalarını filtreleyerek ilişkisel veri tabanı üreten Patern Analiz araçlarından biridir.

· Kullanılabilirlik Analizi: Bulunan veya ortaya konulan çözümlerin başarılı sonuçlar verebilmesi için kullanılabilir olmaları gerekmektedir. Veri analizlerinde de takip edilen yöntemin başarısı kullanılabilirlik analizleri ile yerine getirilir.

Bookmark and Share

Post a Comment

Subscribe without commenting