Celal CAGIN ELGUN

Ön işlemden geçirilen veriler üzerinde Web Madenciliği teknikleri uygulanarak bir takım çıkarımlarda bulunulur. Yaygın olarak kullanılan Web Madenciliği teknikleri:

· İstatistik: İstatistiksel teknikler bir web sitesi ve ziyaretçileri hakkında bilgi açığa çıkarmaya yarayan en güçlü araçlardır. Analizciler oturum dosyasını analiz ederken farklı değişkenler üzerinde farklı açıklamalı istatistiksel analiz tiplerini yerine getirirler. Bu sayede web sayfasındaki güvenlik sorunları, sistem performansı ve benzeri konularda bilgiler elde edebilirler.

==> Hangi kullanıcılar tarafından hangi sayfalar kullanılıyor?

==> Hangi web tarayıcıları ile sayfalara erişiliyor?

==> Resim ve diğer bağlı dosyalar olmadan kaç ziyaretçi var?

İstatistik analiz yapmak için internette bir çok serbest yazılım bulunmaktadır. Bunlar arasında en çok bilinenleri AWSTAT (http://awstats.sourceforge.net/), ANALOG (http://www.analog.cx/) ve WEBALİZER (http://www.mrunix.net/webalizer/) yazılımlarıdır.

· İlişkilendirme Kuralları (Association Rules): Genellikle alışveriş uygulamalarında kullanıldığı için Devamını okuyun »

Web kullanım madenciliği, bir veya birçok web sunucusundan kullanıcı erişim desenlerinin otomatik keşfinin ve analizinin yapıldığı bir tip veri madenciliği etkinliğidir. Web kullanım madenciliği amacı, kullanıcının siteyi ziyaretinden sonra gerisinde bıraktığı erişim bilgilerinden veri üretmektir. Bu veriler ikinci sınıf verilerdir, yani kullanıcının isteği dışında oluşan verilerdir. Kuruluşlar bu yolla her gün yüzlerce MB veri toplamaktadır. Bu bilgilerin çoğu web sunucuların otomatik olarak tuttuğu günlük dosyalarından elde edilir. Günlük dosyaları (Şekil 4), istemciden sunucuya gönderilen her bir isteğin bir kayıt olarak eklenmesi ile meydana gelir.

Günlük dosyalarının analizi, müşterilerin ilgi alanları, ürünler üzerinden pazar stratejileri oluşturma, promosyon kampanyalarının etkisi gibi hususlarda, kurumlara karar süreçlerinde yardımcı olur. Sunucu erişim kayıtlarının ve kullanıcı kaydı verilerinin analizi, aynı zamanda kurumun daha etkili bir sunumunun yapılabilmesi için Web sitesini nasıl daha iyi hale getirebileceği hakkında değerli bilgiler sağlar.

Şekil 4. Web Kayıt Dosyası

Web kullanım madenciliği; Önişlem (Preprocessing), patern keşfi (Pattern Discovery) ve patern analizi (Pattern Analysis) aşamalarından oluşur (Şekil 5). Web kullanım madenciliği esnasında harmanlanacak veriler aşağıdaki tiplerde olabilir:

· İçerik verisi: Web dokümanlarında, genellikle metin şeklinde yer alan verilerdir. Herhangi bir web sayfası üzerinde yer alan veriler bu tip için bir örnektir.

· Yapı verisi: Web sitesinin bağlantı yapısı hakkındaki verilerdir. Web sitesinde yer alan sayfaların hangi alt dizinler içerisinde bulunduğunu gösteren verilerden oluşur.

· Kullanım verisi: Web sitesini ziyaret eden kullanıcıların oluşturdukları veri tipidir. Kullanım verisi genellikle hangi kullanıcı, ne zaman, hangi sayfaları ziyaret etti, ne kadar süre sitede kaldı gibi soruların cevaplarını içerir.

· Kullanıcı profili: Web sitesini ziyaret eden kullanıcı hakkındaki; kullanıcı kimlik verileri gibi bilgilerden oluşur.

Şekil 5. Web Kullanım Madenciliği Süreci

Devamını okuyun »

Web yapı madenciliği, web siteleri ve web sayfaları arasındaki bağlantı (link) verisine bakarak bilgi üretmektir. Teknik olarak, Web içerik madenciliği dokümanın içeriğine, yapı madenciliği ise dokümanlar arası bağlantılara odaklanır. Web yapı madenciliği, linklerin topolojisine dayanarak farklı siteler arasındaki benzerlik ve ilişki gibi bilgileri üretir, sayfaların link tasarımlarını ortaya çıkarmamıza yardımcı olur. İlgili araştırmalar “hyperlink” düzeyinde yapılıyorsa “Hyperlink Analysis” adını alır. Şekil 2 ‘de web grafik yapısı görülmektedir. Web dokümanları arasındaki oklar iki sayfa arasındaki ilişkiyi temsil etmektedir.

Şekil 2 Web sayfaları arasındaki link bağlantısı

Web dokümanları arasındaki linkler bir araya getirildiğinde “Web Graph Structure” elde edilir. Bu yapı sayesinde iki nokta arasındaki en kısa yola ulaşabiliriz. Bu bilgi web sayfaları arasındaki ilişkiyi belirlemek açısından son derece önemlidir. İki sayfa arasında doğrudan bir link yoksa, o link arasındaki bağlantıya ve komşuluk ilişkisine kolay bir şekilde erişebiliriz.

Sonuç olarak; web yapı madenciliği sayesinde, araştırılan konu ile ilgili bir sayfayı sisteme vererek onunla ilgili tüm sayfalara erişebilir, web sayfaları arasındaki benzerlik ilişkilerini çıkarabiliriz.

Google’ı dünyanın en önemli arama yapan özelliği “Hyperlink Analyse” yöntemini başarılıyla uygulamasıdır. Google’ın PageRank (Şekil 3) teknolojisi, link yapılarını kullanarak her bir sayfa için bir derece hesaplar. Bu sayede Google istenen konu ile ilgili bir sayfayı getirirken, bu sayfa ile ilgili diğer sayfaları da getirir.

Şekil 3. Her sayfanın derecesi, ona link veren sayfaların derecesine dayanmaktadır

Web Madenciliği ortaya atıldığı ilk zamanlarda iki kategoriye ayrılmaktaydı. Web İçerik Madenciliği (Web Content Mining) ve Web Kullanım Madenciliği (Web Usage Mining). Web Madenciliğinin yaygınlaşması ile beraber Web Yapı Madenciliği de (Web Structure Mining) üçüncü bir kategori olarak literatüre eklendi. (Şekil 1)


Şekil 1. Web Madenciliği Sınıflandırması

Web İçerik Madenciliği, web dokümanları içerisinde saklı olan bilgileri çıkarmak amacıyla kullanılmaktadır. Web Yapı Madenciliği, web sayfaları ve web siteleri arasındaki bağlantıları inceleyerek bir takım bilgiler üretir. Elde ettiği bilgileri sitenin yapısal dizaynını iyileştirmek için kullanır. Web Kullanım Madenciliği ise temel olarak web sitelerinin kullanımı, site ziyaretçilerinin hareketlerinin incelenmesi üzerine yoğunlaşmıştır.


Tablo 1. Web Madenciliği Sınıfları arasındaki temel farklılıklar

2.2.1 Web İçerik Madenciliği

Web içerik madenciliği, web kaynaklarından içeriklerine göre otomatik bilgi arama tekniklerini tanımlar. Web kaynakları içerisinde metin, resim, ses, görüntü, metadata ve hiper linkler bulunmaktadır. Web içerik madenciliğin amacı, bu kaynaklar arasından bilginin bulunması veya filtrelenmesidir.

Web içerik madenciliği, text madenciliği ve veri madenciliği ile ilgili olmasına rağmen aralarında bir takım farklılıklar vardır. Web içerik madenciliği, veri madenciliği ile ilgilidir çünkü web dokümanları içerisindeki verileri çıkarmak için veri madenciliği tekniklerini kullanır. Veri madenciliğinde, tam olarak yapısal veriler kullanılırken; web verileri kısmı yapılı ve yapısız verilerdir. Aynı şekilde, web içerik madenciliği text madenciliğiyle ilgilidir çünkü web üzerindeki bilgilerin çoğu text tabanlıdır. Web içerik madenciliği ile text madenciliği arasındaki fark ise text madenciliğinin tamamen yapısal olmayan veriler üzerinde odaklanmış olmasıdır.
Web içerik madenciliğinde kullanılan iki yaklaşık vardır:
• Information Retrieval Approach (IR): Kullanıcı profili baz alınarak kullanıcılara gösterilen bilgileri filtrelemek ve bilgiye erişimi geliştirmek için kullanılan yöntemdir.

• Database Approach: Web’deki veriyi modellemek ve veriyi bütünleştirerek daha karmaşık bir yapıya sokmak için kullanılan yöntemdir. Bu yöntem sayesinde keyword temelli arama yerine daha gelişmiş sorgular çalıştırmak mümkün olur.

1. GİRİŞ

Günümüzde her alanda eldeki veri miktarı hızla artmaktadır. Süper marketlerde yaptığımız alışverişlerde olduğu gibi günlük hayatımızdaki aktivitelerimiz sırasında ve sonrasında da arkamızda birçok veri bırakmaktayız. Bu durum, eldeki verilerden işe yarar bilgiyi çıkarma zorunluluğunu doğurmuştur. Veri madenciliği (data mining) eldeki veriden anlamlı bilgileri, ilişkileri çıkarmada kullanılan tekniklere verilen genel isimdir. Birçok farklı alanda kullanılabilen veri madenciliğinin alt alanlarından biri de Web Madenciliği’dir.

Bu raporda ilk olarak web madenciliğinin tanımı, ardından web madenciliğinin çeşitleri detaylarıyla yer almaktadır. Semantik web madenciliğinin yanı sıra web madenciliği araçları, yaygın olarak kullanılan teknikler, örnek uygulamalara da değinilmektedir.

2. WEB MADENCİLİĞİ

2.1 Web Madenciliği Nedir?

Web madenciliği ilk kez 1996 yılında Oren Etzoni tarafından dile getirilmiştir. Web madenciliği, veri madenciliği tekniklerinin kullanılarak web belgelerinden ve servislerinden otomatik olarak bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir.[1,2] İşlenecek olan ham veri, ziyaretçilerin sayfaları gezerken bıraktıkları bilgilerin yanı sıra üye olurken verdikleri bilgilerden oluşmaktadır. Web madenciliğinin işi bu bilgilerin farklı veri madenciliği teknikleri kullanılarak site sahibine yararlı bilgiler çıkarmasıdır. Bu sayede ticari amaçlı bir siteden elde edilen kar miktarı arttırılabileceği gibi, internet sayfaları farklı ilgi alanlarına göre düzenlenerek ziyaretçi memnuniyeti arttırılabilir.

Web madenciliğinin başarıyla kullanıldığı ve müşteri/ziyaretçi memnuniyetiyle site karının arttırıldığı örneklerin başında www.amazon.com alışveriş sitesi gelmektedir. Sitede yeni üye olanlardan ilgi alanlarını algılamak amacıyla farklı ürünler listelenerek en çok beğendiklerini seçmeleri istenmektedir. Üyelik işlemi sırasında kullanıcı hakkındaki ilk yararlı bilgilerin toplanmasının yanı sıra kullanıcıların sitede alışveriş yaptıkları süre boyunca ilgi duyduğu farklı alanlar da veri ambarına kaydedilmektedir. Bu veriler daha sonra işlenerek kullanıcının profiline uygun sayfalara ulaşabilmesi kolaylaştırılmaktadır.

Internet hali hazırda büyük bir bilgi okyanusu olarak hayatımızdaki yerini korumaktadır. Internet ortamında bilgilerin herhangi bir site içerisinde bile belki site sahibi için düzenli ama geri kalan tüm insan ırkı için düzensiz hali bilgiye ulaşımı zorlaştırmaktadır. Bu noktada web madenciliği mevcut verinin anlamlılaştırılması yolunda önemli bir adım atmaktadır.

© 2010 bilyaz.com , Programlama Makaleleri, Yazılım Makaleleri , Örnek Kodlar , Eğitim Videoları , C#,ASP.NET,SQL,PHP Suffusion WordPress theme by Sayontan Sinha