Yayıncıya Tavsiyeler

Veri madenciliği nedir?

veri madenciliği nedir 1

Bilgisayar sistemlerindeki veriler tek başlarına bir anlam ifade edemezler. Bu veriler bir amaç için işlendiği takdirde bir anlam ifade etmeye başlamaktadırlar. Günlük hayatımızda karşılaştığımız birçok durum internetten geçmektedir. Örneğin çalıştığımız yerde kaydettiğimiz veriler, hastane kayıtlarında oluşturulan veriler ve daha birçoğu…

Bu veriler sizce nasıl korunmakta?

Bu sorunun cevabını hiç merak ettiniz mi? Çeşitli konularda işimize yarayan bu verilerin saklanması , işlenmesi , toplanması gibi etkenle bizim akıllarımıza “veri madenciliği” kavramını getirmektedir. Veri madenciliği birçok durumla karıştırılmaktadır. Bunlar yapay zeka, makine öğrenmek. Veri madenciliği aslında bu gibi kavramlarla bir bütün oluşturmaktadır. Bunlara artı olarak istatistik gibi birçok alana etki eden veri madenciliği disiplinler arasıdır.

Tarihte veri madenciliğinin başlangıcını araştırdığımızda 1950’li yıllara yani bilgisayarın icadına uzanmaktayız. Veri madenciliğinin tarihsel sürecine göz atmak istiyorsak:
1- 1950’lerdeki ilk bilgisayarlara

2- 1960’lardaki toplanan verilere

3- 1970’lerdeki makine öğrenimi ve uzman sistemlere

4- 1980’lerdeki SQL sorgu dili ve veri tabanına (bunlar büyük miktarda veri içerir)

5- 1990’lardaki veri tabanlarında bulunan bilgi keşfi ve veri madenciliğindeki ilk yazılım

6- 2000’lerde tüm alanlarda bulunan veri madenciliği uygulamalarına bakmak gerekmektedir.

Tarihsel gelişimin yanına gelişen süreci ele almak istersek:
1- Verileri bütünleştirmeyi

2- Verileri temizlemeyi

3- Verileri seçmeyi (indirgemeyi)

4- Verileri dönüştürmeyi

5- Verilerin madencilik algoritmasını uygulamayı

6-  örüntüleri (desenleri) gözlemlemeyi

7- Sunumu ve değerlendirmeyi yapmak gerekmektedir.

Bahsettiklerimizi bir kenara bıraktığımızda veri madenciliğinde birçok sorunla karşılaştığımızı fark etmekteyiz bunlardan birkaçını okuduğunuzda bu konuda yeterince bilgi donanımınız olduğunu  fark edeceksiniz örneğin:
BOŞ VERİ: Tanımından anlaşılacağı üzere hiçbir değere eşit olmayan değerdir.

ARTIK VERİ: İstenilen sonucu elde etmekte karşımıza çıkan gereksiz verilerdir. Bu veriler pek çok işlemde karşımıza çıkabilir.

EKSİK VERİ: Veri kümesindeki doğal durumdan ya da büyüklüğünden kaynaklanan bir durumdur.

BELİRSİZLİK: Yanlışlıkların boyutu ve şiddetiyle ilgili bir durumdur.

DİNAMİK VERİ: Kurumsal çevrim içi veriler dinamik olarak bulunmaktadır ve sürekli değişmektedir. Bu durum bilgi süreci için önemli sakıncalar doğurmaktadır.