Veri bilimi, yapılandırılmış ve yapılandırılmamış verilerden bilgi ve içgörü elde etmek için algoritmaların, yöntemlerin ve sistemlerin kullanılması sürecidir. Kullanıcıların iş sonuçlarını tahmin etmesine ve iyileştirmesine yardımcı olmak için gelişmiş analitik ve makine öğrenmesi (ML) uygular.
Veri Biliminin Yaşam Döngüsü
1. Discovery-(Keşif):
Projeye başlamadan önce çeşitli özellikleri, gereksinimleri, öncelikleri ve gerekli bütçeyi anlamak önemlidir. Doğru soruları sorma yeteneğine sahip olmalısınız. Burada, projeyi desteklemek için insan, teknoloji, zaman ve veri açısından gerekli kaynaklara sahip olup olmadığınızı değerlendirirsiniz. Bu aşamada ayrıca, iş problemini çerçevelemeniz ve test etmek için ilk hipotezleri (IH) formüle etmeniz gerekir.
2. Data Preparation-(Veri hazırlama):
Bu aşamada, proje süresi boyunca analitik gerçekleştirebileceğiniz analitik sanal alana ihtiyacınız vardır. Modellemeden önce verileri keşfetmeniz, ön işlemeniz ve koşullandırmanız gerekir. Ayrıca, verileri sanal alana almak için ETLT (ayıklama, dönüştürme, yükleme ve dönüştürme) gerçekleştireceksiniz. Aşağıdaki İstatistiksel Analiz akışına bir göz atalım.

Veri temizleme, dönüştürme ve görselleştirme için R’yi kullanabilirsiniz. Bu, aykırı değerleri tespit etmenize ve değişkenler arasında bir ilişki kurmanıza yardımcı olacaktır. Verileri temizledikten ve hazırladıktan sonra, üzerinde keşif analizi yapmanın zamanı geldi. Bunu nasıl başarabileceğinizi görelim.
3. Model Planning-(Model planlama):
Burada, değişkenler arasındaki ilişkileri çizmek için yöntem ve teknikleri belirleyeceksiniz. Bu ilişkiler, bir sonraki aşamada uygulayacağınız algoritmaların temelini oluşturacaktır. Çeşitli istatistiksel formüller ve görselleştirme araçları kullanarak Keşifsel Veri Analitiği (EDA) uygulayacaksınız.
Çeşitli model planlama araçlarına bir göz atalım.
- R , eksiksiz bir modelleme yetenekleri setine sahiptir ve yorumlayıcı modeller oluşturmak için iyi bir ortam sağlar .
- SQL Analizi hizmetleri , ortak veri madenciliği işlevlerini ve temel tahmin modellerini kullanarak veri tabanı içi analitik gerçekleştirebilir.
- SAS/ACCESS , Hadoop’tan verilere erişmek için kullanılabilir ve tekrarlanabilir ve yeniden kullanılabilir model akış şemaları oluşturmak için kullanılır.
Piyasada birçok araç olmasına rağmen, R en yaygın kullanılan araçtır. Artık verilerinizin doğasına ilişkin içgörülere sahip olduğunuza ve kullanılacak algoritmalara karar verdiğinize göre. Bir sonraki aşamada algoritmayı uygulayacak ve bir model oluşturacaksınız.
4. Model Building-(Model oluşturma):
Bu aşamada, eğitim ve test amaçlı veri kümeleri geliştireceksiniz. Buradamevcut araçlarınızın modelleri çalıştırmak için yeterli olup olmayacağını veya daha sağlam bir ortama (hızlı ve paralel işleme gibi) ihtiyaç duyacağını düşünmeniz gerekir. Modeli oluşturmak için sınıflandırma, ilişkilendirme ve kümeleme gibi çeşitli öğrenme tekniklerini analiz edeceksiniz.
5. Operationalize-(Çalıştırın):
Bu aşamada nihai raporları, brifingleri, kodları ve teknik belgeleri sunarsınız. Ayrıca, bazen gerçek zamanlı bir üretim ortamında bir pilot proje de uygulanmaktadır. Bu, tam dağıtımdan önce küçük ölçekte performansın ve diğer ilgili kısıtlamaların net bir resmini sağlayacaktır.
6. Commicate Results-(Sonuçları iletin):
Son olarak, ilk aşamada planladığınız hedefinize ulaşıp ulaşamadığınızı değerlendirmek önemlidir. Böylece, son aşamada, tüm önemli bulguları belirler, paydaşlarla iletişim kurar ve sonuçların ortaya çıkıp çıkmayacağını belirlersiniz. Aşama 1’de geliştirilen kriterlere göre projenin başarılı veya başarısız olması tüm sürecin en baştan incelenmesine sebep olabilir.
VERİ BİLİMİ UYGULAMALARI
- Görüntü tanıma ve konuşma tanıma:
Veri bilimi şu anda en yaygın olarak görüntü ve konuşma tanıma için kullanılıyor. Facebook’a bir resim yüklediğinizde ve arkadaşlarınıza etiketleme önerisi almaya başladığınızda. Bu otomatik etiketleme önerisi, veri biliminin bir parçası olan görüntü tanıma algoritmasını kullanır.
“Ok Google, Siri, Cortana” vb. kullanarak bir şey söylediğinizde ve bu cihazlar ses kontrolüne göre yanıt veriyor, bu da konuşma tanıma algoritması ile mümkün. - İnternet araması: İnternette:
Bir şey aramak istediğimizde, Google, Yahoo, Bing, Ask vb. gibi farklı arama motorlarını kullanırız. Tüm bu arama motorları, arama deneyimini daha iyi hale getirmek için veri bilimi teknolojisini kullanır, ve saniyeler içinde bir arama sonucu alabilirsiniz. - Ulaşım:
Kendi kendini süren arabalar oluşturmak için veri bilimi teknolojisini kullanan ulaşım endüstrileri. Kendi kendini süren arabalarla, trafik kazalarının sayısını azaltmak kolay olacak. - Sağlık:
Sağlık sektöründe veri bilimi birçok fayda sağlıyor. Veri bilimi, tümör tespiti, ilaç keşfi, tıbbi görüntü analizi, sanal tıbbi botlar vb. için kullanılıyor. - Öneri sistemleri:
Amazon, Netflix, Google Play vb. şirketlerin çoğu, kişiselleştirilmiş önerilerle daha iyi bir kullanıcı deneyimi sağlamak için veri bilimi teknolojisini kullanıyor. Örneğin, Amazon’da bir şey aradığınızda ve benzer ürünler için öneriler almaya başladığınızda, bunun nedeni veri bilimi teknolojisidir. - Risk tespiti:
Finans sektörlerinde her zaman bir dolandırıcılık ve kayıp riski vardı, ancak veri biliminin yardımıyla bu durum kurtarılabilir. Finans şirketlerinin çoğu, müşteri memnuniyetinin artmasıyla risk ve her türlü kayıptan kaçınmak için veri bilimcisi arıyor.



