Veri Bilimi Rolleri ve Kullanılan Araçlar
Merhabalar değerli SiberEgitmen okurları. Bu yazımda veri bilimine kaldığımız yerden devam edeceğim. Yazımda Veri Bilimi Rolleri ve Kullanılan Araçlar dan bahsedeceğim. Keyifli okumalar dilerim.
Veri Bilimi hakkında daha önce yazdığım yazılara aşağıdaki linklerden ulaşabilirsiniz.
Veri Bilimi Nedir? Neden Önemlidir?
Veri Bilimi Proje Aşamaları Nelerdir?
Veri Bilimi Rolleri
Veri Bilimcisi
Bir önceki yazımda bahsettiğim gibi; Veri Bilimcileri, büyük yapılandırılmış ve yapılandırılmamış veri kümelerini toplayan ve analiz eden büyük veri avcılarıdır.
Bir Veri Bilimcisinin rolü bilgisayar bilimi, istatistik ve matematiği birleştirir. Verileri analiz eder, işler ve modeller, ardından sonuçları yorumlar ve şirketler ve diğer kuruluşlar için eyleme geçirilebilir planlar oluştururlar.
Veri Bilimciler makine öğrenmesi, derin öğrenme ve istatistik gibi becerilere sahiptirler.
Python, R, Scala, Apache Spark, Hadoop gibi araçlar kullanmaktadırlar.
Veri Mühendisi
Veri bilimciler tarafından kullanılacak olan veri, büyük veri altyapısını hazırlayan veri uzmanlarıdır. Bu verileri çeşitli kaynaklardan toplayan, bir düzene sokan ve verileri yöneten yazılım mühendisleridir.
Veri Mühendisleri, veri bilimi proje aşaması olan veri toplama ve depolama kısmında çoğunlukla rol alırlar. Bu nedenle SQL konusunda çok iyidirler.
Java, Scala veya Python gibi programlama dillerinden birini kullanarak verileri işlerler. Büyük miktarlarda veri ile çalıştıkları için bulut bilişim konusunda iyi bir bilgiye sahip olamaları gerekir.
Veri akışı, programlama bilgileri bulunmaktadır. MySQL, DashDB, Cassandra, MongoDB gibi araçları kullanmaktadırlar.
Veri Analisti
Verileri derleyebilen, işleyebilen, veriler hakkında raporlar sunan, verileri özetleyen ve görselleştirebilen deneyimli veri uzmanlarıdır. Burada ki görevleri yerine getirebilmeleri için öncelikle veriler temizlenmelidir.
Analistler diğer veri bilimi rollerine göre daha az istatistik ve programlama dili bilgileri vardır. Veri hazırlama, keşif ve görselleştirme aşamalarında yer alırlar.
Analistler analiz etikleri verileri almak ve bir araya getirmek için SQL kullanırlar bunun yanında Python ve R gibi programlama dilleri de kullanabilirler.
İstatistik, veri akışı, veri görselleştirme, keşifsel veri analizi gibi bazı temel becerilerde bilgili olmaları beklenmektedir.
Microsoft Excel, SPSS, SPSS Modelleyici SQL, Microsoft Access, Tableau gibi araçları kullanmaktadırlar.
Makine Öğrenimi Mühendisi
Makine Öğrenimi Mühendisleri, tahmine dayalı modelleri otomatikleştirmek için kendi kendine çalışan yazılımları araştıran, oluşturan ve tasarlayan teknik açıdan yetkin programcılardır.
Bir ML Mühendisi, öğrenebilen ve sonunda tahminlerde bulunabilen algoritmalar oluşturmak ve geliştirmek için devasa veri kümelerinden yararlanan yapay zeka (AI) sistemleri oluşturur.
Makine öğrenimi sistemleri tasarlamak, Makine Öğrenimi Mühendisinin yüksek performanslı makine öğrenimi modellerinin geliştirilmesine yardımcı olmak için verileri değerlendirmesini, analiz etmesini ve düzenlemesini, testler yürütmesini ve öğrenme sürecini optimize etmesini gerektirir.
Yaratıcı problem çözme, istatistik, matematik gibi becerilere sahiptirler. C++, Java, Python ,R, Lisp ve Prolog gibi veri araçlarını kullanmaktadırlar.
Veri Biliminde Kullanılan Bazı Önemli Araçlar ve Programlama Dilleri
Python
Veri Bilimi, Yapay Zeka, Makine ve Derin Öğrenmede en çok kullanılan programlama dillerinden biridir. Söz diziminin kolay olması, veriyi hızla işleyebilecek kütüphanelere sahip olması ve büyük şirketler tarafından desteklendiği için veri bilimi alanında kullanılan ideal bir programlama dilidir.
Python programlama dilinden bahsettiğim yazıma buradan ulaşabilirsiniz.
R Programlama Dili
Veri bilimi alanında verileri analiz etmek için kullanılan önemli bir dil olan R programlama dili istatistiksel hesaplama ve çeşitli araştırmalarda verileri analiz etmek, temizlemek ve anlamlı bir hale getirmek için veri bilimciler , veri analistleri ve makine öğrenim mühendisleri tarafından kullanılır.
SQL
Structured Query Language(Yapılandırılmış Sorgu Dili) veri tabını kelimelerinin baş harflerinden oluşmaktadır. SQL veri tabanlarındaki birden fazla veriyi farklı şekillerde barındıran yönetim sistemine verilen isimdir.
Verileri yönetmek, tasarlamak ve analiz edilen verileri veri tabanından almak için kullanılan bir veri tabanı aracıdır. Normalde bir programlama dili değildir ama çoğu kişi programlama dili olarak bilmektedir.
Sadece veri tabanı üzerinde işlem yapar. Örneğim; veri tabanında bulunan tablolara bilgi çıkarma(delete), ekleme(insert), değiştirme(update) ve sorgulama gibi işlemler örnek verilebilir.
SQL hakkında daha fazla bilgiye buradan ulaşabilirsiniz.
Hadoop
Hadoop, büyük veri bileşenleri ile birlikte birden fazla mekanizmada eş zamanlı olarak işlem yapılmasına izin veren Java ile birlikte yazılmış açık kaynağa sahip olan bir kütüphanedir.
Büyük miktarda veri depolamak ve yönetmek için tasarlanmıştır. Hadoop’un serbest ve açık kaynak, kullanımı kolay, performansı vb. gibi birçok avantajı vardır.
Çeşitli yapılandırılmış ve yapılandırılmamış veri biçimlerini kullanabilir ve kullanıcılara ilişkisel veri tabanlarının ve veri depolarının sağladığından daha fazla veri toplama, işleme ve analiz etme kolaylığı sunar.
Veri Bilimi serisinin son yazısında Veri Bilimi Rolleri ve Kullanılan Araçlar dan bahsetmeye çalıştım. Keyifle araştırmasını yaptığım bir serisinin daha sonuna geldik. Ben araştırmaktan keyif aldım umarım size okumaktan keyif almışsınızdır. Bir sonraki yazımda görüşmek üzere sağlıkla kalın…
Siber Eğitmen Sosyal Medya Hesapları
Siber Eğitmen Osman GÜNEŞ