Light

nanelimon-organization / introduce Goto Github PK

View Code? Open in Web Editor NEW

23.0 2.0 0.0 1.74 MB

Bu repo, Nane&Limon takımımızın #acikhack2023tddi yarışması için gerçekleştirdiği faaliyetlerin ayrıntılarını paylaşmak amacıyla oluşturulmuştur. Introduce bölümünde, yürütülen çalışmaların ilişkili olduğu yol haritası bilgileri yer almaktadır.

License: Apache License 2.0

acikhack2023tddi acikhack2023

introduce's Introduction

Nane&Limon 🐍 Teknofest 2023 TDDİ | Introduce

Kullanılan model, huggingface üzerinden paylaşılmıştır. Modelin huggingface adresi, buradan erişilebilir.
Kullanılan veri kümesi, huggingface üzerinden paylaşılmıştır. Veri kümesinin huggingface adresi, buradan erişilebilir.

No	Aşamalar	Açıklama
1	Exploratory Data Analysis	Bu aşamada, veri seti analiz edilerek, veri seti hakkında önemli bilgiler elde edilmiştir. Bu bilgiler ışığında belirli iç görüler doğrultusunda veri ön işleme adımında gerekli reaksiyonlar alınmıştır. Ayrıca, veri setinde bulunan özellikler (features) kullanılarak Google Data Studio aracılığıyla bir dashboard raporu hazırlanmıştır.
2	Model Baseline	Model Baseline, veri setinin temel özelliklerine göre oluşturulan ve kullanılan ilk modeldir. Bu model, daha sonra geliştirilen diğer modellerin performanslarının ölçülmesi ve karşılaştırılması için referans olarak kullanılmıştır. Model Baseline üzerinde yapılan deneylerde, veri seti üzerindeki temel özelliklerin ve veri ön işleme adımlarının etkileri incelenmiştir. Bu çalışmalar sonucunda, en iyi performans elde edebilmek için veri ön işleme adımlarının belirli bir sırayla uygulanması ve belirli parametre değerlerinin seçilmesi gerektiği belirlenmiştir. Model Baseline, diğer modellerin geliştirilmesi sürecinde bir referans noktası olarak kullanılarak, çalışmanın başarısına önemli katkılar sağlamıştır.
3	Mintlemon Turkish NLP	Mintlemon Turkish NLP Kütüphanesi, henüz geliştirme aşamasında olan bir kütüphanedir. Bu kütüphane, yarışma kapsamında veri ön işleme adımlarının gerçekleştirilmesi için kullanılmıştır. Veri ön işleme aşamasında Normalizer modülü, mintlemon-turkish-nlp kütüphanesine eklenmiştir. Normalizer modülü, Türkçe metinlerdeki yazım hatalarını düzeltmek ve metinleri belirli bir formata getirmek için kullanılmıştır. Böylece, veri seti daha homojen ve işlenebilir bir hale getirilmiştir. Yarışmanın ardından da kütüphaneye katkı sağlamaya devam edeceğiz ve open-source olarak herkesin kullanımına açık bir kaynak haline getireceğiz. Bu sayede, geliştirmiş olduğumuz kütüphane, insanlar tarafından kullanılarak Türkçe doğal dil işleme alanında daha fazla gelişme kaydedebilecek. Amacımız, Türkçe doğal dil işleme alanına değerli bir kazanım sağlamak ve bu alanda çalışan herkesin işini kolaylaştırmak. Mint & Lemon Turkish NLP Kütüphanenin dökümantasyonuna ulaşmak için tıklayınız.
4	Preprocessing Micro Service	Preprocessing Micro Service, parametrik hale getirilen bir FastAPI servisi olarak geliştirilmiştir ve Mintlemon Turkish NLP kütüphanesi kullanılarak Türkçe metinlerin çeşitli veri ön işleme adımlarından geçirilmesini sağlar. Bu araç, sayısal metinlerin normalleştirilmesi, noktalama işaretlerinin kaldırılması, Türkçe karakterlerin normalleştirilmesi, karakterlerin küçük harfe çevrilmesi ve kısa metinlerin kaldırılması gibi çeşitli veri ön işleme adımlarını içerir. Ayrıca, veri ön işleme adımları, kullanıcıların tercihlerine göre özelleştirilebilir ve Türkçe metinlerin özelliklerine uygun bir şekilde işlenmesi sağlanır. Bu sayede, FastAPI servisi olarak geliştirilen Preprocessing Micro Service, Türkçe doğal dil işleme alanında verimli bir veri ön işleme aracı sunarak, Türkçe metinlerin daha etkili bir şekilde işlenebilmesine katkı sağlamayı hedefler.
5	Preprocessing Micro Service ~ Params Tuning	Preprocessing Micro Service, parametrik yapısı kullanılarak, yarışma kapsamında paylaşılan veri kümesi üzerinde, baseline bir modelin hangi veri ön işleme adımları kullanıldığında daha iyi sonuçlar elde edildiği ile ilgili bir çalışma yürütülmüştür. Çalışma kapsamında, elde edilen sonuçlar doğrultusunda, veri kümesine ve modelin hedeflerine uygun en iyi veri ön işleme adımları seçilmiştir. Bu sayede, daha verimli ve doğru sonuçlar elde etmek mümkün olmaktadır.
6	SHAP Analysis	Bu çalışmada Shap Analizi yöntemi kullanılarak modelin sınıflandırma performansı incelenmiştir. Analiz sonucunda paylaşılan veri setinin ekstra veriler ile desteklenmesi sonucunda model perfomransının artacağı belirlenmiştir. Bu sayede modelin daha doğru tahminler yapabilmesi hedeflenmektedir.
7	Veri Setini Güçlendirmek	Veri setini güçlendirme aşamasında, mevcut veri setine ekstra metin verileri eklenmiştir bu veriler 2022 Teknofest sürecinde takımımız Nane&Limon tarafından hazırlanıp public paylaşılmış olan turkish-social-media-bullying-dataset. Bu işlem sonucunda, 12438 adet veriye ek shap analizi göz önünde bulundurularak 2578 adet yeni veri eklenmiştir. Bu sayede, veri seti daha zengin hale getirilmiş ve modelin öğrenme sürecine daha fazla veri eklenmiştir. Fakat eklenen verilerin modelin başarısını olumlu etkilemesi beklenirken model başarısını daha da düşürdüğü gözlemlenmiştir. Bunun nedeninin veri setinde yer alan çok sayıda yanlı veri olduğu düşünülmek ile birlikte test edilecek verinin yaklaşımı bilinmediği için ekleme yapılan veriseti yerine yarışmada paylaşılmış olan veri seti modelde kullanılmıştır.
8	Multilabel Model	Multilabel Model Aşaması, daha önceki aşamalarda kullanılan modellerin geliştirilmesi ve iyileştirilmesi için gerçekleştirilmiştir. Bu çalışmanın başarı oranını artırmıştır ve tam olarak %97 F-1 Macro Oranı yakalanmıştır. Bu başarı veriler üzerinde daha doğru sonuçlar elde edilmesini sağlamaktadır. Ayrıca, modelin daha önceki aşamalara göre daha doğru sonuçlar vermesi, çalışmanın genel başarı oranını artırmıştır.
9	TDDI Model Service	TDDI Model Service, modelin deployment (dağıtım) işlemleri için oluşturulmuş bir FastAPI servisidir. Bu servis, oluşturulan modelin deploy edilmesiyle birlikte, modeli kullanarak tahmin yapabilme imkanı sağlar. Yani, bu servis üzerinden gelen istekler doğrultusunda, modelin tahmin yeteneği etkinleştirilerek, belirtilen girdilerle ilgili tahminler üretilir.
10	Social Content Analysis Application	Sosyal medya içerik analizi uygulaması , sosyal medya platformlarında paylaşılan içeriklerin analiz edilmesini sağlayan bir araçtır. Bu uygulama, belirli anahtar kelimeleri, hashtagleri ve marka isimlerini takip ederek, sosyal medya hesaplarına yapılan tüm paylaşımları izleyebilir ve analiz edebilir. Bu uygulamanın firmalar için önemi oldukça büyüktür örneğin firmalar, markaları hakkında sosyal medyada ne kadar bahsedildiğini, hangi konularda en çok konuşulduklarını, hangi kullanıcıların markalarıyla ilgilendiğini, ne tür bir etkileşim aldıklarını ve hangi kampanyaların en başarılı olduğunu öğrenebilirler. Bu bilgiler, firmaların pazarlama stratejilerini oluştururken ve mevcut stratejilerini geliştirirken yol gösterici olabilir. Firmalar ayrıca, sosyal medya içerik analizi uygulamaları ile rakiplerini de takip edebilirler. Bu sayede rakiplerinin ne tür kampanyalar yürüttüklerini, nasıl bir etkileşim aldıklarını ve hangi konularda daha başarılı olduklarını öğrenerek, kendi pazarlama stratejilerini rakiplerine göre ayarlayabilirler. Bu proje kapsamında yukarıdaki bütün adımlardan yararlanılarak ortaya bir ürün çıkarılmıştır. Verilerin toplaması için bir hastag takip job'ı yazılmıştır. Buradan Twitter Hashtag Following Stream Job Çalışmasına ulaşabilirsiniz.

introduce's People

Contributors

Stargazers

Watchers

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.