Hackathon Deneyimimiz: Bir Öz Değerlendirme

Emre Eren
3 min readSep 13, 2024

--

OpenAI DALL-E Tarafından Üretildi

TEKNOFEST T3 AI Hackathon’una FOXY SAPIENS takımı olarak üç arkadaş katıldık. Bu yazıda, hackathon sürecinde yaşadıklarımızı ve deneyimlerimizi paylaşmak istiyoruz. Amacımız, neleri iyi yaptığımızı, neleri geliştirebileceğimizi ve elimizde olmayan hangi problemlerle karşılaştığımızı değerlendirmek.

İyi Yaptığımız Şeyler

Zengin ve Kaliteli Veri Seti Hazırlığı

Yarışma öncesinde özellikle eğitim ve hukuk alanlarında kapsamlı veri setleri hazırladık. Bu sayede modelimiz bu alanlarda güçlü bir performans sergiledi ve beklentilerimizi karşıladı.

Eğitilen Modelin İyi Sonuç Vermesi

Eğittiğimiz model, inference aşamasında kısa, öz ve doğru sonuçlar sergileyerek performansını kanıtladı.

Farklı Parametreler Deneme

Benchmark’lar istediğimiz hızda sonuçlanmayınca, eğitim sürecini hızlandırıp rastgele atışlar yaptık. Farklı parametre grupları ve veri setleriyle testler yaparak çapraz doğrulama ile en optimal sonuçları bulmaya çalıştık.

Daha İyi Olabilecek Şeyler

Tarım ve Sürdürülebilirlik Alanında Veri Eksikliği

Eğitim ve hukuk alanlarında verilerimiz zengin olsa da, tarım ve sürdürülebilirlik kategorilerinde yeterli veri setine sahip değildik. Bu, modelimizin bu alanlarda zayıf kalmasına neden oldu.

Pipeline Hazırlığı

Pipeline’larımız hazır değildi ve süreçleri otomatize etmeye geç bir vakitte karar verdik. Bu durum, zaman yönetimimizi olumsuz etkiledi ve süreçleri daha karmaşık hale getirdi.

Veri Üzerinde Doğrulama Yapmama

Veri setimiz üzerinde validation yapmadık ve temel model üzerinde kendi benchmark’larımızı çalıştırmadık. Bu nedenle, sonuçlarla doğrudan bir korelasyon kuramadık ve hata ayıklama süreci zorlaştı.

Zaman Yönetimi ve Planlama

İlk yarıda rahat davrandık ve planladığımız şekilde ilerlemedik. Asıl planımız pretrain + SFT + DPO idi, ancak sadece SFT gerçekleştirebildik. Son yarıda function calling üzerine gitmedik, oysa ki bu oldukça basit bir adımdı ve projeye değer katabilirdi.

Benchmark Odaklı Model Geliştirme

Geç de olsa, genel olarak iyi bir model oluşturmaktan ziyade, yarışma benchmark’ına uygun bir model oluşturma hedefine yöneldik. Elimize geçen benchmark sonuçlarına göre değerlendirmeler yapıp veri setimizi buna göre ayarladık. Geç kalmış olsak da bu adım faydalı oldu. Daha erken fark edip buna göre hareket etseydik, çok daha iyi sonuçlar elde edebilirdik.

Elimizde Olmayan Problemler

Sentetik Veri Sayısının Azlığı ve Rate Limiting

Sentetik veri sayımız azdı ve veriyi OpenAI üzerinden aldığımız için rate limiting engeline takıldık. Bu, veri toplama ve dolayısıyla model eğitme süreçlerimizi yavaşlattı.

Benchmark Sonuçlarının Geç Gelmesi

Benchmark sonuçlarının uzun sürmesi nedeniyle kör atış yapmak zorunda kaldık. Bu da kaynaklarımızı verimli kullanmamızı engelledi.

Teknik Sıkıntılar

Daha önce multi-GPU ortamlarda model eğitmediğimiz için birkaç teknik sıkıntıyla karşılaştık. Bu, eğitim sürecimizi aksattı ve zaman kaybına yol açtı.

Kapanış

Süre kısıtlaması nedeniyle deneyemediğimiz birkaç tezimiz vardı. Bunlardan biri, metin uzunluğunun semantik benzerliği etkileyebileceği yönündeydi. Bu tezimizi test etmek için şu yöntemi kullandık:

  • 50 adet hukuk alanında veri çifti oluşturduk. Her çift, aynı anlamı taşıyan bir uzun ve bir kısa metinden oluşuyordu.
  • Bu veri çiftlerine Sentence-BERT (MiniLM L6 kullanarak ve cümle vektörlerinin ortalamalarını alarak gerçekleştirildi) ve OpenAI Embedding modellerini kullanarak iki farklı test uyguladık.
  • Her iki testte de kosinüs benzerliği yöntemini kullandık ve semantik benzerlik yüzdesi limitini %95 olarak belirledik. Yani bir veri çiftinin benzer sayılabilmesi için embed vektörleri arasındaki kosinüs benzerliğinin %95 üzerinde olması gerekir.

Sonuçlar

  • Sentence-BERT, 50 örnek çiftinden 0 tanesinin benzer olduğuna karar verdi. Evet 0.
  • OpenAI Embedding ise 50 örnek çiftinden 42 tanesinin benzer olduğuna karar verdi.

Bu sonuçlar, metin uzunluğunun semantik benzerlik ölçümlerini etkileyebileceğini gösteriyor

Çıkarımlarımız

Katılacağımız bir sonraki hackathon’da, benchmark pipeline’ı oluşturup veri ve model üzerinde belirli metrikleri ölçerek bir korelasyon oluşturma yoluna gideceğiz. Yarışma sonrası araştırmalarımızda, veri üzerinde perplexity, token dağılımı, veri uzunluğu, okunabilirlik gibi metrikleri uygulayabileceğimizi keşfettik ve bunları pipeline’ımıza ekleme kararı aldık.

Bu sayede, modelimizin performansını daha objektif kriterlerle değerlendirebilecek ve hangi tür veriyi verdiğimizde hangi iyileştirmeleri sağlıyoruz daha net belirleyebileceğiz.

Sonuç olarak, T3 AI Hackathon’u bizim için oldukça öğretici ve keyifli bir deneyim oldu. Elde ettiğimiz başarıların yanı sıra, geliştirmemiz gereken alanları da net bir şekilde gördük. Gelecek projeler ve hackathonlarımızda bu deneyimlerden faydalanarak daha iyi sonuçlar elde etmeyi hedefliyoruz.

FOXY SAPIENS Takımı — Fatih Said Duran, Hakan Kenar, Emre Eren

--

--

Emre Eren
Emre Eren

Written by Emre Eren

You see a developer on a learning journey.

No responses yet