Kazakistan, Aralık Ayında İlk Kazak Büyük Dil Modelini Başlatacak
Aktau—Yapay Zeka ve Yapay Zeka Enstitüsü (ISSAI), 16 Aralık’ta Kazakistan’ın bağımsızlık yıl dönümü olan otuz üçüncü yılında ilk Kazak büyük dil modelini (LLM) başlatmaya hazırlanıyor. NU’da 18 Temmuz’da yapılan bir brifingde bildirildiği gibi.
Üniversitenin basın servisine göre ISSAI, Mart ayında veri toplamaya başladı ve şu anda modeli NVIDIA H100 düğümlerinin küçük bir sayısıyla bir bulut bilişim platformunda eğitiyor.
ISSAI’nin kurucusu ve başkanı Profesör Atakan Varol, proje kapsamında NU ve diğer üniversitelerden öğrencilerin, Astana IT Üniversitesi, Bolashak bursu mezunlarının ve yerel halkın yer aldığına dikkat çekti.
“Bu proje sonunda KazLLM’yi oluşturacağız, ancak en önemli başarı, son teknolojik üretken AI araç ve ürünler üretebilecek bir çalışan gücünün oluşturulması olacak. Bu özel teknolojide diğer ülkelerden çok geride değiliz. KazLLM ve modellerini tamamladıktan sonra onlardan 18 ay geride olacağız. Ses entegrasyonu, bu farkı 12 aya düşürecek, dil görüş modelleri oluşturularak bizi sınıfın önüne geçirecek ve diğer ülkelerin yaptıklarını yapacağız. Önemli olan, bunu Kazakistan halkı için Kazak dilinde yapmamızdır,” dedi.
Proje, Vikipedi, haber kaynakları, hükümet web siteleri ve Common Crawl gibi açık veri setleri de dahil olmak üzere çeşitli makalelerden verileri kaynak olarak kullanmaktadır. Son beş yılda ISSAI, özellikle Kazak diline özgü doğal dil işleme veri kümeleri geliştirmiştir. Proje, yabancı ürünlere bağımlılığın veri sızıntısına ve çarpıtılmış bilgilerin sunulmasına yol açabileceği ulusal ve bilgi güvenliği sorunlarını ele almaktadır.
Dış İlişkiler ve Baş Veri Bilimci Yardımcısı Madina Abdrakhmanova, modelin eğitim korpusunun en az 100 milyar token içereceğini ve her dilin 25 milyar token ile temsil edileceğini ekledi.
“Şu anda 30 milyardan fazla tokenimiz var. Bir token, bir veri değerleme birimidir, bir kelime veya bir kelimenin bir parçası. İngilizceden Kazakçaya veri çevirmek için Tilmash çevirmenini kullanarak 26 milyar token oluşturuldu. Modelimiz şimdi okuryazar Kazakça çıktı verebilir. Ayrıca, OpenAI’in yaptığı gibi kullanıcılar için etkileşimli bir arayüz oluşturacağız,” dedi.
ISSAI, genel kullanıcılar için bir abonelik hizmeti ve gelişmiş kullanıcılar için özel bir uygulama programlama arayüzü (API) sunmayı planlıyor. Bu, modellerin web sitelerine, akıllı telefon uygulamalarına, program kodlarına ve PC uygulamalarına sorunsuz entegrasyonunu sağlayacak. Platform, model etkileşimi, insan geri bildirimi üzerine dayalı takviye öğrenme ve farklı senaryolarda optimal performans için ayarlama desteği sağlayacaktır.