
OpenAI yeni ses modelleriyle çıtayı yükseltti: Konuşurken farklı işler de yapabiliyor
Erdem Çınar ? Editör Hakkında Diğer Haberleri 81 Takipçi Erdem Çınar Film ve Dizi Editörü Sıkı bir beyaz perde takipçisi olan Erdem, DonanımHaber'de sinema ve dizi sektörüne dair haberleri kaleme alıyor. Sinemada bu...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Yapay zeka alanında çarpıcı bir gelişme haberi geldi. Editör Hakkında Diğer Haberleri 81 Takipçi Erdem Çınar Film ve Dizi Editörü Sıkı bir beyaz perde takipçisi olan Erdem, DonanımHaber'de sinema ve dizi sektörüne dair haberleri kaleme alıyor. Sinemada bu hafta (8 Mayıs 2026) 4 sa. Körlere takılan beyin implantı, doğrudan beyne sinyal yolluyor 7 sa.
Çin, EV yarışını kazandı; Sırada insansı robotlar var 1 gün Tümünü Göster Film ve Dizi Editörü İlk etapta daha çok yazılı komutlar üzerinden çalışan ChatGPT, Gemini ve Claude gibi büyük dil modelleri, yavaş yavaş kullanıcılarla gerçek zamanlı olarak konuşabilen sistemlere dönüşüyor. Özellikle son iki yılda gelişen “sesli AI” teknolojileri sayesinde yapay zekâlar yalnızca sesli komutları algılayan basit asistanlar olmaktan çıkıp, konuşmayı anlayan, bağlamı takip eden, görev gerçekleştirebilen ve kullanıcıyla doğal diyalog kurabilen sistemler hâline gelmeye başladı. OpenAI’ın bu hafta tanıttığı yeni nesil ses modelleri de bu dönüşümün en dikkat çekici örneklerinden biri olarak öne çıkıyor.
Teknolojik Detaylar
OpenAI tarafından API üzerinden geliştiricilere sunulan GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper isimli üç yeni model, şirketin gerçek zamanlı sesli yapay zekâ alanındaki en iddialı adımı olarak görülüyor. Şirketin açıklamasına göre bu modeller, kullanıcıların araç kullanırken, havaalanında yol bulmaya çalışırken ya da müşteri hizmetleriyle görüşürken klavye kullanmadan yapay zekâyla doğal biçimde iletişim kurabilmesini hedefliyor. GPT-Realtime-2, Konuşma Sırasında Görevleri Yerine Getirebiliyor Buradaki en dikkat çekici modeli GPT-Realtime-2.
Şirketin “GPT-5 seviyesinde akıl yürütme kabiliyetine sahip ilk ses modeli” olarak tanımladığı bu sistem, uzun ve karmaşık konuşmaları takip edebiliyor; kullanıcı konuşurken araya girilse bile diyaloğu doğal biçimde sürdürebiliyor. OpenAI’ın özellikle vurguladığı noktalardan biri de modelin artık yalnızca konuşmakla kalmayıp konuşma sırasında aktif olarak görev gerçekleştirebilmesi. Geliştiriciler bu modele takvim, arama motoru ya da şirket içi sistemler gibi araçlara erişim verebiliyor.
Model de bu işlemleri gerçekleştirirken kullanıcıya “takviminizi kontrol ediyorum” ya da “bunu şimdi araştırıyorum” gibi doğal geri bildirimler sunabiliyor. Yeni modelin teknik tarafında da önemli geliştirmeler bulunuyor. OpenAI, sesli modelinin bağlam penceresini 32K’dan 128K’ya çıkardı.
Sektörel Yansımalar
Bu da modelin çok daha uzun konuşmaları takip edebilmesini ve önceki diyalogları unutmadan daha karmaşık görevleri yerine getirebilmesini sağlıyor. Özellikle müşteri hizmetleri ya da uzun süreli destek görüşmeleri gibi kullanım senaryolarında bu kapasite artışı oldukça önemli görülüyor. Şirket ayrıca modelin başarısız işlemlerden daha iyi toparlanabildiğini ve sağlık sektörü gibi alanlarda kullanılan teknik terminolojileri daha doğru anlayabildiğini söylüyor.
OpenAI tarafından paylaşılan performans testleri de yeni modelin sesli etkileşimlerde belirgin bir gelişim sunduğunu gösteriyor.
Bu haber, yapay zeka alanındaki rekabeti daha da kızıştıracak nitelikte. Sektör uzmanları, gelişmenin uzun vadeli etkilerini değerlendiriyor.





