Zıplanacak içerik

Featured Replies

Gönderi tarihi:
  • Admin

Google'ın yapay zekasının (Gemini) artık kulakları da var

gemini.jpg

Yapay zeka sohbet robotları halihazırda dünyayı görüntüler ve videolar aracılığıyla "görme" yeteneğine sahip. Ancak şimdi Google, Gemini Pro'ya yönelik en son güncellemesinin bir parçası olarak ses-konuşma işlevlerini duyurdu. Gemini 1.5 Pro'da chatbot artık sistemine yüklenen ses dosyalarını "duyabiliyor" ve ardından metin bilgilerini çıkarabiliyor.

Şirket, bu Yüksek Lisans sürümünü Vertex AI geliştirme platformunda halka açık bir önizleme olarak kullanıma sundu. Bu, daha kurumsal odaklı kullanıcıların özelliği denemelerine ve modelin ilk duyurulduğu Şubat ayında daha özel bir kullanıma sunulmasının ardından tabanını genişletmesine olanak tanıyacak. Bu başlangıçta yalnızca sınırlı sayıda geliştirici ve kurumsal müşteriye sunuldu.

Google, güncellemeyle ilgili ayrıntıları şu anda Las Vegas'ta düzenlenen Cloud Next konferansında paylaştı. Gemini Advanced chatbot'una güç veren Gemini Ultra LLM'yi Gemini ailesinin en güçlü modeli olarak adlandıran Google, şimdi de Gemini 1.5 Pro'yu en yetenekli üretken modeli olarak adlandırıyor. Şirket, bu sürümün, modelde ek değişiklik yapılmadan öğrenmenin daha iyi olduğunu ekledi.

Gemini 1.5 Pro, TV şovları, filmler, radyo yayınları ve konferans görüşmesi kayıtları dahil olmak üzere farklı ses türlerini metne dönüştürebilmesi açısından çok modludur. Sesi birkaç farklı dilde işleyebildiği için çok dillidir. Yüksek Lisans aynı zamanda videolardan transkriptler de oluşturabilir; ancak TechCrunch'ta belirtildiği gibi kalitesi güvenilmez olabilir.

Google, ilk duyurulduğunda Gemini 1.5 Pro'nun ham verileri işlemek için bir token sistemi kullandığını açıklamıştı. Bir milyon jeton yaklaşık 700.000 kelimeye veya 30.000 satır koda eşittir. Medya biçiminde bu, bir saatlik videoya veya yaklaşık 11 saatlik sese eşittir.

Gemini 1.5 Pro'nun, LLM'nin bir video transkriptindeki belirli anları nasıl bulabildiğini gösteren bazı özel önizleme demoları mevcut. Örneğin, AI meraklısı Rowan Cheung erken erişime sahip oldu ve demosunun bir spor yarışmasında tam bir aksiyon çekimini nasıl bulduğunu ve yukarıda gömülü tweet'te görüldüğü gibi olayı nasıl özetlediğini ayrıntılarıyla anlattı.

Ancak Google, United Toptan Mortgage, TBS ve Replit dahil olmak üzere diğer erken benimseyenlerin ipotek sigortacılığı, otomatik meta veri etiketleme ve kod oluşturma, açıklama ve güncelleme gibi daha kurumsal odaklı kullanım örneklerini tercih ettiklerini belirtti.

Kaynak: Digital Trends

Katılın Görüşlerinizi Paylaşın

Hemen ileti gönderebilir ve devamında kayıt olabilirsiniz. Hesabınız varsa, hesabınızla gönderi paylaşmak için ŞİMDİ OTURUM AÇIN.
Eğer üye değilseniz hemen KAYIT OLUN.
Not: İletiniz gönderilmeden önce bir Moderatör kontrolünden geçirilecektir.

Misafir
Maalesef göndermek istediğiniz içerik izin vermediğimiz terimler içeriyor. Aşağıda belirginleştirdiğimiz terimleri lütfen tekrar düzenleyerek gönderiniz.
Bu başlığa cevap yaz

Önemli Bilgiler

Bu siteyi kullanmaya başladığınız anda kuralları kabul ediyorsunuz Kullanım Koşulu.