Google I/O etkinliğinde yapay zeka tarihi baştan yazıldı! Gemini 1.5 Flash, Project Astra ve dahası

Google, I/O 2024 etkinliğinde yapay zeka alanında önemli gelişmelere imza attı. Şirket, Gemini model ailesinde yeni özellikler, daha hızlı ve verimli modeller, üretken medya araçları, yenilikçi arama deneyimleri ve Google Cloud TPU’nun 6. nesli Trillium ile yapay zekanın geleceğini şekillendiriyor.

Gemini artık daha hızlı ve daha akıllı!

Google DeepMind CEO’su Demis Hassabis, Gemini model ailesindeki güncellemeleri duyurdu. Aralık ayında piyasaya sürülen ve üç farklı boyutta (Ultra, Pro, Nano) sunulan ilk yerel multimodal model Gemini 1.0, kısa süre sonra gelişmiş performans ve 1 milyon tokenlik bir bağlam penceresiyle 1.5 Pro sürümüne kavuşmuştu.

- Advertisement -

Geliştiriciler ve kurumsal müşteriler de 1.5 Pro’nun uzun bağlam penceresini, multimodal akıl yürütme yeteneklerini ve etkileyici genel performansını oldukça faydalı buldu. Bazı uygulamaların daha düşük gecikme süresi ve daha düşük hizmet maliyeti gerektirdiği kullanıcı geri bildirimleri doğrultusunda Google, Gemini ailesine yeni bir üye ekledi: 1.5 Flash.

Gemini 1.5 Flash

Hız ve verimlilik için optimize edilmiş bu hafif model, yüksek hacimli, yüksek frekanslı görevler için ideal ve uygun maliyetli. 1 milyon token’lık genişletilmiş bağlam penceresi sunan 1.5 Flash, özetleme, sohbet uygulamaları, görüntü ve video altyazılama, uzun belgelerden ve tablolardan veri çıkarma gibi görevlerde üstün performans gösteriyor. Daha büyük 1.5 Pro modeli tarafından “damıtma” yöntemiyle eğitilen 1.5 Flash, temel bilgi ve becerileri daha küçük ve verimli bir modele aktarıyor.

Gemini 1.5 Pro

Google, genel performans için en iyi model olan 1.5 Pro’yu da önemli ölçüde geliştirdi. Bağlam penceresi 2 milyon token’a genişletildi. Veri ve algoritmik iyileştirmelerle kod oluşturma, mantıksal akıl yürütme ve planlama, çok turlu konuşma ve ses ve görüntü anlama özellikleri geliştirildi.

1.5 Pro artık rol, format ve stil gibi ürün düzeyinde davranış belirleyicileri de dahil olmak üzere giderek daha karmaşık ve incelikli talimatları takip edebiliyor. Sohbet uygulamasının kişiliğini ve yanıt stilini oluşturma veya birden fazla işlev çağrısı yoluyla iş akışlarını otomatikleştirme gibi belirli kullanım durumları için modelin yanıtları üzerindeki kontrol geliştirildi. Kullanıcıların Sistem talimatlarını ayarlayarak model davranışını yönlendirmesi sağlandı.

Gemini Nano

Sadece metin girdilerinin ötesine geçen Gemini Nano, artık görüntüleri de ağ olarak işleyebiliyor. Pixel telefonlarla başlayarak, Gemini Nano’yu Multimodality ile kullanan uygulamalar, dünyayı insanların yaptığı gibi anlayabilecek. Sadece metin girişi ile değil, aynı zamanda ses ve konuşma dili ile de bunu sağlayacak.

Yapay zeka asistanlarının geleceği: Project Astra

Google DeepMind, insanlığa fayda sağlamak için sorumlu bir şekilde yapay zeka geliştirme misyonunun bir parçası olarak, günlük yaşamda yardımcı olabilecek evrensel yapay zeka aracıları geliştirme hedefiyle Project Astra’yı duyurdu. Astra, insanların karmaşık dünyayı anlaması ve tepki vermesi gibi bağlamı anlayıp harekete geçebilen yapay zeka aracıları geliştirmeyi hedefliyor.

Bu aracılar, proaktif, ulaşılabilir ve kişiselleştirilmiş asistanlar olarak hizmet verecek. Kullanıcılar, bu aracılarla doğal bir şekilde ve gecikme olmadan konuşabilecek. Astra, video ve konuşma girdisini işleyip hatırlayabilecek şekilde tasarlandı. Bu aracılar, Gemini modeli ve diğer göreve özel modeller üzerine inşa edilmiş olup, video karelerini sürekli olarak kodlayarak, video ve konuşma girdisini bir olay zaman çizelgesi halinde birleştirerek ve bu bilgileri verimli bir şekilde geri çağırmak için önbelleğe alarak bilgileri daha hızlı işliyor. Astra’nın bazı özellikleri bu yıl içinde Gemini uygulaması gibi Google ürünlerine entegre edilecek.

Yeni üretken medya modelleri ve araçları

Google, yaratıcı çalışmalar için yeni üretken medya modelleri ve araçları da tanıttı:

Veo

Google’ın bugüne kadarki en yetenekli video oluşturma modeli olan Veo, bir dakikayı aşabilen, yüksek kaliteli 1080p videolar oluşturabiliyor. Çeşitli sinematik ve görsel stilleri destekleyen Veo, doğal dili ve görsel anlambilimi anlayarak kullanıcının yaratıcı vizyonunu yansıtan videolar oluşturabiliyor. Model ayrıca “timelapse” veya “bir manzaranın havadan çekimi” gibi sinematik terimleri anlayarak benzeri görülmemiş düzeyde yaratıcı kontrol sağlıyor.

Tutarlı ve bütünlüklü çekimler oluşturuyor; insanlar, hayvanlar ve nesneler çekimler boyunca gerçekçi bir şekilde hareket ediyor. Google, Veo’nun hikaye anlatıcısının yaratıcı sürecini en iyi nasıl destekleyebileceğini keşfetmek için bir dizi film yapımcısını ve içerik oluşturucuyu modeli denemeye davet ediyor.

Imagen 3

Google’ın en yüksek kaliteli metinden görüntüye modeli olan Imagen 3, inanılmaz düzeyde ayrıntılı ve fotogerçekçi görüntüler üretebiliyor. Doğal dili anlayarak kullanıcı komutlarını daha iyi yorumlayan Imagen 3, uzun komutlardan küçük ayrıntıları dahil edebiliyor ve bir görüntü içinde metin oluşturabiliyor.

Music AI Sandbox

Müzisyenlerin sıfırdan yeni enstrümantal parçalar oluşturmasını, sesi dönüştürmesini ve yaratıcı çalışmalarını destekleyen bir araç seti olan Music AI Sandbox, yaratıcılık için yeni bir oyun alanı açmayı hedefliyor.

Yapay zeka geliştirmeleri

Google, yalnızca teknolojinin ilerletilmesi değil, aynı zamanda bu ilerlemenin sorumlu bir şekilde yapılması konusuna da önem veriyor. Bu nedenle, üretken teknolojilerin ortaya çıkardığı zorlukları ele almak ve insanların yapay zeka tarafından üretilen içerikle sorumlu bir şekilde çalışmasına yardımcı olmak için önlemler alınıyor.

Bu önlemler arasında yaratıcı topluluk ve diğer paydaşlarla işbirliği yapmak, teknolojilerin güvenli ve sorumlu bir şekilde geliştirilmesi ve dağıtımı için içgörüler toplamak, geri bildirimleri dinlemek ve içerik oluşturuculara söz hakkı vermek yer alıyor. Google, yapay zeka teknolojilerinin insanlığa fayda sağlamak için kullanılması gerektiğine inanıyor ve bu teknolojilerin etik, sorumlu ve adil bir şekilde geliştirilmesini sağlamak için çalışıyor.