BİZE ULAŞIN

Açık kaynak görsel modeller Holo1.5 ile güçleniyor

acik-kaynak-gorsel-modeller-holo15-gucleniyor

Açık kaynak görsel modeller Holo1.5 ile güçleniyor

Açık kaynak görsel modeller alanında yeni bir seçenek ortaya çıktı. H Company, gerçek kullanıcı arayüzlerinde ekran görüntüsü ve fare klavye etkileşimleriyle çalışan bilgisayar kullanımı odaklı ajanlar için Holo1.5 serisini tanıttı. Bu sürüm, UI öğe konumlandırma ve UI VQA yeteneklerinde ölçülen yaklaşık yüzde 10 doğruluk kazanımıyla öne çıkıyor.

Açık kaynak görsel modeller hangi sorunu çözüyor?

Modern otomasyon ve ajan tabanlı sistemler, gerçek uygulamaları insan gibi anlamalı ve tıklama koordinatlarını isabetle tahmin etmelidir. Açık kaynak vizyon modelleri bu ihtiyacı ekran görüntüsü düzeyinde karşılar. Böylece kural tabanlı kırılgan iş akışlarının yerini çevik ve öğrenen yapılar alır.

Koordinat tahmini, bir düğme, menü ya da giriş alanının piksel seviyesinde bulunmasıdır. Holo1.5, karmaşık UI düzenlerinde bile hedefi işaretleme ve tıklama yerini güvenle belirleme hedefiyle eğitilmiştir. Bu, otomasyon hatalarını ve tekrar denemeleri azaltır.

UI VQA, arayüzde neyin göründüğünü, o anki durumu ve bir sonraki adımı anlamayı kapsar. Doğru metin okuma, ikon anlamlandırma ve durum değişimlerini izleme gibi yetenekler, uzun görev zincirlerinde ajan kararlılığını artırır.

Holo1.5 ile ne değişti?

Yeni seri, 3B, 7B ve 72B seçenekleriyle geliyor ve Holo1 serisine göre boyutlar genelinde yaklaşık yüzde 10 doğruluk artışı raporlanıyor. Bu artış, hem UI öğe konumlandırmada hem de UI VQA görevlerinde gözleniyor. Özellikle üretimdeki ajan yığınlarında daha az hata ve daha stabil görev yürütme sağlanması beklenir.

  • Daha keskin UI öğe lokalizasyonu ve daha tutarlı koordinat tahmini.
  • UI VQA senaryolarında gürültüye ve tema değişimlerine karşı daha yüksek dayanıklılık.
  • Daha iyi bağlam kullanımı ve uzun görev akışlarında kararlılık.
  • Ekran görüntüsü odaklı çok modlu işleme için uyarlanmış mimari.

7B model Apache 2.0 lisansı ile geniş üretim kullanımına uygundur. 3B ve 72B modeller ise üst kaynaklarından devralınan araştırma amaçlı sınırlamalarla gelir. Kurumlar, lisans uyumluluğunu ve ticarileştirme gereksinimlerini göz önünde bulundurarak seçim yapmalıdır.

https://open.spotify.com/intl-tr/track/415XgJLSDHWCuMMsToH74m?si=b1e023a81e8b4ff3
https://open.spotify.com/intl-tr/track/415XgJLSDHWCuMMsToH74m?si=b1e023a81e8b4ff3

Hangi ekipler için doğru seçenek?

RPA ekipleri, QA otomasyonu yapan mühendisler, ürün içi yardımcı ajanları kurgulayan ekipler ve ajan platform geliştiricileri bu seriden değer sağlayabilir. Özellikle karmaşık kurumsal uygulamalarda, çok katmanlı UI yapılarında ve özelleştirilmiş tema ortamlarında performans kazanımı belirgindir.

7B modeli lisans esnekliği ve dengeli kaynak kullanımı ile üretime geçiş için iyi bir başlangıçtır. 3B, hafif deneyler ve uç cihaz prototipleri için düşünülebilir. 72B, araştırma ve üst düzey doğruluk gerektiren senaryolarda değerlendirilmelidir.

Açık kaynak görsel modeller ile entegrasyon nasıl yapılır?

Başarılı bir CU ajan yığını için veri akışı ve değerlendirme süreci baştan planlanmalıdır. Aşağıdaki adımlar, üretime geçişi hızlandırır ve riskleri azaltır.

  1. Ekran görüntüsü toplama ve etiketleme ile gerçek kullanım sahnelerini kapsamak.
  2. Koordinat yer doğruluğu ve başarı oranı gibi metriklerle kıyaslama yapmak.
  3. UI VQA senaryolarını görev zincirleri halinde simüle etmek.
  4. Gecikme, bellek ve donanım bütçesine göre model boyutu seçmek.
  5. Lisans ve güvenlik gereksinimlerine göre dağıtım biçimi belirlemek.

Önemli Üretim ortamında başarı, yalnızca model doğruluğuna değil, veri çeşitliliğine, sağlam kıyaslamaya ve iyi tasarlanmış hata geri kazanım stratejilerine bağlıdır.

UI öğe konumlandırma için piksel hatası ve tıklama isabet oranı, UI VQA için doğruluk ve görev tamamlama oranı izlenmelidir. Sentetik ve gerçek ekran görüntülerini birlikte kullanmak genelleme kabiliyetini güçlendirir.

ModelLisansKullanımRaporlanan KazanımOdak Yetkinlikler
3BAraştırma amaçlıHafif prototipler~%10 doğrulukLokalizasyon, temel UI VQA
7BApache 2.0Üretim ve pilot~%10 doğrulukLokalizasyon, UI VQA, denge
72BAraştırma amaçlıİleri seviye araştırma~%10 doğrulukÜst düzey anlama

 

Holo1.5 serisi, ekran görüntüsü odaklı otomasyon ve ajan mimarilerinde anlamlı bir adım sunuyor. Açık kaynak görsel modeller ile çalışan ekipler, lisans uygunluğu ve kaynak planlamasıyla birlikte bu kazanımları kısa sürede üretime taşıyabilir. Net metrikler ve kontrollü A B testleri ile getiriyi görünür kılmak en iyi yaklaşımdır.