Saya melihat perkembangan yang cukup menarik. Sepertinya Moondream meluncurkan layanan baru bernama "Lens" yang khusus meningkatkan akurasi model bahasa visual. Ini terjadi minggu lalu, pada 21 April.



Sampai sekarang, VLM (Model Bahasa Visual) sangat bagus di laboratorium, tetapi ketika dibawa ke dunia nyata, akurasinya turun drastis. Lens adalah layanan fine-tuning untuk memperbaiki hal tersebut, mendukung pembelajaran penguatan dan fine-tuning berbasis pengawasan. Karena berbasis API berbayar sesuai penggunaan, bisa digunakan sesuai kebutuhan.

Yang luar biasa adalah, perbaikan besar dapat dicapai dengan data yang sedikit. Sebagai contoh, ketika digunakan untuk analisis video siaran langsung NBA, skor F1 meningkat dari 28% menjadi 79%. Deteksi salah juga berkurang secara signifikan.

Dikatakan bahwa bahkan untuk tugas mengenali negara dari gambar Street View dan pengolahan gambar medis, performanya melebihi model yang ada. Rasanya, langkah menuju penerapan praktis model bahasa visual semakin maju.

PTZOptics, mitra awal Moondream, berencana mengintegrasikan Lens untuk meningkatkan akurasi pelacakan target dan deteksi anomali. Sebelumnya, Moondream juga merilis mesin inferensi Photon, tetapi Lens melengkapi itu, mendukung kecepatan dan akurasi dalam pengoperasian VLM.

Mengatasi tantangan aplikasi dunia nyata dengan teknologi. Perbaikan yang tekun seperti ini akan mendorong adopsi luas VLM.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan