マルチモーダルモデル

 ウェブサイトを投稿する

ジェマ3n
グーグルは、Gemma 3とGemma 3 QATをリリースし、包括的なAIのための足跡を拡大しようとしている。Gemma 3が開発者に強力なクラウドとデスクトップ機能をもたらしたとすれば、この2025年5月20日のリリースは...
468をとおして0表彰される
0ブックマークに登録
ベーグル
BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ（合計14Bのパラメータ）を持ち、Mixture-of-Tra...
847をとおして0表彰される
0ブックマークに登録
モシビス
MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル（7Bのパラメータ）をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー（4億個のパラメータ）により、...
916をとおして0表彰される
0ブックマークに登録
クウェン2.5-オムニ
Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、テキストや自然な音声による応答をリアルタイムで生成できる。このモデルは2025年3月26日にリリースされ、コードとモデルファイルはGitHでホストされている。
1.4 Kをとおして0表彰される
0ブックマークに登録
ステップ・オーディオ
Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ（例：中国語、英語、日本語）、感情音声（例：嬉しい、悲しい）、地域方言（例：広東語、四川語）、調整可能なスピーチレート...
1.1 Kをとおして0表彰される
0ブックマークに登録
ヴィータ
VITAは、真の完全なマルチモーダルインタラクションを実現する能力を開拓する、オープンソースの主要な対話型マルチモーダル大規模言語モデリングプロジェクトです。プロジェクトは2024年8月にVITA-1.0を立ち上げ、初のオープンソース・インタラクティブなフルモーダル大規模言語モデルの先駆者となりました。
1.5 Kをとおして0表彰される
0ブックマークに登録
メグレス-3B-オムニ
Infini-Megrezは、ハードウェアとソフトウェアの共同設計により、効率的なマルチモーダル理解と解析の実現を目指し、不問の中核ドーム（Infinigence AI）が開発したエッジ・インテリジェンス・ソリューションである。このプロジェクトの中核となるのがMegrez-3Bモデルで、画像、テキスト、音声の統合的理解を高精度かつ高速にサポートする。
1.2 Kをとおして0表彰される
0ブックマークに登録