Seedance 1.0
Seedance 1.0 是由字节跳动 Seed 团队开发的一款 AI 视频生成工具,专注于将文本或图像转化为高质量视频内容。用户只需输入文字描述或上传图片,Seedance 即可生成分辨率高达 1080p 的视频,适用于创意内容创作、.....
ジェマ3n
グーグルは、Gemma 3とGemma 3 QATをリリースし、包括的なAIのための足跡を拡大しようとしている。Gemma 3が開発者に強力なクラウドとデスクトップ機能をもたらしたとすれば、この2025年5月20日のリリースは...
ムービージェン 1.1
MoviiGen 1.1は、ZuluVisionによって開発されたオープンソースのAIツールで、テキストから高品質のビデオを生成することに重点を置いています。720Pと1080Pの解像度をサポートしており、特に映画のような視覚効果を必要とするプロのビデオ制作に適しています。簡単なテキスト説明から、自然でダイナミックな動画を生成することができます。
ハイドリーム-I1
HiDream-I1は、170億ものパラメータを持つオープンソースの画像生成ベースモデルで、高品質な画像を素早く生成することができます。ユーザーはテキストによる説明を入力するだけで、リアル、カートゥーン、アーティスティックなど様々なスタイルの画像を生成できる。HiDream.aiチームによって開発され、GitHubでホストされているこのプロジェクトは、...
イメージ4
グーグル・ディープマインド(Google DeepMind)が最近発表したImagen 4モデルは、同社の画像生成技術の最新版であり、急速に業界の注目の的となっている。このモデルは、画像生成の豊かさ、ディテールの正確さ、スピードを大幅に向上させ、これまでにない方法でユーザーのイマジネーションに命を吹き込むことに取り組んでいる。
ベーグル
BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ(合計14Bのパラメータ)を持ち、Mixture-of-Tra...
ミニマックス・スピーチ 02
AI技術の絶え間ない進化に伴い、パーソナライズされた非常に自然な音声対話は、多くの知的アプリケーションにとって重要な要件となっている。しかし、既存の音声合成(TTS)技術は、大規模なパーソナライズされたトーン、多言語対応、高度にリアルな感情表現を満たすという課題に依然として直面している。このような課題に対処するため...
ウインドサーフ SWE-1
SWE-1:ソフトウェアエンジニアリングのための新世代の最先端モデル 最近、待望のSWE-1モデルファミリーがリリースされた。ソフトウェアエンジニアリングプロセス全体を最適化するために設計されたこのモデルファミリーは、コードを書くという従来の作業をはるかに超えたものである。 現在、SWE-1ファミリーは、次の3つのモデルで構成されています。
ビデオマインド
VideoMindはオープンソースのマルチモーダルAIツールで、長尺動画の推論、Q&A、要約生成に特化している。香港理工大学のイェ・リューとシンガポール国立大学のショー・ラボのチームによって開発された。このツールは、タスクを計画、位置決め、確認...に分割することで、人間がビデオを理解する方法を模倣している。
モシビス
MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル(7Bのパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー(4億個のパラメータ)により、...
クウェン2.5-オムニ
Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、テキストや自然な音声による応答をリアルタイムで生成できる。このモデルは2025年3月26日にリリースされ、コードとモデルファイルはGitHでホストされている。
スターベクトル
StarVectorは、画像やテキストをScalable Vector Graphics(SVG)に変換するために、Juan A. Rodriguezなどの開発者によって作成されたオープンソースプロジェクトです。このツールは、画像コンテンツとテキスト命令を理解する視覚言語モデルを使用して、高品質のSVGコードを生成します。そのコア...
ラワゴット
LaWGPTは、南京大学の機械学習・データマイニング研究グループが支援するオープンソースプロジェクトで、中国の法律知識に基づいた大規模な言語モデルの構築に取り組んでいる。一般的な中国語モデル(Chinese-LLaMAやChatGLMなど)に基づき、法律領域における独自の単語リストを拡張し、大規模な...
白川オーディオ
Baichuan-Audioは、Baichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされています。このプロジェクトは、音声入力を離散的な音声トークンに変換し、大規模なモデルを介して音声のペアを生成することができる完全な音声処理フレームワークを提供します。
ステップ・オーディオ
Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)、調整可能なスピーチレート...
ディープシーク-VL2
DeepSeek-VL2 是一系列高级的 Mixture-of-Experts (MoE) 视觉语言模型,显著提升了其前身 DeepSeek-VL 的性能。该模型在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等任务中表现出色。De...
響(ひびき
Hibiki 是由 Kyutai Labs 开发的一款高保真度实时语音翻译模型。与传统的离线翻译不同,Hibiki 能够在用户讲话的同时,实时生成目标语言的自然语音翻译,并提供文本翻译。该模型采用多流架构,能够同时处理输入语...
ヴィータ
VITAは、真の完全なマルチモーダルインタラクションを実現する能力を開拓する、オープンソースの主要な対話型マルチモーダル大規模言語モデリングプロジェクトです。プロジェクトは2024年8月にVITA-1.0を立ち上げ、初のオープンソース・インタラクティブなフルモーダル大規模言語モデルの先駆者となりました。
テキスト
AnyTextは拡散モデルに基づいて開発された画期的な多言語ビジュアルテキスト生成・編集ツールです。画像の中に自然で高品質な多言語テキストを生成し、柔軟なテキスト編集機能をサポートします。研究者チームによって開発され、ICLR 2024カンファレンスでSpotlight栄誉賞を受賞した。