海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

マルチモーダルなリアルタイム・インタラクティブ製品

 ウェブサイトを投稿する

ベーグル
BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ（合計14Bのパラメータ）を持ち、Mixture-of-Tra...
05-22 9930表彰される
リアルタイムボイスチャット
RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル（LLM）から返答を生成し、テキストを音声出力に変換する。
05-06 1.2 K0表彰される
Stepsailor：既存のSaaS製品にAIコマンドバーを統合
Stepsailorは、AIコマンドバーを核とした開発者向けのツールである。開発者はこれを使うことで、ソフトウェア製品にユーザーの発言を理解させることができる。例えば、ユーザーが「新しいタスクを追加する」と言えば、ソフトウェアは自動的に実行する。シンプルなSDKを通じてSaaS製品に統合されるため、開発者はAIを知らなくてもよい。
04-10 8210表彰される
OpenAvatarChat：モジュール設計されたデジタル人間対話ツール
OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタルヒューマン対話ツールで、ユーザーは1台のPCで全機能を実行することができます。このプロジェクトは、リアルタイムビデオ、音声認識、デジタルヒューマン技術を組み合わせて...
04-05 9820表彰される
ビデオマインド
VideoMindはオープンソースのマルチモーダルAIツールで、長尺動画の推論、Q&A、要約生成に特化している。香港理工大学のイェ・リューとシンガポール国立大学のショー・ラボのチームによって開発された。このツールは、タスクを計画、位置決め、確認...に分割することで、人間がビデオを理解する方法を模倣している。
04-02 1.0 K0表彰される
モシビス
MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル（7Bのパラメータ）をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー（4億個のパラメータ）により、...
03-28 1.0 K0表彰される
クウェン2.5-オムニ
Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、テキストや自然な音声による応答をリアルタイムで生成できる。このモデルは2025年3月26日にリリースされ、コードとモデルファイルはGitHでホストされている。
03-27 1.6 K0表彰される
xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス
xiaozhi-esp32-serverは、Xiaozhi AIチャットボット（xiaozhi-esp32）のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルに基づいている。このプロジェクトは...
03-18 1.5 K0表彰される
白川オーディオ
Baichuan-Audioは、Baichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされています。このプロジェクトは、音声入力を離散的な音声トークンに変換し、大規模なモデルを介して音声のペアを生成することができる完全な音声処理フレームワークを提供します。
02-28 1.0 K0表彰される
PowerAgents：時限Webタスク実行のためのAIインテリジェント・ボディ・プラットフォーム
PowerAgentsは、ウェブ自動化タスクに特化したAIインテリジェンス・プラットフォームであり、ユーザーは、データをクリック、入力、抽出することができるAIインテリジェンスを作成し、配備することができる。このプラットフォームは、1時間ごと、1日ごと、1週間ごとに自動的に実行されるタスクの設定をサポートしており、ユーザーはインテリジェンスの作業をリアルタイムで見ることができる。このプラットフォームは...
02-28 1.2 K0表彰される
ステップ・オーディオ
Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ（例：中国語、英語、日本語）、感情音声（例：嬉しい、悲しい）、地域方言（例：広東語、四川語）、調整可能なスピーチレート...
02-19 1.2 K0表彰される
Gemini Cursor：見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント
Gemini Cursorは、GoogleのGemini 2.0 Flash（実験的）モデルをベースにしたデスクトップインテリジェントアシスタントである。マルチモーダルAPIを介して視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延なユーザー体験を提供する。このプロジェクトは、@13point5によって作成された。
02-12 1.1 K0表彰される
ディープシーク-VL2
DeepSeek-VL2は、高度なMoE（Mixture-of-Experts）視覚言語モデルのシリーズで、前身であるDeepSeek-VLの性能を大幅に向上させています。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。
02-12 1.4 K0表彰される
AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装
AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザオペレーターツールです。BrowserbaseとVercel AI SDK上に構築されたこのツールは、様々な大規模言語モデル（LLM）をサポートしています...
01-31 1.3 K0表彰される
SpeechGPT 2.0-プレビュー：リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル
SpeechGPT 2.0-previewは、OpenMOSSによって導入された最初の擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。SpeechGPT 2.0-previ...
01-30 1.1 K0表彰される
OpenAIリアルタイムエージェント
OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した）ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます。このプロジェクトは ...
01-19 1.5 K0表彰される
保釈
バイリン（Bailing）は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントである。このプロジェクトでは、音声認識（ASR）、音声活動検出（VAD）、大規模言語モデル（LLM）、音声合成（TTS）の技術を組み合わせて、GPT-4oに似た音声対話ロボットを実装しています。
01-19 1.5 K0表彰される
Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット
Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットである。このプロジェクトはAmanvir Parharによって開発され、ネイティブの音声チャットボットを提供することを目的としている。
01-17 1.3 K0表彰される
OmAgent：マルチモーダル・スマートデバイス構築のための知的身体フレームワーク
OmAgentは、Om AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスに強力なAI搭載機能を提供する。このプロジェクトにより、開発者は最先端のマルチモーダルベースモデルとスマートボディアルゴリズムを統合することで、様々なスマートデバイス上で効率的でリアルタイムのインタラクティブ体験を作成することができます。
01-17 1.3 K0表彰される

日本語