BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ(合計14Bのパラメータ)を持ち、Mixture-of-Tra...
RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)から返答を生成し、テキストを音声出力に変換する。
Stepsailorは、AIコマンドバーを核とした開発者向けのツールである。開発者はこれを使うことで、ソフトウェア製品にユーザーの発言を理解させることができる。例えば、ユーザーが「新しいタスクを追加する」と言えば、ソフトウェアは自動的に実行する。シンプルなSDKを通じてSaaS製品に統合されるため、開発者はAIを知らなくてもよい。
OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタルヒューマン対話ツールで、ユーザーは1台のPCで全機能を実行することができます。このプロジェクトは、リアルタイムビデオ、音声認識、デジタルヒューマン技術を組み合わせて...
VideoMindはオープンソースのマルチモーダルAIツールで、長尺動画の推論、Q&A、要約生成に特化している。香港理工大学のイェ・リューとシンガポール国立大学のショー・ラボのチームによって開発された。このツールは、タスクを計画、位置決め、確認...に分割することで、人間がビデオを理解する方法を模倣している。
MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル(7Bのパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー(4億個のパラメータ)により、...
Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、テキストや自然な音声による応答をリアルタイムで生成できる。このモデルは2025年3月26日にリリースされ、コードとモデルファイルはGitHでホストされている。
xiaozhi-esp32-serverは、Xiaozhi AIチャットボット(xiaozhi-esp32)のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルに基づいている。このプロジェクトは...
Baichuan-Audioは、Baichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされています。このプロジェクトは、音声入力を離散的な音声トークンに変換し、大規模なモデルを介して音声のペアを生成することができる完全な音声処理フレームワークを提供します。
PowerAgentsは、ウェブ自動化タスクに特化したAIインテリジェンス・プラットフォームであり、ユーザーは、データをクリック、入力、抽出することができるAIインテリジェンスを作成し、配備することができる。このプラットフォームは、1時間ごと、1日ごと、1週間ごとに自動的に実行されるタスクの設定をサポートしており、ユーザーはインテリジェンスの作業をリアルタイムで見ることができる。このプラットフォームは...
Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)、調整可能なスピーチレート...
Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースにしたデスクトップインテリジェントアシスタントである。マルチモーダルAPIを介して視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延なユーザー体験を提供する。このプロジェクトは、@13point5によって作成された。
DeepSeek-VL2は、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズで、前身であるDeepSeek-VLの性能を大幅に向上させています。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。
AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザオペレーターツールです。BrowserbaseとVercel AI SDK上に構築されたこのツールは、様々な大規模言語モデル(LLM)をサポートしています...
SpeechGPT 2.0-previewは、OpenMOSSによって導入された最初の擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。SpeechGPT 2.0-previ...
OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます。このプロジェクトは ...
バイリン(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントである。このプロジェクトでは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデル(LLM)、音声合成(TTS)の技術を組み合わせて、GPT-4oに似た音声対話ロボットを実装しています。
Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットである。このプロジェクトはAmanvir Parharによって開発され、ネイティブの音声チャットボットを提供することを目的としている。
OmAgentは、Om AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスに強力なAI搭載機能を提供する。このプロジェクトにより、開発者は最先端のマルチモーダルベースモデルとスマートボディアルゴリズムを統合することで、様々なスマートデバイス上で効率的でリアルタイムのインタラクティブ体験を作成することができます。