リアルタイムボイスチャット
RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)から返答を生成し、テキストを音声出力に変換する。
OpenAIリアルタイムエージェント
OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます。このプロジェクトは ...
保釈
バイリン(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントである。このプロジェクトでは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデル(LLM)、音声合成(TTS)の技術を組み合わせて、GPT-4oに似た音声対話ロボットを実装しています。
「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築
Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合し、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。このプロジェクトは、特にエンジニアリング開発シナリオに最適化されており、完全な...
シャオジーAIチャットボット
Xiaozhi AI Chatbotは、ESP32開発ボードをベースにしたオープンソースプロジェクトで、ユーザーが独自のAIチャットコンパニオンを構築できるように設計されています。このプロジェクトはShrimpによって開発され、より多くの人々がAIハードウェア開発を始め、大きな言語モデルを実際のハードウェア・デバイスに適用する方法を理解するための教育目的で主に使用されています。プロジェクト ...
フィッシュエージェント
フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAI音声クローニング・システムです。完全なエンドツーエンドの音声クローニング処理システムとして、その最大の特徴は、革新的なセマンティックタグレスアーキテクチャ設計を採用していることです。
いちご(llama3-s)
Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブの「聞き取り」機能で拡張することを目的としている。このプロジェクトは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用している。Ichigoの目標は、オープンソースデータ、オープンソース重み付けネイティブデバイススピーチ...