リアルタイムボイスチャット
RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)から返答を生成し、テキストを音声出力に変換する。
トランスクリプト
TranskriptorはAIを活用したテープ起こしツールで、音声や動画を素早くテキストに変換します。最大99%の精度で100以上の言語に対応しており、会議やインタビュー、授業ノートなど、さまざまなシーンに適しています。ファイルをアップロードしたり、直接録音したり、Zoom、Go...などへのリンク経由で書き起こしたりできます。
Conch Speech (MiniMax Audio): 自然な音声を生成するAIツール
MiniMax Audioは、MiniMax社のAI音声生成ツールで、テキストを類似性の高い自然な音声に素早く変換することを主な特徴としています。Speech-02モデルをベースにしており、最大99%の音声合成類似度、スタジオ級の音質、30以上の言語と幅広い口語をサポートしています。
ツインマインド
TwinMindはThirdEar AI, Inc.が開発した「あなたのためにすべてを記憶する」スマートツールです。会話や会議、講義をリアルタイムで録音・テキスト化し、100以上の言語に対応。ユーザーは自分でメモを取る必要はなく、TwinMindが...
OpenAIリアルタイムエージェント
OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます。このプロジェクトは ...
保釈
バイリン(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントである。このプロジェクトでは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデル(LLM)、音声合成(TTS)の技術を組み合わせて、GPT-4oに似た音声対話ロボットを実装しています。
「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築
Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合し、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。このプロジェクトは、特にエンジニアリング開発シナリオに最適化されており、完全な...
シャオジーAIチャットボット
Xiaozhi AI Chatbotは、ESP32開発ボードをベースにしたオープンソースプロジェクトで、ユーザーが独自のAIチャットコンパニオンを構築できるように設計されています。このプロジェクトはShrimpによって開発され、より多くの人々がAIハードウェア開発を始め、大きな言語モデルを実際のハードウェア・デバイスに適用する方法を理解するための教育目的で主に使用されています。プロジェクト ...
フィッシュエージェント
フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAI音声クローニング・システムです。完全なエンドツーエンドの音声クローニング処理システムとして、その最大の特徴は、革新的なセマンティックタグレスアーキテクチャ設計を採用していることです。
ボイスプロ
Voice-Pro 是一个基于 Gradio WebUI 的多功能工具,支持语音转文字、文本转语音、实时翻译、YouTube 视频下载和人声分离。它集成了 Whisper、Faster-Whisper 和 Whisper-Timestamp...
いちご(llama3-s)
Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブの「聞き取り」機能で拡張することを目的としている。このプロジェクトは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用している。Ichigoの目標は、オープンソースデータ、オープンソース重み付けネイティブデバイススピーチ...
AIヒア
如果你在用 MacBook,试试 AI Hear:可以录音、实时本地语音转文字、并翻译、最终导出字幕。可以用它辅助你听跨国会议、英文有声书。 AI Hear是一款本地运行的软件,提供一键实时翻译和转录功能,支持多种语言。...
福丸千音
趣丸千音是一款多语种AI语音合成平台,提供逼真自然的声音生成方案。用户可以轻松将文本内容转换成专业级音频,支持从零样本创建专属AI语音(语音克隆),满足个性化需求。平台还提供视频翻译功能,帮助用户实现...
聞き取る
Tongyi Listening and Understandingは、AliCloudの強力なAIモデルによって、音声や動画コンテンツをリアルタイムでテキスト化し、翻訳や要約、位置情報などの機能を提供する。AliCloudの強力なAIモデルに依存し、音声や動画コンテンツをリアルタイムでテキストに書き起こし、翻訳、要約、位置決めなどの機能を提供する。Tongyi Listening Wooは複数の言語とシナリオをサポートし、ユーザ...
テンセント・スマートフィルム(QQインスタントメッセージプラットフォームの開発者)
腾讯智影是腾讯公司推出的在线智能视频创作平台,通过云端服务提供的强大AI工具,能支持文本配音、数字人播报、自动字幕识别等功能,它集素材搜索、视频剪辑、渲染出口和发布于一体,为用户带来便捷的视频编辑和...