Gemini CLIは、Googleによって開発されたオープンソースのコマンドラインツールであり、Gemini 2.5 Proモデルをベースにしている。大規模なコードベースでの作業、アプリケーションの生成、ワークフローの自動化、ファイルの管理などのタスクをサポートする。ユーザーは、個人のGoogle...
GitHub Copilot Chatは、Microsoftが開発したVisual Studio Code(VS Code)の拡張機能です。人工知能によって開発者にコード関連のヘルプを提供する。ユーザーは自然言語で質問することで、コードの提案や説明、最適化ソリューションを得ることができる。このツールはGitHub ...
PartCrafterは、1枚のRGB画像から編集可能な3Dパーツモデルを生成することに特化した革新的なオープンソースプロジェクトです。先進的な構造化3D生成技術を使用し、1つの画像から意味的に意味のある複数の3Dパーツを同時に生成します。このプロジェクトは、事前学習...
Quarkdownは、CommonMarkとGitHub Flavored Markdown (GFM)の機能を拡張した、最新のMarkdownベースの組版ツールです。関数、変数、標準ライブラリを導入することで、動的なコンテンツを作成し、インタラクティブなプレゼンテーションを簡単に作成することができます。
BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ(合計14Bのパラメータ)を持ち、Mixture-of-Tra...
DeepResearchAgentは、SkyworkAIによって開発されたオープンソースのAIツールで、ディープリサーチの自動化に焦点を当てています。検索エンジン、ウェブクローリング、大規模言語モデリング(LLM)を組み合わせることで、ユーザーが詳細な調査レポートを素早く作成できるように支援する。ユーザーは研究トピックや質問を入力するだけで、ツールが自動的に検索...
Muscle-MemはGitHubでホストされているオープンソースのPythonツールで、pig-dot-devによって開発された。AIエージェントに振る舞いキャッシュ機能を提供し、繰り返しタスクにおける大規模言語モデル(LLM)の呼び出しを削減することで、高速な実行、ばらつきの低減、コスト削減を実現するように設計されている。
Simple Subtitling はオープンソースの音声字幕生成ツールで、動画や音声ファイルの字幕を自動生成し、話者をラベル付けすることに重点を置いています。GitHubでホストされているJaesung Huhによって開発されたプロジェクトで、シンプルで効率的な字幕生成ソリューションを提供することを目的としています。音声処理技術によるツール。
arXiv Summarizerは、GitHubでホストされているオープンソースのPythonスクリプトツールで、ユーザーがarXivプラットフォームから学術論文に素早くアクセスして要約を生成できるように設計されています。フリーのGemini APIを利用して効率的にテキストを要約することができ、研究者や学生、アカデミック...
Sim StudioはオープンソースのAIエージェントワークフロー構築プラットフォームで、軽量で直感的なビジュアルインターフェースを通じて、大規模言語モデル(LLM)ワークフローの迅速な設計、テスト、デプロイを支援します。ユーザは、深いプログラミングをすることなく、ドラッグ&ドロップで複雑なマルチエージェントアプリケーションを作成することができます。このアプリケーションのサポートは ...
Mad Professor (暴躁的教授读论文)は、研究者や学生のために設計されたオープンソースのAI学術ツールで、学術論文の読解と分析を簡素化します。PDF処理、AI翻訳、RAG検索、AI Q&A、音声対話を統合している。ユーザーはPDF論文をインポートすることができます...
AIstudioProxyAPIは、Node.jsとPlaywrightテクノロジーを使用して、Google AI StudioウェブバージョンのGeminiモデル対話機能を、OpenAI APIをエミュレートすることで標準的なAPI接続に変換するオープンソースプロジェクトです。
Step1X-Editは、Stepfun AIチームによって開発され、GitHubでホストされているオープンソースの画像編集フレームワークです。マルチモーダル大規模言語モデル(Qwen-VL)と拡散変換器(DiT)を組み合わせることで、ユーザーは、背景を変更したり、オブジェクトを削除したり、風を変換するなどの簡単な自然言語コマンドで画像を編集することができます。
Klavis AIは、AIアプリケーションが外部のツールやデータソースと動的に接続することを可能にするオープンスタンダード、モデルコンテキストプロトコル(MCP)の使用と統合を簡素化することに焦点を当てたオープンソースプラットフォームです。Klavis AIは、Slack、Discordクライアント、ホスト型MCPサーバー、および簡素化を提供します。
RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)から返答を生成し、テキストを音声出力に変換する。
MiMoはXiaomiによって開発されたオープンソースの大規模言語モデリングプロジェクトであり、数学的推論とコード生成に焦点を当てている。コアプロダクトはMiMo-7Bファミリーのモデルで、ベースモデル(Base)、教師あり微調整モデル(SFT)、ベースモデルから学習した強化学習モデル(RL-Zero)、ベースモデルから学習したSFTモデルから構成される。
Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースの音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3Bをベースに構築されており、SoVITSデコーダーと組み合わせることで、高音質の音声合成を実現します。
CAD-MCPは、CADソフトウェアの描画操作を自然言語コマンドで制御できるようにするオープンソースプロジェクトです。自然言語処理とCAD自動化技術を組み合わせることで、ユーザーはCADインターフェースを手動で操作する必要がなく、簡単なテキストコマンドを入力するだけで図面を作成・修正することができます。このプロジェクトは様々なCADソフトをサポートしています。
GraphGenは、上海のAIラボであるOpenScienceLabによって開発されたオープンソースのフレームワークで、GitHubでホストされている。知識グラフを通して合成データ生成をガイドすることで、大規模言語モデル(LLM)の教師ありファインチューニングを最適化することに焦点を当てている。予想されるキャリブレーション誤差を利用して、ソーステキストからきめ細かな知識グラフを構築する。