小镜故事板
小镜故事板(xjstoryboard.com)是一个专注于在线创建分镜头脚本的工具。它帮助用户快速制作故事板,适合影视制作、广告策划和动画设计。用户无需专业绘图技能,通过拖拽模板和元素即可完成脚本设计。网站提供多...
MagicArena
MagicArena 是一个专注于视觉生成模型对战的在线平台。用户可以选择不同 AI 模型,输入相同的文字描述,让模型生成内容进行对比和评测。平台适合开发者、研究人员和对 AI 技术感兴趣的人。MagicArena 提供简单操...
SuperMaker
SuperMaker AI 是一个免费的在线创作平台,帮助用户快速生成高质量视频、音乐、图像和语音内容。用户无需登录即可试用核心功能,操作简单,适合个人创作者和小型团队。平台通过人工智能技术,将文字、图片或创意...
Quarkdown:基于Markdown的动态排版工具
Quarkdown 是一个基于 Markdown 的现代化排版工具,扩展了 CommonMark 和 GitHub Flavored Markdown(GFM)的功能。它通过引入函数、变量和标准库,让用户能创建动态内容,轻松生成交互式演示文...
Simple Subtitling: ビデオ字幕と話者識別を自動生成するオープンソースツール
Simple Subtitling はオープンソースの音声字幕生成ツールで、動画や音声ファイルの字幕を自動生成し、話者をラベル付けすることに重点を置いています。GitHubでホストされているJaesung Huhによって開発されたプロジェクトで、シンプルで効率的な字幕生成ソリューションを提供することを目的としています。音声処理技術によるツール。
ArXiv Paper Summarizer: arXiv論文の自動要約ツール
arXiv Summarizerは、GitHubでホストされているオープンソースのPythonスクリプトツールで、ユーザーがarXivプラットフォームから学術論文に素早くアクセスして要約を生成できるように設計されています。フリーのGemini APIを利用して効率的にテキストを要約することができ、研究者や学生、アカデミック...
Sim Studio: AIエージェントのためのオープンソースワークフロービルダー
Sim StudioはオープンソースのAIエージェントワークフロー構築プラットフォームで、軽量で直感的なビジュアルインターフェースを通じて、大規模言語モデル(LLM)ワークフローの迅速な設計、テスト、デプロイを支援します。ユーザは、深いプログラミングをすることなく、ドラッグ&ドロップで複雑なマルチエージェントアプリケーションを作成することができます。このアプリケーションのサポートは ...
Hula:自撮り写真をワンクリックで短いバイラルビデオやパーソナライズされたステッカーに変身させる
HulaはAIを搭載したクリエイティブツールで、ワンクリックの簡単な操作で、ユーザーのセルフィーをバイラルビデオやマルチスタイル画像、パーソナライズされたステッカーパックに変換するように設計されている。開発元のPrequel Inc.は、iOSとAndroidプラットフォームに対応したアプリを開発し、熱心なソーシャル...
AIstudioProxyAPI: Gemini 2.5 ProモデルAPIを無制限に使用可能
AIstudioProxyAPIは、Node.jsとPlaywrightテクノロジーを使用して、Google AI StudioウェブバージョンのGeminiモデル対話機能を、OpenAI APIをエミュレートすることで標準的なAPI接続に変換するオープンソースプロジェクトです。
Step1X-Edit:自然言語指示による画像編集のためのオープンソースツール
Step1X-Editは、Stepfun AIチームによって開発され、GitHubでホストされているオープンソースの画像編集フレームワークです。マルチモーダル大規模言語モデル(Qwen-VL)と拡散変換器(DiT)を組み合わせることで、ユーザーは、背景を変更したり、オブジェクトを削除したり、風を変換するなどの簡単な自然言語コマンドで画像を編集することができます。
Klavis AI: AIアプリケーションのためのモデルコンテキストプロトコル(MCP)統合ツール
Klavis AIは、AIアプリケーションが外部のツールやデータソースと動的に接続することを可能にするオープンスタンダード、モデルコンテキストプロトコル(MCP)の使用と統合を簡素化することに焦点を当てたオープンソースプラットフォームです。Klavis AIは、Slack、Discordクライアント、ホスト型MCPサーバー、および簡素化を提供します。
MiMo: 効率的な数学的推論とコード生成のための小さなオープンソースモデル
MiMoはXiaomiによって開発されたオープンソースの大規模言語モデリングプロジェクトであり、数学的推論とコード生成に焦点を当てている。コアプロダクトはMiMo-7Bファミリーのモデルで、ベースモデル(Base)、教師あり微調整モデル(SFT)、ベースモデルから学習した強化学習モデル(RL-Zero)、ベースモデルから学習したSFTモデルから構成される。
Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成
Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースの音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3Bをベースに構築されており、SoVITSデコーダーと組み合わせることで、高音質の音声合成を実現します。
CAD-MCP: CADソフトウェアを自然言語コマンドで制御するMCPサービス
CAD-MCPは、CADソフトウェアの描画操作を自然言語コマンドで制御できるようにするオープンソースプロジェクトです。自然言語処理とCAD自動化技術を組み合わせることで、ユーザーはCADインターフェースを手動で操作する必要がなく、簡単なテキストコマンドを入力するだけで図面を作成・修正することができます。このプロジェクトは様々なCADソフトをサポートしています。
コトランス
manga-image-translator(Cotrans翻译器开源版),用于翻译漫画或图片中的文字。提供命令行交互方式和在线演示,拥有批量转换模式、web服务器模式等多样化的使用选项。可设置多种语言目标翻译和识别参数,配有详...
GraphGen: 知識グラフを使って言語モデルを微調整し、合成データを生成する
GraphGenは、上海のAIラボであるOpenScienceLabによって開発されたオープンソースのフレームワークで、GitHubでホストされている。知識グラフを通して合成データ生成をガイドすることで、大規模言語モデル(LLM)の教師ありファインチューニングを最適化することに焦点を当てている。予想されるキャリブレーション誤差を利用して、ソーステキストからきめ細かな知識グラフを構築する。
ACI.DEV:MCPサーバーを介したAIインテリジェンスのための600以上のツールの統合
ACI.devは、AIインテリジェンスに600以上のツールへの迅速な統合を提供するために設計されたオープンソースのインフラストラクチャプラットフォームです。マルチテナント認証ときめ細かな権限管理により、インテリジェンスがGoogleカレンダー、Slack、Brave Searchなどのツールに安全にアクセスできるようにします。
llm.pdf:大規模言語モデルをPDFファイルで実行する実験的プロジェクト
llm.pdfはLarge Language Models (LLM)をPDFファイルで直接実行できるオープンソースプロジェクトです。EvanZhouDevによって開発され、GitHubでホストされているこのプロジェクトは、Emscriptenを介してllama.cppをコンパイルするという革新的なアプローチを示しています。
Abogen:複数のテキスト形式をオーディオブックに変換するツール
Abogenは、ePub、PDFまたはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。Kokoro-82Mモデルを使用して自然で滑らかな音声を生成し、同時字幕生成をサポートしているため、オーディオブック、ビデオ吹き替え、学習教材に適しています。ユーザーが選択できる...