PartCrafterは、1枚のRGB画像から編集可能な3Dパーツモデルを生成することに特化した革新的なオープンソースプロジェクトです。先進的な構造化3D生成技術を使用し、1つの画像から意味的に意味のある複数の3Dパーツを同時に生成するため、ゲーム開発、製品デザイン、その他の分野に適しています。このプロジェクトは、事前に訓練された3Dメッシュ拡散変換器(DiT)に基づいており、生成された3Dモデルがパーツの詳細を保持しながら全体的な一貫性を維持することを保証するために、組み合わせ潜在空間と階層的注意メカニズムを導入しています。partCrafterは、大規模な3Dオブジェクトデータセットを統合することにより、130,000個の3Dオブジェクトのトレーニングデータを提供します。プロジェクトは、2025年7月15日までに推論スクリプトと事前学習済みモデルをリリースする予定で、ユーザー体験と開発を容易にするHuggingFaceデモも提供する。
機能一覧
- 1枚のRGB画像から複数の編集可能な3Dパーツモデルを生成。
- 複雑なマルチオブジェクトシーンの3Dメッシュ生成をサポート。
- 各3Dパーツを独立に表現するための組み合わせ潜在空間を提供。
- パーツ間のグローバルな一貫性とディテールの保持を保証するために、階層的なアテンションメカニズムが使用される。
- 大規模な3Dデータセットに対応し、部分レベルの教師あり学習をサポート。
- 推論スクリプト、訓練済みモデル、HuggingFaceのデモをリリースする予定がある。
ヘルプの使用
設置プロセス
2025年6月現在、PartCrafterの完全なコードと事前学習済みモデルはまだ完全にリリースされていない。公式GitHubページによると、推論スクリプトと事前学習チェックポイントは2025年7月15日までにリリースされる予定である。以下は、現在の情報に基づく推測的なインストールと使用プロセスであり、今後公式のアップデートに基づいて調整される可能性がある。
- 環境準備
PartCrafterはPythonをベースとしており、Python 3.8以上を推奨します。ユーザーは以下の依存関係をインストールする必要があります(依存関係リストの公式リリースをお待ちください):pip install torch numpy opencv-python
モデル推論を向上させるために、システムがGPUアクセラレーション(CUDAなど)をサポートしていることを確認する。少なくとも16GBのRAMとNVIDIA GPUを搭載したLinuxまたはWindowsシステムを推奨します。
- クローン倉庫
公式GitHubリポジトリへhttps://github.com/wgsxm/PartCrafter
プロジェクトをローカルにクローンする:git clone https://github.com/wgsxm/PartCrafter.git cd PartCrafter
- 訓練済みモデルのインストール
公式な計画では、トレーニング前のチェックポイントをリリースする予定です。ユーザーはチェックポイントファイルをダウンロードし、リポジトリの指定されたディレクトリ(例えばcheckpoints/
).正確なパスとダウンロードリンクは公式アップデートを待つ必要がある。 - 推論スクリプトの実行
推論スクリプトが公開されると、ユーザーはコマンドラインからモデルを実行できる。例えば、スクリプトの名前がinfer.py
操作は以下のようになる:python infer.py --image_path <input_image.jpg> --output_dir <output_folder>
そのうちのひとつだ。
--image_path
入力RGB画像のパスを指定する。--output_dir
生成された3Dモデルを保存するパスを指定します。
主な機能
PartCrafterのコア機能は、1枚のRGB画像から編集可能な3Dパーツモデルを生成することです。以下はその詳細な手順です:
- 画像入力の準備
ユーザーは、ターゲットとなるオブジェクトまたはシーンを含む鮮明なRGB画像を提供する必要があります。モデルが十分なディテールを捉えられるように、512×512以上の画像解像度を推奨します。例えば、座面、背もたれ、脚などのパーツを含む椅子を撮影します。 - 走り推理
画像は推論スクリプトを使って処理される。このモデルは画像の内容を解析し、複数の3Dパーツモデルを生成する。例えば、椅子の画像を入力すると、PartCrafterは座面、背もたれ、4本の脚に別々の3Dメッシュを出力します。出力形式は通常OBJかPLYファイルで、BlenderやUnityなどのソフトウェアと互換性があります。 - 3Dモデルの編集
生成された3Dモデルは、パーツレベルの編集に対応しています。ユーザーはBlenderでモデルを開き、個々のパーツのジオメトリ、テクスチャ、位置を調整できます。例えば、椅子の背もたれの角度や脚の長さを、他のパーツに影響を与えることなく変更できます。 - マルチオブジェクト・シーン生成
複雑なシーン(例えば、テーブルや椅子を含む写真)の場合、PartCrafterは複数のオブジェクトのパーツモデルを同時に生成することができます。このモデルは、例えばテーブルの脚と椅子の脚の間の様式的な統一性など、階層的なアテンションメカニズムによってパーツ間の意味的な一貫性を保証します。 - HuggingFaceデモ使用
公式発表では、ユーザーが画像をアップロードし、オンライン・インターフェースを通じて3DモデルにアクセスできるHuggingFaceのデモを開始する予定だ。具体的な操作は以下の通り:- HuggingFaceプラットフォームのPartCrafterページをご覧ください。
- RGB画像をアップロードし、生成パラメータ(パーツ数や解像度など)を設定します。
- 生成された3Dモデルファイルをダウンロードする。
注目の機能操作
- 複合潜在空間各3Dパーツは、独立した潜在的な トークン は、ユーザーがトークンを調整することで特定のパーツを変更できることを示した。例えば、椅子の背もたれのトークンを変更することで、異なる形状の背もたれを生成することができる。
- 階層的注意メカニズムこのモデルは、生成時にパーツ間のグローバルな一貫性とローカルなディテールのバランスを自動的に調整します。ユーザーが手動でパーツの関係を調整する必要はありません。このモデルは、生成された椅子の脚が座面とスタイル的に調和していることを保証します。
- 部品レベルの監督130,000の3Dオブジェクトのデータセットにより、PartCrafterは画像では直接見えないパーツを生成することができます。例えば、椅子の前面の写真を入力すると、モデルが背面のパーツを推測して生成します。
ほら
- 入力画像は、生成の質を向上させるために、十分な明るさがあり、背景がシンプルであることを確認する。
- 生成された3Dメッシュはレンダリングやゲーム開発に適しているが、工業用ソリッドモデルへの変換には追加処理(専用ソフトを使った変換など)が必要になる場合がある。
- 公式ドキュメントやコミュニティによるサポート(GitHub Issuesなど)が、さらなる助けとなるだろう。
アプリケーションシナリオ
- ゲーム開発
開発者は、Cognitive PartCrafterを使用して、ゲーム資産の3Dモデルを迅速に生成できます。例えば、1つのプロップ画像から編集可能な3Dモデルを生成することで、レベル設計プロセスをスピードアップできます。 - プロダクトデザイン
設計者は、PartCrafterを使用して、製品コンセプトの図面を編集可能な3D部品モデルに変換し、迅速な試作や修正を行うことができます。 - 教育・研究
研究者はPartCrafterを使って、3Dビジュアライゼーションや実験検証のための複雑な3Dモデルを作成することができます。
品質保証
- PartCrafterで生成される3Dモデルは、どのような形式に対応していますか?
現在、OBJおよびPLYフォーマットをサポートしており、Blender、Unity、その他の主流3Dソフトウェアと互換性があります。 - PartCrafterを使うには専門的な知識が必要ですか?
必須ではないが、Pythonや3Dモデリング・ソフトウェアに慣れているユーザーは、より効率的にツールを使用できる。 - PartCrafterはどのくらい複雑なモデルを生成できますか?
入力画像の品質とモデルのトレーニングデータによって、正確な複雑さが変わります。 - プロジェクトは完全にオープンソースですか?
このプロジェクトはオープンソースであり、推論スクリプトとトレーニングデータは、公式のアップデートに従って徐々に公開される予定である。