Hunyuan-A13Bは、Tencentのハイブリッドチームによって開発されたオープンソースの大規模言語モデルで、Mixed Expertise(MoE)アーキテクチャに基づいています。Hunyuan-A13Bは256Kの超長文文脈処理をサポートし、長文分析、コード生成、インテリジェントエージェント操作などの複雑なタスクに適している。Hunyuan-A13Bは、256Kの超長文脈処理をサポートし、長文テキスト解析、コード生成、インテリジェントエージェント操作などの複雑なタスクに適している。テンセントのハイブリッド・チームは2025年6月27日、GitHubとHugging Faceで、事前学習済みモデル、コマンド微調整モデル、最適化された定量モデルを含む、モデルのいくつかのバージョンをオープンソース化した。詳細な技術レポートやマニュアルも用意されており、ユーザーがすぐに使い始められるようになっている。
機能一覧
- 非常に長いコンテキスト処理最大256Kのコンテキスト長をサポートし、長い文書、複雑な対話、多ラウンドの推論タスクの処理に最適です。
- 二峰性推論高速推論と低速推論(連鎖推論、CoT)モードを提供し、さまざまなシナリオの性能要件を満たす。
- 効率的なMoEアーキテクチャ総パラメータ数80億、アクティブパラメータ数13億。
- 複数の定量的サポートFP8とGPTQ-Int4は、推論効率を最適化し、導入の閾値を下げるために定量化されたバージョンです。
- 学際的な能力数学、科学、コード生成、インテリジェント・エージェントの各タスクで優れたパフォーマンスを発揮し、ベンチマークのスコアも優秀でした。
- オープンソースリソース開発者のカスタマイズや拡張をサポートするために、モデルウェイト、トレーニングコード、テクニカルレポート、操作マニュアルを提供します。
ヘルプの使用
設置プロセス
Hunyuan-A13Bを使用するには、Python 3.10以上の環境が必要で、最高のパフォーマンスを得るためにGPU(NVIDIA A100など)を推奨します。以下はインストールとデプロイの手順です:
- クローン倉庫
ターミナルで以下のコマンドを実行し、GitHubリポジトリをクローンする:git clone https://github.com/Tencent-Hunyuan/Hunyuan-A13B.git cd Hunyuan-A13B
- 依存関係のインストール
必要なPythonライブラリをインストールし、あなたの環境がPyTorchとHugging Faceのtransformersライブラリをサポートしていることを確認する:pip install torch==2.5.1 transformers pip install -r requirements.txt
- ダウンロードモデル
Hunyuan-A13Bモデルは、Hugging Faceプラットフォームで以下のような多くのバージョンで利用できるようになった。Hunyuan-A13B-Pretrain
そしてHunyuan-A13B-Instruct
そしてHunyuan-A13B-Instruct-FP8
歌で応えるHunyuan-A13B-Instruct-GPTQ-Int4
.例として、コマンド微調整モデルのダウンロードコマンドは以下の通り:huggingface-cli download tencent/Hunyuan-A13B-Instruct
- 環境変数の設定
モデルのパスを環境変数に設定する:export MODEL_PATH="tencent/Hunyuan-A13B-Instruct"
- サンプルコードを実行する
モデルをロードして推論を実行するには、以下のPythonコードを使用する:from transformers import AutoModelForCausalLM, AutoTokenizer import os import re model_name_or_path = os.environ['MODEL_PATH'] tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto", trust_remote_code=True) messages = [{"role": "user", "content": "写一篇关于定期锻炼好处的简短总结"}] tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt", enable_thinking=True) outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=4096) output_text = tokenizer.decode(outputs[0]) think_pattern = r'<think>(.*?)</think>' answer_pattern = r'<answer>(.*?)</answer>' think_matches = re.findall(think_pattern, output_text, re.DOTALL) answer_matches = re.findall(answer_pattern, output_text, re.DOTALL) think_content = think_matches[0].strip() if think_matches else "" answer_content = answer_matches[0].strip() if answer_matches else "" print(f"推理过程: {think_content}\n\n回答: {answer_content}")
機能 操作の流れ
1.超ロング・コンテクスト処理
Hunyuan-A13Bは256Kのコンテキスト長をサポートし、長い文書や多ラウンドの対話の処理に適している。ユーザーは max_seq_length=256000
を使うことで、超長文コンテクスト・モデルを実現できる。例えば、長い技術文書を分析する場合、文書の内容は直接モデルに入力され、完全に処理されて要約や回答が生成される。
2.二峰性推論
このモデルは速い推論と遅い推論の両方をサポートする(連鎖推論、CoT)。速い推論はリアルタイムの対話に適しており、遅い推論は数学的推論やコードデバッグのような複雑なタスクに適している。ユーザーはパラメータを通して推論モードを制御することができる:
- スロー推論を有効にする:設定
enable_thinking=True
または、プロンプトの前に/think
. - 遅い推論を無効にする:設定
enable_thinking=False
または、プロンプトの前に/no_think
.
例
tokenized_chat = tokenizer.apply_chat_template(messages, enable_thinking=False)
3.定量的モデルの展開
ハードウェアの要件を減らすために、Hunyuan-A13BはFP8とGPTQ-Int4量子化バージョンを提供します。 FP8量子化は、静的キャリブレーションを通じてモデルの重みと活性化値を8ビット浮動小数点フォーマットに変換し、ローレンジからミッドレンジのGPUに適している一方、GPTQ-Int4は4ビット整数量子化を使用してメモリフットプリントをさらに削減します。ユーザーは量子化モデルを直接ダウンロードすることができます:
huggingface-cli download tencent/Hunyuan-A13B-Instruct-FP8
また、推論速度を向上させるために、TensorRT-LLMバックエンドを使用することを推奨します。
4.学際的な任務
Hunyuan-A13Bは、数学、科学、コード生成、インテリジェントエージェントタスクに優れています。例えば、数学的な問題を扱う場合、このモデルは自動的に問題を分解し、ステップバイステップで理由を説明する:
messages = [{"role": "user", "content": "求解方程 2x + 3 = 7"}]
出力には推論プロセスが含まれる。 <think>
そして最終的な答えは <answer>
結果は明確でわかりやすい。
5.デベロッパーのカスタマイズ
ユーザーはオープンソースコードに基づいてモデルを微調整できる。公式トレーニングマニュアルが提供され、データ準備、トレーニングパラメーター、最適化戦略について詳しく説明されています。微調整の例
python train.py --model_path tencent/Hunyuan-A13B-Pretrain --data_path custom_dataset
ほら
- GPUメモリが十分であることを確認する(16GB以上を推奨)。
- Hugging Faceプラットフォームでモデルのバージョンを確認し、最新バージョンをダウンロードしてください。
- 特定のタスクにおけるモデルの性能については、公式テクニカルレポートを参照のこと。
アプリケーションシナリオ
- 学術研究
研究者は、Hunyuan-A13Bを使用して、長い学術論文を処理し、重要な情報を抽出したり、レビューを生成したりすることができます。このモデルのコンテキスト長は256Kで、複数ページのドキュメントを完全に分析できるため、文書作成や知識抽出に適しています。 - コード開発
hunyuan-A13Bはコード生成タスクに優れており、ラピッドプロトタイピングのために複数のプログラミング言語をサポートしています。 - インテリジェント・エージェント
このモデルは、自動顧客サービス、データ分析、タスクスケジューリングなどの複雑なタスクを処理するインテリジェントエージェントの中核として使用することができます。その効率的なMoEアーキテクチャは、リアルタイムアプリケーションのための低リソースフットプリントを保証します。 - 教材
生徒や教師は、数学と科学の質問に答えたり、学習教材を作成するためにモデルを使用することができます。ゆっくり推論モデルでは、問題を解くための詳細な手順を提供し、ユーザーの理解を助けます。
品質保証
- Hunyuan-A13Bはどのようなハードウェアに適合しますか?
このモデルは、幅広いハードウェア環境をサポートしており、NVIDIA A100または同等のGPUを推奨しています。定量化バージョンは、より低いGPU(10GB VRAMなど)で動作し、個人開発者に適しています。 - 推理モードの切り替え方は?
を設定する。enable_thinking=True/False
あるいはプロンプトに/think
もしかしたら/no_think
高速または低速の推論モードを切り替えます。 - 対応言語は?
Hunyuan-A13Bは、主に中国語と英語のタスクに最適化されているが、多言語シナリオの多言語ベンチマークでも高い性能を発揮する。 - テクニカル・サポートはどうすれば受けられますか?
質問はGitHubから送信するか、公式メールアドレスにご連絡ください。hunyuan_opensource@tencent.com
サポートを受ける