AIインテリジェンス・メモリ性能論争：疑問視されるZep Mem0ベンチマーク

2025-05-07

112

AIインテリジェンスのメモリー性能：ゼップ・デューティ・メム0ベンチマークダウトフル-1

最近、AIインテリジェント・ボディ・メモリーの分野での発表があり、業界に大きな関心を呼んでいる。Mem0 Companyが調査レポートを発行Zep社は、自社製品がAIスマートボディメモリ技術の業界リーダー（SOTA）であり、一部のベンチマークでZep社を含む競合他社を上回っていると主張している。しかし、この主張はすぐにZepチームによって否定された。Zepチームは、同社の製品が適切に実装された場合、Mem0が選択したLoCoMoベンチマークを約241 TP3 T上回ることを指摘した。

競争の激しい人工知能の分野では、SOTA（State-of-the-Art）の称号を得ることは、どの企業にとっても大きな意味を持つ。それは技術的なリーダーシップを意味するだけでなく、投資、人材、市場の注目を集める。従って、SOTAに関する記述、特にベンチマーキングによって得られた結論は精査されるべきである。

ゼップの主張：正しい実装でLoCoMoのテスト結果が覆る

ゼップ・チームはその回答の中で、LoCoMo実験を自社製品のベスト・プラクティスに従って構成した場合、結果はMem0のレポートとは大きく異なると指摘した。

AIインテリジェンスのメモリー性能：ゼップ・デューティ・メム0ベンチマークダウトフル-1

ここで取り上げている「ゼップ（正解）」を除き、スコアはすべてMem0のレポートによるものである。

ゼップが公表している評価によると、その製品のJスコアは以下の通りである。 84.61%Mem0最適構成（Mem0グラフ）の約68.4%と比較すると、約8.5TP3Tを達成している。 23.6% の相対的な性能向上が見られた。これは、Mem0論文で報告されたZepのスコア65.99%とは対照的であり、Zepは後述するように実装ミスの直接的な結果である可能性が高いと示唆している。

検索待ち時間(p95検索待ち時間)**に関して、ゼップは、彼のシステムが同時検索用に適切に設定されている場合、p95検索待ち時間は次のようになると述べている。 0.632秒.これは、Mem0のレポートにあるZepの0.778秒（Zepはシーケンシャルサーチの実装によって膨張していると推測している）よりも優れており、Mem0のグラフ検索の待ち時間（0.657秒）よりもわずかに速い。

ここで取り上げている「ゼップ（正解）」を除き、スコアはすべてMem0のレポートによるものである。

Mem0の基本構成（Mem0 Base）がより低い検索レイテンシ（0.200秒）を示していることは注目に値する。しかし、Mem0 Baseは、グラフデータベースのリレーショナル機能を持たない、より単純なベクトルストア/キャッシュを使用しており、また、Mem0の亜種の中で最も低い精度スコアを持っているため、これは完全に等価な比較ではない。Zepの効率的な同時検索は、より複雑なメモリ構造を必要とし、応答性を求めるプロダクショングレードのAIインテリジェンスにとって強力なパフォーマンスを示しており、Zepは、そのレイテンシデータは、AWSのus-west-2環境で、送信用にNATを設定して測定されたと説明している。

LoCoMoベンチマークの限界に疑問の声

Mem0がLoCoMoを研究のベンチマークとして選択したこと自体、Zepによって精査され、設計と実行の両レベルでベンチマークの根本的な欠陥が数多く指摘された。包括的で公平なベンチマークの設計と実行は、それ自体が困難な作業であり、深い専門知識、十分なリソース、テスト対象システムの内部メカニズムの徹底的な理解を必要とする。

ゼップ・チームが指摘したLoCoMoの主な問題点は以下の通り：

対話の長さと複雑さが不十分LoCoMoの会話の平均的な長さは16,000から26,000トークンです。これは長いと思われるかもしれないが、一般的には現代のLLMのコンテクストウィンドウの能力の範囲内である。この長さでは、長期記憶検索能力に負担をかけることはない。強力な証拠として、Mem0自身の結果は、そのシステムが単純な「フルコンテキストベースライン」（つまり、会話全体を直接LLMに入力する）ほどのパフォーマンスも示さないことを示している。フルコンテキストのベースラインのJスコアは約73%であるのに対し、Mem0のベストスコアは約68%である。単純に全テキストを提供することで専門的な記憶システムよりも良い結果が得られるのであれば、このベンチマークは実世界のAIと知能の相互作用における記憶能力の厳しさを十分に検証できていないことになる。
重要な記憶機能のテストに失敗このベンチマークには、テストするために設計された「知識の更新」問題が欠けています。時間の経過に伴う情報の変化（例えば、ユーザーが仕事を変えたときなど）に応じて記憶を更新することは、AIの記憶にとって重要な機能である。
データ品質の問題データセット自体にはいくつかの欠陥がある：
- 利用できないカテゴリーカテゴリー5は、標準的な回答がないため使用できず、メム0とゼップはこのカテゴリーを評価から除外せざるを得なかった。
- マルチモーダルエラー一部の設問では画像について尋ねているが、データセット作成過程でBLIPモデルが生成した画像説明文には必要な情報が含まれていない。
- スピーカーの誤植いくつかの問題では、間違った発言者の行動や発言を取り上げています。
- 問題の定義が明確でない曖昧な質問もあり、正しい答えが複数ある可能性もあります（例えば、7月と8月の両方にキャンプに行ったことがある人に、いつキャンプに行くかを聞くなど）。

こうしたエラーや矛盾を考えると、AI知能の記憶性能の権威ある指標としてのLoCoMoの信頼性には疑問が残る。残念ながら、LoCoMoは孤立したケースではない。HotPotQAなどの他のベンチマークは、LLM学習データ（ウィキペディアなど）の使用、質問の単純化しすぎ、事実誤認などで批判されている。これは、AIにおいてロバストなベンチマークを実施することの継続的な課題を浮き彫りにしている。

Mem0 ゼップの評価方法に対する批判

LoCoMoベンチマークそのものをめぐる論争に加え、Mem0論文のZepの比較は、Zepによれば欠陥のある実装に基づいており、Zepの真の能力を正確に反映していない：

誤ったユーザーモデルMem0は、ユーザーとヘルパーの対話のために設計されたユーザー・グラフ構造を使用するが、ユーザーの役割を対話の双方参加者の皆さん。これはZepの内部ロジックを混乱させ、ダイアログを1人のユーザーが常にメッセージ間でIDを切り替えているとみなす可能性が高い。
不適切なタイムスタンプの取り扱いタイムスタンプは、Zep固有のcreated_atフィールドを使用するのではなく、メッセージの末尾に付加して渡される。この非標準的なアプローチはZepのタイミング推論機能を妨害する。
逐次検索と並列検索検索操作は並列ではなく逐次的に実行されるため、Mem0によって報告されるZepの検索待ち時間が人為的に長くなる。

ゼップは、このような実装ミスがゼップがどのように運用されるように設計されているかを根本的に誤解させ、必然的にメム0の論文で報告された成績不振を招いたと主張している。

業界はより良いベンチマーキングを求めている：ゼップがLongMemEvalを支持する理由

LoCoMoが引き起こした論争により、業界はより強固で適切なベンチマークの必要性を強く感じており、ゼップ・チームは以下のようなベンチマークを好むと表明している。 LongMemEval このような評価基準は、LoCoMoの欠点をいくつかの点で補っているからだ：

長さと課題には、コンテキストの限界を試すような、かなり長いダイアログ（平均115kトークン）が含まれています。
時間的推論と状態変化時間に対する理解と、情報の変化に対応する能力（知識の更新）を明示的に試す。
質量高い品質を確保することを目的に、手作業で企画・設計。
企業との関連性実際のエンタープライズ・アプリケーションの複雑さと要件をよりよく表している。

AIインテリジェンスのメモリー性能：ゼップ・デューティ・メム0ベンチマークダウトフル-1

ZepはLongMemEvalで強力な性能を発揮し、特にマルチセッション合成や時間推論のような複雑なタスクで、ベースラインと比較して精度と待ち時間の両方で大幅な改善を達成したと報告されている。

ベンチマーキングは複雑な作業であり、競合製品の評価には、比較が公正かつ正確であることを保証するために、より一層の勤勉さと専門知識が必要である。Zep社が提示した詳細な反論から、Mem0社が主張するSOTA性能は、欠陥のあるベンチマーク（LoCoMo社）と競合他社のシステムの欠陥のある実装（Zep社）に基づいているようだ。

同じベンチマークで正しく評価した場合、ZepはMem0を精度の点で大きく上回り、特にグラフベースの実装を比較した場合、検索待ち時間の点で高い競争力を示した。この違いは、信頼できる結論を導き出すためには、厳密な実験デザインと評価対象のシステムを深く理解することが極めて重要であることを強調している。

今後、AIの分野では、より優れた、より代表的なベンチマークが切実に必要とされる。業界オブザーバーはまた、AI知能の長期記憶能力をより有意義に横並びで比較するために、Zepがすでに結果を公表しているLongMemEvalのような、より挑戦的で関連性の高いベンチマークで製品を評価するようMem0チームに奨励している。個々の製品の評価だけでなく、業界全体の技術進歩の正しい方向性にも関わることなのだ。

参考までに：ZEP: 知的身体記憶のための時間的知識グラフ・アーキテクチャ

AIインテリジェンス・メモリ性能論争：疑問視されるZep Mem0ベンチマーク

ゼップの主張：正しい実装でLoCoMoのテスト結果が覆る

LoCoMoベンチマークの限界に疑問の声

Mem0 ゼップの評価方法に対する批判

業界はより良いベンチマーキングを求めている：ゼップがLongMemEvalを支持する理由

関連記事

おすすめ

AIツールが見つからない？こちらをお試しください！

お客様の声

最新

AIインテリジェンス・メモリ性能論争：疑問視されるZep Mem0ベンチマーク

ゼップの主張：正しい実装でLoCoMoのテスト結果が覆る

LoCoMoベンチマークの限界に疑問の声

Mem0 ゼップの評価方法に対する批判

業界はより良いベンチマーキングを求めている：ゼップがLongMemEvalを支持する理由

関連記事

おすすめ

AIツールが見つからない？こちらをお試しください！

お客様の声

最新

クイック照会ステーションAIツール