About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 84件

リストから抽出されたキーワード: Dynamic Learning, Prototype Optimization, Attention Mechanism

Grounding Text-To-Image Diffusion Models For Controlled High-Quality Image Generation

Ahmad Süleyman, Göksel Biricik

Turkish-German University, Yıldız Technical University

大規模なテキストから画像への（T2I）拡散モデルは、自然言語のテキストキャプションから多様で高品質なビジュアルを合成する優れた性能を示しています。セグメンテーションマップ、エッジ、人間のキーポイントなど、さまざまなレイアウトを利用して生成プロセスを制御するために、複数のレイアウトから画像へのモデルが開発されました。本研究では、ObjectDiffusionを提案します。このモデルは、最先端の画像生成フレームワークからのインスピレーションを受けて、T2Iモデルを新しいバウンディングボックス機能でシームレスに条件付けします。具体的には、ControlNetで導入されたネットワークアーキテクチャに対し、GLIGENで提案された条件処理および注入技術を統合するために大幅な修正を加えました。ObjectDiffusionは、大規模なデータセットでの訓練から得られた生成知識を活用するために、事前訓練パラメータで初期化されます。私たちは、COCO2017トレーニングデータセットでObjectDiffusionをファインチューニングし、COCO2017検証データセットで評価しました。私たちのモデルは、AP$_{50}$が46.6、ARが44.5、FIDが19.8という結果を達成し、すべての3つの指標でオープンソースデータセットで訓練された現在のSOTAモデルを上回ります。ObjectDiffusionは、意味的および空間的な制御レイアウトにシームレスに従う多様で高品質、高忠実度の画像を合成する独自の能力を示しています。定性的および定量的なテストで評価され、ObjectDiffusionは幅広い文脈において、クローズドセットとオープンセットの設定で顕著なグラウンド能力を示しています。定性的評価は、ObjectDiffusionが異なるサイズと位置の複数のオブジェクトを生成する能力を確認しています。

2025-01-15T22:55:26

Patch-aware Vector Quantized Codebook Learning for Unsupervised Visual Defect Detection

http://arxiv.org/abs/2501.09187v1

Qisen Cheng, Shuhui Qu, Janghwan Lee

Samsung Display America Lab

無監視の視覚的欠陥検出は、産業応用において重要であり、通常のデータ特徴を捉えつつ逸脱を検出する表現空間が必要です。表現力とコンパクト性のバランスを取ることは難しく、表現力が過剰な空間は非効率性やモード崩壊のリスクがあり、検出精度を損なう可能性があります。我々は、無監視欠陥検出に最適化された強化されたVQ-VAEフレームワークを使用した新しいアプローチを提案します。我々のモデルは、パッチ認識型の動的コード割り当てスキームを導入し、文脈に応じたコード割り当てを可能にして空間表現を最適化します。この戦略は、正常と欠陥の区別を強化し、推論時の検出精度を向上させます。MVTecAD、BTAD、およびMTSDデータセットでの実験では、我々の手法が最先端の性能を達成することを示しています。

2025-01-15T22:26:26

Guiding Retrieval using LLM-based Listwise Rankers

http://arxiv.org/abs/2501.09186v1

Mandeep Rathee, Sean MacAvaney, Avishek Anand

大規模言語モデル（LLM）は、特に複数の検索結果を同時に再ランク付けする「リストワイズ」設定において、再ランカーとしての強い可能性を示しています。しかし、これらの「カスケーディング」取得と再ランクのアプローチは、関連する文書が最初に取得されない場合、最終的なランキングから永続的に除外されるという制約があります。適応的取得技術はこの問題に対処しますが、文書のスコアが他の文書とは独立に計算されることを前提としているため、リストワイズ再ランカーとは機能しません。本論文では、リストワイズ設定をサポートし、取得プロセス自体をガイドする既存の適応的取得方法の適応を提案します（これにより、LLM再ランカーの制約されたリコール問題を克服します）。具体的には、提案するアルゴリズムは、初期のランクと、これまでに見た最も関連性の高い文書から提供されたフィードバック文書の結果を統合します。多様なLLM再ランカー、第一段階の取得者、およびフィードバックソースにおける広範な実験を通じて、我々の方法がnDCG@10を最大13.23%改善し、リコールを28.02%向上させることができることを示します—すべてLLMの推論の総数を一定に保ち、適応プロセスによるオーバーヘッドを最小限に抑えたままで。これにより、初期の結果プールが限られている設定、例えばレガシーシステムや意味論的な第一段階の展開コストによって制約される場合において、LLMベースの検索を活用する道が開かれます。

2025-01-15T22:23:53

A Blockchain-Enabled Approach to Cross-Border Compliance and Trust

http://arxiv.org/abs/2501.09182v1

Vikram Kulothungan

人工知能（AI）システムが重要なインフラストラクチャーやグローバルな運用にますます不可欠となる中、統一された信頼できるガバナンスフレームワークの必要性はこれまで以上に緊急のものとなっています。この論文では、AIガバナンスに対する新しいアプローチを提案し、ブロックチェーンと分散元帳技術（DLT）を活用して、安全性、プライバシー、および信頼性を確保する、国境を越えた分散型のグローバルに認識されたフレームワークを構築します。論文では、金融セクターにおける具体的な実装シナリオを示し、今後10年間にわたる段階的な展開のタイムラインを概説し、現行の研究に基づいた解決策をもって潜在的な課題に対処します。ブロックチェーン、AI倫理、サイバーセキュリティの進展を統合することで、この論文は、複雑で進化するグローバルAI規制の状況に適応できる分散型のAIガバナンスフレームワークの包括的なロードマップを提供します。

2025-01-15T22:19:34

Attention is All You Need Until You Need Retention

http://arxiv.org/abs/2501.09166v1

Murat Yaslioglu

この作品は、トランスフォーマーベースのアーキテクチャにおける新しいリテンションレイヤ機構を紹介し、その固有の内在的な保持能力の欠如に対処しています。人間の認知が象徴的なテンプレートをエンコードし、動的に呼び出すことができるのに対し、生成事前学習トランスフォーマーは固定された事前学習済みの重みと一時的なコンテキストウィンドウのみに依存しており、その適応性が制限されています。提案されたリテンションレイヤは、リアルタイムデータの生成、動的な呼び出し、そしてガイド付きの出力生成を可能にする持続的なメモリモジュールを組み込んでいます。この強化により、モデルは観察されたパターンをセッション間で保存、更新、再利用することができ、段階的な学習を促進し、静的な事前学習と動的でコンテキストに敏感な適応の間のギャップを埋めます。リテンションレイヤの設計は、注意、保持、再生、動機付けの段階を含む社会的学習プロセスに平行しています。技術的には、メモリアテンション機構とエピソディックバッファを統合してメモリのスケーラビリティを管理し、過学習を軽減し、効率的な呼び出しを保証します。応用範囲は、適応型パーソナルアシスタント、リアルタイム詐欺検出、自律ロボティクス、コンテンツモデレーション、医療診断などに及びます。各ドメインにおいて、リテンションメカニズムはシステムが段階的に学習し、出力をパーソナライズし、進化する現実の課題に効果的に対応できるようにします。人間の学習の重要な側面を模倣することで、このリテンション強化アーキテクチャは、より流動的で応答性の高いAIパラダイムを促進し、従来のトランスフォーマーの能力を継続的な適応を必要とするドメインに拡張する動的なセッション認識モデルへの道を開きます。

2025-01-15T21:33:53

The Veln(ia)s is in the Details: Evaluating LLM Judgment on Latvian and Lithuanian Short Answer Matching

http://arxiv.org/abs/2501.09164v1

Yevhen Kostiuk, Oxana Vitman, Łukasz Gagała, Artur Kiulian

University of Dundee, University of Bremen, Georg-August-Universität Göttingen, ARG-tech, OpenBabylon

この研究では、ラトビア語とリトアニア語の短い回答マッチングタスクにおける大規模言語モデル（LLMs）の評価という課題に取り組みます。502のラトビア語と690のリトアニア語の質問-回答ペアからなる新しいデータセットを紹介します。各質問-回答ペアについて、テキスト内に小さくも意味のある変化を導入するために特別に設計された一連の変更ルールを用いて、マッチした回答とマッチしていない回答を生成しました。これらの生成された回答は、元の回答のマッチングにおける微妙な違いを検出する能力を評価するためのテストケースとして使用されます。データセットのサブセットは、品質と正確性のために手動で検証されました。結果は、QWEN2.5 72bやLLaMa3.1 70bなどの大規模LLMsがマッチした回答とマッチしていない回答を識別する際にほぼ完璧なパフォーマンスを示す一方で、小規模モデルはより多くのばらつきを示すことを示しています。例えば、LLaMa3.1 8bとEuroLLM 9bは少数ショットの例から恩恵を受けたのに対し、Mistral Nemo 12bは微妙なテキストの変更の検出において不調で、特にリトアニア語では追加の例があっても効果が薄かったです。QWEN2.57bとMistral 7bは、ゼロショットおよび少数ショットの実験において70bの大規模モデルと比較して強力かつ同等のパフォーマンスを発揮しました。さらに、Mistral 7bのパフォーマンスは少数ショットの実験においては弱かったです。

2025-01-15T21:30:03

Towards Understanding Extrapolation: a Causal Lens

http://arxiv.org/abs/2501.09163v1

Lingjing Kong, Guangyi Chen, Petar Stojanov, Haoxuan Li, Eric P. Xing, Kun Zhang

Carnegie Mellon University, Mohamed bin Zayed University of Artificial Intelligence, Broad Institute of MIT and Harvard

分布シフトを扱う標準的な研究では、通常、訓練分布の中に収まる全体のターゲット分布が必要です。しかし、実際のシナリオではターゲットサンプルが少数しか存在せず、訓練サポートの外に位置する可能性もあるため、外挿の能力が求められます。本研究では、外挿が可能な条件について理論的な理解を提供し、オンサポートターゲット分布を必要とせずにそれを達成するための原則的な手法を提案します。この目的のために、我々は因果メカニズムにおける最小変化原則を具現化した潜在変数モデルを用いて外挿問題を定式化します。この定式化の下で、外挿問題を潜在変数同定問題に変換します。我々は、たった一つのオフサポートターゲットサンプルしかない場合でも同定が可能となるようなシフト特性と推定目的に関する現実的な条件を提供し、最も困難なシナリオに取り組みます。私たちの理論は、基盤となる多様体の滑らかさとシフト特性の間の複雑な相互作用を明らかにします。我々の理論的結果が実用的な適応アルゴリズムの設計にどのように役立つかを示します。合成データと実データの両方に対する実験を通じて、私たちは理論的な発見とその実用的な含意を検証します。

2025-01-15T21:29:29

AutoLoop: Fast Visual SLAM Fine-tuning through Agentic Curriculum Learning

http://arxiv.org/abs/2501.09160v1

Assaf Lahiany, Oren Gal

University of Haifa, Swarm & AI Lab (SAIL), Hatter Department of Marine Technologies, Leon H. Charney School of Marine Sciences

現在の視覚SLAMシステムは、計算効率と堅牢なループ閉じ処理をバランスさせる上で大きな課題に直面しています。従来のアプローチでは、慎重な手動調整が必要であり、相当な計算オーバーヘッドが発生します。一方、学習ベースの手法は明示的なループ閉じ機能が欠けているか、高コストな方法でそれを実装しています。私たちは、自動カリキュラム学習と効率的なファインチューニングを組み合わせた新しいアプローチ「AutoLoop」を提案します。私たちの手法は、DDPG（Deep Deterministic Policy Gradient）エージェントを使用して、トレーニング中にループ閉じの重みを動的に調整し、手動のハイパーパラメータ探索を排除すると同時に、必要なトレーニングステップを大幅に削減します。このアプローチでは、潜在的なループ閉じペアをオフラインで事前に計算し、エージェント主導のカリキュラムを通じてそれらを活用することで、モデルが新しいシナリオに迅速に適応できるようにします。TartanAirでのトレーニング実験と、KITTI、EuRoC、ICL-NUIM、TUM RGB-Dを含む複数のベンチマークでの検証は、AutoLoopが従来のアプローチと比較して学習時間を桁違いに短縮しながら、同等またはそれ以上の性能を達成することを示しています。AutoLoopは、視覚SLAMシステムの迅速な適応のための実用的なソリューションを提供し、従来は複数の手動反復を必要とする重み調整プロセスを自動化します。私たちの結果は、この自動化されたカリキュラム戦略がトレーニングを加速するだけでなく、多様な環境条件においてモデルの性能を維持または改善することも示しています。

2025-01-15T21:22:09

Towards Multilingual LLM Evaluation for Baltic and Nordic languages: A study on Lithuanian History

http://arxiv.org/abs/2501.09154v1

Yevhen Kostiuk, Oxana Vitman, Łukasz Gagała, Artur Kiulian

University of Dundee, University of Bremen, Georg-August Universität Göttingen, OpenBabylon, ARG-tech

本研究では、リトアニアの歴史および一般的な歴史知識に関する多言語大型言語モデル（LLMs）の評価を行いました。モデルは、リトアニアの国家歴史および一般歴史に関する質問を、バルト語、北欧語、および他の言語（英語、ウクライナ語、アラビア語）に翻訳したデータセットでテストされました。これは、文化的および歴史的に関連のあるグループからの知識の共有を評価するためです。私たちは、GPT-4o、LLaMa3.1 8bおよび70b、QWEN2.5 7bおよび72b、Mistral Nemo 12b、LLaMa3 8b、Mistral 7b、LLaMa3.2 3b、および北欧のファインチューニングモデル（GPT-SW3およびLLaMa3 8b）を評価しました。私たちの結果は、GPT-4oが言語グループ全体で他のすべてのモデルを一貫して上回り、バルトおよび北欧言語で若干優れた結果を示したことを示しています。QWEN2.5 72bやLLaMa3.1 70bのような大きなオープンソースモデルは良好なパフォーマンスを示しましたが、バルト語との整合性が弱いことが見られました。小型モデル（Mistral Nemo 12b、LLaMa3.2 3b、QWEN 7B、LLaMa3.1 8B、LLaMa3 8b）は、バルト語とのLT関連の整合性にギャップがある一方で、北欧語および他の言語ではより良いパフォーマンスを示しました。北欧のファインチューニングモデルは多言語モデルを上回ることはなく、共有された文化的または歴史的コンテキストだけでは必ずしもパフォーマンス向上を保証しないことを示しています。

2025-01-15T21:14:09

Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG

http://arxiv.org/abs/2501.09136v1

Aditi Singh, Abul Ehtesham, Saket Kumar, Tala Talaei Khoei

Cleveland State University, The Davey Tree Expert Company, The MathWorks Inc, Khoury College of Computer Science, Northeastern University

大規模言語モデル（LLM）は、人間のようなテキスト生成と自然言語理解を可能にすることによって、人工知能（AI）に革命をもたらしました。しかし、静的なトレーニングデータに依存することで、動的なリアルタイムのクエリに応じる能力が制限され、結果として古くなったり不正確な出力が生じることになります。リトリーバル拡張生成（RAG）は、リアルタイムデータの取得を統合することによってLLMを強化し、コンテクストに関連性があり最新の応答を提供する解決策として登場しました。しかし、その期待にもかかわらず、従来のRAGシステムは静的なワークフローに制約されており、マルチステップの推論や複雑なタスク管理に必要な適応性が不足しています。エージェンティックリトリーバル拡張生成（エージェンティックRAG）は、RAGパイプラインに自律型AIエージェントを組み込むことで、これらの制約を超越しています。これらのエージェントは、エージェンティックデザインパターンに基づく反映、計画、ツールの使用、マルチエージェントの協力を活用して、動的にリトリーバル戦略を管理し、コンテクストの理解を反復的に洗練し、複雑なタスク要件を満たすためにワークフローを適応させます。この統合により、エージェンティックRAGシステムは多様なアプリケーションにおいて比類のない柔軟性、スケーラビリティ、コンテクストの認識を提供することが可能になります。この調査は、エージェンティックRAGの包括的な探索を提供し、その基礎的な原則とRAGパラダイムの進化から始まります。エージェンティックRAGアーキテクチャの詳細な分類を提示し、医療、金融、教育などの産業における主要な応用を強調し、実用的な実装戦略を検討します。さらに、これらのシステムをスケールさせる際の課題、倫理的な意思決定を確実にすること、そして実世界のアプリケーションのために性能を最適化することについても取り上げ、エージェンティックRAGを実装するためのフレームワークやツールに関する詳細な洞察を提供します。

2025-01-15T20:40:25

Benchmarking Robustness of Contrastive Learning Models for Medical Image-Report Retrieval

http://arxiv.org/abs/2501.09134v1

Demetrio Deanda, Yuktha Priya Masupalli, Jeong Yang, Young Lee, Zechun Cao, Gongbo Liang

Texas A&M University-San Antonio

医療画像および報告書は、患者の健康に関する貴重な洞察を提供します。しかし、これらのデータの異質性と複雑性は、効果的な分析を妨げています。このギャップを埋めるために、我々は医療画像とそれに対応する臨床報告を関連付けるためのクロスドメインリトリーバルに対するコントラスト学習モデルを調査します。本研究では、最先端のコントラスト学習モデルであるCLIP、CXR-RePaiR、MedCLIP、CXR-CLIPの4つを評価します。画像の劣化レベルが異なる中でモデルの性能を評価するために、遮蔽リトリーバルタスクを導入します。私たちの発見は、評価されたすべてのモデルが外部分布データに対して非常に敏感であることを示しており、遮蔽レベルの増加に伴ってパフォーマンスが比例して低下することが証明されています。MedCLIPはわずかにより堅牢性を示しますが、全体的なパフォーマンスはCXR-CLIPおよびCXR-RePaiRに比べて依然として大きく劣っています。一般目的のデータセットで訓練されたCLIPは、医療画像と報告書のリトリーバルに苦労しており、ドメイン特定の訓練データの重要性を強調しています。本研究の評価は、これらのモデルの堅牢性を向上させるためにさらに多くの努力を費やす必要があることを示唆しています。これらの限界に対処することにより、医療アプリケーションのためにより信頼性の高いクロスドメインリトリーバルモデルを開発することができます。

2025-01-15T20:37:04

Generative Medical Image Anonymization Based on Latent Code Projection and Optimization

http://arxiv.org/abs/2501.09114v1

Huiyu Li, Nicholas Ayache, Hervé Delingette

医療画像の匿名化は、識別情報を削除することで患者のプライバシーを保護し、下流のタスクを解決するためのデータの有用性を維持することを目的としています。本論文では、潜在コードの投影と最適化という二段階の解決策を用いて医療画像の匿名化問題に取り組みます。投影段階では、入力画像を潜在空間に投影するための合理化されたエンコーダを設計し、投影プロセスを強化するための共同トレーニングスキームを提案します。最適化段階では、医療画像に特化したアイデンティティ保護とデータ有用性のトレードオフに対処するために設計された二つの深層損失関数を用いて潜在コードを洗練します。包括的な質的および量的実験を通じて、肺疾患検出のためのトレーニングセットとして利用できる匿名化された合成画像を生成することにより、MIMIC-CXR胸部X線データセットに対する我々のアプローチの有効性を示します。ソースコードは https://github.com/Huiyu-Li/GMIA にて入手可能です。

2025-01-15T19:50:56

Mantis Shrimp: Exploring Photometric Band Utilization in Computer Vision Networks for Photometric Redshift Estimation

http://arxiv.org/abs/2501.09112v1

Andrew Engel, Nell Byler, Adam Tsou, Gautham Narayan, Emmanuel Bonilla, Ian Smith

私たちは、光度赤方偏移推定のためのマルチサーベイ深層学習モデル「マンティスシュリンプ」を紹介します。このモデルは、紫外線（GALEX）、光学（PanSTARRS）、および赤外線（UnWISE）の画像を統合します。機械学習は、光度赤方偏移推定の確立されたアプローチとなっており、一般的にスペクトル的に特定された銀河が密集している領域で、テンプレートベースの手法よりも高い性能が認められています。複数の研究により、画像ベースの畳み込みニューラルネットワークが、表形式の色/明るさモデルを上回ることが示されています。表形式のモデルと比較して、画像モデルは追加の設計上の複雑さがあります。異なる解像度やノイズ特性を持つ異なる機器からの入力をどのように統合するかは、ほとんど知られていません。マンティスシュリンプモデルは、カットアウト画像を使用して赤方偏移の条件付き密度推定を行います。この密度推定は適切に補正されており、ポイント推定は、利用可能なスペクトル的に確認された銀河の分布において良好なパフォーマンスを発揮します（バイアス = 1e-2、散乱（NMAD = 2.44e-2）、および壊滅的外れ値率（$\eta$=17.53$\%$））。私たちは、初期融合アプローチ（例：異なる機器からの画像の再サンプリングおよびスタッキング）が、遅延融合アプローチ（例：潜在空間表現の連結）のパフォーマンスと一致することを発見し、最終的に設計の選択はユーザーに委ねられることになります。最後に、私たちはモデルがバンド間の情報をどのように利用するかを調査し、私たちのモデルが全てのサーベイからの情報をうまく取り入れている証拠を見つけました。我々のモデルを大規模な銀河集団の分析に適用することは、外部サーバーからのカットアウトをダウンロードする速度によって制限されていますが、我々のモデルは、恒星集団合成のための赤方偏移に関する事前情報を生成するなどの小規模な研究において有用である可能性があります。

2025-01-15T19:46:23

A Non-autoregressive Model for Joint STT and TTS

http://arxiv.org/abs/2501.09104v1

Vishal Sunder, Brian Kingsbury, George Saon, Samuel Thomas, Slava Shechtman Hagai Aronowitz, Eric Fosler-Lussier, Luis Lastras

The Ohio State University, IBM Research

本論文では、自動音声認識（STT）と音声合成（TTS）を完全に非自回帰的な方法で共同モデル化するための一歩を踏み出します。私たちは、音声とテキストのモダリティを個別または一緒に入力として処理できる新しいマルチモーダルフレームワークを開発しました。提案するモデルは、そのマルチモーダルな性質により、ペアのない音声データやテキストデータでも訓練が可能です。さらに、出力の部分的仮説をモデルの入力にフィードバックすることによってSTTとTTSの性能を向上させる反復的な洗練戦略を提案します。これにより、STTとTTSの予測の両方を逐次的に改善します。私たちは、共同モデルがSTTおよびTTSタスクの両方を効果的に実行でき、すべてのタスクでSTT専用のベースラインを上回り、幅広い評価指標においてTTS専用のベースラインと競争力のある性能を発揮できることを示します。

2025-01-15T19:42:41

Tracking the Takes and Trajectories of English-Language News Narratives across Trustworthy and Worrisome Websites

http://arxiv.org/abs/2501.09102v1

Hans W. A. Hanley, Emily Okabe, Zakir Durumeric

Stanford University

ニュースエコシステムにおいて、誤解を招く情報や明らかに虚偽の情報がどのように流入するのかを理解することは、依然として難しい課題であり、数千の周辺および主流のニュースウェブサイトを通じて物語がどのように広がるかを追跡する必要があります。そこで、私たちはエンコーダーベースの大規模言語モデルとゼロショットスタンス検出を利用して、4,000以上の事実上信頼できない、信頼性混合、事実上信頼できる英語のニュースウェブサイトにおけるニュース物語とその態度をスケーラブルに識別・追跡するシステムを導入します。18か月にわたって私たちのシステムを稼働させ、146,000本のニュースストーリーの広がりを追跡しました。NETINFアルゴリズムを使用したネットワークベースの干渉を用いて、ニュース物語の経路と特定の実体に対するウェブサイトのスタンスを利用して、偏ったプロパガンダネットワーク（例：反ワクチンおよび反ウクライナ）を明らかにし、これらの態度を広範なニュースエコシステムに広める上で最も影響力のあるウェブサイトを特定できることを示します。私たちは、分散型ニュースエコシステムへの可視性の向上が、プロパガンダや偽情報の報道および事実確認に役立つことを期待しています。

2025-01-15T19:37:44

SteLLA: A Structured Grading System Using LLMs with RAG

http://arxiv.org/abs/2501.09092v1

Hefei Qiu, Brian White, Ashley Ding, Reinaldo Costa, Ali Hachem, Wei Ding, Ping Chen

Fitchburg State University, University of Massachusetts Boston, Chantilly High School

大規模言語モデル（LLM）は、多くのアプリケーションで強力な一般能力を示しています。しかし、自動短文採点（ASAG）などの特定のタスクに対して信頼性のあるツールにする方法は依然として課題です。私たちはSteLLA（RAGを用いたLLMによる構造化採点システム）を提案します。a) Retrieval Augmented Generation（RAG）アプローチを使用して、インストラクターが提供した参照答案やルーブリックに基づき、関連性が高く信頼できる外部知識から構造化情報を抽出することにより、LLMをASAGタスクに特化させます。b) LLMが学生の答案を構造化された質問応答に基づいて評価し、分析的な成績とフィードバックを提供します。実際のデータセットは、大学レベルの生物学コースの試験における学生の答案を収集しました。実験の結果、提案するシステムは人間の採点者との間でかなりの一致を達成でき、問題で検討されたすべての知識ポイントに対して内訳の成績とフィードバックを提供できることが示されました。GPT-4によって生成されたフィードバックの質的およびエラー分析は、GPT-4が事実を把握するのが得意である一方、採点タスクにおいて与えられたテキストから過剰な含意を推論する傾向があることを示しており、ASAGシステムにおけるLLMの使用についての洞察を提供します。

2025-01-15T19:24:48

Inferring Transition Dynamics from Value Functions

http://arxiv.org/abs/2501.09081v1

Jacob Adamczyk

強化学習において、価値関数は通常、現在の価値を将来の価値に結びつけるベルマン方程式を解決するように訓練されます。この時間的依存性は、価値関数が環境の遷移ダイナミクスに関する暗黙の情報を含んでいる可能性があることを示唆しています。ベルマン方程式を再構成することで、収束した価値関数が環境の根底にあるダイナミクスのモデルをエンコードしていることを示します。この洞察をもとに、価値関数からダイナミクスモデルを直接推測するための単純な方法を提案し、明示的なモデル学習の必要性を軽減する可能性があります。さらに、次の状態の同定性の課題を探求し、推定されたダイナミクスモデルが明確である条件について議論します。私たちの研究は、ダイナミクスモデリングにおいて価値関数を活用するための理論的な基盤を提供し、モデルフリーとモデルベースの強化学習を橋渡しする新たな道を切り開きます。

2025-01-15T19:00:47

Average-Reward Reinforcement Learning with Entropy Regularization

http://arxiv.org/abs/2501.09080v1

Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni

強化学習（RL）の平均報酬の定式化は、割引なしで時間的に拡張された問題を解決できる能力により、近年ますます注目を集めています。独立して、RLアルゴリズムはエントロピー正則化から恩恵を受けており、これは最適ポリシーを確率的にし、ノイズに対してより頑健にするために使用されるアプローチです。これら二つのアプローチの明確な利点にもかかわらず、エントロピー正則化と平均報酬目標の組み合わせは文献であまり研究されておらず、この設定のためのアルゴリズムの開発は限られています。この分野のギャップを埋めるために、関数近似を用いてエントロピー正則化された平均報酬のRL問題を解決するためのアルゴリズムを開発しました。私たちの方法を実験的に検証し、既存のアルゴリズムと標準ベンチマークで比較しました。

2025-01-15T19:00:46

How Do Generative Models Draw a Software Engineer? A Case Study on Stable Diffusion Bias

http://arxiv.org/abs/2501.09014v1

Tosin Fadahunsi, Giordano d'Aloisio, Antinisca Di Marco, Federica Sarro

University College London, University of L’Aquila

生成モデルは現在、ウェブ、アート、広告などのために使用されるグラフィックコンテンツを生成するために広く利用されています。しかし、これらのモデルによって生成された画像は、特定の文脈で既に存在する社会的バイアスを強化する可能性があることが示されています。本論文では、さまざまなソフトウェア工学タスクに関連する画像を生成する際、それが当てはまるかどうかを理解することに焦点を当てています。実際、ソフトウェア工学（SE）コミュニティは性別および民族的差異から免れておらず、これらのモデルの使用によってその差異がさらに強調される可能性があります。したがって、意識せずに使用すると、人工的に生成された画像はSE領域におけるこれらのバイアスを強化する可能性があります。具体的には、SEタスクに対する非常に人気のあるオープンソースのテキストから画像へのモデル、Stable Diffusion（SD）モデルの3つのバージョン（SD 2、SD XL、SD 3）によって露呈された性別および民族的バイアスについての広範な実証的評価を行います。異なるソフトウェア関連タスクを説明する2セットのプロンプトを各モデルに与えることによって6,720枚の画像を取得します。1セットは「ソフトウェアエンジニア」というキーワードを含み、もう1セットはタスクを行う人の具体的な指定を含んでいません。次に、生成された画像における性別および民族的差異を評価します。結果は、すべてのモデルがソフトウェアエンジニアを表す際に男性の人物に対して顕著にバイアスがかかっていることを示しています。一方、SD 2およびSD XLは白人の人物に強くバイアスがかかっているのに対し、SD 3はややアジア人の人物に対してバイアスがかかっています。それにもかかわらず、すべてのモデルはプロンプトスタイルに関係なく、黒人およびアラブの人物を顕著に過少表現しています。私たちの分析の結果は、SEタスクのコンテンツ生成にこれらのモデルを採用することに対する深刻な懸念を浮き彫りにしており、この文脈でのバイアス軽減に関する将来の研究のための道を開いています。

2025-01-15T18:57:17

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

http://arxiv.org/abs/2501.09012v1

Ruixiang Jiang, Changwen Chen

The Hong Kong Polytechnic University

私たちは、マルチモーダルLLM（MLLM）の推論能力がどのように引き出され、美術作品の美的評価に活用されるかについての初めての研究を発表します。この調査を進めるために、私たちは芸術的スタイライズのベンチマーク用の新しい高品質データセット「MM-StyleBench」を構築しました。次に、人間の好みモデルに基づく原則的な手法を開発し、MLLMの応答と人間の好みとの間の体系的な相関分析を行いました。私たちの実験では、芸術評価におけるMLLMの固有の幻覚問題が明らかになり、応答の主観性に関連していることが示されました。ArtCoTが提案されており、これは芸術特有のタスク分解と具体的な言語の使用が、MLLMの美的推論能力を向上させることを示しています。私たちの発見は、芸術に対するMLLMに貴重な洞察を提供し、スタイル転送や芸術的画像生成などのさまざまな下流アプリケーションに役立つことができます。コードはhttps://github.com/songrise/MLLM4Artで入手可能です。

2025-01-15T18:56:22

AI-RAN: Transforming RAN with AI-driven Computing Infrastructure

http://arxiv.org/abs/2501.09007v1

Lopamudra Kundu, Xingqin Lin, Rajesh Gadiyar, Jean-Francois Lacasse, Shuvo Chowdhury

無線アクセスネットワーク（RAN）の風景は、従来の通信中心のインフラから統合されたコンピュート・コミュニケーションプラットフォームへと変革を遂げています。この記事では、RANと人工知能（AI）のワークロードを同じインフラ上で統合するAI-RANを紹介します。これにより、AI-RANは未来のネットワークのパフォーマンス要求を満たすだけでなく、資産の利用効率も向上させます。まず、RANがモバイルブロードバンドを超えてどのように進化してAI-RANに至ったかを検討し、AI-RANの三つの形態：AI-for-RAN、AI-on-RAN、AI-and-RANを明確にします。次に、AI-RANにおける通信とコンピューティングの統合のための主要な要件と促進因子を特定します。それから、AI-RANを概念から実践へ進めるためのリファレンスアーキテクチャを提供します。AI-RANの実用的な可能性を示すために、NVIDIA Grace-Hopper GH200サーバーを用いてRANとAIのワークロードを同時に処理する概念実証を紹介します。最後に、AI-RANのさらなる発展を導くための今後の作業方向を概説してこの記事を締めくくります。

2025-01-15T18:47:05

Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition

http://arxiv.org/abs/2501.09056v1

Sneheel Sarangi, Maha Elgarf, Hanan Salam

NYU Abu Dhabi

心の理論（ToM）は、他者の精神状態を理解し、反映する能力です。この能力は人間の相互作用にとって重要ですが、大規模言語モデル（LLM）のテストでは、彼らがその能力を初歩的にしか理解していないことが明らかになっています。最も優れたクローズドソースのLLMは、いくつかのToMタスクで人間のパフォーマンスに近づいているものの、より構造化された推論を含む複雑なバリエーションのタスクでは依然として低いパフォーマンスを示しています。本研究では、認知心理学からの「ごっこ遊び」や「シミュレーション理論」の概念を活用し、「Decompose-ToM」と呼ばれるLLMベースの推論アルゴリズムを提案します。このアルゴリズムは、複雑なToMタスクにおけるモデルのパフォーマンスを向上させます。私たちはユーザーの視点を再帰的にシミュレートし、ToMタスクをより単純な機能のセット（主語の識別、質問の再構成、世界モデルの更新、知識の利用可能性）に分解します。アルゴリズムを高次のToMタスクおよび会話設定におけるToM能力をテストするタスクで検証したところ、我々のアプローチはベースライン手法と比較して、モデル間で大幅な改善を示し、タスク間で最小限のプロンプト調整や追加のモデル訓練を必要としないことが実証されました。

2025-01-15T18:44:01

Personality Modeling for Persuasion of Misinformation using AI Agent

http://arxiv.org/abs/2501.08985v1

Qianmin Lou, Wentao Xu

ソーシャルメディアプラットフォームにおける誤情報の蔓延は、個々の性格特性が誤情報への感受性やその普及にどのように影響するかを理解する必要性を際立たせています。本研究では、性格特性と誤情報のダイナミクスとの関係を調査するために革新的なエージェントベースのモデリングアプローチを採用しました。ビッグファイブ性格特性（外向性、協調性、神経症傾向）の異なる次元を具現化した6つのAIエージェントを使用し、6つの多様な誤情報トピックにわたる相互作用をシミュレーションしました。この実験は、GLM-4-Flashモデルを用いてAgentScopeフレームワークを通じて実施され、90のユニークな相互作用が生成され、性格の組み合わせが誤情報に対する説得力や抵抗にどのように影響するかについての複雑なパターンを明らかにしました。我々の結果は、分析的および批判的な性格特性が証拠に基づく議論において効果を高めること、非攻撃的な説得戦略が誤情報の修正において予期しない成功を示すことを示しています。特に、批判的特性を持つエージェントはHIV関連の誤情報の議論において59.4%の成功率を達成し、非攻撃的なアプローチを採用したエージェントは異なる性格の組み合わせにおいて40%以上の一貫した説得率を維持しました。また、この研究は説得の効果における非推移的パターンを明らかにし、性格に基づく影響に関する従来の仮定に挑戦しています。これらの結果は、デジタル環境における性格を考慮した介入の開発に重要な洞察を提供し、効果的な誤情報対策は対立的なアプローチよりも感情的なつながりと信頼構築を優先すべきであることを示唆しています。これらの発見は、性格と誤情報のダイナミクスの理論的理解およびソーシャルメディアコンテクストでの誤情報と戦うための実用的な戦略に寄与します。

2025-01-15T18:04:21

Development and Validation of the Provider Documentation Summarization Quality Instrument for Large Language Models

http://arxiv.org/abs/2501.08977v1

Emma Croxford, Yanjun Gao, Nicholas Pellegrino, Karen K. Wong, Graham Wills, Elliot First, Miranda Schnier, Kyle Burton, Cris G. Ebby, Jillian Gorskic, Matthew Kalscheur, Samy Khalil, Marie Pisani, Tyler Rubeor, Peter Stetson, Frank Liao, Cherodeep Goswami, Brian Patterson, Majid Afshar

大規模言語モデル（LLM）が電子健康記録（EHR）ワークフローに統合される中、実装前にその性能を評価するためには、検証されたツールが不可欠です。現存する医療提供者の文書品質評価ツールは、LLM生成テキストの複雑さにはしばしば適さず、実世界のデータに対する検証が欠けています。医療提供者文書要約品質評価ツール（PDSQI-9）は、LLM生成の臨床要約を評価するために開発されました。複数の専門分野にわたる実世界のEHRデータから、複数のLLM（GPT-4o、Mixtral 8x7b、Llama 3-8b）を使用してマルチドキュメント要約が生成されました。検証には、実質的妥当性のためのピアソン相関、構造的妥当性のための因子分析とクロンバックのアルファ、一般化可能性のための評価者間信頼性（ICCおよびクリッペンドルフのアルファ）、内容妥当性のための半デファイプロセス、及び高品質と低品質の要約の比較による識別妥当性が含まれました。7人の医師が779の要約を評価し、8,329の質問に回答し、評価者間信頼性について80％を超えるパワーを達成しました。PDSQI-9は強い内部一貫性（クロンバックのアルファ = 0.879; 95% CI: 0.867-0.891）および高い評価者間信頼性（ICC = 0.867; 95% CI: 0.867-0.868）を示し、構造的妥当性と一般化可能性を支持しました。因子分析により、58%の分散を説明する4因子モデルが特定され、組織、明確性、正確性、及び有用性を表しています。実質的妥当性は、メモの長さと簡潔性（rho = -0.200, p = 0.029）および組織化（rho = -0.190, p = 0.037）のスコアとの相関によって支持されました。識別妥当性は高品質と低品質の要約を区別しました（p < 0.001）。PDSQI-9は堅牢な構成妥当性を示し、臨床実践におけるLLM生成要約の評価と、医療ワークフローへのLLMの安全な統合を促進するための使用を支持しています。

2025-01-15T17:47:57

Trusted Machine Learning Models Unlock Private Inference for Problems Currently Infeasible with Cryptography

http://arxiv.org/abs/2501.08970v1

Ilia Shumailov, Daniel Ramage, Sarah Meiklejohn, Peter Kairouz, Florian Hartmann, Borja Balle, Eugene Bagdasarian

Google DeepMind, Google Research

私たちはしばしば信頼できない第三者とやり取りをします。プライバシーの優先順位を考えると、これらのやりとりの効果が制限される可能性があります。特定の目標を達成するためには、プライベートなデータを共有する必要があるからです。従来、この課題に対処するためには、信頼できる仲介者を求めるか、データの開示量を制限する暗号プロトコル（たとえば、多者計算やゼロ知識証明）を構築することが関与していました。暗号的アプローチのスケーリングにおいては重要な進展がありましたが、それらは使用できるアプリケーションのサイズや複雑さに関して依然として制限があります。本論文では、能力のある機械学習モデルが信頼された第三者の役割を果たすことができ、従来は実現不可能だったアプリケーションの安全な計算を可能にすると主張します。特に、入力/出力の制約の下で相互作用する能力のある機械学習モデルを用いた、セキュアな計算のスケーリングのための代替アプローチとして、Trusted Capable Model Environments（TCME）を説明します。このアプローチは、プライバシーと計算効率のバランスを達成することを目指しており、古典的な暗号解決策が現在不可能な状況でプライベートな推論を可能にします。私たちはTCMEによって可能になるいくつかのユースケースを説明し、古典的な暗号の問題でもすでにTCMEで解決できるものがあることを示します。最後に、現在の制限を概説し、それらを実装するための進むべき道について議論します。

2025-01-15T17:28:53

An analysis of data variation and bias in image-based dermatological datasets for machine learning classification

http://arxiv.org/abs/2501.08962v1

Francisco Mauro, Emanoel Thyago, Othon Vinicius, Rodrigo Abreu, Kelvin Cunha, José Gabriel, Rafael Barros, Thales Bezerra, Manoel Henriques, Natalia Lopes, Érico Moutinho, Jéssica Guido, Tsang Ing Ren, Paulo Borba

AIアルゴリズムは、医療の専門家を支援する上で貴重な存在となっています。これらのモデルから得られる信頼の向上は、重要な決定要求に役立ちます。臨床皮膚科においては、分類モデルがRGB画像のみを入力として使用し、患者の皮膚上の悪性病変を検出することができます。しかし、ほとんどの学習ベースの手法は、大規模で金の標準によって検証された皮膚镜検データセットから取得したデータを使用してトレーニングを行います。臨床モデルは、皮膚鏡検によって提供される対応する解像度を含まないユーザーのスマートフォンカメラでの分類に取り組むことを目指しています。また、臨床アプリケーションは新たな課題をもたらします。それは、制御されていない環境からのキャプチャ、肌のトーンの変動、視点の変化、データとラベルのノイズ、そしてクラスの不均衡を含む可能性があります。一つの可能な代替手段は、臨床画像に対処するために転移学習を使用することです。しかし、サンプル数が少ない場合、モデルのパフォーマンスに悪影響を及ぼす可能性があります。トレーニングに使用されたソース分布がテストセットと異なるためです。本研究の目的は、皮膚鏡検サンプルと臨床サンプルの間のギャップを評価し、データセットの変動がトレーニングにどのように影響するかを理解することです。それは、モデルの予測を妨げる分布間の主要な違いを評価します。最後に、異なるアーキテクチャに関する実験を通じて、分布の異なるデータをどのように組み合わせ、モデルの最終的な精度への影響を減少させるかを議論します。

2025-01-15T17:18:46

Kolmogorov-Arnold Networks for Time Series Granger Causality Inference

http://arxiv.org/abs/2501.08958v1

Meiliang Liu, Yunfang Xu, Zijin Li, Zhengye Si, Xiaoxiao Yang, Xinyue Yang, Zhiwen Zhao

Beijing Normal University

私たちは、因果推論の分野にKolmogorov-Arnoldネットワーク（KAN）を拡張した革新的なアーキテクチャであるGranger因果性Kolmogorov-Arnoldネットワーク（GCKAN）を紹介します。KAN層から基準重みを抽出し、スパース誘導ペナルティとリッジ正則化を組み合わせることで、GCKANは時系列からGranger因果性を推測し、自動的な時間遅延選択を可能にします。また、推論精度を向上させるために、時間反転Granger因果性を活用するアルゴリズムを提案します。このアルゴリズムは、元の時系列と時間反転時系列から導出された予測損失とスパース誘導損失を比較し、高いスコアの因果関係を自動的に選択するか、結果を統合して偽の接続性を緩和します。Lorenz-96、遺伝子調節ネットワーク、fMRI BOLD信号、VARデータセットに対して実施された包括的な実験により、提案モデルは非線形、高次元、限られたサンプルの時系列からGranger因果性を推測する際に、最先端の手法と競争力のある性能を達成することが示されています。

2025-01-15T17:09:07

Analyzing the Ethical Logic of Six Large Language Models

http://arxiv.org/abs/2501.08951v1

Russell Neuman, Chad Coleman, Manan Shah

この研究は、6つの著名な生成型大規模言語モデルの倫理的推論を検討します：OpenAI GPT-4o、Meta LLaMA 3.1、Perplexity、Anthropic Claude3.5 Sonnet、Google Gemini、およびMistral 7B。この研究は、特にトロリー問題やハインツジレンマといった道徳的ジレンマに対する反応として、これらのモデルが倫理的論理をどのように表現し適用するかを探ります。伝統的な整合性研究から出発し、この研究は説明性・透明性の枠組みを採用し、モデルに倫理的推論を説明するよう促します。このアプローチは、結果主義的-義務論的な分析、道徳的基盤理論、コールバーグの道徳的発達段階モデルという3つの確立された倫理的類型論を通じて分析されます。調査結果は、LLM（大規模言語モデル）が主に合理主義的で結果主義的な強調を持つ収束した倫理論理を示し、決定がしばしば害の最小化と公平性を優先することを明らかにします。事前学習とモデルアーキテクチャの類似にもかかわらず、モデル間には微妙で重要な倫理的推論の違いが見られ、これはファインチューニングや学習後のプロセスの違いを反映しています。モデルは常に博識、慎重、自覚的であり、道徳哲学における大学院レベルの議論に類似した倫理的推論を提示します。これらのシステムは驚くべき一致を示し、その倫理的推論を典型的な人間の道徳論理よりも洗練されたものとして描写しています。

2025-01-15T16:56:26

Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos

http://arxiv.org/abs/2501.08931v1

Javier Rodriguez-Juan, David Ortiz-Perez, Manuel Benavent-Lledo, David Mulero-Pérez, Pablo Ruiz-Ponce, Adrian Orihuela-Torres, Jose Garcia-Rodriguez, Esther Sebastián-González

University of Alicante

現在の生物多様性喪失危機は、動物モニタリングを重要な研究分野にしています。このことを踏まえ、モニタリングを通じて収集されたデータは、生物多様性を保護するための意思決定に向けた重要な洞察や情報を提供することができます。このようなデータの重要性にもかかわらず、鳥の動画を含むデータセットは著しく不足しており、既存のデータセットには動画形式の鳥の行動についての詳細な注釈はありません。このギャップに対応するために、我々の研究は、鳥の行動検出と種の分類のために特別に設計された初の詳細な動画データセットを紹介します。このデータセットは、包括的な鳥の動画データセットの必要性に応え、鳥の行動に関する詳細なデータを提供し、人間の行動認識で最近の進展に似た形で、これらを認識するための深層学習モデルの開発を促進します。提案されたデータセットは、スペインの湿地帯で録画された178本の動画で構成されており、13種類の異なる鳥が7つの異なる行動クラスを実行している様子を捉えています。さらに、我々は、鳥の行動認識と種の分類の2つのタスクにおける最先端モデルを使用したベースライン結果も提示します。

2025-01-15T16:34:20

Disentangling Exploration of Large Language Models by Optimal Exploitation

http://arxiv.org/abs/2501.08925v1

Tim Grams, Patrick Betz, Christian Bartelt

Technical University of Clausthal, University of Mannheim

探索は自己改善やオープンエンドの問題解決において重要なスキルです。しかし、大規模言語モデルが状態空間を効果的に探索できるかどうかは不確かです。既存の評価は主に探索と活用のトレードオフに焦点を当てており、これは多腕バンディット問題でよく評価されます。それに対して、本研究では探索を唯一の目的として抽出し、エージェントに将来のリターンを向上させる情報を提供するという課題を与えます。評価のために、我々は欠如した報酬を探索と活用の成分に分解し、すでに探索された状態に対する最適達成可能リターンを測定することを提案します。さまざまなLLMでの実験を通じて、ほとんどのモデルが状態空間を十分に探索できず、弱い探索が不十分であることが明らかになりました。モデルサイズと探索性能の間には正の相関が見られ、大きなモデルが優れた能力を示しています。さらに、我々の分解がプロンプトエンジニアリング中のエージェント指示によって駆動される行動の違いに関する洞察を提供することを示し、探索タスクにおけるLLM性能を向上させるための貴重なツールとなることを示します。

2025-01-15T16:30:29

Modeling Melt Pool Features and Spatter Using Symbolic Regression and Machine Learning

http://arxiv.org/abs/2501.08922v1

Olabode T. Ajenifujah, Amir Barati Farimani

加法製造（AM）は、その複雑な形状を製造する能力により、さまざまな分野での応用を引き付けている急速に進化する技術です。しかし、AMにおける主要な課題の一つは、一貫した印刷品質を達成することです。この不一致はしばしば、欠陥を引き起こす可能性のあるスパッタによって部分的に引き起こされる制御されていないメルトプールのダイナミクスに起因しています。したがって、メルトプールの進化を捉え、制御することは、プロセスの安定性と部品の品質を向上させるために重要です。本研究では、AM操作における意思決定を支援するためのフレームワークを開発し、機械学習（ML）と多項式記号回帰モデルを介して品質管理を促進し、欠陥を最小限に抑えることを目的としました。私は、レーザーパウダーベッド融合（LPBF）プロセスから大規模なデータセットを収集するためのコスト効果の高いアプローチとして、実験的に検証された計算ツールを実装しました。281のプロセス条件からなるデータセットの中で、メルトプールの寸法（長さ、幅、深さ）、メルトプールの形状（面積、体積）、およびスパッタとして示された体積などのパラメータが抽出されました。機械学習（ML）と多項式記号回帰モデルを使用して、モデル入力としてプロセス条件（出力と速度）またはメルトプールの寸法を用いた際、トレーニングデータセットとテストデータセットの両方でメルトプールの寸法と形状の特徴を予測する際に95％を超える高いR2値が達成されました。スパッタとして示された体積の場合、モデル入力（プロセス条件またはメルトプールの寸法）を対数変換した後、R2が改善されました。調査したMLモデルの中で、ExtraTreeモデルは96.7％と87.5％の最高のR2値を達成しました。

2025-01-15T16:26:01

Projection Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning

http://arxiv.org/abs/2501.08907v1

Xinchen Han, Hossam Afifi, Michel Marot

オフライン強化学習（RL）は、分布外（OOD）アクションによる外挿誤差という重要な課題に直面しています。暗黙のQ学習（IQL）アルゴリズムは、期待値回帰を使用してインサンプル学習を達成し、OODアクションに関連するリスクを効果的に軽減します。しかし、政策評価における固定ハイパーパラメータと、密度ベースの政策改善手法は、その全体的な効率を制限しています。本論文では、サポート制約を強化した射影IQLアルゴリズム「Proj-IQL」を提案します。ポリシー評価フェーズでは、Proj-IQLがベクトル射影を通じてワンステップアプローチをマルチステップアプローチに一般化し、インサンプル学習と期待値回帰のフレームワークを維持します。ポリシー改善フェーズでは、Proj-IQLがポリシー評価アプローチにより整合性のあるサポート制約を導入します。さらに、Proj-IQLが単調なポリシー改善を保証し、優れたアクションのためのより厳格な基準を享受することを理論的に示します。実証結果は、Proj-IQLがD4RLベンチマークで最先端のパフォーマンスを達成し、特に難しいナビゲーションドメインにおいて優れていることを示しています。

2025-01-15T16:17:02

Computing Game Symmetries and Equilibria That Respect Them

http://arxiv.org/abs/2501.08905v1

Emanuel Tewolde, Brian Hu Zhang, Caspar Oesterheld, Tuomas Sandholm, Vincent Conitzer

戦略的相互作用は、マルチエージェントシステム内の対称性を理解することで、より簡潔に表現され、より効率的に分析および解決される可能性があります。対称性は、平衡選択に関する概念的な意味を持つこともあります。私たちは、対称性の特定と利用に関する計算の複雑さを研究します。古典的な正規形ゲームの枠組みを使用して、私たちはプレイヤーやアクションの一部またはすべてに対するゲームの対称性を考慮します。ゲームの対称性とグラフの自己同型性の間には強い関係があることを見いだし、ゲームに存在する対称性を特徴づけるためのグラフの自己同型性およびグラフの同型性完全性の結果を得ました。一方で、アクションの考慮を2つの方法のうちの1つに制限すると問題が多項式時間で解決可能になることも示します。次に、ゲームの対称性をナッシュ均衡の計算にどのように利用できるかを調査します。与えられた対称性の集合を尊重するナッシュ均衡を見つけることは、一般総和ゲームおよびチームゲームにおいてそれぞれPPADおよびCLS完全であることを示します。これは、ブロウワーの不動点問題および勾配降下問題と同じくらい難しいということです。最後に、非常に多くの対称性を認識している特別なケースや、ゲームが2人用のゼロサムであり、対称性すら知らない場合に対する多項式時間の方法を提示します。

2025-01-15T16:15:16

Leveraging Large Language Models as Knowledge-Driven Agents for Reliable Retrosynthesis Planning

http://arxiv.org/abs/2501.08897v1

Qinyu Ma, Yuhao Zhou, Jianfeng Li

材料化学における信頼できる合成経路の特定は、特に高分子科学において複雑な作業であり、マクロ分子の複雑でしばしば非一意的な命名法がその要因です。この課題に対処するために、我々は大規模言語モデル（LLMs）と知識グラフ（KGs）を統合したエージェントシステムを提案します。LLMsの化学物質名の抽出および認識における強力な能力を活用し、抽出されたデータを構造化された知識グラフに保存することで、我々のシステムは関連文献の自動取得、反応データの抽出、データベースの照会、逆合成経路ツリーの構築、追加文献の取得によるさらなる拡張、および最適な反応経路の推奨を完全に自動化します。新しい多分岐反応経路探索（MBRPS）アルゴリズムは、すべての経路を探索できるようにし、特に多分岐経路に焦点を当てており、LLMsが多分岐経路での弱い推論を克服できるよう支援します。この研究は、LLMsによって強化された高分子に特化した完全自動逆合成計画エージェントを開発するための初めての試みを示しています。ポリイミド合成に適用した我々の新しいアプローチは、数百の経路を持つ逆合成経路ツリーを構築し、既知および新規経路を含む最適化されたルートを推奨し、その効果と広範な応用の可能性を示しています。

2025-01-15T16:06:10

Karatsuba Matrix Multiplication and its Efficient Custom Hardware Implementations

http://arxiv.org/abs/2501.08889v1

Trevor E. Pogue, Nicola Nicolici

McMaster University

カラツバアルゴリズムは大きな整数の乗算の複雑さを削減しますが、追加の加算が必要なため、より一般的に使用されるビット幅の小さな整数に対してはその利点が最小限に抑えられます。本研究では、スカラーカラツバ乗算アルゴリズムの行列乗算への拡張を提案し、この拡張が元のカラツバアルゴリズムの乗算複雑さの削減を維持しつつ、追加の加算の複雑さも削減する方法を示します。さらに、カスタムハードウェアにおいてこのカラツバアルゴリズムの拡張を効率的に活用するための新しい行列乗算ハードウェアアーキテクチャを提案します。提案されたアルゴリズムとハードウェアアーキテクチャは、スカラーカラツバや従来の行列乗算アルゴリズムに比べて整数行列乗算のための実際の面積または実行時間の改善を提供できることを示し、また、核心的な部分で実績のあるストリオリックアレイや従来の乗算器アーキテクチャを通じて実装をサポートします。アルゴリズムとアーキテクチャの複雑さ分析を提供し、提案された設計をベースライン設計および同じ計算プラットフォーム上で実装された先行の最先端作品と比較して、単独でおよびエンドツーエンドのディープラーニングアクセラレーターシステム内で評価し、行列乗算ハードウェアのパフォーマンス-面積を向上させる能力を実証します。

2025-01-15T16:00:43

Incrementally Learning Multiple Diverse Data Domains via Multi-Source Dynamic Expansion Model

http://arxiv.org/abs/2501.08878v1

Runqing Wu, Fei Ye, Qihe Liu, Guoxi Huang, Jinyu Guo, Rongyao Hu

Huazhong University of Science and Technology, University of Electronic Science and Technology, University of Bristol

継続学習は、新しい情報を段階的に吸収しながら、以前の知識を保持することができるモデルの開発を目指しています。しかし、現在の研究は主に、すべてのデータサンプルが単一のデータドメインからなるという単純な学習コンテキストに焦点を当てています。本論文では、複数の異なるドメインから取得されたデータサンプルによって特徴づけられる、より複雑で現実的な学習環境に焦点を移します。この複雑な学習課題に対処するために、様々なプレトレーニングされたモデルをバックボーンとして活用し、出現するタスクに適応するために新しいエキスパートを段階的に確立する「マルチソースダイナミックエクスパンションモデル（MSDEM）」という新しい方法論を導入します。さらに、複数のバックボーンからの知識を選択的に活用するために設計された革新的なダイナミック拡張可能な注意メカニズムを提案し、これにより新しいタスクの学習を加速します。加えて、以前に取得したすべてのパラメータと表現を戦略的に再利用し、新しいタスクの学習のためにポジティブな知識転送効果を最大化するダイナミックグラフウェイトルーターを導入します。これにより、一般化性能がさらに向上します。包括的な一連の実験を実施し、実証的な結果は、私たちの提案したアプローチが最先端の性能を達成していることを示しています。

2025-01-15T15:49:46

Silent Abandonment in Text-Based Contact Centers: Identifying, Quantifying, and Mitigating its Operational Impacts

http://arxiv.org/abs/2501.08869v2

Antonio Castellanos, Galit B. Yom-Tov, Yair Goldberg, Jaeyoung Park

サービスの向上を目指す中で、企業は顧客に対してテキストを介してエージェントと対話するオプションを提供しています。このようなコンタクトセンターは、顧客体験の指標である放棄や忍耐を測定する際に不確実性が伴うため、従来のコールセンターとは異なる独自の課題に直面しています。この不確実性の重要な要因は、サイレントアバンドンメント（無言の放棄）であり、顧客がシステムに通知せずに離脱することで、エージェントの時間を無駄にし、状態を不明瞭にします。サイレントアバンドンメントは、顧客がサービスを受けられたのか離脱したのかも曖昧にします。我々の目標は、サイレントアバンドンメントの規模を測定し、その影響を軽減することです。分類モデルによると、17社において顧客の3%-70%が無言で放棄しています。ある調査では、放棄した顧客の71.3%が無言で放棄し、その結果、エージェントの効率が3.2%低下し、システムの容量が15.3%減少し、エージェント1人あたり年に$5,457のコストが発生しました。我々は不確実性の下で顧客の忍耐を推定し、影響を与える共変量を特定するための期待値最大化（EM）アルゴリズムを開発しました。我々は、企業が放棄の範囲を推定するために分類モデルを使用し、我々のEMアルゴリズムを用いて忍耐を評価すべきであると考えています。サイレントアバンドンメントの影響を運用的に軽減するために、疑わしいサイレントアバンドンメント行動を予測するか、サービスデザインを変更する戦略を提案します。具体的には、顧客に待機中にメッセージを送信させることが欠損データの課題を生む一方で、忍耐を大幅に向上させ、サービス時間を短縮し、放棄を減少させたり、スタッフの必要数を削減したりすることを示します。

2025-01-15T15:38:56

ARMOR: Shielding Unlearnable Examples against Data Augmentation

http://arxiv.org/abs/2501.08862v1

Xueluan Gong, Yuji Wang, Yanjiao Chen, Haocheng Dong, Yiming Li, Mengyuan Sun, Shuaike Li, Qian Wang, Chen Chen

Nanyang Technological University, Singapore, Zhejiang University, China, Wuhan University, China, ZJU-Hangzhou Global Scientific and Technological Innovation Center (HIC), State Key Laboratory of Blockchain and Data Security, Zhejiang University, China

私的データがオンラインで公開されると、許可されていない第三者によって収集され、深層ニューラルネットワーク（DNN）のトレーニングに使用される可能性があります。プライバシーを保護するために、DNNによる学習能力を低下させるために、元のサンプルに防御ノイズを追加することができます。最近、学習不可能な例が提案され、モデルがほとんど何も学習しないようにトレーニング損失を最小化することが目指されています。しかし、生データはトレーニングに使用される前にしばしば前処理され、これによって保護されたデータのプライベート情報が復元される可能性があります。本論文では、データ拡張が引き起こすデータプライバシーの違反を明らかにします。これは、モデルの一般化能力を向上させるための一般的に使用されるデータ前処理技術に関して、私たちが知る限り初めてのことです。我々は、データ拡張が学習不可能な例でトレーニングされたモデルの精度を21.3%から66.1%に大幅に向上させることができることを示します。この問題に対処するために、我々はARMORと呼ばれる防御フレームワークを提案し、データ拡張による潜在的なプライバシー侵害からデータプライバシーを保護します。モデルのトレーニングプロセスにアクセスできないという困難を克服するために、我々はデータ拡張の効果をよりよくキャプチャする非局所モジュール支援の代替モデルを設計しました。さらに、拡張されたサンプルと非拡張のサンプルとの間の分布アラインメントを最大化する代替拡張選択戦略を設計し、各クラスに最適な拡張戦略を選択します。また、動的ステップサイズ調整アルゴリズムを用いて防御ノイズ生成プロセスを強化します。ARMORの性能を検証するために、4つのデータセットおよび5つのデータ拡張手法に対して広範な実験が実施されました。6つの最先端防御手法との比較により、ARMORはデータ拡張下で保護されたプライベートデータの学習不可能性を維持できることが実証されました。ARMORは、拡張された保護サンプルでトレーニングされたモデルのテスト精度を、ベースラインよりも最大60%低下させます。

2025-01-15T15:22:57

Digital Phenotyping for Adolescent Mental Health: A Feasibility Study Employing Machine Learning to Predict Mental Health Risk From Active and Passive Smartphone Data

http://arxiv.org/abs/2501.08851v1

Balasundaram Kadirvelu, Teresa Bellido Bel, Aglaia Freccero, Martina Di Simplicio, Dasha Nicholls, A Aldo Faisal

背景: 青少年は特にメンタル障害に対して脆弱であり、75%以上のケースが25歳未満で現れます。研究によると、高度な抑うつや不安症状を経験している若者のうち、支援を求めるのはわずか18%から34%です。スマートフォンを活用したデジタルツールは、スケーラブルで早期介入の機会を提供します。目的: 本研究では、新しい機械学習フレームワークを使用して、非臨床の青少年におけるメンタル障害を予測するために、アクティブなデータとパッシブなスマートフォンデータを統合することの実現可能性を評価しました。具体的には、Mindcraftアプリが内部化および外部化障害、摂食障害、不眠症、自殺念慮のリスクを予測する上での有用性を調査しました。方法: 参加者 (N=103; 平均年齢16.1歳) は、ロンドンの3つの学校から募集されました。参加者は、Strengths and Difficulties Questionnaire、Eating Disorders-15 Questionnaire、Sleep Condition Indicator Questionnaireを完了し、自殺念慮の有無を示しました。彼らは14日間Mindcraftアプリを使用し、自己報告によるアクティブデータとスマートフォンセンサーからのパッシブデータを提供しました。ユーザー固有の特徴の安定性を高めるために、コントラスト事前学習フェーズを適用し、その後に監視されたファインチューニングを行いました。モデル評価には、バランス精度を主要メトリックとして使用したleave-one-subject-outクロスバリデーションを採用しました。結果: アクティブデータとパッシブデータの統合は、個別のデータソースと比較して優れたパフォーマンスを達成し、SDQ-高リスクでの平均バランス精度は0.71、不眠症で0.67、自殺念慮で0.77、摂食障害で0.70でした。コントラスト学習フレームワークは、日々の行動表現を安定化させ、予測の堅牢性を高めました。本研究は、メンタルヘルスリスクを予測するための高度な機械学習技術とアクティブおよびパッシブなスマートフォンデータの統合の可能性を示しています。

2025-01-15T15:05:49

Graph Counterfactual Explainable AI via Latent Space Traversal

http://arxiv.org/abs/2501.08850v1

Andreas Abildtrup Hansen, Paraskevas Pegios, Anna Calissano, Aasa Feragen

Technical University of Denmark, Imperial College London, Pioneer Centre for AI

深層ニューラルネットワークの予測を説明することは、容易ではない作業ですが、高品質な予測の説明は、実務者がこれらのモデルを信頼するための前提条件であることが多いです。反事実的説明は、事前に指定された方法で予測が変わる「最も近い」分布内の代替入力を見つけることによって予測を説明することを目的としています。しかし、この最も近い代替入力をどのように定義するかは依然として未解決の問題であり、その解決策はドメイン（例：画像、グラフ、表形式データなど）および考慮される特定のアプリケーションに依存します。グラフの場合、この問題は、i）最先端のグラフ分類器の連続的な特性に対して離散的な特性を持つこと、およびii）グラフ上で作用するノード置換群によって複雑になります。私たちは、ケース特有の置換等変グラフ変分オートエンコーダを活用して、任意の微分可能なブラックボックスグラフ分類器のための反事実的説明を生成する方法を提案します。私たちは、分類器の分類境界を越えてオートエンコーダの潜在空間を移動することで、連続的な方法で反事実的説明を生成し、離散的なグラフ構造と連続的なグラフ属性のシームレスな統合を可能にします。私たちは3つのグラフデータセットでアプローチの実証検証を行い、私たちのモデルが一貫して高性能であり、ベースラインよりも堅牢であることを示しています。

2025-01-15T15:04:10

RouteNet-Gauss: Hardware-Enhanced Network Modeling with Machine Learning

http://arxiv.org/abs/2501.08848v1

Carlos Güemes-Palau, Miquel Ferriol-Galmés, Jordi Paillisse-Vilanova, Albert López-Brescó, Pere Barlet-Ros, Albert Cabellos-Aparicio

Barcelona Neural Networking Center, Universitat Politècnica de Catalunya

ネットワークシミュレーションはネットワークモデルにおいて重要な役割を果たし、キャパシティプランニングからパフォーマンス推定に至るまでのタスクを支援します。従来の方法である離散事象シミュレーション（DES）は、計算コストと精度に関して限界があります。本論文では、これらの課題に対処するために、テストベッドネットワークと機械学習（ML）モデルの新しい統合であるRouteNet-Gaussを紹介します。テストベッドをハードウェアアクセラレーターとして使用することで、RouteNet-Gaussはトレーニングデータセットを迅速に生成し、実世界の条件に高忠実度でネットワークシナリオをシミュレートします。実験結果は、RouteNet-Gaussが予測誤差を最大95％削減し、最新のDESベースの手法と比較して推論時間を488倍に高速化することを示しています。RouteNet-Gaussのモジュラーアーキテクチャは、トポロジーやルーティングなどのネットワークシナリオの特定の特性に基づいて動的に構築されます。これにより、トレーニング中に見られたものを超えて、最大10倍大きなネットワークを含むさまざまなネットワーク構成を理解し、一般化することが可能になります。加えて、時間集約パフォーマンス推定（TAPE）をサポートし、構成可能な時間的粒度を提供し、フローパフォーマンス指標の高い精度を維持します。このアプローチは、シミュレーションの効率と精度の向上に対する前向きな可能性を示しており、ネットワークオペレーターにとって貴重なツールを提供します。

2025-01-15T15:00:11

Automatic tuning of communication protocols for vehicular ad hoc networks using metaheuristics

http://arxiv.org/abs/2501.08847v1

José García-Nieto, Jamal Toutouh, Enrique Alba

新興技術の分野である自動車アドホックネットワーク（VANET）は、既存のインフラがなくても自発的に相互接続できる一連の通信する車両を扱います。このようなネットワークでは、最終的なネットワーク展開の前に通信プロトコルの最適な構成を行うことが重要です。この方法により、人間の設計者は事前にネットワークの最適なQoSを取得できます。本研究で考慮する問題は、ファイル転送プロトコル設定（FTC）を構成し、リアルなVANETシナリオにおける転送時間、失われたパケットの数、および転送されるデータ量を最適化することを目的としています。私たちは、FTCに対して5つの代表的な最新の最適化技術に取り組み、その性能を比較します。これらのアルゴリズムは、粒子群最適化（PSO）、差分進化（DE）、遺伝的アルゴリズム（GA）、進化戦略（ES）、およびシミュレーテッドアニーリング（SA）です。私たちのテストでは、都市および高速道路シナリオのために2つの典型的な環境インスタンスのVANETが定義されています。ns-2（よく知られたリアルなVANETシミュレーター）を使用した実験は、PSOが研究対象の両方のVANETインスタンスに対して比較したすべてのアルゴリズムを上回ることを明らかにしました。

2025-01-15T14:59:00

Exploring Task-Level Optimal Prompts for Visual In-Context Learning

http://arxiv.org/abs/2501.08841v1

Yan Zhu, Huan Ma, Changqing Zhang

近年のビジョンファウンデーションモデル（VFM）の発展により、視覚的インコンテキスト学習（VICL）は、ほとんどのシナリオにおいてモデルを修正するよりも優れた選択肢となっています。再トレーニングやファインチューニングモデルとは異なり、VICLはモデルの重みやアーキテクチャを変更する必要がなく、タスクを解決する方法を教えるためにデモを含むプロンプトのみを必要とします。しかし、現在、各テストサンプルの最適なプロンプトを見つけるための重大な計算コストがVICLの展開を妨げています。なぜなら、プロンプトを構築するためにどのデモを使用するかを決定することが非常にコストがかかるからです。しかし、この論文では、ほとんどのテストサンプルが実際には同じプロンプトの下で最適なパフォーマンスを達成するという直感に反する現象を発見しました。サンプルレベルのプロンプトを検索することは追加の時間を要するだけで、完全に同一のプロンプトを生み出す結果になります。したがって、我々は推論段階でのプロンプト検索のコストを削減するために、タスクレベルのプロンプトを提案し、時間を節約しながら効果的な2つのタスクレベルプロンプト検索戦略を導入します。広範な実験結果は、我々の提案した方法が近似最適なプロンプトを特定でき、最小のコストで最高のVICLパフォーマンスに到達できることを示しています。これは以前の研究では達成できなかったものです。

2025-01-15T14:52:20

ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind

http://arxiv.org/abs/2501.08838v1

Kazutoshi Shinoda, Nobukatsu Hojo, Kyosuke Nishida, Saki Mizuno, Keita Suzuki, Ryo Masumura, Hiroaki Sugiyama, Kuniko Saito

既存の心の理論（ToM）ベンチマークは、次の3つの点で現実のシナリオと乖離しています。1）信念などの限られた範囲のメンタルステートを評価する、2）虚偽の信念が包括的に探求されていない、3）キャラクターの多様な性格特性が無視されている。これらの課題に対処するために、私たちはToMATOを導入します。ToMATOは、会話における選択式QAとして構成された新しいToMベンチマークです。ToMATOは、情報の非対称性を持つLLM-LLM間の会話を通じて生成されます。ロールプレイを行うLLMが各発言の前に思考を言語化することを求めるプロンプティング手法を用いることで、信念、意図、欲望、感情、知識の5つのカテゴリにわたる一段および二段のメンタルステートを捉えます。これらの言語化された思考は、会話内のキャラクターのメンタルステートを評価するために設計された質問への回答となります。さらに、他者から思考を隠すことで生じる情報の非対称性は、さまざまなメンタルステートに関する虚偽の信念の生成を促します。LLMに異なる性格特性を割り当てることで、発言と思考の多様性がさらに増します。ToMATOは5.4kの質問、753の会話、および15の性格特性パターンで構成されています。私たちの分析は、このデータセットの構築アプローチがロールプレイを行うLLM間の情報の非対称性により虚偽の信念を頻繁に生成し、多様な性格を効果的に反映することを示しています。私たちはToMATO上で9つのLLMを評価し、たとえGPT-4oミニであっても人間のパフォーマンスに遅れをとっており、特に虚偽の信念を理解する際に弱く、さまざまな性格特性に対する堅牢性を欠いていることを発見しました。

2025-01-15T14:47:02

http://arxiv.org/abs/2501.08828v1

Kuicai Dong, Yujing Chang, Xin Deik Goh, Dexun Li, Ruiming Tang, Yong Liu

Huawei, Noah’s Ark Lab

マルチモーダル文書検索は、図、表、チャート、レイアウト情報など、さまざまな形式のマルチモーダルコンテンツを特定し、取得することを目的としています。重要性にもかかわらず、マルチモーダル文書検索におけるシステムのパフォーマンスを効果的に評価するための堅牢なベンチマークが著しく不足しています。このギャップに対処するため、本研究は、MMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの2つの異なるタスクを含んでいます。前者は、長い文書内で最も関連性の高いページを特定することに焦点を当てており、後者は特定のレイアウトを検出することを目指しています。これは、全ページ分析よりも細かい粒度を提供します。レイアウトは、テキスト段落、数式、図、表、チャートなど、さまざまな要素を指すことができます。MMDocIRベンチマークは、1,685の質問に対する専門的に注釈されたラベルと、173,843の質問に対するブートストラップラベルを備えたリッチなデータセットで構成されており、マルチモーダル文書検索の訓練と評価を推進するための重要なリソースとなっています。厳密な実験を通じて、(i) ビジュアルリトリーバーがテキストリトリーバーを大幅に上回ること、(ii) MMDocIRのトレインセットがマルチモーダル文書検索の訓練プロセスに効果的に寄与すること、(iii) VLM-textを活用しているテキストリトリーバーがOCR-textを使用しているものよりもはるかに優れていることを明らかにしました。これらの発見は、マルチモーダル文書検索における視覚要素の統合の潜在的な利点を強調しています。

2025-01-15T14:30:13

IDEA: Image Description Enhanced CLIP-Adapter

http://arxiv.org/abs/2501.08816v1

Zhipeng Ye, Feng Jiang, Qiufeng Wang, Kaizhu Huang, Jiaqi Huang

nustti.edu.cn, xjtlu.edu.cn, duke.edu.cn

CLIP（Contrastive Language-Image Pre-training）は、パターン認識やコンピュータビジョンにおいて大きな成功を収めています。CLIPをダウンストリームタスク（例：ゼロショットまたは少数ショット分類）に転送することは、マルチモーダル学習におけるホットなトピックです。しかし、現在の研究は主にテキストのプロンプト学習またはビジョンのアダプターチューニングに焦点を当てており、画像とテキストペア間の相補的な情報および相関関係を十分に活用していません。本論文では、CLIPを少数ショット画像分類タスクに適応させるためのImage Description Enhanced CLIP-Adapter（IDEA）メソッドを提案します。この方法は、視覚的特徴と画像のテキスト記述の両方を利用することによって、細かい特徴を捉えます。IDEAはCLIPのためのトレーニングフリーの方法であり、複数のタスクにおいて最先端のモデルと同等か、それを超える性能を発揮することができます。さらに、Trainable-IDEA（T-IDEA）を導入し、プロジェクターと学習可能な潜在空間という2つの軽量な学習可能コンポーネントを追加することで、IDEAを拡張し、モデルの性能をさらに向上させ、11のデータセットでSOTA結果を達成しました。重要な貢献の1つとして、私たちはLlamaモデルを使用し、11のデータセットの画像に対するテキスト記述を生成するための包括的なパイプラインを設計し、合計1,637,795の画像-テキストペアである「IMD-11」を生成しました。私たちのコードとデータはhttps://github.com/FourierAI/IDEAで公開されています。

2025-01-15T14:12:59

SAIF: A Comprehensive Framework for Evaluating the Risks of Generative AI in the Public Sector

http://arxiv.org/abs/2501.08814v1

Kyeongryul Lee, Heehyeon Kim, Joyce Jiyoung Whang

生成AIの公共部門における急速な採用は、自動化された公共支援から福祉サービス、移民手続きに至る多様な応用を含み、その変革的な可能性を強調する一方で、徹底的なリスク評価の必要性を浮き彫りにしています。普及が進んでいるにもかかわらず、公共部門におけるAI駆動システムに関連するリスクの評価は十分に探究されていません。多様な政府の政策や企業のガイドラインから導き出された確立されたAIリスクの分類を基に、私たちは公共部門における生成AIがもたらす重要なリスクを調査し、マルチモーダルな能力を考慮に入れるように範囲を拡大しています。また、生成AIのリスク評価のための体系的なデータ生成フレームワーク（SAIF）を提案します。SAIFは、リスクの分解、シナリオの設計、脱獄手法の適用、プロンプトの種類の探求という4つの主要なステージを含みます。これにより、プロンプトデータの体系的かつ一貫した生成が確保され、包括的な評価を可能にし、リスク軽減のためのしっかりとした基盤が提供されます。さらに、SAIFは新たに出現する脱獄手法や進化するプロンプトの種類に対応するように設計されており、予期しないリスクシナリオへの効果的な対応を可能にします。この研究が生成AIを公共部門に安全かつ責任持って統合するための重要な役割を果たすと信じています。

2025-01-15T14:12:38

XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

http://arxiv.org/abs/2501.08809v1

Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu

Tencent

近年、人工知能によって生成されたコンテンツ（AIGC）において、画像合成やテキスト生成の分野で目覚ましい進展があり、人間が生み出すコンテンツに匹敵するものが生成されています。しかし、AIが生成する音楽の品質は、主に音楽の感情を効果的に制御し、高品質な出力を確保するという課題のために、まだこの基準には達していません。本論文では、感情を制御可能で高品質な記号音楽を生成するために、柔軟なプロンプト（すなわち、画像、動画、テキスト、タグ、ハミング）をサポートする一般化された記号音楽生成フレームワークであるXMusicを提案します。XMusicは、2つのコアコンポーネント、XProjectorとXComposerで構成されています。XProjectorは、さまざまなモダリティのプロンプトを投影空間内の記号音楽要素（すなわち、感情、ジャンル、リズム、音符）に解析し、対応する音楽を生成します。XComposerは、生成器（Generator）と選択器（Selector）を含みます。生成器は、革新的な記号音楽表現に基づいて、感情を制御可能でメロディックな音楽を生成し、一方で選択器は、品質評価、感情認識、ジャンル認識タスクを含むマルチタスク学習スキームを構築することで、高品質な記号音楽を特定します。さらに、我々は、精密な感情とジャンルラベルが注釈された108,023のMIDIファイルを含む大規模な記号音楽データセットXMIDIを構築しました。客観的および主観的な評価により、XMusicが現在の最先端技術を大幅に上回る印象的な音楽品質を持つことが示されました。私たちのXMusicは、WAIC 2023で「収集品のハイライト」の9つのうちの1つとして表彰されました。XMusicのプロジェクトホームページはhttps://xmusic-project.github.ioです。

2025-01-15T14:08:44

Networked Agents in the Dark: Team Value Learning under Partial Observability

http://arxiv.org/abs/2501.08778v1

Guilherme S. Varela, Alberto Sardinha, Francisco S. Melo

Universidade de Lisboa, PUC-Rio, INESC-ID

私たちは、ネットワーク化されたエージェントのための新しい協調型マルチエージェント強化学習（MARL）アプローチを提案します。以前の方法は完全な状態情報や共同観測に依存しているのに対し、私たちのエージェントは部分的な観測下で共通の目標に到達する方法を学ばなければなりません。トレーニング中、彼らは個別の報酬を収集し、ローカルな通信を通じてチームの価値関数を近似することで協調的な行動を生み出します。私たちの問題を説明するために、エージェントが切り替えトポロジー通信ネットワークを介して通信するネットワーク化された動的部分観測マルコフゲームフレームワークを導入します。私たちの分散型手法、DNA-MARLは、ローカル通信のためにコンセンサスメカニズムを使用し、ローカル計算のために勾配降下法を使用します。DNA-MARLは、プライバシーの制約があり、メッセージが受取人に届かない可能性がある現実のドメインに適しているため、ネットワーク化されたエージェントの応用範囲を広げます。私たちは、基準となるMARLシナリオを通じてDNA-MARLを評価しました。私たちの結果は、DNA-MARLが以前の方法に対して優れたパフォーマンスを示すことを強調しています。

2025-01-15T13:01:32

How Developers Interact with AI: A Taxonomy of Human-AI Collaboration in Software Engineering

http://arxiv.org/abs/2501.08774v1

Christoph Treude, Marco A. Gerosa

Singapore Management University, Northern Arizona University

人工知能（AI）、特に大規模言語モデルや生成的AIは、ソフトウェア開発において重要な力として台頭しており、開発者に開発ライフサイクル全体にわたる強力なツールを提供しています。ソフトウェア工学の研究では、AIツールがソフトウェア開発において広範囲にわたって研究されてきましたが、開発者とこれらのAI駆動ツールとの間の具体的な相互作用のタイプは、最近になってようやく注目されるようになりました。これらの相互作用を理解し改善することは、AI駆動のワークフローにおける生産性、信頼、効率を向上させる可能性を秘めています。本論文では、開発者とAIツールとの相互作用のタイプに関する分類法を提案し、コードの自動補完提案、コマンド主導のアクション、会話式の支援など、11種類の異なる相互作用タイプを特定します。この分類法に基づいて、AIとの相互作用の最適化、開発者のコントロール向上、およびAI支援開発における信頼と使いやすさの課題への対処に焦点を当てた研究アジェンダを概説します。開発者とAIとの相互作用を研究するための構造化された基盤を確立することで、本論文はソフトウェア開発のためにより効果的で適応的なAIツールの創出に向けた研究を促進することを目的としています。

2025-01-15T12:53:49

Polyp detection in colonoscopy images using YOLOv11

http://arxiv.org/abs/2501.09051v1

Alok Ranjan Sahoo, Satya Sangram Sahoo, Pavan Chakraborty

SOA University, IIIT Allahabad

大腸癌（CRC）は、世界中で最も一般的に診断される癌の一つです。大腸内膜のポリープから始まります。CRCを防ぐためには、早期のポリープ検出が必要です。大腸内視鏡検査は大腸の検査に使用されます。一般的に、内視鏡の先端に設置されたカメラで撮影された画像は、専門家によって手動で分析されます。機械学習の台頭に伴い、さまざまな伝統的な機械学習モデルが使用されています。最近では、深層学習モデルが一般化や微細な特徴の学習に優れているため、ポリープ検出においてより効果的であることが示されています。物体検出のためのこれらの深層学習モデルは、シングルステージモデルとツーステージモデルの2つに分類できます。一般的に、ツーステージモデルはシングルステージモデルよりも高い精度を持っていますが、シングルステージモデルは低い推論時間を持っています。そのため、シングルステージモデルは迅速な物体検出に容易に使用できます。YOLOは、ポリープ検出に成功裏に使用されているシングルステージモデルの一つです。推論時間が短いため、研究者の注目を集めています。研究者たちはこれまでにさまざまなバージョンのYOLOを使用しており、各新しいバージョンごとにモデルの精度が向上しています。本論文では、最近リリースされたYOLOv11のポリープ検出の効果を検証することを目的としています。Kvasirデータセットを用いて、YOLOv11のすべての5つのモデル（YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x）の性能を分析しました。データセットの2つの異なるバージョンが使用されました。最初は元のデータセットで、もう一方は拡張技術を使用して作成されました。これら2つのバージョンのデータセットを用いたすべてのモデルの性能が分析されました。

2025-01-15T12:40:13

Leveraging LLM Agents for Translating Network Configurations

http://arxiv.org/abs/2501.08760v1

Yunze Wei, Xiaohui Xie, Yiwei Zuo, Tianshuo Hu, Xinyi Chen, Kaiwen Chi, Yong Cui

Tsinghua University, Australian National University

構成の翻訳はネットワーク運用において重要かつ頻繁なタスクです。ネットワークデバイスが故障したり古くなったりした場合、管理者はサービスの継続性を維持するためにそれを交換する必要があります。交換されるデバイスは異なるベンダーから来る可能性があるため、シームレスなネットワーク運用を確保するために構成の翻訳が必要になります。しかし、構成を手動で翻訳するのは労力がかかり、エラーが発生しやすいプロセスです。本稿では、大規模言語モデル（LLM）エージェントを使用したネットワーク構成翻訳のための意図ベースのフレームワークを提案します。我々のアプローチの核となるのは、構成ファイルを断片に分割し、意図を抽出し、正確な翻訳を生成する意図ベースの検索拡張生成（IRAG）モジュールです。また、翻訳された構成の構文および意味の正確性を検証するための二段階の検証方法を設計しています。我々は提案された方法を実世界のネットワーク構成に対して実装し評価しました。実験結果は、我々の方法が97.74%の構文正確性を達成し、翻訳精度において最先端の方法を上回っていることを示しています。

2025-01-15T12:25:56

Generating Realistic Synthetic Head Rotation Data for Extended Reality using Deep Learning

http://arxiv.org/abs/2501.09050v1

Jakob Struye, Filip Lemic, Jeroen Famaey

University of Antwerp - imec, Universitat Politècnica de Catalunya

拡張現実（Extended Reality）は、ユーザーにマルチメディアコンテンツを提供する革新的な方法です。この人気の大きな要因は、現実の動きが仮想体験に正確かつ即座に反映されることによって生まれる没入感とインタラクティビティです。このユーザーの動きは主に頭の回転によって引き起こされ、いくつかの技術的な課題を生じさせます。例えば、どのコンテンツが生成され、伝送されるかは、ユーザーの視線が向いている場所に大きく依存します。ユーザーの動きを積極的に考慮するシームレスなシステムを構築するためには、今後の回転に関する正確な予測が求められます。このような予測器を訓練し評価するには、膨大な量の方向入力データが必要であり、これは人間の試験対象を必要とするため、収集するのが高コストです。より実現可能なアプローチは、試験対象から適度なデータセットを収集し、それを合成データ生成方法を使用してより大きなセットに拡張することです。本研究では、時系列生成に特化して設計された有名な生成対抗ネットワーク（GAN）の拡張であるTimeGANに基づく頭の回転時系列ジェネレーターを提案します。このアプローチは、測定された時系列の分布に密接に一致する新しいサンプルで頭の回転データセットを拡張することができます。

2025-01-15T12:14:15

Dynamic-Aware Spatio-temporal Representation Learning for Dynamic MRI Reconstruction

http://arxiv.org/abs/2501.09049v1

Dayoung Baik, Jaejun Yoo

動的MRI再構成は逆問題の一つであり、深層学習技術の使用により急速に発展しています。特に、グラウンドトゥルースデータを取得することの実際的な難しさから、教師なし学習アプローチが登場しました。その中で最近注目されている有望な手法は、暗黙のニューラル表現（INR）であり、これはデータを座標値を対応する信号値にマッピングする連続関数として定義します。これにより、不完全な測定のみで欠落情報を補完し、逆問題を効果的に解決することが可能になります。しかし、この手法を取り入れた以前の研究は、長い最適化時間や広範なハイパーパラメータチューニングの必要などの欠点に直面しました。これらの問題に対処するために、我々はDynamic-Aware INR（DA-INR）を提案します。これは、動的MRI再構成のためのINR ベースのモデルであり、画像ドメインにおける動的MRIデータの空間的および時間的連続性を捉え、データの時間的冗長性をモデル構造に明示的に取り入れています。その結果、DA-INRは極端なアンダーサンプリング比でも他のモデルよりも再構成品質で優れ、最適化時間を大幅に短縮し、最小限のハイパーパラメータ調整を必要とします。

2025-01-15T12:11:33

Self-supervised Transformation Learning for Equivariant Representations

http://arxiv.org/abs/2501.08712v1

Jaemyung Yu, Jaehyun Choi, Dong-Jae Lee, HyeongGwon Hong, Junmo Kim

Korea Advanced Institute of Science and Technology (KAIST)

教師なし表現学習は、さまざまな機械学習タスクで大きく進展しました。コンピュータビジョンの分野では、最先端のアプローチがランダムクロップやカラージッターのような変換を利用して、不変の表現を実現し、変換にもかかわらず意味的に同じ入力を埋め込んでいます。しかし、これはローカリゼーションや花の分類のような、精密な特徴を必要とするタスクのパフォーマンスを低下させる可能性があります。これに対処するために、最近の研究では変換に敏感な情報を捉える対称的表現学習を取り入れています。しかし、現在の手法は変換ラベルに依存しており、相互依存性や複雑な変換に苦労しています。我々は自己監視型変換学習（STL）を提案し、変換ラベルを画像ペアから得られる変換表現に置き換えます。提案された方法は、変換表現が画像不変であることを確保し、対応する対称的変換を学習し、バッチの複雑さを増加させることなくパフォーマンスを向上させます。我々は、多様な分類および検出タスクでのアプローチの効果を示し、11のベンチマークのうち7つで既存の手法を上回り、検出において優れた結果を示します。AugMixのような複雑な変換を取り入れることで、以前の対称的手法では使用できなかったこのアプローチは、タスク全体のパフォーマンスを向上させ、その適応性と耐久性を強調しました。さらに、さまざまなベースモデルとの互換性は、その柔軟性と幅広い適用可能性を示しています。コードは https://github.com/jaemyung-u/stl で入手できます。

2025-01-15T10:54:21

SPEQ: Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning

http://arxiv.org/abs/2501.08669v1

Carlo Romeo, Girolamo Macaluso, Alessandro Sestini, Andrew D. Bagdanov

University of Florence, Electronic Arts

深層強化学習における重要な課題は、サンプル効率です。特に、環境との相互作用を収集することが高価またはリスクが伴う現実のアプリケーションにおいては尚更です。最近のオフポリシーアルゴリズムは、データへの更新比率（UTD比）を増加させ、環境との相互作用ごとにより多くの勾配更新を行うことでサンプル効率を改善しています。この改善はサンプル効率を向上させるものの、勾配更新数が増えるため計算コストが大幅に増加します。本論文では、勾配更新をより効果的に活用するために、トレーニングを異なる学習フェーズに分けることで計算効率を向上させるサンプル効率的な手法を提案します。私たちのアプローチは、ドロップアウトQ関数（DroQ）アルゴリズムに基づいており、オンラインで低UTD比のトレーニングフェーズとオフラインの安定化フェーズを交互に行います。安定化フェーズ中に、新しい環境の相互作用を収集することなくQ関数を微調整します。このプロセスによりリプレイバッファの効果が向上し、計算オーバーヘッドが削減されます。連続制御問題における実験結果は、私たちの手法が最新の高UTD比アルゴリズムと比較して同等の結果を達成しながら、DroQよりも56％少ない勾配更新と50％少ないトレーニング時間を必要とすることを示しています。私たちのアプローチは、より高価な最新技術と同じサンプル効率を維持しつつ、効果的で計算的に経済的な解決策を提供します。

2025-01-15T09:04:19

Spatio-Temporal Foundation Models: Vision, Challenges, and Opportunities

http://arxiv.org/abs/2501.09045v1

Adam Goodge, Wee Siong Ng, Bryan Hooi, See Kiong Ng

Institute for Infocomm Research, Agency for Science, Technology and Research (A*STAR), National University of Singapore, School of Computing, Institute of Data Science

基盤モデルは人工知能を革命的に変革し、パフォーマンスにおける新しい基準を設定し、視覚と言語タスクの幅広い分野で画期的な機能を可能にしました。しかし、交通、公共の健康、環境モニタリングなどの重要な領域における時空間データの普及にもかかわらず、時空間基盤モデル（STFMs）はまだ同様の成功を収めていません。本論文では、STFMsの将来に向けたビジョンを明確にし、それらの本質的な特徴と広範な適用のために必要な一般化能力を概説します。また、研究の現状を批判的に評価し、これらの理想的な特性に対するギャップを特定し、進展を妨げる主要な課題を強調します。最後に、効果的で広く適用可能なSTFMsを目指す研究を推進するための潜在的な機会と方向性を探ります。

2025-01-15T08:52:28

Application of Deep Reinforcement Learning to UAV Swarming for Ground Surveillance

http://arxiv.org/abs/2501.08655v1

Raúl Arranz, David Carramiñana, Gonzalo de Miguel, Juan A. Besada, Ana M. Bernardos

この論文は、航空群の最先端技術について深くまとめており、彼らの管理に関する古典的および新しい強化学習ベースのアプローチの両方をカバーしています。そして、特定の地域の監視、地上目標の探索と追跡を行うために、深層強化学習を統合したハイブリッドAIシステムを提案します。この提案されたシステムは、セキュリティおよび法執行の応用向けに特化しています。群は、協力するUAV（無人航空機）間の異なる探索および追跡タスクを配分する中央の群コントローラーによって管理されます。各UAVエージェントは、群コントローラーによって提案された異なるタスクタイプに特化したさまざまな深層強化学習モデルを使用して訓練された協力的なサブエージェントのコレクションによって制御されます。より具体的には、近接方策最適化（PPO）アルゴリズムを使用してエージェントの行動を訓練しました。さらに、この応用における群の性能を評価するためのいくつかの指標を定義しました。シミュレーションを通じて得られた結果は、私たちのシステムが運用エリアを効果的に探索し、合理的な時間内に目標を取得し、継続的かつ一貫して追跡できることを示しています。

2025-01-15T08:46:20

Fine-grained Spatio-temporal Event Prediction with Self-adaptive Anchor Graph

http://arxiv.org/abs/2501.08653v1

Wang-Tao Zhou, Zhao Kang, Sicong Liu, Lizong Zhang, Ling Tian

University of Electronic Science and Technology of China, Shenzhen Institute for Advanced Study, Kashi Institute of Electronics and Information Industry

イベント予測タスクは、多くの空間領域に分散した時間的・空間的データを扱うことがよくあります。この領域の異なる地域は、異なる特性を示しながらも、潜在的な相関関係を持っています。この空間的異質性と相関関係は、イベント発生の時空間分布に大きく影響しますが、従来の最先端モデルではこの問題に対処されていません。連続空間におけるイベントの空間的依存関係を学ぶことは、その細かい粒度と前提知識の不足のために困難です。本研究では、微細なイベント予測のための新しいグラフ時空間点過程（GSTPP）モデルを提案します。このモデルは、ニューラル常微分方程式（ODE）を使用して、空間的に局所化された領域の状態の動態を共同でモデル化するエンコーダ・デコーダアーキテクチャを採用しています。状態の進化は、空間的な依存関係を捉える新しい自己適応型アンカーグラフ（SAAG）の基盤の上に構築されています。SAAGは、空間内でアンカーノードを適応的に局所化し、これらの間の相関エッジを共同で構築することにより、モデルの複雑な空間イベントパターンの学習能力を強化します。提案されたGSTPPモデルは、微細なイベント予測の精度を大幅に向上させます。広範な実験結果は、私たちの方法が既存の時空間イベント予測手法に対して予測精度を大いに向上させることを示しています。

2025-01-15T08:38:07

MAGNET: Augmenting Generative Decoders with Representation Learning and Infilling Capabilities

http://arxiv.org/abs/2501.08648v1

Savya Khosla, Kushal Kafle, Simon Jenni, Handong Zhao, John Collomosse, Jing Shi

Adobe Research, University of Illinois Urbana-Champaign

元々は一方向の生成モデル用に設計されたデコーダのみの大規模言語モデル（LLM）は、双方向モデリングに適応されつつあります。しかし、一方向および双方向モデルは通常、生成と表現学習という異なる目的で別々に訓練されます。この分離は、より多用途な言語モデルを開発する機会や、これらの目的が相互に補完し合う可能性を見逃しています。本研究では、MAGNETを導入します。これはデコーダのみのLLMの適応であり、堅牢な表現を生成する能力を高め、欠落しているテキストの部分を補完しながら、知識やテキスト生成能力を保持します。MAGNETは3つの自己教師あり訓練目的を採用し、双方向と因果的な注意を組み合わせる注意機構を導入し、すべての目的にわたる統一訓練を可能にします。私たちの結果は、MAGNETで適応されたLLMが以下の点で優れていることを示しています：（1）トークンレベルおよび文レベルの表現学習タスクにおいて強力なテキストエンコーダを超える、（2）未来の文脈を活用して文脈に適したテキストの補完を生成する、（3）繰り返し問題を示さずにオープンエンドのテキスト生成能力を保持する、（4）事前学習中に得られた知識を保持する。

2025-01-15T08:24:03

Reassessing the Role of Chain-of-Thought in Sentiment Analysis: Insights and Limitations

http://arxiv.org/abs/2501.08641v1

Kaiyuan Zheng, Qinghua Zhao, Lei Li

言語と思考の関係は、未解決の哲学的問題であり続けています。既存の見解は、大きく二つの学派に分類できます。一つは言語と思考の独立性を主張するものであり、もう一つは言語が思考を制約するという議論を展開するものです。大規模言語モデルの文脈において、この議論は重要な質問を提起します：言語モデルの意味の理解は思考過程に依存しているのでしょうか？この問題を探るために、推論技術が意味理解を促進できるかどうかを調査します。具体的には、思考を推論と概念化し、推論技術としてチェーン・オブ・ソート・プロンプティングを採用し、その感情分析タスクへの影響を検討します。実験結果は、チェーン・オブ・ソートが感情分析タスクに与える影響は最小限であることを示しています。標準的なプロンプトとチェーン・オブ・ソートプロンプトの両方が、生成されたコンテンツにおいて感情よりも側面に関する用語に焦点を当てています。さらに、反事実的実験は、モデルの感情タスクの処理が主にデモからの情報に依存していることを示しています。実験結果は最初の見解を支持しています。

2025-01-15T08:07:22

TCMM: Token Constraint and Multi-Scale Memory Bank of Contrastive Learning for Unsupervised Person Re-identification

http://arxiv.org/abs/2501.09044v1

Zheng-An Zhu, Hsin-Che Chien, Chen-Kuo Chiang

この論文は、パッチノイズと特徴の不一致に対処するために、ViTトークン制約とマルチスケールメモリバンク（TCMM）手法を提案します。多くの優れた手法は、ViTの特徴を利用して擬似ラベルやクラスタリングプロトタイプを取得し、その後、コントラスト学習を用いてモデルをトレーニングします。しかし、ViTは画像をパッチ埋め込みによって処理するため、必然的にパッチにノイズが導入され、再識別モデルの性能が損なわれる可能性があります。一方、以前のメモリバンクに基づくコントラスト手法は、バッチサイズの制限によりデータの不一致を引き起こす可能性があります。さらに、既存の擬似ラベル手法は、クラスタリングが難しい外れ値サンプルをしばしば廃棄します。これは外れ値サンプルの潜在的な価値を犠牲にし、モデルの多様性と堅牢性を制限します。本論文では、ViTアーキテクチャに対するパッチノイズの影響を軽減するために、ViTトークン制約を導入します。提案されたマルチスケールメモリは、外れ値サンプルの探索を強化し、特徴の一貫性を維持します。実験結果は、私たちのシステムが一般的なベンチマークで最先端の性能を達成していることを示しています。本プロジェクトは、\href{https://github.com/andy412510/TCMM}{https://github.com/andy412510/TCMM}で公開されています。

2025-01-15T07:14:02

ViBidirectionMT-Eval: Machine Translation for Vietnamese-Chinese and Vietnamese-Lao language pair

http://arxiv.org/abs/2501.08621v1

Hong-Viet Tran, Minh-Quy Nguyen, Van-Vinh Nguyen

University of Engineering and Technology, Vietnam National University, Hanoi

この論文では、2022-2023年のVLSP機械翻訳共有タスクの結果を示し、ベトナム語-中国語およびベトナム語-ラオス語の機械翻訳に焦点を当てています。タスクは、ベトナム語と音声処理に関する第9回および第10回年次ワークショップ（VLSP 2022、VLSP 2023）の一環として組織されました。共有タスクの目的は、ベトナム語-中国語およびベトナム語-ラオス語の翻訳（4つの翻訳方向に対応する）を特にターゲットにした機械翻訳システムを構築することでした。提出物は、確立されたメトリック（BLEU [11]およびSacreBLEU [12]など）を使用して、1,000ペアのテストデータ（ニュースおよび一般ドメイン）で評価されました。さらに、システムの出力は、中国語およびラオス語の専門家による人間の判断でも評価されました。これらの人間による評価は、機械翻訳モデルの性能をランキングする上で重要な役割を果たし、より包括的な評価を確保しました。

2025-01-15T06:40:26

Disjoint Processing Mechanisms of Hierarchical and Linear Grammars in Large Language Models

http://arxiv.org/abs/2501.08618v1

Aruna Sankaranarayanan, Dylan Hadfield-Menell, Aaron Mueller

MIT, Northeastern University

すべての自然言語は階層的に構造化されています。人間において、この構造的制限は神経的にコード化されています：2つの文法が同一の語彙で提示されると、言語処理を担当する脳の領域は階層的文法にのみ敏感です。大規模言語モデル（LLMs）を使用して、機能的に異なる階層的処理領域が大規模な言語分布への曝露のみから生じるかどうかを調査します。英語、イタリア語、日本語、または非語（ノンス）を使用して入力を生成し、基盤となる文法を階層的または線形/位置的ルールに適合させます。これらの文法を用いて、まず言語モデルが階層的な入力と線形構造の入力で異なる挙動を示すことを観察します。次に、階層的文法を処理するための要素が線形文法を処理する要素とは異なることを発見し、切除実験で因果的にこれを確認します。最後に、階層選択的要素が非語文法でも活性化されることを観察しました。これは、階層感受性が意味に結びついておらず、分布内の入力にも依存しないことを示唆しています。

2025-01-15T06:34:34

RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

http://arxiv.org/abs/2501.08617v1

Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac

Princeton University

生成AIシステム、特にファウンデーションモデル（FM）は、行動が有益で信頼できるものであることを保証するために、人間の価値観にうまく整合する必要があります。人間の判断を用いてモデルのパフォーマンスを最適化するために、強化学習に基づく人間のフィードバック（RLHF）は有望な成果を示していますが、既存のRLHFパイプラインは主に即時のフィードバックに依存しており、インタラクションがユーザーの効用に与える下流の影響を正確に反映することに失敗することがあります。私たちは、評価者の下流の結果に対する予測に基づくフィードバックが、システム的にグッドハートの法則のダイナミクスを引き起こし、迎合や欺瞞といった不整合な行動を促進し、最終的にはユーザーの結果を劣化させることを示します。これを軽減するために、RLHFを振り返りのフィードバックに再焦点を当てることで、評価を予測から切り離すことを提案します。私たちの理論的分析によれば、評価者のフィードバックを下流の観察に条件づけることで、不整合が緩和され、期待される人間の効用が向上します。たとえこれらの観察がAIシステム自身によってシミュレーションされたものであってもです。この洞察を実際の整合アルゴリズムに活かすために、後悔からの強化学習（RLHS）を導入します。これはまず、考えられる結果をシミュレーションし、その後、振り返って本当に有益だった行動を評価するためのフィードバックを求めます。私たちはRLHSを、広く用いられているオンラインおよびオフラインの好み最適化手法、近接ポリシー最適化（PPO）および直接好み最適化（DPO）に適用し、実証的に不整合が両方の手法で有意に低下することを示します。オンラインの人間ユーザースタディを通じて、RLHSが常にRLHFよりもユーザーの目標達成を支援し、高い満足度評価を得ることを示します。これは、シミュレーションされた後悔のフィードバックのみで訓練されているにもかかわらずです。これらの結果は、RLHFにおける不整合を軽減するために、たとえシミュレーションされたものであっても長期的な結果に焦点を当てることの重要性を強調しています。

2025-01-15T06:33:15

Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design

http://arxiv.org/abs/2501.08603v2

Zhi Zheng, Zhuoliang Xie, Zhenkun Wang, Bryan Hooi

複雑な計画タスク（例：NP困難な組合せ最適化（CO）問題）を解決するためのヒューリスティックを手作りすることは一般的な実践ですが、広範なドメイン知識を必要とします。最近、Large Language Model（LLM）に基づく自動ヒューリスティック設計（AHD）手法が手動介入なしで高品質なヒューリスティックを生成する可能性を示しています。既存のLLMベースのAHD手法は、固定数のトップパフォーマンスのLLM生成ヒューリスティックを維持するために集団を使用し、集団を反復的に強化するために進化計算（EC）を導入しています。しかし、集団に基づく手法は貪欲な特性をもたらし、しばしば局所最適解に収束する結果となります。そこで、ヒューリスティックの空間をより包括的に探索するために、すべてのLLM生成ヒューリスティックを木構造で保持しながらLLMに基づくヒューリスティック進化にモンテカルロ木探索（MCTS）を使用することを提案します。新しい思考調整プロセスと探索減衰技術を用いた提案されたMCTS-AHD手法は、さまざまな複雑なタスクにおいて大幅に高品質なヒューリスティックを提供します。私たちのコードは、https://github.com/zz1358m/MCTS-AHD-master で入手可能です。

2025-01-15T06:00:50

AutoRestTest: A Tool for Automated REST API Testing Using LLMs and MARL

http://arxiv.org/abs/2501.08600v1

Tyler Stennett, Myeongsoo Kim, Saurabh Sinha, Alessandro Orso

REST APIが現代のWebサービスで広く普及するにつれて、これらのAPIの包括的なテストがますます重要になっています。操作、パラメーター、パラメーター値の広大な検索空間とそれに伴う複雑な依存関係や制約のため、現在のテストツールは低いコードカバレッジに悩まされ、最適でない障害検出につながっています。この限界に対処するために、私たちはAutoRestTestという新しいツールを提案します。これは、セマンティック操作依存グラフ（SODG）をマルチエージェント強化学習（MARL）および大規模言語モデル（LLMs）と統合し、効果的なREST APIテストを実現します。AutoRestTestは、SODGを使用して操作依存パラメーターを特定し、操作、パラメーター、値、依存関係、ヘッダーの5つの専門エージェントを使用して操作の依存関係を識別し、操作シーケンス、パラメーターの組み合わせ、および値を生成します。AutoRestTestはコマンドラインインターフェースを提供し、成功した操作のカウント、検出されたユニークなサーバーエラー、および経過時間に関する継続的なテレメトリーを提供します。完了時に、AutoRestTestは検出されたエラーと実行された操作を強調した詳細な報告書を生成します。本稿では、私たちのツールを紹介し、初期結果を示します。

2025-01-15T05:54:33

LlamaRestTest: Effective REST API Testing with Small Language Models

http://arxiv.org/abs/2501.08598v1

Myeongsoo Kim, Saurabh Sinha, Alessandro Orso

Georgia Tech, IBM T.J. Watson Research Center

現代のウェブサービスは、REST APIに大きく依存しており、通常はOpenAPI仕様を用いて文書化されています。この標準の普及は、これらの仕様に基づいてテストを生成する多くのブラックボックステストツールの開発をもたらしました。特に大規模言語モデル（LLM）を用いた自然言語処理（NLP）の最近の進展は、人間が読める仕様の部分から実用的なルールを抽出し、入力値を生成することによってREST APIテストを強化しています。しかし、これらの進展は、サーバーの応答に基づいて特定されたルールやテスト入力を継続的に洗練させる可能性を見過ごしています。この制約に対処するために、我々はLlamaRestTestという新しいアプローチを提案します。これは、テストプロセス中にサーバーの応答を組み込み、現実的なテスト入力を生成し、パラメーターの依存関係を明らかにするために、2つのカスタムLLMを使用します。これらのLLMは、REST APIの例値とパラメーター間の依存関係をマイニングしたデータセットを使用して、Llama3-8bモデルをファインチューニングすることによって作成されました。我々は、LlamaRestTestを12の実世界のサービス（Spotifyなどの人気サービスを含む）で評価し、GPTを利用した仕様強化ツールであるRESTGPTおよびRESTler、MoRest、EvoMaster、ARAT-RLなどの最先端のREST APIテストツールと比較しました。我々の結果は、ファインチューニングによってより小型のLLMが、実用的なルールの検出やREST APIテストのための入力生成において大規模モデルを上回ることを示しています。ベースのLlama3-8Bからファインチューニングされたバージョンの構成を評価し、効率のために2ビット、4ビット、8ビットの量子化を探りました。LlamaRestTestは、RESTGPT強化仕様であっても、コードカバレッジとエラー検出において最先端のツールを上回り、アブレーションスタディではその新しいコンポーネントの影響が強調されています。

2025-01-15T05:51:20

OpenMLDB: A Real-Time Relational Data Feature Computation System for Online ML

http://arxiv.org/abs/2501.08591v1

Xuanhe Zhou, Wei Zhou, Liguo Qi, Hao Zhang, Dihao Chen, Bingsheng He, Mian Lu, Guoliang Li, Fan Wu, Yuqiang Chen

Shanghai Jiao Tong Univ., 4Paradigm Inc., SF Express Inc., National Univ. of Singapore, Tsinghua University

効率的かつ一貫した特徴計算は、幅広いオンライン機械学習（ML）アプリケーションにとって重要です。一般的に、特徴計算はモデル訓練のためのオフラインステージとモデル提供のためのオンラインステージの二つの異なるフェーズに分かれています。これらのフェーズはしばしば異なるインターフェース言語や関数実装を持つ実行エンジンに依存しており、重要な不一致を引き起こしています。さらに、多くのオンラインML機能は、標準的なストリーミングおよび分析クエリとは異なる複雑な時系列計算（例：さまざまな長さのテーブルウィンドウにわたる関数）を含んでいます。既存のデータ処理システム（例：Spark、Flink、DuckDB）は、これらの計算に対して数秒のレイテンシを引き起こすことが多く、タイムリーな特徴更新を要求するリアルタイムオンラインMLアプリケーションには不向きです。本論文では、4ParadigmのSageOneプラットフォームおよび100以上の実際のシナリオで展開された特徴計算システムOpenMLDBを紹介します。技術的には、OpenMLDBはまず、オフラインステージとオンラインステージ間で一貫した計算結果を得るための統一クエリプランジェネレーターを採用し、特徴デプロイのオーバーヘッドを大幅に削減します。次に、OpenMLDBは、長いウィンドウ計算（事前集計を通じて）およびマルチテーブルウィンドウの結合（データ自己調整によって）によって引き起こされるパフォーマンスのボトルネックを解決するオンライン実行エンジンを提供します。また、ウィンドウ並列最適化や時間を考慮したデータ偏りの解消を備えた高性能なオフライン実行エンジンも提供します。第三に、OpenMLDBは、メモリ使用を最大化しデータアクセスを加速するために、コンパクトなデータフォーマットとストリーム重視のインデクシングを特徴としています。テストおよび実際のワークロードでの評価は、ベースラインシステムと比較して著しいパフォーマンス改善とリソース節約を示しています。OpenMLDBのオープンコミュニティは現在150人以上の寄稿者が参加し、GitHubで1.6kのスターを獲得しています。

2025-01-15T05:20:01

Sound Scene Synthesis at the DCASE 2024 Challenge

http://arxiv.org/abs/2501.08587v1

Mathieu Lagrange, Junwon Lee, Modan Tailleur, Laurie M. Heller, Keunwoo Choi, Brian McFee, Keisuke Imoto, Yuki Okamoto

この論文は、DCASE 2024 チャレンジのタスク 7 である音響シーン合成について述べています。音声合成と生成モデルの最近の進展により、リアルで多様な音声コンテンツの作成が可能になりました。私たちは、異なる音響シーン合成システムを比較するための標準化された評価フレームワークを導入し、客観的な指標と主観的な指標の両方を組み込んでいます。このチャレンジには4つの提出物があり、Fréchet Audio Distance (FAD) と人間の知覚評価を用いて評価されました。私たちの分析は、音響シーン合成システムの現在の能力と限界に関する重要な洞察を明らかにし、この急速に進化する分野における今後の改善のための領域も強調しています。

2025-01-15T05:15:54

Evaluating SAT and SMT Solvers on Large-Scale Sudoku Puzzles

http://arxiv.org/abs/2501.08569v1

Liam Davis, Tairan Ji

Amherst College

現代のSMTソルバーは、高度な理論推論とエンコーディング技術を統合することによって、制約満足問題へのアプローチを革新しました。本研究では、Z3、CVC5、およびDPLL(T)の現代のSMTソルバーの性能を、DPLLの標準SATソルバーと比較評価します。私たちの改良された数独生成器によって作成された、さまざまな難易度の新しい多様な25x25の数独パズルをベンチマークすることで、高度な理論推論とエンコーディング技術の影響を検証します。私たちの発見は、現代のSMTソルバーが古典的なSATソルバーを大幅に上回ることを示しています。この研究は、論理ソルバーの進化を強調し、大規模な制約満足問題に対処する際のSMTソルバーの有用性の事例を示しています。

2025-01-15T04:31:56

Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement

http://arxiv.org/abs/2501.08566v1

Qianniu Chen, Xiaoyang Hao, Bowen Li, Yue Liu, Li Lu

ゼロショットテキスト音声合成（TTS）合成は、音声クローンを通じてパーソナライズされた音声カスタマイズに対して大きな可能性を示しています。しかし、現在のゼロショットTTSを実現する方法は、満足のいくパフォーマンスとさまざまな話者に対する一般化可能性を確保するために、大規模なモデルと広範なトレーニングデータセットに大きく依存しています。このことは、導入コストとデータセキュリティの両方に関して懸念を引き起こします。本研究では、軽量で安定したゼロショットTTSシステムを提案します。私たちは、ソース音声とプロンプト音声から、言語的内容とさまざまな話者属性を効果的にモデル化するために設計された新しいTTSアーキテクチャを紹介します。さらに、トレーニングデータの視点から言語的内容と話者を効果的に分離するために、並列データペアを構築する二段階自己蒸留フレームワークを提案します。広範な実験により、我々のシステムはゼロショットTTSタスクにおいて優れた性能と卓越した安定性を示すことがわかりました。さらに、CPUとGPUでそれぞれ0.13および0.012のRTFを示し、著しく優れた計算効率を備えています。

2025-01-15T04:17:48

DualOpt: A Dual Divide-and-Optimize Algorithm for the Large-scale Traveling Salesman Problem

http://arxiv.org/abs/2501.08565v1

Shipei Zhou, Yuandong Ding, Chi Zhang, Zhiguang Cao, Yan Jin

HUST

この論文では、大規模な旅行セールスマン問題（TSP）を解決するための二重分割最適化アルゴリズム（DualOpt）を提案します。DualOptは、解決策の質と計算効率の両方を向上させるために、2つの補完的な戦略を組み合わせています。最初の戦略は、TSPをより小さなサブ問題に分割するグリッドベースの分割統治手法で、これらを並行して解決し、ノードや部分ルートを統合することにより、逐次的に解を洗練させます。このプロセスは、1つのグリッドのみが残るまで続き、高品質の初期解が得られます。第二の戦略は、パスベースの分割最適化手法で、解をサブパスに分割し、各サブパスをニューラルソルバーを使用して最適化し、再び統合することで全体の解を段階的に向上させるものです。最大100,000ノードのランダム生成インスタンスとTSPLIBの実世界データセットを含む2つのグループのTSPベンチマークインスタンスで行った広範な実験は、DualOptの効果を示しています。提案されたDualOptは、文献中の10の最先端アルゴリズムに比べて非常に競争力のある結果を達成します。特に、DualOptは最大インスタンスTSP100Kで1.40%の改善ギャップを達成し、先進のヒューリスティックソルバーLKH3に対して104倍のスピードアップを実現しています。さらに、DualOptはTSPLIBベンチマークに対して強い一般化能力を示し、多様な実世界のTSPアプリケーションに対処する能力を確認しています。

2025-01-15T04:16:28

ANSR-DT: An Adaptive Neuro-Symbolic Learning and Reasoning Framework for Digital Twins

http://arxiv.org/abs/2501.08561v1

Safayat Bin Hakim, Muhammad Adil, Alvaro Velasquez, Houbing Herbert Song

University of Maryland, Baltimore County, University at Buffalo, University of Colorado Boulder

本論文では、「ANSR-DT」と呼ばれるデジタルツイン技術のための適応型神経シンボリック学習フレームワークを提案します。私たちのアプローチは、パターン認識アルゴリズムを強化学習とシンボリック推論と組み合わせることで、リアルタイムでの学習と適応型知能を可能にします。この統合により、環境の理解が深まり、継続的な学習が促進され、人間と機械の協力が必要なアプリケーションにおいてリアルタイムでのより良く効果的な意思決定が実現します。私たちは、動的パターンに学習し適応する能力についての \textit{ANSR-DT} フレームワークを評価し、従来の最先端手法と比較して意思決定の精度、信頼性、解釈性において著しい改善を観察しました。しかし、複雑な環境においてシンボリックルールを抽出し統合する課題が依然として存在し、異種環境におけるフレームワークの完全なポテンシャルを制限しています。さらに、私たちの継続的な研究は、将来的に神経モデルのシームレスな統合を確保することでこの問題に対処することを目指しています。また、私たちのオープンソース実装は再現性を促進し、今後の研究が私たちの基盤となる作業に基づいて構築されることを奨励します。

2025-01-15T04:04:57

LAMS: LLM-Driven Automatic Mode Switching for Assistive Teleoperation

http://arxiv.org/abs/2501.08558v1

Yiran Tao, Jehan Yang, Dan Ding, Zackory Erickson

Carnegie Mellon University, University of Pittsburgh

高自由度（DoF）ロボットマニピュレーターをジョイスティックのような低自由度コントローラーで遠隔操作することは、各モードがコントローラーの動きを特定のロボット動作にマッピングする制御モード間の頻繁な切り替えを必要とします。この頻繁な切り替えを手動で行うことは、遠隔操作を厄介で非効率的にする可能性があります。一方で、既存の自動モード切り替えの解決策、たとえばヒューリスティックベースや学習ベースの方法は、しばしばタスク特化型であり、汎用性に欠けます。本文では、タスクコンテキストに基づいて制御モードを自動的に切り替えるために大規模言語モデル（LLM）を活用した新しいアプローチ、LLM駆動自動モード切り替え（LAMS）を紹介します。既存の方法とは異なり、LAMSは事前のタスクデモンストレーションを必要とせず、ユーザーによって生成されたモード切り替えの例を統合することで逐次的に改善します。LAMSを複雑な長期タスクに関する10人の参加者によるアブレーションスタディおよびユーザースタディを通じて検証し、LAMSが手動のモード切り替えを効果的に削減し、代替手法に対して好まれ、時間の経過とともにパフォーマンスが向上することを示します。プロジェクトのウェブサイトおよび補足資料は https://lams-assistance.github.io/ にあります。

2025-01-15T03:49:08

Reinforcement Learning-Enhanced Procedural Generation for Dynamic Narrative-Driven AR Experiences

http://arxiv.org/abs/2501.08552v1

Aniruddha Srinivas Joshi

University of California, Santa Cruz

手続き型コンテンツ生成（PCG）は、ゲームにおいてスケーラブルで多様な環境を作成するために広く使用されています。しかし、既存の手法、例えば波動関数崩壊（WFC）アルゴリズムは、静的なシナリオに限定されがちで、特に拡張現実（AR）ゲームにおいて動的で物語重視のアプリケーションに必要な適応性が欠けています。本論文では、モバイルAR環境向けに設計された強化学習を強化したWFCフレームワークを提案します。環境特有のルールと強化学習（RL）によって情報を得た動的なタイルの重み調整を統合することにより、提案手法は文脈的に一貫性があり、ゲームプレイのニーズに応じて応答するマップを生成します。比較評価とユーザー調査により、このフレームワークは優れたマップ品質を達成し、没入感のある体験を提供することが示されており、物語重視のARゲームに適しています。また、この手法は教育、シミュレーショントレーニング、没入型の拡張現実（XR）体験など、動的で適応可能な環境が重要となる幅広い応用の可能性を秘めています。

2025-01-15T03:23:06

The Devil is in Temporal Token: High Quality Video Reasoning Segmentation

http://arxiv.org/abs/2501.08549v1

Sitong Gong, Yunzhi Zhuge, Lu Zhang, Zongxin Yang, Pingping Zhang, Huchuan Lu

Dalian University of Technology, Harvard University

既存のビデオ推論セグメンテーション手法は、キーフレームまたは全体のビデオ内のオブジェクトを表すために単一の特別なトークンに大きく依存しており、空間的複雑さやフレーム間の動きを不十分に捉えています。これらの課題を克服するために、私たちは VRS-HQ を提案します。これは、マルチモーダル大規模言語モデル (MLLM) を活用して階層トークンに豊富な時空間特徴を注入するエンドツーエンドのビデオ推論セグメンテーションアプローチです。私たちの主要な革新には、時間的動的集約 (TDA) とトークン駆動型キーフレーム選択 (TKS) が含まれます。具体的には、MLLM の自己回帰学習を利用してローカル情報とグローバル情報の両方を効果的に捉えるフレームレベルの <SEG> トークンと時間レベルの <TAK> トークンを設計しています。その後、類似性に基づく重み付け融合およびフレーム選択戦略を適用し、SAM2 を使用してキーフレームのセグメンテーションと伝播を実行します。キーフレームのローカライズ精度を向上させるために、TKS は推論中に SAM2 の遮蔽スコアに基づいてキーフレームをフィルタリングします。VRS-HQ は ReVOS で最先端のパフォーマンスを達成し、3 つのサブセット全体で J&F スコアにおいて VISA を 5.9%/12.5%/9.1% 上回っています。これらの結果は、私たちの手法の強力な時間的推論およびセグメンテーション能力を強調しています。コードとモデルの重みは VRS-HQ で公開される予定です。

2025-01-15T03:17:24

Knowledge prompt chaining for semantic modeling

http://arxiv.org/abs/2501.08540v1

Ning Pei Ding, Jingge Du, Zaiwen Feng

Huazhong Agricultural University

構造化データ（CSV、JSON、XMLファイルなど）のセマンティクスを構築する作業は、知識表現の分野において非常に重要です。インターネット上には膨大な構造化データがありますが、これらをドメインオントロジーにマッピングしてセマンティクスを構築することは依然として非常に難しい課題です。これは、構築モデルがグラフ構造の知識を理解し学習する必要があるからです。さもなければ、この作業は人間の努力とコストを必要とします。本論文では、新しい自動セマンティックモデリングフレームワーク「Knowledge Prompt Chaining」を提案しました。このフレームワークは、グラフ構造の知識をシリアライズし、プロンプトチェイニングアーキテクチャに適切にLLMに注入することができます。この知識の注入とプロンプトチェイニングを通じて、我々のフレームワーク内のモデルはグラフの構造情報と潜在空間を学習し、チェーンの指示に従って自然にセマンティックラベルとセマンティックグラフを生成できます。実験結果に基づくと、我々の手法は、構造化入力データを減少させたにもかかわらず、既存の先進技術よりも優れた性能を発揮します。

2025-01-15T03:00:57

Dynamic Portfolio Optimization via Augmented DDPG with Quantum Price Levels-Based Trading Strategy

http://arxiv.org/abs/2501.08528v1

Runsheng Lin, Zihan Xing, Mingze Ma, Raymond S. T. Lee

BNU-HKBU United International College

深層学習の発展に伴い、動的ポートフォリオ最適化（DPO）問題は近年、金融分野だけでなく深層学習の分野でも大きな注目を集めています。最近の先進的な研究では、DPO問題に深層強化学習（DRL）を適用する提案がされており、これがDPO問題の解決に際して従来の教師あり学習よりも有利であることが示されています。しかし、依然として解決されていない問題がいくつか存在します。1) DRLアルゴリズムは通常、学習速度が遅くサンプルの複雑性が高いという問題があり、特に複雑な金融データを扱う際には問題となります。2) 研究者たちは、高いリターンを得る目的で単純にDRLを使用していますが、リスク管理や取引戦略の問題にはあまり注目せず、これがモデルのリターンの安定性に影響を与えることになります。これらの問題に対処するために、本研究では深層決定論的ポリシー勾配（DDPG）に基づいてモデルの内在的な構造を改良し、拡張DDPGモデルを提案しました。さらに、量子ファイナンス理論（QFT）から導出された量子価格レベル（QPL）に基づく革新的なリスク管理戦略も提案しました。実験結果は、当社のモデルがベースラインモデルと比較して、DPO問題においてより良い収益性とリスク管理能力を持ち、サンプルの複雑性が少ないことを示しています。

2025-01-15T02:37:28

Doc-Guided Sent2Sent++: A Sent2Sent++ Agent with Doc-Guided memory for Document-level Machine Translation

http://arxiv.org/abs/2501.08523v1

Jiaxin Guo, Yuanchang Luo, Daimeng Wei, Ling Zhang, Zongyao Li, Hengchao Shang, Zhiqiang Rao, Shaojun Li, Jinlong Yang, Zhanglin Wu, Hao Yang

Huawei

人工知能の分野では、自然言語処理において大きな進展が見られ、これは主に大規模言語モデル（LLMs）の能力に起因しています。これらのモデルは、特に文書レベルの機械翻訳（DocMT）における長いコンテキスト依存関係に対処するために設計されたエージェントの基盤を形成しています。DocMTには独特の課題があり、評価のための重要な指標は、品質、一貫性、流暢さです。既存のアプローチ、例えばDoc2DocやDoc2Sentは、文を省略するか、流暢さを妥協しています。本論文では、隣接する文の流暢さを向上させながら、すべての文が翻訳されることを保証するために、逐次的な文レベルの強制デコーディング戦略を採用したエージェントであるDoc-Guided Sent2Sent++を紹介します。私たちのエージェントは、要約とその翻訳にのみ焦点を当てたDoc-Guided Memoryを活用しており、一貫性を保つ効率的なアプローチであることがわかりました。複数の言語およびドメインにわたる広範なテストを通じて、Sent2Sent++が品質、一貫性、流暢さの面で他の方法を上回ることを示しました。結果は、私たちのアプローチがs-COMET、d-COMET、LTCR-$1_f$、および文書レベルの困惑度（d-ppl）などの指標において大幅な改善を達成したことを示しています。本論文の貢献には、現在のDocMT研究の詳細な分析、Sent2Sent++デコーディング方法の導入、Doc-Guided Memoryメカニズムの紹介、およびさまざまな言語およびドメインにおけるその有効性の検証が含まれています。

2025-01-15T02:25:35

Mitigating Domain Shift in Federated Learning via Intra- and Inter-Domain Prototypes

http://arxiv.org/abs/2501.08521v1

Huy Q. Le, Ye Lin Tun, Yu Qiao, Minh N. H. Nguyen, Keon Oh Kim, Choong Seon Hong

Federated Learning（FL）は、クライアントがプライベートデータを共有せずに協力してグローバルモデルを訓練できる分散型機械学習技術として登場しました。しかし、ほとんどのFL研究は、各クライアントが異なる特徴分布を持つという重要な課題を無視しています。このような非均質なドメインは、実際のシナリオで一般的です。プロトタイプ学習は、同じクラス内の平均特徴ベクトルを活用し、ドメインの偏りにおける連合学習のための有力な解決策となりました。しかし、既存の連合プロトタイプ学習法は、サーバー上のドメイン間プロトタイプのみを考慮し、ドメイン内の特性を見落としています。本研究では、ドメインシフトを軽減し、連合学習における複数のドメイン間で一般化されたグローバルモデルを学習するために、$\textbf{I}$ntra-domainと$\textbf{I}$nter-domainの$\textbf{P}$rototypesを組み込んだ新しい連合プロトタイプ学習手法I$^2$PFLを提案します。ドメイン内プロトタイプを構築するために、MixUpベースの拡張プロトタイプを用いた特徴アラインメントを提案し、ローカルドメインの多様性を捉え、ローカル特徴の一般化を強化します。さらに、異なるクライアント間のドメインスキューを軽減し、ドメイン間の知識を提供するために、一般化されたプロトタイプを生成するためのドメイン間プロトタイプの再重み付けメカニズムを導入します。Digits、Office-10、およびPACSデータセットにおける広範な実験により、私たちの手法が他のベースラインと比べて優れた性能を示していることが裏付けられます。

2025-01-15T02:17:38

Easing Seasickness through Attention Redirection with a Mindfulness-Based Brain--Computer Interface

http://arxiv.org/abs/2501.08518v1

Xiaoyu Bao, Kailin Xu, Jiawei Zhu, Haiyun Huang, Kangning Li, Qiyun Huang, Yuanqing Li

South China University of Technology, South China Normal University, Pazhou Laboratory, South China Brain–Computer Interface Technology Co., Ltd.

乗り物酔いは、乗客の体験や海上クルーの運営効率に悪影響を及ぼす一般的な問題です。注意をそらす技術は、陸上環境における動揺症状を和らげるために効果的であることが示されていますが、海上旅行に関連する長期間かつ激しい動きの環境で酔いを管理するために同様の戦略を適用することには独特の課題があります。本研究では、現実の状況で酔いの症状を緩和することを目的とした、注意をそらすために特別に設計されたマインドフルネス脳-コンピュータインターフェース（BCI）を提案します。我々のシステムは、前頭部のEEG信号をキャプチャするための単一チャンネルのヘッドバンドを利用し、それをワイヤレスで計算デバイスに送信してマインドフルネス状態を評価します。結果は、マインドフルネススコアと視聴覚刺激としてリアルタイムフィードバックに転送され、生理的な不快感からマインドフルネス実践へ注意の焦点を移すことを促進します。合計43人が、リアルな海上実験に参加し、3つのセッションから成る：リアルフィードバックのマインドフルネスセッション、休息セッション、および擬似フィードバックのマインドフルネスセッションに参加しました。特筆すべきは、81.39%の参加者がマインドフルネスBCI介入が効果的だったと報告し、ミザリー尺度（MISC）によって測定された酔いの重症度の有意な低下が見られたことです。さらに、EEG分析は、酔いの症状の緩和に対応するシータ/ベータ比の低下を示しました。リアルフィードバックのマインドフルネスセッション中の全体的なEEGバンドパワーの低下は、マインドフルネスBCIがより落ち着いた抑制された脳活動を促進することを示唆しています。これにより、本研究は乗り物酔いの介入に対する新しい非薬理学的、ポータブルで効果的なアプローチを提供し、乗客と乗員の両方のクルージング体験を向上させる可能性を示しています。

2025-01-15T02:06:29

Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training

http://arxiv.org/abs/2501.08506v1

Kavita Selva, Satita Vittayaareekul, Brando Miranda

Stanford University

現在、大規模で強力なモデルのトレーニングにおいて、データとモデルのサイズがその物語の主導権を握っています。しかし、トレーニングデータセットの他の属性がモデルのパフォーマンスに与える影響については探求が不足しています。私たちは、データセットの多様性が視覚モデルのパフォーマンスに影響を与える可能性があると仮定します。私たちの研究は、テストセットの精度とデータの多様性の間に正の相関関係があることを示しており、サイズを超えたデータセットの属性の研究を進めるための根拠を提供します。私たちは、12の一般的な視覚データセット（例：Omniglot、CIFAR-FS、Aircraft）および異なる内側の勾配ステップ数を持つMAMLのバリアントや教師あり学習を含む5つのモデル構成に対して、事前トレーニングとモデルに依存しないメタ学習手法を分析しました。精度とデータの多様性の間には中程度から強い正の相関関係（R二乗：0.15-0.42）があり、損失と多様性の間には弱いが重要な相関関係（R二乗：~0.2）が示されました。これらの発見は私たちの仮説を支持し、正式なデータ多様性がモデルのパフォーマンスにどのように影響を与えるかをより深く探求するための有望な方法を示しています。この初期の研究は、（Task2Vec）のデータ多様性が大規模学習の急速に進化する分野において貴重な指標である可能性を強調し、データセットを理解することがより強力で汎用的なモデルを構築するための鍵であることを強調しています。

2025-01-15T00:56:59

Adapting Whisper for Regional Dialects: Enhancing Public Services for Vulnerable Populations in the United Kingdom

http://arxiv.org/abs/2501.08502v1

Melissa Torgbi, Andrew Clayman, Jordan J. Speight, Harish Tayyar Madabushi

University of Bath, Wyser LTD

私たちは、公共サービスの分野で新しいデータを収集し、最先端の自動音声認識（ASR）モデルがイギリス（UK）内のアクセントの地域差を把握する能力を評価します。特に、異なる方言を持つスコットランドの2つのアクセントに焦点を当てています。この研究は、バイアスのあるASRモデルが公共サービスにおいて誤解を招く可能性がある現実の問題に対処しており、特に脆弱なグループに属する地域アクセントを持つ個人に不利な影響を及ぼします。まず、ベースラインデータセットおよび私たちのデータに対するWhisper large-v3モデルの初期性能を調べます。その後、Whisperを微調整することがイギリスの2つの地域における性能に与える影響を探り、手動でのモデルエラーの検査を通じて、私たちの現実のアプリケーションに対する既存のモデル評価技術の有効性を調査します。私たちは、Whisperモデルがテストデータセットに対する単語誤り率（WER）がベースラインデータに比べて高いことを観察しました。また、特定のデータで微調整を行うことで、同じドメインとアクセントのテストデータセットにおける性能が向上することも確認しました。微調整されたモデルは、訓練された地域外のテストデータに適用する際にも性能が改善されるようで、微調整されたモデルはUKの一部の地域内で移転可能である可能性を示唆しています。モデルの出力に対する手動分析により、WERを評価指標として使用することの利点と欠点、ならびに地域方言に適応するための微調整の効果が明らかになりました。

2025-01-15T00:39:21

About

Grounding Text-To-Image Diffusion Models For Controlled High-Quality Image Generation

Patch-aware Vector Quantized Codebook Learning for Unsupervised Visual Defect Detection

Guiding Retrieval using LLM-based Listwise Rankers

A Blockchain-Enabled Approach to Cross-Border Compliance and Trust

Attention is All You Need Until You Need Retention

The Veln(ia)s is in the Details: Evaluating LLM Judgment on Latvian and Lithuanian Short Answer Matching

Towards Understanding Extrapolation: a Causal Lens

AutoLoop: Fast Visual SLAM Fine-tuning through Agentic Curriculum Learning

Towards Multilingual LLM Evaluation for Baltic and Nordic languages: A study on Lithuanian History

Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG

Benchmarking Robustness of Contrastive Learning Models for Medical Image-Report Retrieval

Generative Medical Image Anonymization Based on Latent Code Projection and Optimization

Mantis Shrimp: Exploring Photometric Band Utilization in Computer Vision Networks for Photometric Redshift Estimation

A Non-autoregressive Model for Joint STT and TTS

Tracking the Takes and Trajectories of English-Language News Narratives across Trustworthy and Worrisome Websites

SteLLA: A Structured Grading System Using LLMs with RAG

Inferring Transition Dynamics from Value Functions

Average-Reward Reinforcement Learning with Entropy Regularization

How Do Generative Models Draw a Software Engineer? A Case Study on Stable Diffusion Bias

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

AI-RAN: Transforming RAN with AI-driven Computing Infrastructure

Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition

Personality Modeling for Persuasion of Misinformation using AI Agent

Development and Validation of the Provider Documentation Summarization Quality Instrument for Large Language Models

Trusted Machine Learning Models Unlock Private Inference for Problems Currently Infeasible with Cryptography

An analysis of data variation and bias in image-based dermatological datasets for machine learning classification

Kolmogorov-Arnold Networks for Time Series Granger Causality Inference

Analyzing the Ethical Logic of Six Large Language Models

Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos

Disentangling Exploration of Large Language Models by Optimal Exploitation

Modeling Melt Pool Features and Spatter Using Symbolic Regression and Machine Learning

Projection Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning

Computing Game Symmetries and Equilibria That Respect Them

Leveraging Large Language Models as Knowledge-Driven Agents for Reliable Retrosynthesis Planning

Karatsuba Matrix Multiplication and its Efficient Custom Hardware Implementations

Incrementally Learning Multiple Diverse Data Domains via Multi-Source Dynamic Expansion Model

Silent Abandonment in Text-Based Contact Centers: Identifying, Quantifying, and Mitigating its Operational Impacts

ARMOR: Shielding Unlearnable Examples against Data Augmentation

Digital Phenotyping for Adolescent Mental Health: A Feasibility Study Employing Machine Learning to Predict Mental Health Risk From Active and Passive Smartphone Data

Graph Counterfactual Explainable AI via Latent Space Traversal

RouteNet-Gauss: Hardware-Enhanced Network Modeling with Machine Learning

Automatic tuning of communication protocols for vehicular ad hoc networks using metaheuristics

Exploring Task-Level Optimal Prompts for Visual In-Context Learning

ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

IDEA: Image Description Enhanced CLIP-Adapter

SAIF: A Comprehensive Framework for Evaluating the Risks of Generative AI in the Public Sector

XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

Networked Agents in the Dark: Team Value Learning under Partial Observability

How Developers Interact with AI: A Taxonomy of Human-AI Collaboration in Software Engineering

Polyp detection in colonoscopy images using YOLOv11

Leveraging LLM Agents for Translating Network Configurations

Generating Realistic Synthetic Head Rotation Data for Extended Reality using Deep Learning

Dynamic-Aware Spatio-temporal Representation Learning for Dynamic MRI Reconstruction

Self-supervised Transformation Learning for Equivariant Representations

SPEQ: Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning

Spatio-Temporal Foundation Models: Vision, Challenges, and Opportunities

Application of Deep Reinforcement Learning to UAV Swarming for Ground Surveillance

Fine-grained Spatio-temporal Event Prediction with Self-adaptive Anchor Graph

MAGNET: Augmenting Generative Decoders with Representation Learning and Infilling Capabilities

Reassessing the Role of Chain-of-Thought in Sentiment Analysis: Insights and Limitations

TCMM: Token Constraint and Multi-Scale Memory Bank of Contrastive Learning for Unsupervised Person Re-identification

ViBidirectionMT-Eval: Machine Translation for Vietnamese-Chinese and Vietnamese-Lao language pair

Disjoint Processing Mechanisms of Hierarchical and Linear Grammars in Large Language Models

RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design

AutoRestTest: A Tool for Automated REST API Testing Using LLMs and MARL

LlamaRestTest: Effective REST API Testing with Small Language Models

OpenMLDB: A Real-Time Relational Data Feature Computation System for Online ML

Sound Scene Synthesis at the DCASE 2024 Challenge

Evaluating SAT and SMT Solvers on Large-Scale Sudoku Puzzles

Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement

DualOpt: A Dual Divide-and-Optimize Algorithm for the Large-scale Traveling Salesman Problem

ANSR-DT: An Adaptive Neuro-Symbolic Learning and Reasoning Framework for Digital Twins

LAMS: LLM-Driven Automatic Mode Switching for Assistive Teleoperation

Reinforcement Learning-Enhanced Procedural Generation for Dynamic Narrative-Driven AR Experiences

The Devil is in Temporal Token: High Quality Video Reasoning Segmentation

Knowledge prompt chaining for semantic modeling

Dynamic Portfolio Optimization via Augmented DDPG with Quantum Price Levels-Based Trading Strategy