2025-01-13 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 81件

リストから抽出されたキーワード: Cognitive Diagnosis Theory, Retrieval-Augmented Generation, Meta-Reinforcement Learning

Performance Optimization of Ratings-Based Reinforcement Learning

http://arxiv.org/abs/2501.07755v1

Evelyn Rose, Devin White, Mingkang Wu, Vernon Lawhern, Nicholas R. Waytowich, Yongcan Cao

この論文は、評価に基づく強化学習(RbRL)の性能を向上させるための複数の最適化手法を探求しています。RbRLは、人間の評価に基づくアイデアに基づいて開発された手法で、報酬なしの環境で報酬関数を推測し、標準的な強化学習による次のポリシー学習を行うために必要な報酬関数の利用可能性を求めます。具体的には、RbRLは、推測された報酬から得られた推定評価と人間の評価との違いを定量化するクロスエントロピー損失を最小限に抑えます。したがって、損失が低いということは、人間の評価と推定評価との間に高い一貫性があることを意味します。シンプルな形式にもかかわらず、RbRLはさまざまなハイパーパラメータを持ち、さまざまな要因に敏感である可能性があります。したがって、RbRLの性能に対するさまざまなハイパーパラメータの影響を理解するために、包括的な実験を行うことが重要です。この論文は進行中の作業であり、ユーザーにRbRLにおけるハイパーパラメータの選択に関する一般的なガイドラインを提供します。

2025-01-13T23:56:24


Rethinking AI Cultural Evaluation

http://arxiv.org/abs/2501.07751v1

Michal Bravansky, Filip Trhlik, Fazl Barez

University College London, University of Cambridge, University of Oxford, Tangentic

AIシステムが社会にますます統合されるにつれて、多様な文化的価値に合致する能力を評価することは、その責任ある導入にとって重要です。現在の評価方法は主に選択肢式質問(MCQ)データセットに依存しています。本研究では、MCQがオープンエンドのシナリオで表現される文化的価値の複雑さを捉えるには不十分であることを示します。我々の発見は、MCQに基づく評価と制約のない相互作用で伝えられる価値との間に重要な不一致があることを強調しています。これらの発見に基づき、MCQを超えて、AIモデルが現実的な環境において文化的価値にどのように関与するかをよりよく反映する、よりオープンエンドで文脈に特化した評価に移行することをお勧めします。

2025-01-13T23:42:37


CDS: Data Synthesis Method Guided by Cognitive Diagnosis Theory

http://arxiv.org/abs/2501.07674v1

Haokun Zhao, Jinyi Han, Jiaqing Liang, Yanghua Xiao

Fudan University, East China Normal University

大規模言語モデル(LLM)はさまざまな領域で優れた能力を示していますが、新しい課題の増加する複雑さは、向上したパフォーマンスと適応性を要求しています。従来のベンチマークは包括的であるものの、詳細な能力分析に必要な粒度を欠いていることが多いです。本研究では、認知診断理論(CDT)を用いてLLMの正確な評価とターゲット強化を行う認知診断合成(CDS)手法を紹介します。CDSは複雑なタスクを離散的な知識ポイントに分解することにより、モデルの弱点をターゲットにしたデータを正確に特定し、合成することでモデルのパフォーマンスを向上させます。このフレームワークは、知識ポイントの評価、合成、データの増強、およびフィルタリングによって駆動される包括的なパイプラインを提案しており、モデルの数学的およびコーディング能力を大幅に向上させ、最適なシナリオで最大11.12%の改善を達成します。

2025-01-13T20:13:59


Large Language Models for Interpretable Mental Health Diagnosis

http://arxiv.org/abs/2501.07653v1

Brian Hyeongseok Kim, Chao Wang

私たちは、大規模言語モデル(LLM)と制約論理プログラミング(CLP)の強みを組み合わせた、精神疾患診断のための臨床意思決定支援システム(CDSS)を提案します。CDSSを持つことは、精神的健康の専門家が使用する診断マニュアルの高い複雑さと診断エラーの危険性から重要です。私たちのCDSSは、LLMを使用して診断マニュアルを論理プログラムに翻訳し、そのプログラムを市販のCLPエンジンを使用して解決し、エンコードされたルールと提供されたデータに基づいて患者の診断を照会するソフトウェアツールです。領域の専門家にLLM生成の論理プログラムを検査し、必要に応じて修正する機会を提供することにより、私たちのCDSSは、診断が正確であるだけでなく、解釈可能であることを保証します。私たちは、LLMのみのアプローチを用いた患者診断および専門家の検査なしにLLM生成の論理プログラムを使用するという2つのベースラインアプローチと実験的に比較します。結果は、LLMが候補となる論理プログラムを生成するのに非常に役立つ一方で、これらのプログラムが公式な診断マニュアルに忠実であることを保証するためには、依然として専門家の検査と修正が必要であることを示しています。さらに、LLMに患者データを直接使用することから倫理的な懸念が生じており、私たちの提案する方法のようなより安全なハイブリッドアプローチの必要性が強調されています。

2025-01-13T19:26:09


BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations

http://arxiv.org/abs/2501.07647v1

Weixi Feng, Chao Liu, Sifei Liu, William Yang Wang, Arash Vahdat, Weili Nie

UC Santa Barbara, NVIDIA

既存の動画生成モデルは、複雑なテキストプロンプトに従ったり、複数のオブジェクトを合成したりするのが困難であり、制御性を向上させるための追加のグラウンディング入力の必要性が高まっています。本研究では、動画を視覚的プリミティブに分解することを提案します。これは、制御可能な動画生成のための一般的な表現であるブロブビデオ表現です。ブロブ条件に基づいて、ユーザーがオブジェクトの動きや詳細なオブジェクトの外観を制御できるブロブグラウンデッドビデオ拡散モデルBlobGEN-Vidを開発しました。特に、フレーム間の地域的一貫性を効果的に改善するマスク付き3Dアテンションモジュールを導入します。さらに、ユーザーが特定のフレームにおける意味を制御できるように、テキスト埋め込みを補間するための学習可能なモジュールを導入し、スムーズなオブジェクトの遷移を実現します。私たちのフレームワークはモデルに依存せず、BlobGEN-VidをU-NetとDiTベースのビデオ拡散モデルの両方に基づいて構築しました。広範な実験結果は、BlobGEN-Vidが複数のベンチマークにおいて優れたゼロショット動画生成能力と最先端のレイアウト制御性を達成することを示しています。レイアウト計画のためにLLMと組み合わせると、私たちのフレームワークは構成的な精度において専有のテキストから動画への生成器を上回ります。

2025-01-13T19:17:06


SafePowerGraph-LLM: Novel Power Grid Graph Embedding and Optimization with Large Language Models

http://arxiv.org/abs/2501.07639v1

Fabien Bernier, Jun Cao, Maxime Cordy, Salah Ghamizi

University of Luxembourg, Luxembourg Institute of Science and Technology (LIST)

最適電力フロー(OPF)問題を効率的に解決することは、運用計画やグリッド管理にとって重要です。現代の電力ネットワークにおける変動性、制約、および不確実性の増加に対応できるスケーラブルなアルゴリズムの需要が高まっています。そのため、機械学習技術、特にグラフニューラルネットワーク(GNN)が有望なアプローチとして浮上しています。この文書では、OPF問題を大規模言語モデル(LLM)を使用して解決するために明示的に設計された初のフレームワーク、SafePowerGraph-LLMを紹介します。提案するアプローチは、電力網のグラフ表現と表形式の表現を組み合わせて、LLMに効果的にクエリを実行し、電力システムの複雑な関係と制約を捉えます。OPF問題に特化して調整されたLLMのインコンテキスト学習とファインチューニングプロトコルの新しい実装も導入されます。SafePowerGraph-LLMは、既製のLLMを使用して信頼性のあるパフォーマンスを示しています。我々の研究では、LLMのアーキテクチャ、サイズ、ファインチューニングの影響を明らかにし、我々のフレームワークが現実的な電力グリッドのコンポーネントと制約を処理する能力を示しています。

2025-01-13T19:01:58


Dataset Distillation via Committee Voting

http://arxiv.org/abs/2501.07575v1

Jiacheng Cui, Zhaoyi Li, Xiaochen Ma, Xinyue Bi, Yaxin Luo, Zhiqiang Shen

MBZUAI, University of Ottawa, Technical University of Denmark

データセット蒸留は、元のデータの本質的な特性を保持しつつ、小さく代表的なデータセットを合成することを目指しており、計算資源を削減しつつ効率的なモデルの訓練を可能にします。これまでの研究は、主に元のデータと合成データとの整合性またはマッチングプロセスの改善、または大規模データセットの蒸留効率の向上に焦点を当ててきました。本研究では、複数のモデルや専門家の集団的な知恵を活用して高品質な蒸留データセットを作成する新しい独自のアプローチである委員会投票によるデータセット蒸留(CV-DD)を紹介します。まず、最新の進展に基づいた思慮深い調整とモデル設計・最適化プロセスを活用することによって、すでに最先端の精度を達成する強力なベースラインを確立する方法を示します。モデルの委員会からの分布と予測を統合し、高品質のソフトラベルを生成することで、我々の方法はより広範なデータ特徴を捉え、モデル固有のバイアスや分布シフトの悪影響を軽減し、一般化の大幅な改善を実現します。この投票に基づく戦略は、蒸留データセット内の多様性とロバスト性を促進するだけでなく、過剰適合を大幅に削減し、後続の評価タスクでの性能を向上させます。さまざまなデータセットやクラスあたりの画像数(IPC)にわたる広範な実験により、委員会投票が単一または複数モデルの蒸留手法と比較して、より信頼性が高く適応可能な蒸留データをもたらすことが示され、効率的で正確なデータセット蒸留の可能性を証明しています。コードは以下から入手可能です:https://github.com/Jiacheng8/CV-DD

2025-01-13T18:59:48


UnCommon Objects in 3D

http://arxiv.org/abs/2501.07574v1

Xingchen Liu, Piyush Tayal, Jianyuan Wang, Jesus Zarzar, Tom Monnier, Konstantinos Tertikas, Jiali Duan, Antoine Toisoul, Jason Y. Zhang, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny

私たちは、3D深層学習および3D生成AIのための新しいオブジェクト中心のデータセット「Uncommon Objects in 3D (uCO3D)」を紹介します。uCO3Dは、3Dアノテーションを備えたオブジェクトの高解像度ビデオの最大の公開コレクションであり、360度の全方位カバレッジを保証します。uCO3Dは、MVImgNetやCO3Dv2よりも多様性が大幅に高く、1,000以上のオブジェクトカテゴリーをカバーしています。また、収集されたビデオと3Dアノテーションの両方に対して広範な品質チェックが行われているため、品質も高いです。類似のデータセットと同様に、uCO3Dには3Dカメラポーズ、深度マップ、およびスパースポイントクラウドアノテーションが含まれています。さらに、各オブジェクトにはキャプションと3Dガウススプラット復元が付属しています。MVImgNet、CO3Dv2、uCO3Dのいくつかの大規模な3Dモデルを訓練し、後者を使用することで優れた結果を得られたことを示しており、uCO3Dが学習アプリケーションに適していることを示しています。

2025-01-13T18:59:20


WebWalker: Benchmarking LLMs in Web Traversal

http://arxiv.org/abs/2501.07572v2

Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Linhai Zhang, Yulan He, Deyu Zhou, Pengjun Xie, Fei Huang

Retrieval-augmented generation (RAG)は、オープンドメインの質問応答において驚異的なパフォーマンスを示します。しかし、従来の検索エンジンは表面的なコンテンツを取得する場合があり、これによりLLM(大規模言語モデル)が複雑で多層的な情報を扱う能力が制限されることがあります。これに対処するために、私たちはWebWalkerQAを導入します。これは、LLMがウェブの巡回を行う能力を評価するために設計されたベンチマークです。このベンチマークは、LLMがウェブサイトのサブページを巡回して高品質なデータを体系的に抽出する能力を評価します。私たちは、探査-批評パラダイムを通じて人間のようなウェブナビゲーションを模倣するマルチエージェントフレームワークであるWebWalkerを提案します。多くの実験結果は、WebWalkerQAが挑戦的であり、実世界のシナリオにおける水平的および垂直的統合を通じてWebWalkerと組み合わせたRAGの効果的な使用を示しています。

2025-01-13T18:58:07


Evaluating Agent-based Program Repair at Google

http://arxiv.org/abs/2501.07531v1

Pat Rondon, Renyao Wei, José Cambronero, Jürgen Cito, Aaron Sun, Siddhant Sanyam, Michele Tufano, Satish Chandra

Google

エージェントベースのプログラム修正は、現代のLLMの計画、ツール使用、コード生成能力を組み合わせることによって、複雑なバグを自動的にエンドツーエンドで解決することを提案します。最近の研究では、高評価のGitHubPythonプロジェクトから集めたバグのコレクションである人気のオープンソースSWE-Benchにおけるエージェントベースの修正アプローチの使用が探求されています。さらに、SWE-Agentなどのさまざまなエージェントのアプローチが、このベンチマークにおけるバグを解決するために提案されています。本論文では、企業環境におけるバグに対処するためにエージェント的アプローチを使用する可能性を探ります。これを調査するために、Googleの問題追跡システムから抽出した178のバグの評価セットを作成しました。このデータセットは、人間が報告したバグ(78)と機械が報告したバグ(100)の両方を含んでいます。このベンチマークにおける修正パフォーマンスのベースラインを確立するために、Googleの開発環境内で作業できるSWE-Agentに精神的に類似したエージェントであるPasserineを実装しました。20の軌道サンプルとGemini 1.5 Proを使用することで、Passerineは評価セットの機械報告バグの73%および人間報告バグの25.6%のバグテストに合格するパッチを生成できることを示します。手動調査の結果、機械報告バグの43%と人間報告バグの17.9%には、真のパッチと意味的に等価なパッチが少なくとも1つ存在することがわかりました。これらの結果は、工業的に関連するベンチマークにおけるベースラインを確立しており、これは、人気のあるSWE-Benchデータセットのものと比較して、言語の多様性、サイズ、変更の広がりなどの点で異なる分布から抽出されたバグを含んでいることを示します。

2025-01-13T18:09:25


RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

http://arxiv.org/abs/2501.07525v1

Difei Gu, Yunhe Gao, Yang Zhou, Mu Zhou, Dimitris Metaxas

自動胸部レントゲン画像の解釈には、正確な病気の分類と詳細な放射線報告書の生成が必要であり、臨床ワークフローにおいて重要な課題となっています。現在のアプローチは、解釈可能性を犠牲にして分類精度に焦点を当てるものか、画像キャプショニング技術を通じて詳細ではあるが信頼性が低い報告書を生成するものです。本研究では、視覚と言語のモデル(VLM)による予測精度と大規模言語モデル(LLM)の推論能力を組み合わせた新しいフレームワーク「RadAlign」を提案します。放射線医のワークフローにインスパイアされたRadAlignは、最初に特化したVLMを使用して視覚的特徴を重要な医療概念と整列させ、複数の病気にわたって平均AUC 0.885を達成し、優れた病気分類を実現します。整列した視覚-言語空間でテキストベースの概念として表現されたこれらの認識された医療状態は、LLMに基づく報告書生成のトリガーとして使用されます。過去の類似ケースに基づいて出力を基盤にするリトリーバル拡張生成メカニズムによって強化されたRadAlignは、0.678のGREENスコアを持つ優れた報告書品質を提供し、最先端の手法の0.634を上回ります。私たちのフレームワークは、強い臨床解釈可能性を維持しながら、幻覚を減少させ、統合された予測および生成AIを通じて自動化された医療画像および報告書分析の進展を促進します。コードはhttps://github.com/difeigu/RadAlignで入手可能です。

2025-01-13T17:55:32


Parallel Key-Value Cache Fusion for Position Invariant RAG

http://arxiv.org/abs/2501.07523v1

Philhoon Oh, Jinwoo Shin, James Thorne

KAIST

最近の大規模言語モデル(LLM)の進展は、外部情報を活用するための情報検索強化生成(RAG)の必要性を強調しています。しかし、LLMは文脈内の関連情報の位置に敏感であり、その情報が中間に配置されると、いわゆる「中間での喪失」現象によって誤った応答を生成しがちです。本論文では、入力文脈の順序に関係なく、デコーダー専用モデルに対して一貫した出力を生成するフレームワークを紹介します。3つのオープンドメインの質問応答タスクに対する実験結果は、モデルが入力文脈の順序に敏感でない位置不変性を示し、従来のRAGパイプラインのアプローチと比較して関連のないパッセージに対する優れたロバスト性を示しています。

2025-01-13T17:50:30


The Paradox of Success in Evolutionary and Bioinspired Optimization: Revisiting Critical Issues, Key Studies, and Methodological Pathways

http://arxiv.org/abs/2501.07515v1

Daniel Molina, Javier Del Ser, Javier Poyatos, Francisco Herrera

Universidad de Granada, Tecnalia

進化的および生物模倣計算は、多様なアプリケーションドメインにおける複雑な最適化問題に効率的に対処するために重要です。進化そのものなど自然界で観察されるプロセスを模倣することによって、これらのアルゴリズムは従来の最適化手法の範囲を超えた革新的な解決策を提供します。彼らは大規模で複雑な探索空間における近似最適解を見つけるのが得意であり、多くの分野で非常に価値があります。しかし、両方の領域は、その核心において、不十分なベンチマーク、問題特有の過剰適合、不十分な理論的基盤、そして生物学的なメタファーだけで正当化された余分な提案などの課題に悩まされています。この概要は、分野内の実験研究における革新と厳密さの欠如に関する批判を要約し、深く分析します。この目的のために、既存の文献の判断的立場を調べ、研究コミュニティをこれらの分野での重要な貢献と進展の方向に導くための情報に基づいた試みを行います。我々は、進化的および生物模倣最適化器の設計、実験的比較の開発、そしてこの分野でさらなる一歩を踏み出す新しい提案の導出に関するガイドラインをまとめます。また、これらのアルゴリズムの作成プロセスを自動化することに関する簡単な注記も提供します。これにより、我々が特定した方法に従えば、メタヒューリスティック最適化研究をその主要な目的(現実世界の問題を解決すること)に沿わせるのに役立つかもしれません。結論として、これらの高度な計算技術の潜在能力を完全に実現するためには、革新への持続的な推進と将来の研究における方法論的厳密さの確保が必要であることを強調します。

2025-01-13T17:37:37


Inductive Learning of Robot Task Knowledge from Raw Data and Online Expert Feedback

http://arxiv.org/abs/2501.07507v1

Daniele Meli, Paolo Fiorini

ロボットの自律性が高まるにつれて、特に人間とロボットのインタラクションシナリオにおいて、信頼と社会的受容に関する課題が生じています。これには、タスク仕様の定義のための論理に基づく形式的手法に基づくロボットの認知能力の解釈可能な実装が必要です。しかし、複雑な現実のシナリオにおいては、事前知識はしばしば利用できません。本論文では、ノイズのある例からの帰納的論理プログラミングに基づくオフラインアルゴリズムを提案し、少数の異種(つまり、繰り返さない)ロボット実行の生データからタスク仕様(すなわち、行動前提、制約、効果)を直接抽出します。私たちのアルゴリズムは、ビデオ運動記録からの任意の教師なし行動識別アルゴリズムの出力を活用しています。また、我々の方法論の解釈可能性に寄与する、環境に関する非常に基本的でほぼタスク非依存の常識的概念の定義と組み合わせることで、行動の前提条件およびその効果をイベント計算パラダイムエンコードする論理公理を学習することが可能になります。学習した仕様の質は、主に行動識別アルゴリズムの精度に依存するため、ユーザーフィードバックからのタスク知識の増分的な洗練のためのオンラインフレームワークも提案し、安全な実行を保証します。標準的な操作タスクと安全性が重要な外科ロボティクスシナリオでのユーザートレーニングのベンチマークにおける結果は、我々の方法論の堅牢性、データおよび時間効率性を示しており、より複雑なドメインでのスケーラビリティに向けた有望な結果を示しています。

2025-01-13T17:25:46


RbRL2.0: Integrated Reward and Policy Learning for Rating-based Reinforcement Learning

http://arxiv.org/abs/2501.07502v1

Mingkang Wu, Devin White, Vernon Lawhern, Nicholas R. Waytowich, Yongcan Cao

強化学習(RL)は、意思決定の一般的なツールであり、関連する累積報酬に基づいて様々な経験からポリシーを学習しますが、これらの経験を異なるものとして扱いません。これに対し、人間は異なる性能レベルを区別し、最良のパフォーマンスのために意思決定を改善する傾向の根底にあるトレンドを抽出することを学びます。この点に着目し、本論文では、収集した経験を区別することにより、人間の意思決定プロセスを模倣する新しいRL手法を提案します。主なアイデアは、異なる性能レベルを持つ経験から重要な方向性情報を抽出することであり、これを「評価」と呼びます。これにより、異なる評価を持つ経験からの望ましい偏差に向けてポリシーを更新することが可能になります。具体的には、現在のポリシーと異なる評価を持つ失敗した経験との間の分布の類似性をペナルティとして課す新しいポリシー損失関数を提案し、評価クラスに基づいてペナルティ項に異なる重みを割り当てます。一方、これらの評価されたサンプルからの報酬学習は、評価されたサンプルからの統合報酬とポリシー学習に向けて新しいポリシー損失と統合することができます。統合された報酬とポリシー損失関数を最適化することにより、累積報酬を最大化し、最低のパフォーマンスレベルからは最もペナルティを課し、最高のパフォーマンスレベルからは最も少ないペナルティを課す方向性を発見することにつながります。提案された手法の効果を評価するために、いくつかの典型的な環境における実験結果を提示し、既存の報酬学習のみの評価ベースの強化学習手法に対する収束の改善と全体的なパフォーマンス向上を示します。

2025-01-13T17:19:34


Data and System Perspectives of Sustainable Artificial Intelligence

http://arxiv.org/abs/2501.07487v1

Tao Xie, David Harel, Dezhi Ran, Zhenwen Li, Maoliang Li, Zhi Yang, Leye Wang, Xiang Chen, Ying Zhang, Wentao Zhang, Meng Li, Chen Zhang, Linyi Li, Assaf Marron

持続可能なAIは、環境への影響を減らし、持続可能性を達成することを目指してAIシステムを開発および使用することに関わるAIの一分野です。大規模言語モデルなどのAIモデルのトレーニングや推論が大量の計算能力を消費していることから、持続可能なAIはますます重要になっています。この記事では、データ収集、データ処理、AIモデルのトレーニングと推論に関連する問題、機会、これらの問題に対処するための解決策の例、そしてデータとシステムの観点から取り組むべき将来の課題について議論します。

2025-01-13T17:04:23


Smart Learning in the 21st Century: Advancing Constructionism Across Three Digital Epochs

http://arxiv.org/abs/2501.07486v1

Ilya Levin, Alexei L. Semenov, Mikael Gorsky

この記事は、教育の枠組みとしての構成主義の進化を探求し、個人コンピュータの登場、ネットワーク社会、そして現在の生成型AIの時代という三つの重要な時代を通じてその関連性と変革を追跡します。シーモア・パパートの構成主義的哲学に基づくこの研究では、構成主義の原則が、個人および集団学習におけるデジタル技術の拡大する役割とどのように整合性を持っているかを考察します。教育環境の変化が、階層的な指導主義から学習者の自律性や対話的、創造的な関与を強調する構成主義的モデルへと移行していることについて議論します。この分析の中心には、デジタルツールやAIの統合が個人の自己認識や社会的相互作用を根本的に再形成する「拡張された自己」という概念があります。構成主義をスマート教育のパラダイムに統合することで、個別化され民主化された学習への基盤的アプローチとして提案します。我々の研究結果は、技術主導の教育の複雑さを乗り越える上での構成主義の持続的な関連性を強調し、デジタル革新を活用して適応的で学生中心の学習体験を促進しようとする教育者や政策立案者に洞察を提供します。

2025-01-13T17:04:06


TiEBe: A Benchmark for Assessing the Current Knowledge of Large Language Models

http://arxiv.org/abs/2501.07482v1

Thales Sales Almeida, Giovana Kerche Bonás, João Guilherme Alves Santos, Hugo Abonizio, Rodrigo Nogueira

Thales, AIG, State University of Campinas (UNICAMP), Maritaca AI

急速に進化する知識の風景と大規模言語モデルの採用が増加する中、これらのモデルを最新のイベントで継続的に更新する必要性が生まれています。既存のベンチマークは一般的な事実の記憶力を評価しますが、モデルが進化する知識を継続的な学習を通じて統合する能力や、パフォーマンスにおける地域的な重大な差異をしばしば見落としています。これらのギャップに対処するために、私たちはTimely Events Benchmark(TiEBe)を導入します。これは、世界的および地域的に重要なイベントに焦点を当てた11,000以上の質問と回答のペアを含むデータセットです。TiEBeは、ウィキペディアからの構造化された回顧データを活用し、LLMの進化する世界情勢に対する知識や、異なる地域でのイベントに対する理解を評価するために継続的な更新を可能にします。我々のベンチマークは、LLMが事実の記憶力においてかなりの地理的差異を示すことを実証しており、よりバランスの取れたグローバルな知識の表現が必要であることを強調しています。さらに、TiEBeは継続的学習戦略を評価するためのツールとして機能し、新しい情報を過去の知識を忘れることなく習得するモデルの能力に洞察を提供します。

2025-01-13T16:58:32


Estimating Musical Surprisal in Audio

http://arxiv.org/abs/2501.07474v1

Mathias Rose Bjare, Giorgia Cantisani, Stefan Lattner, Gerhard Widmer

Johannes Kepler University, ENS, PSL University, CNRS, Sony Computer Science Laboratories, LIT AI Lab, Linz Institute of Technology

音楽の驚き期待を計算的手法でモデル化する際、自己回帰モデルからの1ステップ予測の情報量(IC)を記号音楽の驚きの代理指標として使用することが提案されています。適切に選ばれたモデルを用いることで、音楽イベントのICは驚きや複雑性の人間の知覚、音程やリズムの複雑性を含む側面と相関があることが示されています。本研究では、この類似の方法論が音楽オーディオに適用できるかどうかを調査します。私たちは、事前学習されたオートエンコーダーネットワークの圧縮された潜在オーディオ表現を予測するために自己回帰型トランスフォーマーモデルを訓練します。繰り返しによるICの減少を推定することで学習効果を確認します。音楽セグメントタイプ(例えば、AまたはB)の平均ICを調査し、作品内で後に現れるセグメントタイプは平均して前のものよりも高いICを持つことを見つけました。また、ICと音声および音楽的特徴との関係を調査し、音色の変化や音量と相関があること、さらに、音声および音楽的特徴に関連する不協和音、リズムの複雑性、発音密度といった要素と少なからず相関があることを発見しました。最後に、ICが楽曲に対する脳波(EEG)応答を予測できるかどうかを調査し、音楽における人間の驚きをモデル化しようとします。私たちは、手法のコードをgithub.com/sonycslparis/audioicに提供します。

2025-01-13T16:46:45


A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities

http://arxiv.org/abs/2501.07468v1

Yihao Liu, Xu Cao, Tingting Chen, Yankai Jiang, Junjie You, Minghua Wu, Xiaosong Wang, Mengling Feng, Yaochu Jin, Jintai Chen

Cancer Research Institute, Central South University, HKUST-GZ, University of Illinois Urbana-Champaign, University of Pennsylvania, Shanghai AI Lab, School of Life Sciences, Central South University, Saw Swee Hock School of Public Health, National University of Singapore, School of Engineering, Westlake University, Hong Kong University of Science and Technology

世界中の医療システムは、効率性、アクセスのしやすさ、パーソナライズにおいて永続的な課題に直面しています。マルチモーダルの大規模言語モデルやワールドモデルなどの最新のAI技術によって推進される体現型AI(EmAI)は、これらの課題に対処するための、自律性を高め、物理的世界との相互作用を可能にする変革的な最前線を表しています。「医療におけるEmAI」は、アルゴリズム、ロボティクス、バイオメディスンなどの多様な分野にわたる、学際的かつ急速に進化する研究領域です。この複雑さは、進展を追跡し、課題に対処し、学際的なコラボレーションを促進するためのタイムリーなレビューと分析の重要性を強調しています。本論文では、医療におけるEmAIの「脳」に関する包括的な概要を提供し、知覚、作動、計画、記憶のための基礎的なAIアルゴリズムを紹介し、臨床介入、日常のケアと陪伴、インフラサポート、およびバイオメディカル研究にわたる医療アプリケーションの提示に焦点を当てています。その可能性にもかかわらず、医療向けEmAIの開発は、安全性の懸念、シミュレーションプラットフォームと実世界のアプリケーションとのギャップ、標準化されたベンチマークの欠如、および学際的分野間の不均等な進展といった重要な課題によって妨げられています。私たちは技術的な障壁について議論し、倫理的考慮事項を探求しながら、医療におけるEmAIの未来に向けた前向きな視点を提供します。また、EmAIシステムのための知能レベルの階層的フレームワークも紹介し、さらなる開発を導くことを目指しています。この研究は体系的な洞察を提供することで、イノベーションと実用的なアプリケーションを促進し、知能を備えた患者中心の医療の新たな時代を切り開くことを目指しています。

2025-01-13T16:35:52


Understanding and Benchmarking Artificial Intelligence: OpenAI's o3 Is Not AGI

http://arxiv.org/abs/2501.07458v1

Rolf Pfister, Hansueli Jud

OpenAIのo3は、知性を測定するために提案されたベンチマークARC-AGIで87.5%という高得点を達成しました。これは、特にo3を基盤とする大規模言語モデル(LLM)が知性を示し、人工汎用知能(AGI)に向けた進展を遂げているかどうかという疑問を提起します。ARC-AGIの創始者であるフランソワ・ショレが行ったスキルと知性の区別に基づいて、知性の新たな理解が導入されます:エージェントは、より少ない知識で、より多様な目標をより多様な世界で効率的に達成できるほど、より知的であるとされます。ARC-AGIベンチマークの分析では、そのタスクが事前に定義された操作の組み合わせを大規模に試行することで解決できる非常に特定のタイプの問題を表していることが示されています。この方法はo3によっても適用され、高得点を達成するために計算能力を広範に使用しています。しかし、物理的世界および人間の領域におけるほとんどの問題に関しては、解決策を事前にテストすることができず、事前に定義された操作も利用できません。したがって、o3が行っているように事前定義された操作の大規模な試行はAGIの基盤にはなり得ず、既存のスキルなしでさまざまな問題を確実に解決できる新しいアプローチが必要です。この開発を支援するために、解決すべき未知のタスクの多様性がはるかに高い新たな知性のベンチマークが提案されており、これにより知性とAGIに向けた進展の包括的な評価が可能になります。

2025-01-13T16:28:01


Online inductive learning from answer sets for efficient reinforcement learning exploration

http://arxiv.org/abs/2501.07445v1

Celeste Veronese, Daniele Meli, Alessandro Farinelli

本論文では、トレーニングの性能と説明可能性を向上させるために、帰納論理プログラミングと強化学習を組み合わせた新しいアプローチを提案します。ノイズのある例からの解答集合プログラムの帰納的学習を活用して、各経験バッチにおけるエージェントポリシーの説明可能な近似を表す論理ルールのセットを学習します。その後、学習したルールに基づいて解答集合推論を行い、効率的でない報酬シェーピングを必要とせず、ソフトバイアスを用いて最適性を保持しながら、次のバッチでの学習エージェントの探索を導きます。全体の手続きは、強化学習アルゴリズムのオンライン実行中に行われます。我々のアプローチの有効性は、二つの異なるマップにおけるパックマンシナリオのQ学習アルゴリズムに統合することで、初期の段階で検証します。私たちの方法論は、エージェントが達成する割引リターンを大幅に向上させ、トレーニングの最初のバッチにおいてさえ顕著な効果を示します。さらに、帰納的学習はQ学習に必要な計算時間を妨げることなく、学習したルールはエージェントポリシーの説明に迅速に収束します。

2025-01-13T16:13:22


Attention when you need

http://arxiv.org/abs/2501.07440v1

Lokesh Boominathan, Yizhou Chen, Matthew McGinley, Xaq Pitkow

Carnegie Mellon University, Baylor College of Medicine

タスクに関連する特徴に注意を払うことは、タスクパフォーマンスを向上させることができますが、注意を払うことには独自の代謝コストが伴います。したがって、注意の戦略的な配分は、タスクを効率的に実施するために重要です。本研究は、この戦略を理解することを目的としています。最近、de Geeらは、マウスが聴覚持続的注意価値タスクを実行する実験を行いました。このタスクでは、マウスはノイズの中で高次の音響特徴が存在するかどうかを特定するために注意を払う必要がありました。試行の時間と報酬の大きさを変化させることで、タスクはエージェントが利益を最大化しコストを最小化するために注意を戦略的に配分すべき方法を調査することを可能にします。我々の研究では、マウスの注意コストと利益のバランスを理解するための強化学習に基づいた規範モデルを開発しました。このモデルでは、マウスは各瞬間に二つの注意レベルの間で選択し、報酬を得るためにコストのかかる行動をいつ取るべきかを決定できます。我々のモデルは、注意資源の効率的な利用が高い注意のブロックと低い注意のブロックを交互に行うことを含むことを示唆しています。極端な場合、エージェントが低い注意状態で感覚入力を無視する場合、高い注意がリズミカルに使用されることがわかります。我々のモデルは、タスクの有用性、信号の統計、注意が感覚的証拠にどのように影響するかに応じて、どのように注意を配分すべきかについての証拠を提供します。

2025-01-13T16:08:47


Empirical Evaluation of the Implicit Hitting Set Approach for Weighted CSPs

http://arxiv.org/abs/2501.07432v1

Aleksandra Petrova, Javier Larrosa, Emma Rollón

Universitat Politècnica de Catalunya

SAT技術はさまざまな分野で驚くほど効果的であることが証明されています。しかし、Weighted CSP問題に関しては、専用のアルゴリズムが常に優れています。これまであまり研究されていないアプローチの一つは、SATをImplicit Hitting Setアプローチと組み合わせて使用することです。本研究では、参照の既存のアルゴリズムに対するいくつかの代替案を探ります。代替案は主に関連するブールフレームワークから借用され、IHSアプローチの二つの主要なコンポーネントトレードオフを考慮しています:低コストのヒッティングベクトルの計算と、それらを高コストのコアに変換することです。それぞれについて、4つの強度レベルを提案します。また、コスト関数の統合の有用性もテストするため、私たちの実験では32の異なる実装を考慮します。私たちの実証研究は、WCSPにおいて最良の代替案を特定することは簡単ではないことを示しています。それにもかかわらず、コスト関数の統合エンコーディングおよび最大コアの抽出は堅牢なアプローチであるようです。

2025-01-13T15:59:28


Diff-Ensembler: Learning to Ensemble 2D Diffusion Models for Volume-to-Volume Medical Image Translation

http://arxiv.org/abs/2501.07430v1

Xiyue Zhu, Dou Hoon Kwark, Ruike Zhu, Kaiwen Hong, Yiqi Tao, Shirui Luo, Yudu Li, Zhi-Pei Liang, Volodymyr Kindratenko

University of Illinois at Urbana-Champaign, National Center for Supercomputing Applications

医療画像におけるボリューム間翻訳は成功を収めていますが、既存のモデルの多くは3D表現を使用して固有のボリュメトリック分布を効果的に捉えることに苦労しています。現在の最先端のアプローチは、複数の2Dベースのネットワークを重み付け平均で組み合わせており、3Dの空間構造を無視しています。医療画像において3Dモデルを直接トレーニングすることは、高い計算要求と大規模データセットの必要性から大きな課題を呈します。これらの課題に対処するために、我々はDiff-Ensemblerと呼ばれる新しいハイブリッド2D-3Dモデルを提案します。このモデルは、各拡散ステップで直交してトレーニングされた2D拡散モデルを3Dネットワークとアンサンブルすることで、効率的かつ効果的なボリューメトリック翻訳を実現します。さらに、我々のモデルは異なるモダリティに条件付けられた拡散モデルをアンサンブルするために自然に使用でき、入力条件の柔軟で正確なフュージョンを可能にします。広範な実験により、Diff-Ensemblerが3D医療画像のスーパーレゾリューションとモダリティ翻訳において優れた精度とボリューメトリックリアリズムを達成することが示されています。また、腫瘍セグメンテーションを下流タスクとして使用することにより、我々のモデルのボリューメトリックリアリズムの強さも示しています。

2025-01-13T15:54:21


An Investigation into Seasonal Variations in Energy Forecasting for Student Residences

http://arxiv.org/abs/2501.07423v1

Muhammad Umair Danish, Mathumitha Sureshkumar, Thanuri Fonseka, Umeshika Uthayakumar, Vinura Galwaduge

Western University, London, Ontario, Canada

この研究は、エネルギー予測のためのさまざまな機械学習モデルの詳細な評価を提供し、学生の居住環境における季節的変動の独自の課題に焦点を当てています。研究では、LSTMやGRUなどのベースラインモデルの性能を、自己回帰フィードフォワードニューラルネットワークトランスフォーマー、ハイブリッドアプローチなどの最先端の予測手法とともに評価しています。季節パターン、休暇、気象変化、突発的な使用の変動を引き起こす不規則な人間の活動といった課題の中でエネルギー消費を予測することに特に注意が払われています。結果は、単一のモデルがすべての季節で他のモデルよりも一貫して優れているわけではないことを明らかにし、季節別のモデル選択やカスタマイズ設計の必要性を強調しています。特に、提案されたハイパーネットワークベースのLSTMとMiniAutoEncXGBoostモデルは、季節的変動に強い適応能力を示し、夏の月のエネルギー消費の突然の変化を効果的に捉えています。この研究は、エネルギー予測の分野を進展させ、正確な予測を達成するために季節的ダイナミクスとモデル固有の挙動の重要な役割を強調しています。

2025-01-13T15:43:22


Initial Findings on Sensor based Open Vocabulary Activity Recognition via Text Embedding Inversion

http://arxiv.org/abs/2501.07408v1

Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Paul Lukowicz

RPTU, DFKI, Kaiserslautern

従来の人間行動認識(HAR)は、離散的な行動クラスを予測するために訓練された分類器に依存しており、トレーニングセットに明示的に存在する活動に認識を制限しています。このような分類器は、見たことのない活動に遭遇した際に必ず失敗し、ゼロの可能性を示します。私たちは、Open Vocabulary HAR(OV-HAR)を提案します。このフレームワークは、各活動を自然言語に変換し、基本的な動作のシーケンスに分解することで、この制限を克服します。この記述テキストは、その後、固定サイズの埋め込みにエンコードされます。モデルはこの埋め込みを回帰するよう訓練され、その後、事前に訓練された埋め込み逆変換モデルを使用して自然言語にデコードされます。OV-HARは、コアに自動回帰的大規模言語モデル(LLM)に依存する他の研究とは異なり、計算のオーバーヘッドなしでオープンボキャブラリ認識を実現します。生成されたテキストは、LLMプロンプトエンジニアリングを使用して単一の活動クラスに変換できます。私たちは、視覚(ポーズ)、IMU、圧力センサーを含むさまざまなモダリティでアプローチを評価し、見たことのない活動やモダリティに対して堅牢な一般化を示し、現代の分類器とは根本的に異なるパラダイムを提供します。

2025-01-13T15:24:10


PROTECT: Protein circadian time prediction using unsupervised learning

http://arxiv.org/abs/2501.07405v1

Aram Ansary Ogholbake, Qiang Cheng

University of Kentucky, Institute for Biomedical Informatics

サーカディアンリズムは、人間や動物の生理学および行動を調節します。これらのリズムを理解し、転写レベルでのサーカディアンフェーズを予測する技術は進歩しているものの、プロテオームデータからサーカディアンフェーズを予測することは依然として困難です。この課題は主に、プロテオームデータセットにおける時間ラベルの不足によるもので、これらのデータセットはしばしばサンプルサイズが小さく、高次元性があり、ノイズが多いという特性があります。さらに、転写オミクスデータからサーカディアンフェーズを予測するための既存の方法は、知られたリズミカルな遺伝子に関する前提知識に依存することが多く、プロテオームデータセットには適していません。このギャップに対処するために、時間ラベルやタンパク質や遺伝子に関する前提知識を必要とせずに、プロテオームデータからサーカディアンサンプルフェーズを予測する新しい計算方法を開発しました。私たちのモデルは、ロバストなサーカディアンフェーズ予測のために最適化された2段階のトレーニングプロセスを含んでいます。最初は情報豊かな初期パラメータを生成するための貪欲な1層ずつの事前トレーニングを行い、その後ファインチューニングを行います。ファインチューニング中には、特別な損失関数がモデルをガイドし、タンパク質発現レベルをサーカディアンパターンに合わせることで、データ内の根底にあるリズミカルな構造を正確に捉えられるようにします。私たちは、時間ラベル付きデータと未ラベルのプロテオームデータの両方でこの方法をテストしました。ラベル付きデータに対しては、既知の時間ラベルと私たちの予測を比較し、高い精度を達成しました。一方、死後脳領域や尿サンプルを含む未ラベルのヒトデータセットでは、サーカディアンの乱れを探求しました。特に、私たちの分析では、アルツハイマー病と対照群の間でこれらのサンプルにおけるリズミカルなタンパク質の乱れが特定されました。

2025-01-13T15:21:20


Derivation of effective gradient flow equations and dynamical truncation of training data in Deep Learning

http://arxiv.org/abs/2501.07400v1

Thomas Chen

University of Texas at Austin

我々は、ReLU活性化関数を用いた深層学習における累積バイアスと重みを支配する明示的な方程式を導出します。これは、入力層におけるユークリッドコストに基づく勾配降下法に基づいており、重みが活性化によって特定された座標系に適応しているという前提に基づいています。我々は、勾配降下が入力層における動的プロセスに対応し、データのクラスターが徐々に複雑性を減少させ(「切り捨てられる」)、切り捨てられたデータポイントの数が増えるにつれてその速度が指数関数的に増加することを示します。勾配流方程式のいくつかの種類の解について詳細な議論を提供します。この研究の主な動機は、教師あり学習における解釈可能性の問題に光を当てることです。

2025-01-13T15:17:28


The Essentials of AI for Life and Society: An AI Literacy Course for the University Community

http://arxiv.org/abs/2501.07392v1

Joydeep Biswas, Don Fussell, Peter Stone, Kristin Patterson, Kristen Procko, Lea Sabatini, Zifan Xu

私たちは、テキサス大学オースティン校でAIリテラシーを促進するための1単位のコースの開発について説明します。2023年秋に幅広いオーディエンスに応えるためのクラスの迅速な展開を求められ、AIの基礎から社会的問題(デマや雇用を含む)に関するトピックまでを講義する学際的な講演者グループを取り入れた14週間のセミナー形式のコースを設計しました。大学の学生、教員、スタッフ、さらには大学外の地域社会のメンバーもこのオンラインコース「生活と社会のためのAIの基本」に参加するよう招待されました。私たちは、週ごとの振り返りや最終調査を通じてコース参加者からフィードバックを収集しました。参加者は自分たちのAIリテラシーに向上を報告しており、満足のいく結果となりました。私たちは定量的および定性的な分析を通じて批判的なフィードバックを求め、一般の観客向けのコースを設計する上での課題を明らかにしました。このコースのフィードバックを基に、2024年秋に提供される3単位のバージョンを設計しました。私たちが学んだ教訓や新しいバージョンの計画は、幅広いオーディエンス向けのAIコースを設計するインストラクターへのガイドとなるかもしれません。

2025-01-13T15:08:32


Enhancing Retrieval-Augmented Generation: A Study of Best Practices

http://arxiv.org/abs/2501.07391v1

Siran Li, Linus Stenzel, Carsten Eickhoff, Seyed Ali Bahrainian

University of Tübingen

Retrieval-Augmented Generation(RAG)システムは、最近、検索メカニズムを言語モデルに統合することで顕著な進展を示しており、より正確で文脈に関連した応答を生成する能力が向上しています。しかし、RAGシステム内のさまざまな要素や構成の影響は、未だ十分に探究されていません。これらの要素を包括的に理解することは、複雑な検索タスクに合わせてRAGシステムを調整し、さまざまなアプリケーションで最適なパフォーマンスを確保するために不可欠です。本論文では、クエリの拡張、さまざまな新しい検索戦略、そして新たな対照的インコンテキスト学習RAGを組み込んだいくつかの高度なRAGシステム設計を開発します。私たちの研究は、言語モデルのサイズ、プロンプトデザイン、文書チャンクサイズ、知識ベースのサイズ、検索の歩幅、クエリ拡張技術、対照的インコンテキスト学習の知識ベース、多言語知識ベース、そして文レベルで関連するコンテキストを取得するためのフォーカスモデレーションなど、主要な要因を体系的に調査します。広範な実験を通じて、これらの要因が応答の質に与える影響について詳細な分析を提供します。我々の発見は、文脈の豊かさと検索生成の効率性とのバランスを取りながら、さまざまな現実世界のシナリオにおけるより適応可能で高性能なRAGフレームワークの開発に向けた実用的な洞察を提供します。我々のコードおよび実装の詳細は公開されています。

2025-01-13T15:07:55


Information-Theoretic Dual Memory System for Continual Learning

http://arxiv.org/abs/2501.07382v1

RunQing Wu, KaiHui Huang, HanYi Zhang, QiHe Liu, GuoJin Yu, JingSong Deng, Fei Ye

動的な環境から新しい知識を継続的に獲得することは、動物にとって基本的な能力であり、生存やさまざまな課題に対処する能力を促進します。この能力は「継続学習」と呼ばれ、以前の知識が損なわれることなく、タスクの一連を学習する能力に焦点を当てています。継続学習に取り組むための一般的な戦略は、固定サイズのメモリバッファ内に以前のタスクからの多くの重要なデータサンプルを選択して保存することです。しかし、現在のメモリベースの技術の多くは通常、単一のメモリバッファを使用し、新たに獲得したサンプルと以前に学習したサンプルを同時に管理する上で課題を抱えています。情報処理のための迅速な学習メカニズムと徐々に学習するメカニズムを定義する「補完学習システム(CLS)理論」からインスピレーションを得て、私たちは「情報理論的二重メモリシステム(ITDMS)」と呼ばれる革新的な二重メモリシステムを提案します。このシステムは、一時的かつ新しいサンプルを保持するために設計された高速メモリバッファと、重要かつ情報提供に特化したサンプルを保持するための低速メモリバッファで構成されています。高速メモリバッファは、高効率のリザーバサンプリングプロセスを用いて最適化されています。さらに、低速メモリバッファ用に多様で情報的なデータサンプルを選択的に特定し保持する新しい情報理論的メモリ最適化戦略を導入します。また、冗長な記憶サンプルを自動的に特定し排除する新しいバランスの取れたサンプル選択手続きも提案し、新しいデータの取得のためにメモリ容量を確保できるようにします。私たちの方法論は、一連の継続学習実験を通じて厳密に評価され、実証結果は提案されたシステムの効果を強調しています。

2025-01-13T15:01:12


Emergent effects of scaling on the functional hierarchies within large language models

http://arxiv.org/abs/2501.07359v1

Paul C. Bogdan

大規模言語モデル(LLM)のアーキテクチャは、機能的に階層的であるとしばしば説明されます:初期の層は構文を処理し、中間の層は意味論を解析し始め、後期の層は情報を統合します。本研究はこれらのアイデアを再検討します。この研究では、LLMに簡単なテキスト(例えば、「教会とオルガン」)を入力し、その結果得られる活性化を抽出します。その後、各層についてサポートベクターマシンとリッジ回帰を適合させて、テキストのラベルを予測し、したがって特定の層が何らかの情報をエンコードしているかどうかを調べます。小さなモデル(Llama-3.2-3b; 28層)を使用した分析は、一般的な階層的視点を部分的に支持します:アイテムレベルの意味論は初期(層2-7)に最も強く表現され、その後、2項関係(層8-12)、さらに4項類似性(層10-15)が続きます。その後、アイテムと単純な関係の表現は、よりグローバルな情報に焦点を当てた深い層で徐々に減少します。しかし、いくつかの発見は、安定した階層の見方に反します。第一に、深い層は文書全体の抽象を表現できるにもかかわらず、深い層は初期のコンテキストウィンドウの情報を意味のある抽象なしに圧縮します。第二に、より大きなモデル(Llama-3.3-70b-Instruct)を調査する際、抽象レベルにおける顕著な変動が現れます:深さが増すにつれて、2項関係と4項類似性の表現は初めに増加し、その後顕著に減少し、再び一時的に増加します。この特異なパターンは、いくつかの実験で一貫して現れます。第三に、スケーリングの別の出現効果は、隣接層の注意メカニズム間の調整です。より大きなモデルを使用した複数の実験を通じて、隣接層はそれぞれが表現する情報の専門性の間で変動します。要するに、抽象の階層は層を通じてしばしば現れますが、大規模モデルはまた興味深い方法でこの構造から逸脱します。

2025-01-13T14:27:39


TempoGPT: Enhancing Temporal Reasoning via Quantizing Embedding

http://arxiv.org/abs/2501.07335v1

Haochuan Zhang, Chunhua Yang, Jie Han, Liyang Qin, Xiaoli Wang

Central South University

マルチモーダル言語モデルは、視覚や音声において高度な進展を遂げてきましたが、時系列領域における複雑な推論タスクに取り組む際には依然として重大な課題に直面しています。その理由は二つあります。まず第一に、マルチモーダル時系列データのラベルは粗く、分析や推論プロセスが欠如しています。これらのデータでの訓練ではモデルの推論能力を向上させることができません。第二に、時系列を処理する際の正確なトークナイズが不足しているため、時間的およびテキスト情報の表現パターンに不一致が生じ、マルチモーダルアラインメントの効果を妨げています。これらの課題に対処するために、我々はマルチモーダル時系列データ構築アプローチとマルチモーダル時系列言語モデル(TLM)であるTempoGPTを提案します。具体的には、ホワイトボックスシステム内の変数システムの関係を分析することによって、複雑な推論タスクのためのマルチモーダルデータを構築します。さらに、提案されたTempoGPTは、時間的埋め込みを量子化することにより、時間的情報とテキスト情報の間で一貫した表現を実現します。ここで、時間的埋め込みは事前定義されたコードブックを使用して、一連の離散トークンに量子化され、その後、共有埋め込みレイヤーが時間的トークンとテキストトークンの両方を処理します。広範な実験により、TempoGPTは時間的情報を正確に把握し、論理的に結論を推論し、構築された複雑な時系列推論タスクにおいて最先端の性能を達成することを示しています。さらに、時間的埋め込みの量子化がマルチモーダルアラインメントの向上およびTLMの推論能力に与える効果を定量的に示します。コードとデータはhttps://github.com/zhanghaochuan20/TempoGPTで入手可能です。

2025-01-13T13:47:05


Anonymization of Documents for Law Enforcement with Machine Learning

http://arxiv.org/abs/2501.07334v1

Manuel Eberhardinger, Patrick Takenaka, Daniel Grießhaber, Johannes Maucher

Stuttgart Media University

データ駆動型の手法やアプローチが、法執行機関などの敏感な個人情報を扱う領域で着実に増加していることは、これらの機関がデータ保護ガイドラインに準拠するための努力をますます強化することを必要としています。本研究では、スキャンした文書の画像を自動的に匿名化するシステムを提案し、手作業の努力を減らしながらデータ保護の遵守を確保します。私たちの方法は、手動で匿名化された参照文書からの知識と組み合わせた敏感な領域の自動検出を活用して、自動的に修正された領域を最小限に抑えることで、匿名化後のさらなる法医学的処理の実現可能性を考慮しています。参照文書のインスタンス検索のための自己監視型画像モデルを使用して、私たちのアプローチは、同じタイプのすべての文書を効率的に修正するために、たった1つの匿名化された例のみを必要とし、処理時間を大幅に短縮します。私たちは、私たちのアプローチが純粋に自動的な修正システムと、参照の匿名化を他の文書に単純にコピー&ペーストする手法の両方よりも優れていることを、手動で作成した真実の修正データセット上で示します。

2025-01-13T13:47:00


Evaluation of Artificial Intelligence Methods for Lead Time Prediction in Non-Cycled Areas of Automotive Production

http://arxiv.org/abs/2501.07317v2

Cornelius Hake, Jonas Weigele, Frederik Reichert, Christian Friedrich

Dr. Ing. h.c. F. Porsche AG, Hochschule Karlsruhe – University of Applied Sciences, Hochschule Esslingen – University of Applied Sciences

本研究では、自動車生産環境における人工知能手法の適用効果を検討し、非サイクル制御の生産エリアにおける未知のリードタイムを予測します。データ構造を分析して文脈の特徴を特定し、その後、ワンホットエンコーディングを使用して前処理を行います。手法の選定は、監視型機械学習技術に重点を置いています。監視型学習手法では、回帰および分類手法が評価されますが、ターゲットサイズの分布に基づく連続回帰は実行不可能です。分類手法の分析では、アンサンブル学習とサポートベクターマシンが最も適していることが示されました。予備研究の結果は、勾配ブースティングアルゴリズムであるLightGBM、XGBoost、CatBoostが最良の結果を出すことを示しています。さらにテストと広範なハイパーパラメータ最適化を経て、最終的な手法選択はLightGBMアルゴリズムとなります。特徴の可用性や予測間隔の粒度に応じて、90%までの相対的な予測精度が達成可能です。さらなるテストでは、データベースを用いて複雑な生産プロセスを正確に表現するためのAIモデルの定期的な再訓練の重要性が強調されます。研究は、AI手法が高変動の生産データに効果的に適用でき、さまざまな制御タスクに対して追加の指標を提供することでビジネス価値を生み出し、現在の非AIベースシステムを上回ることを示しています。

2025-01-13T13:28:03


The Lessons of Developing Process Reward Models in Mathematical Reasoning

http://arxiv.org/abs/2501.07301v1

Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin

プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)の数学的推論におけるプロセス監督の有望なアプローチとして登場し、推論プロセスにおける中間的なエラーの特定と軽減を目指しています。しかし、効果的なPRMの開発には、データ注釈や評価手法に関する重要な課題が存在します。本論文では、広範な実験を通じて、PRMのために一般的に使用されるモンテカルロ(MC)推定ベースのデータ合成が、LLMを判定者として扱う方法や人間の注釈手法と比較して、通常は劣った性能と一般化をもたらすことを示します。MC推定は完了モデルに依存して現在のステップの正確性を評価するため、不正確なステップ検証を招くことになります。さらに、私たちはPRMのための従来のベスト・オブ・N(BoN)評価戦略に潜在的なバイアスがあることを特定しました:(1)信頼できないポリシーモデルは正しい回答を持つ応答を生成しますが、プロセスには欠陥があり、それによりBoNの評価基準とPRMのプロセス検証の目標との間に不一致が生じます。(2)PRMのそのような応答に対する許容度は、BoNスコアの膨張を引き起こします。(3)既存のPRMは、最終的な回答ステップに集中している最小スコアのかなりの割合を持ち、BoN最適化PRMにおけるプロセスから成果ベースの評価へのシフトを明らかにしています。これらの課題に対処するために、私たちはMC推定とLLMを判定者として統合するコンセンサスフィルタリングメカニズムを開発し、応答レベルとステップレベルの指標を組み合わせたより包括的な評価フレームワークを提唱します。このメカニズムに基づいて、私たちはBoN評価とステップごとのエラー特定タスクにおいて、モデルの性能とデータの効率の両方を大幅に改善します。最後に、私たちは既存のオープンソース代替手段を上回る新しい最先端のPRMをリリースし、プロセス監督モデルの構築における今後の研究のための実用的なガイドラインを提供します。

2025-01-13T13:10:16


Principles for Responsible AI Consciousness Research

http://arxiv.org/abs/2501.07290v1

Patrick Butlin, Theodoros Lappas

最近の研究によれば、現在または近い将来に意識を持つAIシステムを構築することが可能かもしれないと示唆されています。意識を持つAIシステムは道徳的考慮を受けるに値する可能性があり、大量の意識を持つシステムが創造されて苦しむことも考えられます。さらに、AIシステムやAI生成のキャラクターが意識を持っているように見えることが増えており、その道徳的地位についての議論を引き起こしています。AI研究に関わる組織は、意識に関する研究と展開の選択、そして公のコミュニケーションを導くための原則やポリシーを確立する必要があります。たとえ組織がAIの意識を直接研究しないとしても、高度なAIシステムを開発する際には、意識を持つ存在を無意識に創造するリスクがあるため、ポリシーが必要になります。この可能性に対処するためには、責任ある研究と展開の実践が不可欠です。私たちは責任ある研究のための5つの原則を提案し、研究機関がこのような原則に基づく自発的で公的なコミットメントを行うべきだと主張します。我々の原則は、研究の目的と手続き、知識の共有および公のコミュニケーションに関わるものです。

2025-01-13T12:59:53


LLM-Net: Democratizing LLMs-as-a-Service through Blockchain-based Expert Networks

http://arxiv.org/abs/2501.07288v1

Zan-Kai Chong, Hiroyuki Ohsaki, Bryan Ng

Kwansei Gakuin University, Victoria University of Wellington

大型言語モデル(LLM)の開発の中央集権化は、AIの進歩に対して重要な障壁を生み出し、これらの強力な技術の民主化を制限しています。この中央集権化は、高品質なトレーニングデータの不足と、急速に拡大する知識領域全体にわたる包括的な専門知識を維持することの複雑さが相まって、LLMの成長に対して重大な課題を引き起こしています。リトリーバル強化生成(RAG)などのソリューションが潜在的な解決策を提供する一方で、専門的な情報の指数関数的な増加を考えると、多様な領域における最新の専門知識を維持することは依然として大きな課題です。本論文では、分散型の専門的LLMプロバイダーのネットワークを通じて、LLM-as-a-Serviceを民主化するブロックチェーンベースのフレームワークであるLLMs Networks(LLM-Net)を紹介します。集団的な計算資源と分散型のドメイン専門知識を活用することで、LLM-Netはさまざまな特定の領域に対応した微調整された専門モデルを組み込み、サービスの質を維持しながら知識の持続的な成長を確保するために協調的なプロンプトメカニズムを採用しています。このフレームワークの頑健な設計には、透明な取引とパフォーマンス検証のためのブロックチェーン技術が含まれており、サービス提供の不変の記録を確立します。我々のシミュレーションは、最先端のLLMであるClaude 3.5 Sonnet、Llama 3.1、Grok-2、およびGPT-4oの上に構築されており、高性能な応答者(LLMプロバイダー)を選択することによってサービス品質を維持する評判ベースのメカニズムの効果を検証します。これにより、分散型の専門知識とブロックチェーンベースの説明責任の統合を通じてAIの進歩を支えるLLM-Netの可能性が示されます。

2025-01-13T12:56:05


Lifelong Learning of Large Language Model based Agents: A Roadmap

http://arxiv.org/abs/2501.07278v1

Junhao Zheng, Chengming Shi, Xidi Cai, Qiuke Li, Duzhen Zhang, Chenxing Li, Dong Yu, Qianli Ma

South China University of Technology, Mohamed bin Zayed University of Artificial Intelligence, Tencent

生涯学習、または継続的学習とも呼ばれるものは、人工一般知能(AGI)の進展にとって重要な要素であり、システムが動的な環境で継続的に適応できるようにします。大規模言語モデル(LLM)は自然言語処理において印象的な能力を示していますが、既存のLLMエージェントは通常、静的システム向けに設計されており、新しい課題に応じて時間と共に適応する能力が欠けています。この調査は、LLMベースのエージェントに生涯学習を組み込むための潜在的な技術を体系的にまとめた初めてのものです。私たちは、これらのエージェントのコアコンポーネントを、マルチモーダル入力統合のための知覚モジュール、進化する知識を保存および取得するためのメモリモジュール、および動的環境との基盤のあるインタラクションのためのアクションモジュールの3つのモジュールに分類します。これらの柱がどのように集約されて継続的な適応を可能にし、壊滅的忘却を軽減し、長期的なパフォーマンスを向上させるかを強調します。この調査は、LLMエージェントにおける生涯学習の能力を開発しようとしている研究者や実務者向けのロードマップを提供し、新たな動向、評価指標、および応用シナリオに関する洞察を提供します。関連文献やリソースは、\href{thisurl}{https://github.com/qianlima-lab/awesome-lifelong-llm-agent}で入手可能です。

2025-01-13T12:42:04


Bridging Smart Meter Gaps: A Benchmark of Statistical, Machine Learning and Time Series Foundation Models for Data Imputation

http://arxiv.org/abs/2501.07276v1

Amir Sartipi, Joaquin Delgado Fernandez, Sergio Potenciano Menci, Alessio Magitteri

University of Luxembourg, Enovos Luxembourg S.A.

スマートグリッドにおける時系列データの整合性は、センサーの故障、伝送エラー、または中断による欠損値によってしばしば損なわれます。スマートメーターデータのギャップは、消費分析に偏りをもたらし、信頼性のある予測を妨げ、技術的および経済的非効率を引き起こす可能性があります。スマートメーターデータがそのボリュームと複雑さを増す中で、従来の技術はその非線形かつ非定常的なパターンに対応するのに苦労しています。この文脈において、生成的人工知能は、従来の統計手法を上回る可能性のある有望な解決策を提供します。本論文では、スマートメーターデータの補完のために、2つの汎用大型言語モデルと5つの時系列ファウンデーションモデルを評価し、従来の機械学習および統計モデルと比較します。匿名化された公的データセットに人工的なギャップ(30分から1日)を導入して推論能力をテストします。結果は、時系列ファウンデーションモデルがその文脈理解とパターン認識により、特定のケースで補完精度を大幅に向上させる可能性があることを示しています。しかし、計算コストとパフォーマンスの向上との間のトレードオフは、依然として重要な考慮事項です。

2025-01-13T12:41:27


Skip Mamba Diffusion for Monocular 3D Semantic Scene Completion

http://arxiv.org/abs/2501.07260v1

Li Liang, Naveed Akhtar, Jordan Vice, Xiangrui Kong, Ajmal Saeed Mian

3Dセマンティックシーン補完は、自律システムにおける複数の下流タスクにとって重要です。これは、取得したシーンデータにおける欠損した幾何学的およびセマンティック情報を推定します。困難な実世界の条件により、このタスクは通常、複雑なモデルを要求し、マルチモーダルデータを処理して許容可能なパフォーマンスを達成します。我々は、モノキュラー画像入力で優れた3Dセマンティックシーン補完性能を達成するために、状態空間と拡散生成モデルの進展を活用したユニークなニューラルモデルを提案します。我々の手法は、変分オートエンコーダの条件付き潜在空間でデータを処理し、革新的な状態空間技術を用いて拡散モデルリングを行います。我々のニューラルネットワークの重要な要素は、長いシーケンスデータを効率的に処理するのに優れた提案されたSkimba(SkipMamba)デノイザーです。Skimba拡散モデルは、我々の3Dシーン補完ネットワークに不可欠であり、トリプルマンバ構造、次元分解残差、そして三方向にわたる異なるダイレーションを組み込んでいます。また、このネットワークの変種を我々の手法のその後のセマンティックセグメンテーション段階にも採用しています。標準のSemanticKITTIおよびSSCBench-KITTI360データセットに関する広範な評価は、我々のアプローチが他のモノキュラーテクニックに対して大きな差を持って勝るだけでなく、ステレオ手法に対しても競争力のある性能を達成することを示しています。コードはhttps://github.com/xrkong/skimbaで入手できます。

2025-01-13T12:18:58


MOS-Attack: A Scalable Multi-objective Adversarial Attack Framework

http://arxiv.org/abs/2501.07251v1

Ping Guo, Cheng Gong, Xi Lin, Fei Liu, Zhichao Lu, Qingfu Zhang, Zhenkun Wang

City University of Hong Kong

敵対的例を作成することは、深層ニューラルネットワーク(DNN)の堅牢性を評価し向上させるために重要であり、微分不可能な0-1損失関数を最大化することと同等の課題です。しかし、既存の単一目的手法、特に敵対的攻撃は代理損失関数に焦点を当てており、その相乗的で対立する性質についての理解が不十分なため、複数の損失関数を活用する利点を十分に引き出していません。これらの制限を克服するために、我々はMulti-Objective Set-based Attack(MOS Attack)を提案します。これは、複数の損失関数を活用し、それらの相互関係を自動的に明らかにする新しい敵対的攻撃フレームワークです。MOS Attackは、セットベースの多目的最適化戦略を採用しており、追加のパラメータなしで多数の損失関数を組み込むことを可能にします。また、さまざまな損失間の相乗的パターンを自動的に発見し、より少ない目的で強力な敵対的攻撃を生成することを促進します。広範な実験により、我々のMOS Attackは単一目的の攻撃よりも優れていることが示されました。さらに、特定された相乗的パターンを活用することで、MOS Attackは損失関数の数を減らしても引き続き優れた結果を示します。

2025-01-13T12:00:34


Lessons From Red Teaming 100 Generative AI Products

http://arxiv.org/abs/2501.07238v1

Blake Bullwinkel, Amanda Minnich, Shiven Chawla, Gary Lopez, Martin Pouliot, Whitney Maxwell, Joris de Gruyter, Katherine Pratt, Saphir Qi, Nina Chikanov, Roman Lutz, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Eugenia Kim, Justin Song, Keegan Hines, Daniel Jones, Giorgio Severi, Richard Lundeen, Sam Vaughan, Victoria Westerhoff, Pete Bryan, Ram Shankar Siva Kumar, Yonatan Zunger, Chang Kawaguchi, Mark Russinovich

近年、AIのレッドチーミングは生成AIシステムの安全性とセキュリティを探るための実践として浮上しています。この分野はまだ新しいため、レッドチーミング作業をどのように行うべきかについて多くの疑問が残っています。マイクロソフトにおいて100以上の生成AI製品のレッドチーミングを行った経験に基づき、私たちの内部脅威モデルオントロジーと学んだ8つの主要な教訓を提示します。

  1. システムが何をできるのか、どこで使用されているのかを理解する
  2. AIシステムを破るために勾配を計算する必要はない
  3. AIのレッドチーミングは安全性のベンチマークではない
  4. 自動化はリスクの範囲をより広くカバーするのに役立つ
  5. AIのレッドチーミングにおける人間の要素は重要である
  6. 責任あるAIによる害は広範囲に及ぶが測定が難しい
  7. LLM(大規模言語モデル)は既存のセキュリティリスクを増幅し、新たなリスクを導入する
  8. AIシステムのセキュリティを確保する作業は決して完了しない

これらの洞察を、私たちの運営に関するケーススタディと共に共有することで、実際のリスクに沿ったレッドチーミングの努力を調整するための実践的な推奨事項を提供します。また、AIのレッドチーミングにおいてしばしば誤解されがちな側面を強調し、この分野が考慮すべきオープンクエスチョンについても議論します。

2025-01-13T11:36:33


Breaking Memory Limits: Gradient Wavelet Transform Enhances LLMs Training

http://arxiv.org/abs/2501.07237v1

Ziqing Wen, Ping Luo, Jiahuan Wang, Xiaoge Deng, Jinping Zou, Kun Yuan, Tao Sun, Dongsheng Li

nudt.edu.cn, pku.edu.cn

大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで印象的なパフォーマンスを示しています。しかし、膨大な数のパラメータは、特にAdamのようなメモリ集約型オプティマイザを使用する際に、トレーニング中に深刻なメモリの課題を引き起こします。既存のメモリ効率的なアルゴリズムは、しばしば特異値分解投影や重み固定のような技術に依存しています。これらのアプローチはメモリの制約を緩和するのに役立ちますが、一般的にはフルランク更新に比べて最適な結果を得ることができません。本論文では、低ランクトレーニングを超えたメモリ効率的な方法を調査し、オプティマイザの状態を維持するためのメモリ要件を大幅に削減するために、勾配にウェーブレット変換を適用する新しいソリューション「Gradient Wavelet Transform(GWT)」を提案します。GWTがメモリ集約型オプティマイザとシームレスに統合でき、パフォーマンスを犠牲にすることなく効率的なトレーニングを可能にすることを示します。事前トレーニングとファインチューニングのタスクに関する広範な実験を通じて、GWTは、メモリ使用量およびトレーニングパフォーマンスの両面で、先進的なメモリ効率的オプティマイザやフルランクアプローチと比較して最先端のパフォーマンスを達成することを示しました。

2025-01-13T11:35:09


Exploring the Use of Contrastive Language-Image Pre-Training for Human Posture Classification: Insights from Yoga Pose Analysis

http://arxiv.org/abs/2501.07221v1

Andrzej D. Dobrzycki, Ana M. Bernardos, Luca Bergesio, Andrzej Pomirski, Daniel Sáez-Trigueros

画像と動画における正確な人間の姿勢分類は、作業安全、身体リハビリテーション、スポーツトレーニング、日常生活の支援など、さまざまな分野での自動化アプリケーションにとって重要です。最近、Contrastive Language-Image Pretraining(CLIP)などのマルチモーダル学習手法が、画像とテキストを共同で理解する点で大幅に進展しました。本研究は、ヨガにおけるCLIPの適用に焦点を当て、人間の姿勢を分類する効果を評価することを目的としています。ゼロショットアプローチの初期の制限にもかかわらず、82クラスの15,301画像(実画像と合成画像)に対して転移学習を適用した結果、有望な成果が得られました。この記事では、画像の説明構文の選択、モデルおよびハイパーパラメータの調整を含むファインチューニングの全過程を説明します。ファインチューニングされたCLIPモデルは、3,826画像でテストされ、85%以上の精度を達成し、同じデータセットに関する従来の最先端技術を約6%上回りました。また、そのトレーニング時間はYOLOv8ベースのモデルをファインチューニングするのに必要な時間の3.5倍少なくなっています。さらに、6つの姿勢ごとの小規模データセット(それぞれ1,301および401のトレーニング画像)を用いたより応用指向のシナリオでは、ファインチューニングされたモデルがそれぞれ98.8%および99.1%の精度を達成しています。さらに、我々の実験は、ポーズごとにわずか20画像でトレーニングすることで、6クラスのデータセットで約90%の精度を得られることを示しています。本研究は、このマルチモーダル技術がヨガポーズの分類、ひいては一般的な人間の姿勢分類に効果的に利用できることを証明しています。加えて、CLIPの推論時間(約7ms)は、このモデルが姿勢評価のための自動化システムに統合できることを支持しています。例えば、パフォーマンス評価のためのリアルタイムなパーソナルヨガアシスタントの開発に用いることができます。

2025-01-13T11:20:44


Multi-face emotion detection for effective Human-Robot Interaction

http://arxiv.org/abs/2501.07213v1

Mohamed Ala Yahyaoui, Mouaad Oujabour, Leila Ben Letaifa, Amine Bohi

CESI

モバイルデバイスにおける対話インターフェースの統合は普及しており、さまざまなサービスを提供しています。技術が進歩するにつれて、人間らしい特徴を持ち、人間と効果的に対話するように設計されたヒューマノイドロボットの重要性が増しており、高度なヒューマンロボット対話インターフェースの利用が常に拡大しています。この文脈において、感情認識は人間の意図を理解することを可能にすることで、人間とロボットのインタラクションを向上させる上で重要な役割を果たします。本研究では、モバイルヒューマノイドロボットに統合された顔の感情検出インターフェースを提案し、複数の個人のリアルタイムの感情をユーザーインターフェース上に表示できるようにします。この目的のために、顔の表情認識のためのさまざまな深層ニューラルネットワークモデルが開発され、一貫したコンピュータベースの条件下で評価され、有望な結果が得られました。その後、このアプリケーションをモバイルヒューマノイドロボットに効果的に実装するために、精度とメモリフットプリントのトレードオフを慎重に考慮しました。

2025-01-13T11:12:47


Crowdsourced human-based computational approach for tagging peripheral blood smear sample images from Sickle Cell Disease patients using non-expert users

http://arxiv.org/abs/2501.07196v1

José María Buades Rubio, Gabriel Moyà-Alcover, Antoni Jaume-i-Capó, Nataša Petrović

Universidad de las Islas Baleares

この論文では、鎌状赤血球症(SCD)患者の末梢血塗抹標本(PBS)画像の分析のための人間ベースの計算アプローチを提案します。私たちは、PBS画像のラベリングをクラウドソーシングするために、Mechanical Turkのマイクロタスク市場を利用しました。次に、専門家によってタグ付けされた赤血球IDBデータセットを使用して、提案の精度と信頼性を評価しました。私たちの結果は、Mechanical Turkの作業者の間で強固な合意が得られた場合、専門家の分析との比較に基づいて、誤りの可能性が非常に低いことを示しました。これは、私たちの提案したアプローチがPBS画像のデータセットを注釈付けするために使用でき、これによりSCDの診断のための自動化されたメソッドのトレーニングに利用できる可能性を示唆しています。将来の研究では、私たちの発見と自動化手法によって得られた結果との潜在的な統合を探る計画です。これにより、SCDの診断のためのより正確で信頼性の高い方法の開発につながる可能性があります。

2025-01-13T10:42:55


Generalizable Graph Neural Networks for Robust Power Grid Topology Control

http://arxiv.org/abs/2501.07186v1

Matthijs de Jong, Jan Viebahn, Yuliya Shapovalova

エネルギー移行には新しい混雑管理方法が必要です。その一つの方法が、機械学習(ML)を使ってグリッドトポロジーを制御することです。このアプローチは、「パワーネットワークを運営するための学習(L2RPN)」コンペティションの後で人気を博しています。グラフニューラルネットワーク(GNN)は、計算にグラフ構造を反映させるMLモデルのクラスであり、これが電力網モデルに適している理由です。そのため、トポロジー制御のためのさまざまなGNNアプローチが提案されています。私たちは、GNN層のみを使用したグリッドトポロジー制御のための最初のGNNモデルを提案します。さらに、人気のある均質なグラフ表現が抱えるバスバー情報の非対称性問題を特定し、それを解決するための異質なグラフ表現を提案します。私たちは、模倣学習タスクに基づいて、均質および異質なGNNと全結合ニューラルネットワーク(FCNN)のベースラインをトレーニングします。モデルの評価は、分類精度とグリッド運用能力に基づいて行います。その結果、異質なGNNが分布内ネットワークで最も良い性能を示し、次にFCNN、最後に均質なGNNという結果が得られました。また、両方のGNNタイプは、FCNNよりも分布外ネットワークに対して一般化性能が優れていることもわかりました。

2025-01-13T10:31:36


Kriging and Gaussian Process Interpolation for Georeferenced Data Augmentation

http://arxiv.org/abs/2501.07183v1

Frédérick Fabre Ferber, Dominique Gay, Jean-Christophe Soulié, Jean Diatta, Odalric-Ambrym Maillard

データ拡張は、特に限られたデータセットを扱う際に、堅牢な教師あり学習モデルの開発において重要なステップです。本研究は、レユニオンのサトウキビ畑におけるCommeline benghalensis L.の存在を予測することを目的として、地理的に参照されたデータの拡張のための補間手法を探索します。データの空間的特性とデータ収集の高コストを考慮して、異なるカーネルを持つガウス過程(GP)と、さまざまなバリオグラムを持つクリギングの2つの補間アプローチを評価しました。本研究の目的は三つあり、(i)さまざまな回帰アルゴリズムに対して最良の予測性能を提供する補間手法を特定すること、(ii)追加された観測数に応じた性能の進化を分析すること、(iii)拡張されたデータセットの空間的一貫性を評価することです。結果は、特に結合カーネル(GP-COMB)を用いたGPベースの手法が回帰アルゴリズムの性能を大幅に改善し、追加のデータを少なく必要とすることを示しています。クリギングはやや低い性能を示すものの、より均一な空間カバレッジに特徴づけられ、特定の文脈において潜在的な利点を持ちます。

2025-01-13T10:29:09


The Spoils of Algorithmic Collusion: Profit Allocation Among Asymmetric Firms

http://arxiv.org/abs/2501.07178v1

Simon Martin, Hans-Theo Normann, Paul Püplichhuisen, Tobias Werner

University of Vienna, CESifo, CEPR, Düsseldorf Institute for Competition Economics (DICE), Heinrich-Heine-Universität Düsseldorf, Max Planck Institute for Research on Collective Goods, Bonn, E.CA Economics GmbH, Max Planck Institute for Human Development, Berlin, Centre for Information and Media Technology

私たちは、独立したアルゴリズムが繰り返しコルノー二重独占ゲームで共謀する傾向を研究します。具体的には、企業間の非対称性の影響に関するさまざまな寡占および交渉解決策の予測力を調査します。私たちは、消費者と企業の両方が非対称性から利益を得る可能性があることを発見しました。企業が対称的な場合、アルゴリズムはより競争的な結果を生み出しますが、非常に非対称な場合にはその競争性が低下します。静的ナッシュ均衡は総量に対する影響を過小評価し、利益に対する影響を過大評価していますが、総福祉に関しては驚くほど正確な予測を提供します。私たちの結果を最もよく説明するのは、均等相対利益解決策です。特に、私たちはアルゴリズムがあらゆる非対称性の度合いに対してパレートフロンティア上またはその近くの利益に合意することを発見しました。私たちの結果は、対称的な産業が共謀に陥りやすいという一般的な信念は、アルゴリズム経営判断をますます推進する際にはもはや当てはまらないかもしれないことを示唆しています。

2025-01-13T10:16:48


Anomalous Agreement: How to find the Ideal Number of Anomaly Classes in Correlated, Multivariate Time Series Data

http://arxiv.org/abs/2501.07172v1

Ferdinand Rewicki, Joachim Denzler, Julia Niebling

異常なシステム状態を検出し分類することは状態監視において重要ですが、監視学習法は異常の希少性とラベル付けされたデータの不足のためにうまく機能しないことがよくあります。したがって、クラスタリングは同様の異常な挙動をグループ化するためにしばしば使用されます。しかし、真の情報がない状態でクラスタの品質を評価することは難しく、シルエットスコア(SSC)などの既存の指標は、クラスタの一貫性と分離性のみを評価し、データに関する先行知識を無視します。この課題に対処するために、マルチバリアント時系列における異常の同期性を活用してクラスタの品質を評価するための「同期異常合意インデックス(SAAI)」を導入します。私たちは、SAAIを最大化することで、相関のある時系列における真の異常クラス数Kを見つけるタスクの精度がSSCと比較して0.23、X-Meansと比較して0.32向上することを示すことで、SAAIの有効性を実証します。また、SAAIを最大化して得られたクラスタは、SSCと比較して解釈が容易であることも示します。

2025-01-13T10:04:55


Natural Language-Assisted Multi-modal Medication Recommendation

http://arxiv.org/abs/2501.07166v1

Jie Tan, Yu Rong, Kangfei Zhao, Tian Bian, Tingyang Xu, Junzhou Huang, Hong Cheng, Helen Meng

The Chinese University of Hong Kong, DAMO Academy, Alibaba Group, Hupan Lab, Beijing Institute of Technology, University of Texas at Arlington

組み合わせ薬剤推奨(CMR)は、医療の基本的なタスクであり、臨床医が複雑な健康状態の患者に対してより正確な処方を提供する機会を与えます。特に長期的な医療ケアのシナリオにおいて重要です。これまでの研究努力は、電子健康記録(EHR)から意味のある情報を抽出し、組み合わせ薬剤の推奨を促進することを目指してきました。既存の学習ベースのアプローチは薬剤の化学構造を考慮していますが、機能が明確に記述されたテキスト薬剤説明を無視しています。さらに、患者のEHRから得られるテキスト知識は、大部分が十分に活用されていません。これらの問題に対処するため、私たちは自然言語支援マルチモーダル薬剤推奨(NLA-MMR)を提案します。これは、患者と薬剤の視点から知識を共同で学習するように設計されたマルチモーダル整合性フレームワークです。具体的に言うと、NLA-MMRは患者と薬剤のモダリティからの整合性問題としてCMRを定式化します。この観点から、事前学習された言語モデル(PLM)を使用して、患者と薬剤に関するドメイン内知識を抽出し、両方のモダリティの基礎となる表現を提供します。薬剤モダリティでは、化学構造とテキスト説明の両方を活用して薬剤表現を作成します。患者モダリティでは、診断、手順、症状のテキスト説明に基づいて患者表現を生成します。3つの公開データセットで実施された広範な実験により、NLA-MMRが新たな最先端の性能を達成し、Jaccardスコアで平均4.72%の顕著な改善を示すことが確認されました。私たちのソースコードは、https://github.com/jtan1102/NLA-MMR_CIKM_2024 で公開されています。

2025-01-13T09:51:50


QuantuneV2: Compiler-Based Local Metric-Driven Mixed Precision Quantization for Practical Embedded AI Applications

http://arxiv.org/abs/2501.07161v1

Jeongseok Kim, Jemin Lee, Yongin Kwon, Daeyoung Kim

KAIST, ETRI

ミックスドプレシジョン量子化手法が提案され、モデルサイズの削減と精度の劣化の最小化が図られています。しかし、既存の研究は再学習を必要とし、コンパイルプロセス中に生成される計算オーバーヘッドや中間表現(IR)を考慮していないため、コンパイラレベルでの適用が制限されています。この計算オーバーヘッドとは、推論時に頻繁に発生する量子化および逆量子化操作による実行時の遅延を指します。個別の演算子レベルでこれらの操作を行うと、重大な実行時遅延が発生します。これらの問題に対処するために、実用的な組み込みAIアプリケーション向けに設計されたコンパイラベースのミックスドプレシジョン量子化手法であるQuantuneV2を提案します。QuantuneV2は、量子化前と量子化後の2回だけ推論を行い、モデルパラメータの数に応じて線形に増加するO(n)の計算複雑度で動作します。また、重み、活性化値、量子化ノイズ比、平均二乗誤差などのローカルメトリックを使用することで、感度解析をより安定させました。さらに、最適なIRを選択し、演算子の融合を利用することで計算オーバーヘッドを削減しました。実験結果から、QuantuneV2はResNet18v1、ResNet50v1、SqueezeNetv1、VGGNet、MobileNetv2の5つのモデルに対して、既存の手法と比較して最大10.28%の精度向上と12.52%の速度向上を達成しました。これは、QuantuneV2がモデルの性能を向上させると同時に計算効率を維持していることを示しており、組み込みAI環境での展開に適していることを示しています。

2025-01-13T09:41:54


Eye Sclera for Fair Face Image Quality Assessment

http://arxiv.org/abs/2501.07158v1

Wassim Kabbani, Kiran Raja, Raghavendra Ramachandra, Christoph Busch

Norwegian University of Science and Technology

公正な運用システムは、顔認識システム(FRS)に対する社会の信頼を得て維持するために不可欠です。FRSは、画像をキャプチャし、その品質を評価することから始まり、その後、登録または検証に使用されます。したがって、公正な顔画像品質評価(FIQA)スキームは、公正なFRSの文脈において同様に重要です。本研究では、公正なFIQAを得るための品質評価領域として強膜(sclera)を検討します。強膜領域は、顔画像の品質を評価する際に、人口統計的変動や肌の色に影響されないため、重要です。私たちは、3つの肌のトーンに関連するISO/IECの顔画像品質評価指標を分析し、FIQを評価するための代替領域として強膜領域を評価します。異なる肌のトーンを持つ異なる人口統計群の個人からの顔データセットの分析は、強膜を用いて顔のダイナミックレンジや過剰露出および不足露出を測定する代替手段として位置付けます。強膜領域は肌の色、つまり人口統計要因に影響されないため、私たちのエラー対破棄特性(EDC)曲線分析によって示されるように、公正なFIQAとして同様の有用性を提供します。

2025-01-13T09:33:03


CureGraph: Contrastive Multi-Modal Graph Representation Learning for Urban Living Circle Health Profiling and Prediction

http://arxiv.org/abs/2501.07157v1

Jinlin Li, Xiao Zhou

Renmin University of China

高齢者の健康状態の低下を地域レベルで早期に検出し予測することは、都市計画や公衆衛生政策の策定にとって非常に重要です。既存の研究では生活環境と健康成果の関連性が確認されていますが、大部分は単一のデータモダリティに依存するか、複数モーダル情報の単純な特徴結合に基づいており、健康志向の都市環境を包括的に把握する能力が制限されています。このギャップを埋めるために、私たちはCureGraphを提案します。これは、都市健康予測のための対照的マルチモーダル表現学習フレームワークであり、各地域の都市生活圏内の高齢者の一般的な慢性疾患の普及を推測するためにグラフベースの技術を利用します。CureGraphは、住宅地域や周辺の関心スポットの写真やテキストレビューなど、豊富なマルチモーダル情報を活用して都市近隣の埋め込みを生成します。事前に学習された視覚的およびテキスト的エンコーダーとグラフモデリング技術を統合することで、CureGraphはクロスモーダルの空間依存性を捉え、高齢者の健康を考慮した都市環境の包括的理解を提供します。実世界のデータセットに対する広範な実験により、CureGraphは高齢者疾患リスク予測タスクにおいて$R2$の平均で最良のベースラインを$28\%$向上させることが示されています。さらに、このモデルは段階的な慢性疾患の進行を特定するのを可能にし、地域間の比較公衆衛生分析をサポートし、持続可能な都市開発と生活の質の向上のための実用的な洞察を提供します。コードは https://github.com/jinlin2021/CureGraph で公開されています。

2025-01-13T09:30:38


TIMRL: A Novel Meta-Reinforcement Learning Framework for Non-Stationary and Multi-Task Environments

http://arxiv.org/abs/2501.07146v1

Chenyang Qi, Huiping Li, Panfeng Huang

Northwestern Polytechnical University, IEEE

近年、メタ強化学習(メタRL)アルゴリズムが提案され、意思決定と制御の分野においてサンプル効率を改善し、エージェントが少数のサンプルから新しい知識を学習できるようにしています。しかし、ほとんどの研究はタスク表現を抽出するためにガウス分布を使用しており、非定常環境で変化するタスクには適応が不十分です。この問題に対処するために、ガウス混合モデルとトランスフォーマーネットワークを利用してタスク推論モデルを構築する新しいメタ強化学習手法を提案します。ガウス混合モデルはタスク表現を拡張し、タスクの明示的なエンコーディングを行うために利用されます。具体的には、タスクの分類はトランスフォーマーネットワークを通じてエンコードされ、タスクに対応するガウス成分を特定します。タスクラベルを活用することで、トランスフォーマーネットワークは教師あり学習を用いて訓練されます。私たちは、非定常かつマルチタスク環境におけるMuJoCoベンチマークでこの方法を検証しました。実験結果は、提案手法がサンプル効率を大幅に改善し、タスクの分類を正確に認識しながら、環境内で非常に優れた性能を発揮することを示しています。

2025-01-13T09:11:33


FlexQuant: Elastic Quantization Framework for Locally Hosted LLM on Edge Devices

http://arxiv.org/abs/2501.07139v1

Yuji Chai, Mujin Kwen, David Brooks, Gu-Yeon Wei

Harvard John A. Paulson School Of Engineering And Applied Sciences

エッジデバイス上でのLLMの展開は、深刻な技術的課題を呈します。メモリの弾力性は、メモリが共有され動的に変動する統一メモリを持つエッジデバイスにとって非常に重要です。既存のソリューションは、移行の粒度が低いか、ストレージコストが高いという問題があります。我々はFlexQuantという新しい弾力性フレームワークを提案します。これは、量子化されたモデルのアンサンブルを生成し、従来の最先端手法と比較して、15倍の粒度向上と10倍のストレージ削減を実現する弾力的なホスティングソリューションを提供します。FlexQuantはほとんどの量子化方法で機能し、我々のプルーニング手法を通じてさまざまなストレージ制限におけるトレードオフオプションのファミリーを作成します。これにより、LLMのエッジデプロイメントにおいて優れたパフォーマンスと柔軟性がもたらされます。

2025-01-13T08:58:00


How GPT learns layer by layer

http://arxiv.org/abs/2501.07108v1

Jason Du, Kelly Hong, Alishba Imran, Erfan Jahanparast, Mehdi Khfifi, Kaichun Qiao

University of California, Berkeley

大規模言語モデル(LLM)は、言語処理、戦略ゲーム、推論などのタスクにおいて優れた性能を発揮しますが、エージェントの適応的な意思決定に必要な一般化可能な内部表現を構築することに苦労しています。エージェントが複雑な環境を効果的にナビゲートするためには、信頼できる世界モデルを構築する必要があります。LLMは特定のベンチマークでは高いパフォーマンスを示しますが、一般化に失敗することが多く、実世界での効果を制限するもろい表現につながります。LLMが内部の世界モデルを構築する方法を理解することは、タスク全体で一貫した適応行動を可能にするエージェントを開発するための鍵です。私たちは、オセロのゲームプレイに基づいて訓練されたGPTベースのモデル、OthelloGPTを、表現学習を研究するための制御されたテストベッドとして分析します。次のトークン予測のみでランダムな有効移動に基づいて訓練されているにもかかわらず、OthelloGPTはボード状態とゲームプレイの理解において意味のある層ごとの進展を示しています。初期の層はボードの端のような静的属性を捉え、一方で深い層は動的なタイルの変化を反映します。これらの表現を解釈するために、スパースオートエンコーダー(SAE)と線形プローブを比較し、SAEが構成特徴に対してより頑健で解きほぐされた洞察を提供するのに対し、線形プローブは主に分類に有用な特徴を検出することを見つけました。SAEを使用して、タイルの色やタイルの安定性に関連する特徴をデコードします。タイルの安定性は、ボードコントロールや長期計画のような複雑なゲームプレイの概念を反映する以前に調査されていなかった特徴です。私たちは、SAEと線形プローブの両方を使用して、線形プローブの精度とタイルの色の進展を調査し、モデルが学んでいる内容を捉えるための有効性を比較します。私たちは小さい言語モデルであるOthelloGPTから始めますが、この研究はGPTモデル、トランスフォーマー、およびより広範なLLMが学んだ内部表現を理解するためのフレームワークを確立します。私たちのコードは公開されています:https://github.com/ALT-JS/OthelloSAE

2025-01-13T07:42:55


AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR

http://arxiv.org/abs/2501.07102v1

The Chuong Chu, Vu Tuan Dat Pham, Kien Dao, Hoang Nguyen, Quoc Hung Truong

VinBrain, Hanoi, Vietnam

文中コードスイッチング(CS)とは、単一の発話内で異なる言語が交互に使用されることを指し、音声認識システム(ASR)にとって重要な課題です。例えば、ベトナム語話者が発話の中で外国の固有名詞や専門用語を使用する場合などです。ASRシステムは、単言語データでの訓練に基づいているため、文中のコードスイッチングを正確に転写することにしばしば苦労します。この問題はリソースが限られた言語においてさらに顕著であり、データの利用可能性が限られているため、堅牢なモデルの開発が妨げられます。本研究では、適応型バイアス注意モジュール(BAM)をエンコーダ・デコーダネットワークに統合した正規化モデルAdaCSを提案します。この新しいアプローチは、未知のドメインにおけるCS ASRに対して堅牢なソリューションを提供し、この分野への貢献を大幅に向上させます。BAMを利用してCSフレーズを特定し正規化することで、AdaCSは推論時に提供される偏った単語リストを使ってその適応能力を向上させます。我々の方法は、優れた性能を示し、さまざまなドメインで未知のCSフレーズを扱う能力を持っています。実験結果は、AdaCSがベトナム語のCS ASR正規化において、提案した2つのテストセットでそれぞれ56.2%および36.8%のWER(単語誤り率)削減を達成し、以前の最先端方法を大幅に上回ることを示しています。

2025-01-13T07:27:00


Collaborative Learning for 3D Hand-Object Reconstruction and Compositional Action Recognition from Egocentric RGB Videos Using Superquadrics

http://arxiv.org/abs/2501.07100v1

Tze Ho Elden Tse, Runyang Feng, Linfang Zheng, Jiho Park, Yixing Gao, Jihie Kim, Ales Leonardis, Hyung Jin Chang

エゴセントリックな3Dハンド・オブジェクトインタラクションデータセットの利用可能性に伴い、ハンド・オブジェクトのポーズ推定とアクション認識のための統一モデルの開発への関心が高まっています。しかし、既存の手法は、3D境界ボックスを用いたオブジェクトの形状と動きの表現に限界があるため、未見のオブジェクトに対して見知ったアクションを認識するのに苦労しています。さらに、テスト時のオブジェクトテンプレートへの依存は未見のオブジェクトに対する一般化能力を制限します。これらの課題に対処するために、我々はバウンディングボックスの代替としてスーパーオブジェクトを活用することを提案し、テンプレートフリーのオブジェクト再構成およびアクション認識タスクにおけるその効果を示します。さらに、純粋な外観ベースの手法が統一手法を上回ることがあるため、3D幾何学情報から得られる潜在的な利益は不明確です。したがって、訓練時の動詞と名詞の組み合わせがテスト分割と重複しない、より困難なタスクを考慮することで、アクションの構成要素を研究します。我々は、H2OおよびFPHAデータセットを構成分割で拡張し、手と操作されるオブジェクト間の幾何関係について明示的に推論できる新たな共同学習フレームワークを設計しました。広範な定量的および定性的評価を通じて、(構成的)アクション認識において従来の最先端技術に対して重要な改善を示します。

2025-01-13T07:26:05


MathReader : Text-to-Speech for Mathematical Documents

http://arxiv.org/abs/2501.07088v1

Sieun Hyeon, Kyudan Jung, Nam-Joon Kim, Hyun Gon Ryu, Jaeyoung Do

Seoul National University, Chung-Ang University, NVIDIA

MicrosoftAdobeApple、OpenAIのTTS(テキスト読み上げ)ドキュメントリーダーは、世界中でサービスを提供しています。これらは一般のプレーンテキストに対して比較的良好なTTS結果を提供しますが、時々内容を省略したり、数学的表現に対して満足のいく結果を提供しないことがあります。これは、現代の学術論文のほとんどがLaTeXで書かれており、LaTeXの数式がコンパイルされると、文書内で特有のテキスト形式としてレンダリングされるためです。しかし、従来のTTSドキュメントリーダーは、数式の数学的意味を考慮せず、認識されたテキストのみを出力します。この問題に対処するために、私たちはOCR、微調整されたT5モデル、TTSを効果的に統合したMathReaderを提案します。MathReaderは、数学的な数式を含む文書を処理する際に、Microsoft EdgeAdobe Acrobatなどの既存のTTSドキュメントリーダーよりも低い単語誤り率(WER)を示しました。MathReaderは、Microsoft Edgeに対してWERを0.510から0.281に、Adobe Acrobatに対しては0.617から0.281に低減しました。これは、特に視覚障碍者のユーザーが文書を聞きたいと思ったときの不便を緩和するのに大いに貢献するでしょう。コードはhttps://github.com/hyeonsieun/MathReaderで入手可能です。

2025-01-13T06:47:05


Video Quality Assessment for Online Processing: From Spatial to Temporal Sampling

http://arxiv.org/abs/2501.07087v1

Jiebin Yan, Lei Wu, Yuming Fang, Xuelin Liu, Xue Xia, Weide Liu

Jiangxi University of Finance and Economics, Harvard Medical School, Harvard University

マルチメディア処理と深層学習技術、特にビデオ理解の分野における急速な発展に伴い、ビデオ品質評価(VQA)は重要な進展を遂げています。研究者たちは、効率的なビデオ品質マッピングモデルの設計からさまざまな研究方向に移行しているものの、VQAモデルにおける時空間モデリングの有効性と効率性のトレードオフを深く探求することはまだ十分ではありません。ビデオが非常に冗長な情報を持っているという事実を考慮して、本論文では共同空間および時間サンプリングの観点からこの問題を検討し、VQAモデルにビデオを入力する際に、どれだけの情報を保持すれば良いのか、そしてどれだけの性能犠牲を許容するべきかという答えを見つけることを目指しています。そのために、私たちはビデオの情報を空間的および時間的次元の両方から大幅にサンプリングし、極端に圧縮されたビデオを安定したVQAモデルに供給します。共同空間および時間サンプリングに関する包括的な実験を6つの公表されたビデオ品質データベースで実施し、ほとんどのビデオ情報を捨てている場合でもVQAモデルの受け入れ可能な性能を示しました。さらに、提案された共同空間および時間サンプリング戦略を用いて、可能な限りシンプルな空間特徴抽出器、時間特徴融合モジュール、グローバル品質回帰モジュールから構成されるオンラインVQAモデルの設計に初めて挑戦しています。定量的および定性的実験を通じて、入力を簡素化し、VQAモデルの実現可能性を検証しました。

2025-01-13T06:45:32


ADKGD: Anomaly Detection in Knowledge Graphs with Dual-Channel Training

http://arxiv.org/abs/2501.07078v1

Jiayang Wu, Wensheng Gan, Jiahao Zhang, Philip S. Yu

Jinan University, South China Normal University, University of Illinois Chicago

現在の大規模言語モデル(LLM)の開発において、基盤となるデータソースの正確性と信頼性を確保することが重要です。LLMはさまざまなアプリケーションにとって重要ですが、トレーニングデータの知識のギャップによって、しばしば幻覚や不正確さに悩まされます。知識グラフ(KG)は強力な構造的ツールとして、前述の問題を緩和するための重要な外部情報源として機能することができます。KGは現実世界のデータの構造化された包括的な理解を提供することで、LLMの性能と信頼性を向上させます。しかし、KGを構築するために非構造化データから三重項を抽出する際に、エラーが存在することはよくあります。これにより、質問応答やレコメンデーションシステムなどの下流タスクでの性能が低下する可能性があります。したがって、KGにおける異常検出は、これらのエラーを特定し修正するために重要です。本論文では、デュアルチャネル学習を用いた知識グラフにおける異常検出アルゴリズム(ADKGD)を提案します。ADKGDは、エンティティビューと三重項ビューの両方の視点から表現学習を強化するために、デュアルチャネル学習アプローチを活用します。さらに、クロスレイヤーアプローチを使用して、内部情報の集約とコンテキスト情報の集約を統合します。デュアルチャネル間のスコアリング関数の精度を改善するために、クルバック・ライブラー(KL)損失成分を導入します。ADKGDの性能を評価するために、WN18RR、FB15K、NELL-995の3つの実世界のKGに関する実証研究を行いました。実験結果は、ADKGDが最先端の異常検出アルゴリズムを上回ることを示しています。ソースコードとデータセットは、https://github.com/csjywu1/ADKGD で公開されています。

2025-01-13T06:22:52


Representation Learning of Point Cloud Upsampling in Global and Local Inputs

http://arxiv.org/abs/2501.07076v1

Tongxu Zhang, Bei Wang

近年、ポイントクラウドのアップサンプリングは、3D再構築などの分野で広く適用されています。本研究では、表現学習を通じて、ポイントクラウドのアップサンプリングに影響を与える要因を、グローバルおよびローカルの両方のレベルで調査します。具体的には、この論文では、同一のポイントクラウドモデルオブジェクトのグローバルおよびローカル情報を二つのエンコーダに入力し、これらの特徴を抽出し、それを結合してからアップサンプリングデコーダにフィードします。目的は、グローバルとローカルの入力からの事前知識を活用することで、ポイントクラウドにおけるスパース性やノイズの問題に対処することです。提案されたフレームワークは、最先端のポイントクラウドアップサンプリングニューラルネットワークに適用できます。深層学習を利用した一連のオートエンコーダベースのモデルで実験を行い、グローバルおよびローカルの入力に対する解釈可能性を得ました。結果として、我々の提案したフレームワークが以前のSOTA(最先端技術)作品におけるアップサンプリング効果をさらに改善できることが証明されました。同時に、サリエンシーマップは、グローバルおよびローカルの特徴入力の違いや、両方の入力を並行してトレーニングすることの効果を反映しています。

2025-01-13T06:13:25


Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values

http://arxiv.org/abs/2501.07071v1

Jing Yao, Xiaoyuan Yi, Shitong Duan, Jindong Wang, Yuzhuo Bai, Muhua Huang, Peng Zhang, Tun Lu, Zhicheng Dou, Maosong Sun, Xing Xie

Microsoft Research Asia, Fudan University, Tsinghua University, The University of Chicago, Renmin University of China, College of William & Mary

大規模言語モデル(LLM)が素晴らしいブレークスルーを達成する中で、人間の価値観との整合性を確保することは、彼らの責任ある開発とカスタマイズされたアプリケーションにとって不可欠なものとなっています。しかし、LLMの価値を評価するための評価が、望ましい3つの目標を果たしていないのが現状です。(1) 価値の明確化: 我々は、LLMの根底にある価値を正確かつ包括的に明確にすることを期待している一方で、現在の評価はバイアスや有害性などの安全リスクに狭く焦点を当てています。(2) 評価の妥当性: 既存の静的なオープンソースベンチマークは、データの汚染にさらされており、LLMが進化するにつれてすぐに陳腐化します。さらに、これらの識別的な評価は、LLMの価値に関する知識を明らかにするだけであり、価値に対するLLMの行動の適合性を妥当に評価するものではありません。(3) 価値の多元主義: 個人や文化にわたる人間の価値の多元的な性質は、LLMの価値整合性の測定において大きく無視されています。これらの課題に対処するために、我々は「Value Compass Leaderboard」を提案し、それに対応する3つのモジュールを設計しました。(i) LLMの根底にある価値をより包括的に明確にするために、動機的に異なる基本的な価値に基づいて評価を行いつつ、(ii) 進化するLLMのための適応的なテスト項目を用いた生成的な進化評価フレームワークを適用し、現実的なシナリオにおける行動からの直接的な価値認識を促進し、(iii) 特定の価値に対するLLMの整合性を、多様な次元にわたる重み付き合計として定量化するメトリックを提案します。重みは多元的な価値によって決定されます。

2025-01-13T05:53:56


Logic Meets Magic: LLMs Cracking Smart Contract Vulnerabilities

http://arxiv.org/abs/2501.07058v1

ZeKe Xiao, Qin Wang, Hammond Pearce, Shiping Chen

UNSW Sydney, CSIRO Data61

スマートコントラクトの脆弱性は、ブロックチェーンアプリケーションにおいて重大な経済的損失を引き起こしました。大規模言語モデル(LLM)は、この時間のかかるタスクに対処するための新たな可能性を提供します。しかし、最先端のLLMベースの検出ソリューションは、高い誤検出率に悩まされることが多いです。本論文では、既存の研究の限界を2つの重要な方法で押し広げます。まず、評価は最新のSolidity v0.8に基づいており、古いバージョン(v0.4)に焦点を当てた以前の研究と比較して最も最新の洞察を提供します。第二に、最新の5つのLLMモデル(企業を横断)を活用し、分野の最も先進的な能力を包括的にカバーしています。私たちは、一連の厳格な評価を行いました。実験では、うまく設計されたプロンプトが誤検出率を60%以上低下させることができることを示しました。驚くべきことに、Solidity v0.8における特定の脆弱性を検出するための再現率が、以前のバージョン(すなわちv0.4)と比較してわずか13%に低下していることも発見しました。さらなる分析により、この低下の根本原因は、検出時に新たに導入されたライブラリやフレームワークの変化を特定するLLMの依存にあることが明らかになりました。

2025-01-13T04:42:45


PoAct: Policy and Action Dual-Control Agent for Generalized Applications

http://arxiv.org/abs/2501.07054v1

Guozhi Yuan, Youfeng Liu, Jingli Yang, Wei Jia, Kai Lin, Yansong Gao, Shan He, Zilin Ding, Haitao Li

Zhipu AI, Amarcredit, Central South University, Tsinghua University, Beihang University

彼らの優れた理解力と推論能力に基づき、大規模言語モデル(LLM)駆動のエージェントフレームワークは、多くの複雑な推論タスクで大きな成功を収めています。ReActのようなエージェントは、進行中の計画とツール呼び出しを通じて、さまざまな複雑な問題をステップバイステップで解決し、環境からのフィードバックに基づいて新しいステップを反復的に最適化します。しかし、LLMの計画能力が向上するにつれて、ReActのようなフレームワークでツール呼び出しによって引き起こされるアクションは、複雑な計画や困難なデータ整理としばしば不一致になります。Code Actionはこれらの問題に対処し、より複雑なアクション空間とより難しいアクションの整理という課題を導入します。Code Actionを活用し、その複雑さの課題に取り組むために、本論文では一般的なアプリケーション向けにポリシーとアクションの二重制御エージェント(PoAct)を提案します。目的は、推論ポリシーを動的に切り替え、アクション空間を修正することで、より高品質なコードアクションとより正確な推論経路を達成することです。法的および一般的なシナリオにおけるエージェントベンチマークでの実験結果は、複雑なタスクにおける我々のアプローチの優れた推論能力とトークン消費の削減を示しています。LegalAgentBenchでは、我々の方法はベースラインに対して20パーセントの改善を示し、より少ないトークンを必要とします。私たちはGPT-4oおよびGLM-4シリーズモデルに対して実験と分析を実施し、複雑な問題を解決するための我々のアプローチの大きな潜在能力とスケーラビリティを示しました。

2025-01-13T04:28:40


Unveiling the Potential of Text in High-Dimensional Time Series Forecasting

http://arxiv.org/abs/2501.07048v1

Xin Zhou, Weiqing Wang, Shilin Qu, Zhiqiang Zhang, Christoph Bergmeir

Monash University, Southeast University, University of Granada

時系列予測は伝統的に単変量および多変量の数値データに焦点を当ててきましたが、特にテキストデータを含むマルチモーダル情報の利点を見落とすことが多いです。本論文では、高次元の時系列予測を改善するために、時系列モデルと大規模言語モデルを統合した新しいフレームワークを提案します。マルチモーダルモデルに触発された私たちの手法は、デュアルタワー構造で時系列データとテキストデータを組み合わせます。この情報の融合は包括的な表現を生み出し、その後、線形層を通じて処理されて最終予測を生成します。広範な実験により、テキストを取り入れることで高次元時系列予測の性能が向上することが示されました。この研究は、マルチモーダル時系列予測に関するさらなる研究への道を開きます。

2025-01-13T04:10:45


ACCon: Angle-Compensated Contrastive Regularizer for Deep Regression

http://arxiv.org/abs/2501.07045v1

Botao Zhao, Xiaoyang Qu, Zuheng Kang, Junqing Peng, Jing Xiao, Jianzong Wang

深い回帰において、特徴空間内の連続的なラベル間の関係を捉えることは、ますます関心を集めている基本的な課題です。この問題に対処することで、さまざまな回帰タスクにおいてモデルが最適でない解に収束するのを防ぎ、特に不均衡な回帰や限られたサンプルサイズ条件下での性能を向上させることができます。しかし、既存のアプローチはしばしば順序を考慮した表現学習や距離に基づく重み付けに依存しています。本論文では、回帰タスクにおけるラベル距離と表現類似性の間に線形の負の相関関係があるという仮説を提唱します。これを実現するために、コントラスト学習フレームワーク内でアンカーサンプルと負のサンプル間のコサイン距離を調整するための角度補正コントラスト正則化器を深い回帰のために提案します。我々の方法は、回帰タスクに対してほとんどの既存のコントラスト学習方法を拡張する互換性のあるプラグアンドプレイソリューションを提供します。広範な実験と理論的分析により、我々が提案する角度補正コントラスト正則化器は、競争力のある回帰性能を達成するだけでなく、データの効率性と不均衡データセットにおける効果においても優れていることが示されています。

2025-01-13T03:55:59


A Proposed Large Language Model-Based Smart Search for Archive System

http://arxiv.org/abs/2501.07024v1

Ha Dung Nguyen, Thi-Hoang Anh Nguyen, Thanh Binh Nguyen

この研究は、デジタルアーカイブシステムにおけるスマート検索のための新しいフレームワークを提示し、情報検索を強化するために大規模言語モデル(LLM)の能力を活用しています。Retrieval-Augmented Generation(RAG)アプローチを採用することで、このフレームワーク自然言語クエリの処理を可能にし、非テキストデータを意味のあるテキスト表現に変換します。このシステムは、高度なメタデータ生成技術、ハイブリッド検索メカニズム、ルータークエリエンジン、堅牢な応答合成を統合しており、結果として検索の精度と関連性を向上させることが証明されました。システムのアーキテクチャと実装を提示し、LLMの効率、ハイブリッド検索の最適化、多言語クエリ処理、個々のコンポーネントの影響に関する4つの実験でその性能を評価しました。得られた結果は、従来のアプローチに対して重要な改善を示しており、AI駆動システムが現代のアーカイブ実践を変革する可能性を実証しています。

2025-01-13T02:53:07


Neural Probabilistic Circuits: Enabling Compositional and Interpretable Predictions through Logical Reasoning

http://arxiv.org/abs/2501.07021v1

Weixin Chen, Simon Yu, Huajie Shao, Lui Sha, Han Zhao

University of Illinois Urbana-Champaign, College of William and Mary

エンドツーエンドの深層ニューラルネットワークは、さまざまな分野で目覚ましい成功を収めていますが、解釈可能性の欠如についてしばしば批判されます。事後的説明方法はこの問題に対処しようとしますが、これらのブラックボックスモデルを正確に表現することができず、誤解を招いたり不完全な説明を生じることが多いです。これらの課題を克服するために、論理的推論を通じて構成的かつ解釈可能な予測を可能にする、内因的に透明なモデルアーキテクチャ「ニューラル確率回路(NPC)」を提案します。具体的には、NPCは2つのモジュールで構成されています。1つは、さまざまな属性の確率を予測する属性認識モデルであり、もう1つは、認識された属性に対して論理的推論を行い、クラス予測を行うための確率回路に基づくタスク予測器です。NPCをトレーニングするために、属性認識、回路構築、共同最適化という3段階のトレーニンアルゴリズムを導入します。さらに、NPCの誤差がそのモジュールからの誤差の線形結合によって上限されることを理論的に示します。NPCの解釈可能性をさらに示すために、最も可能性の高い説明と反事実的説明の両方を提供します。4つのベンチマークデータセットに関する実証結果は、NPCが解釈可能性とパフォーマンスのバランスを取っており、エンドツーエンドのブラックボックスモデルと競争力のある結果を達成しながら、強化された解釈可能性を提供することを示しています。

2025-01-13T02:47:49


ViSoLex: An Open-Source Repository for Vietnamese Social Media Lexical Normalization

http://arxiv.org/abs/2501.07020v1

Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Kiet Van Nguyen

University of Information Technology, Vietnam National University

ViSoLexは、ベトナムソーシャルメディアテキストにおける語彙の正規化に関する独自の課題に対処するために設計されたオープンソースシステムです。このプラットフォームは、非標準語(NSW)ルックアップと語彙正規化という2つのコアサービスを提供し、ユーザーが非公式な言語の標準形を取得し、NSWを含むテキストを標準化できるようにします。ViSoLexのアーキテクチャは、事前にトレーニングされた言語モデルと弱い監視学習技術を統合し、ベトナム語におけるラベル付きデータの不足を克服しながら、正確かつ効率的な正規化を実現します。この論文では、システムの設計、機能、および研究者や非技術的ユーザーへの応用について詳述します。さらに、ViSoLexは、さまざまなデータセットや研究要件に適応可能な柔軟でカスタマイズ可能なフレームワークを提供しています。ソースコードを公開することで、ViSoLexは、より堅牢なベトナム自然言語処理ツールの開発に寄与し、語彙の正規化に関するさらなる研究を促進することを目指しています。将来的な方向性としては、追加の言語に対するシステムの能力を拡張し、より複雑な非標準言語パターンの処理能力を向上させることが含まれます。

2025-01-13T02:47:13


UNetVL: Enhancing 3D Medical Image Segmentation with Chebyshev KAN Powered Vision-LSTM

http://arxiv.org/abs/2501.07017v1

Xuhui Guo, Tanmoy Dam, Rohan Dhamdhere, Gourav Modanwal, Anant Madabhushi

3D医療画像のセグメンテーションは、畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)の進歩により大いに進展しましたが、これらの手法は長距離依存関係の取得と計算効率のバランスを取るのに苦労しています。この課題に対処するために、我々はUNETVL(U-Net Vision-LSTM)と呼ばれる新しいアーキテクチャを提案します。UNETVLは、最近の時間情報処理の進展を活用しています。UNETVLは、スケーラビリティとメモリ機能の向上を目的としたVision-LSTM(ViL)と、複雑で長距離の依存パターンをより効果的に処理するための効率的なチェビシェフコルモゴロフ・アーノルドネットワーク(KAN)を組み込んでいます。我々は、ACDCおよびAMOS2022(ポストチャレンジタスク2)ベンチマークデータセットで我々の手法を検証し、特に前のモデルであるUNETRと比較して、平均Diceスコアで7.3%(ACDC)および15.6%(AMOS)の大幅な改善を示しました。UNETVLの各コンポーネントの影響を示すために、大規模なアブレーションスタディを実施し、そのアーキテクチャについての包括的な理解を提供しました。我々のコードは、https://github.com/tgrex6/UNETVLで利用可能であり、この分野におけるさらなる研究や応用を促進します。

2025-01-13T02:33:28


A Multi-Modal Deep Learning Framework for Pan-Cancer Prognosis

http://arxiv.org/abs/2501.07016v1

Binyu Zhang, Shichao Li, Junpeng Jian, Zhu Meng, Limei Guo, Zhicheng Zhao

予後タスクは、患者の生存分析、治療計画の最適化、資源の配分に密接に関連しているため、非常に重要です。既存の予後モデルは特定のデータセットで有望な結果を示していますが、2つの側面において制約があります。一つは、患者の組織病理学的WSIや遺伝子発現分析など、特定の種類のモーダルデータのみを探究していることです。もう一つは、がんごとにモデルを構築するという枠組みを採用しているため、トレーニングされたモデルは単一のがんタイプの予後効果しか予測できず、一般化能力が弱いという点です。本論文では、UMPSNetという深層学習ベースのモデルを提案します。具体的には、患者の状態を包括的に理解するために、組織病理画像および遺伝子発現プロファイルのそれぞれにエンコーダーを構築するだけでなく、UMPSNetはさらに4種類の重要なメタデータ(人口統計情報、がんタイプ情報、治療プロトコル、および診断結果)をテキストテンプレートに統合し、テキストエンコーダーを導入してテキスト特徴を抽出します。さらに、最適輸送(OT)に基づく注意メカニズムを利用して、異なるモーダルの特徴を整列および融合します。さらに、多数のがんデータセット間の分布差の問題を効果的に解決するために、ガイダンスされたソフトミクスチャーオブエキスパート(GMoE)メカニズムが導入されます。患者データのマルチモーダリティと共同トレーニングを取り入れることにより、UMPSNetはすべての最先端アプローチを上回り、さらに、複数のがんタイプに対する単一モデルの提案された学習パラダイムの効果と一般化能力を示しています。UMPSNetのコードはhttps://github.com/binging512/UMPSNetで入手可能です。

2025-01-13T02:29:42


AlgoRxplorers | Precision in Mutation -- Enhancing Drug Design with Advanced Protein Stability Prediction Tools

http://arxiv.org/abs/2501.07014v1

Karishma Thakrar, Jiangqin Ma, Max Diamond, Akash Patel

Georgia Institute of Technology

単一アミノ酸変異がタンパク質安定性に与える影響を予測することは、疾患メカニズムの理解と薬の開発を進めるために重要です。タンパク質の安定性は、ギブズ自由エネルギーの変化($\Delta\Delta G$)によって定量化され、これらの変異によって影響を受けます。しかし、データの不足やモデル解釈の複雑さが、安定性変化の正確な予測を難しくしています。この研究では、深層ニューラルネットワークを適用し、転移学習を活用して異なるモデルからの補完情報を融合させることにより、タンパク質安定性の風景を特徴豊かな表現で作成することを提案します。私たちは4つのモデルを開発し、特に第3のモデルであるThermoMPNN+が、$\Delta\Delta G$値の予測において最良のパフォーマンスを示しました。このアプローチは、多様な特徴セットと埋め込みを潜在的な輸血技術を通じて統合し、$\Delta\Delta G$の予測を洗練させ、タンパク質の動態に対するより深い理解に寄与することを目指しています。これは、疾患研究や薬の発見の進展につながる可能性があります。

2025-01-13T02:17:01


Likelihood Training of Cascaded Diffusion Models via Hierarchical Volume-preserving Maps

http://arxiv.org/abs/2501.06999v1

Henry Li, Ronen Basri, Yuval Kluger

Yale University, Meta AI, Weizmann Institute of Science

カスケードモデルは、印象的で高解像度のサンプルを生成する能力に優れたマルチスケール生成モデルです。本研究では、それらが優れた尤度モデルでもあることを示します。ただし、確率的マルチスケールモデルの根本的な難しさである尤度関数の不適切性を克服する必要があります。具体的には、カスケードモデルでは各中間スケールが尤度評価のために適切に周辺化できない余分な変数を導入します。この問題は、階層的体積保存写像と呼ばれる変換のクラスによって誘導された潜在空間における拡散プロセスをモデル化することで解消されます。これにより、空間的に構造化されたデータを階層的に分解し、潜在空間内の局所的な歪みを導入することなく行うことができます。文献では、ラプラシアンピラミッドとウェーブレット変換という2つのマップがマルチスケールモデリングにおいて良く知られています。このような再パラメータ化により、尤度関数をスケールの結合尤度として直接表現できるだけでなく、ラプラシアンピラミッドとウェーブレット変換が、密度推定、ロスレス圧縮、分布外検出を含む尤度モデリングにおいて、最先端の技術に対しても大幅な改善をもたらすことを示します。実証的な成果の理論的基盤を調査することで、我々は、知覚的類似性の良く知られた代理であるアースムーバー距離(EMD)に基づくスコアマッチングとの深いつながりを発見しました。コードはこちらのURLで入手できます。

2025-01-13T01:20:23


Motion Tracks: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning

http://arxiv.org/abs/2501.06994v1

Juntao Ren, Priya Sundaresan, Dorsa Sadigh, Sanjiban Choudhury, Jeannette Bohg

日常的なタスクを自律的に完了できるロボットの教育は依然として課題です。模倣学習(IL)は、デモを通じてロボットにスキルを授ける強力なアプローチですが、テレオペレーションされたロボットデータを収集する労力がかかるという制約があります。人間の動画は、スケーラブルな代替手段を提供しますが、ロボットのアクションラベルが不足しているため、ILポリシーを直接訓練することは困難です。これに対処するために、私たちはアクションを画像上の短期水平2D軌道として表現することを提案します。これらのアクション、すなわち運動トラックは、人間の手またはロボットのエンドエフェクタの動きの予測方向を捉えます。私たちは、画像観察を受け取り、アクションとして運動トラックを出力するILポリシー「モーショントラックポリシー(MT-pi)」を実装しました。この統一された、クロスエンボディメントアクション空間を活用することで、MT-piはごくわずかの人間の動画と限られた追加のロボットデモンストレーションだけでタスクを高い成功率で完了します。テスト時には、2つのカメラビューから運動トラックを予測し、マルチビュー合成を通じて6DoF軌道を復元します。MT-piは4つの現実のタスク全体で平均86.5%の成功率を達成し、人間のデータや私たちのアクション空間を活用していない最先端のILベースラインを40%上回り、人間の動画でしか見られないシナリオにも一般化します。コードと動画は私たちのウェブサイトhttps://portal-cornell.github.io/motion_track_policy/で利用可能です。

2025-01-13T01:01:44


Graph Contrastive Learning on Multi-label Classification for Recommendations

http://arxiv.org/abs/2501.06985v1

Jiayang Wu, Wensheng Gan, Huashen Lu, Philip S. Yu

Jinan University, University of Illinois Chicago

ビジネス分析において、効果的な推奨を提供することは、企業の利益を向上させるために不可欠です。二部グラフのようなグラフベースの構造の利用は、複雑なデータ関係の分析能力により人気を集めています。リンク予測は、特定のアイテムをユーザーに推奨するために重要です。この分野の従来の方法は、グラフ構造内のパターンを特定したり、グラフニューラルネットワーク(GNN)のような表現技術を使用したりすることがよくあります。しかし、これらのアプローチはデータ量が増加するにつれて困難に直面します。これらの課題に対処するために、私たちは「マルチラベル分類のためのグラフ対照学習(MCGCL)」と呼ばれるモデルを提案します。MCGCLは、対照学習を活用して推奨の効果を高めます。このモデルには、主なタスクとサブタスクという2つのトレーニング段階が含まれています。主なタスクは、ユーザーとアイテムの関係を把握するための包括的なユーザーアイテムグラフ学習です。サブタスクでは、ユーザー間およびアイテム間の関係を把握するために、同質のユーザー-ユーザー(アイテム-アイテム)サブグラフが構築されます。私たちは、Amazonレビューからの実世界のデータセットを使用して、マルチラベル分類タスクにおける性能を評価しました。最先端の方法との比較実験により、MCGCLの効果が確認され、推薦システムの改善に向けた可能性が強調されました。

2025-01-13T00:29:29


Data Enrichment Work and AI Labor in Latin America and the Caribbean

http://arxiv.org/abs/2501.06981v1

Gianna Williams, Maya De Los Santos, Alexandra To, Saiph Savage

Northeastern University, Universidad Nacional Autónoma de México (UNAM)

世界的なAIの急増は、多様な言語と文化を持つクラウドワーカーを必要としています。彼らは、グローバルなAIシステムを可能にするためのデータラベリングにおいて重要な役割を果たしています。グローバルな重要性にもかかわらず、研究は主に米国とインドのクラウドワーカーの視点や経験の理解に焦点を当てており、顕著なギャップが残っています。このギャップを埋めるために、私たちは16のラテンアメリカおよびカリブ海諸国の100人のクラウドワーカーを対象に調査を実施しました。私たちは、これらの労働者がデジタル労働に対して誇りと尊敬を持ち、家族からの強い支援と賞賛を受けていることを発見しました。特に、クラウドワークは経済的および職業的独立へのステップと見なされていました。驚くべきことに、より多くのつながりを求めているにもかかわらず、これらの労働者は仲間から孤立していると感じ、他者の労働の質に疑念を抱いていました。彼らはコラボレーションや性別に基づくツールに抵抗し、性別の中立性を重視していました。私たちの研究は、ラテンアメリカおよびカリブ海におけるクラウドワークのHCIの理解を前進させ、この地域のデジタル抵抗ツールに関する洞察を提供します。

2025-01-13T00:11:47


Combining LLM decision and RL action selection to improve RL policy for adaptive interventions

http://arxiv.org/abs/2501.06980v1

Karine Karine, Benjamin M. Marlin

University of Massachusetts Amherst

強化学習(RL)は、特に個別化健康適応介入の開発において、医療分野でますます利用されています。大規模言語モデル(LLM)の成功に触発され、私たちはリアルタイムでRLポリシーを更新するためにLLMを使用することに関心を持っています。その目的は、個別化の加速です。私たちは、テキストベースのユーザーの好みを利用して、ユーザーの好みを即座に取り入れるために、アクション選択に影響を与えます。「ユーザーの好み」という用語は、ユーザーの個人的な好み、制約、健康状態、または好き嫌いを表現する声明などを指す広い意味の用語です。私たちの新しいアプローチは、LLMの応答とRLのアクション選択を組み合わせてRLポリシーを改善するハイブリッド手法です。ユーザーの好みを取り入れたLLMのプロンプトを用いることで、LLMは典型的なRLアクション選択のフィルターとして機能します。私たちは、さまざまなプロンプティング戦略とアクション選択戦略を調査します。私たちのアプローチを評価するために、テキストベースのユーザーの好みを生成し、行動ダイナミクスに影響を与える制約をモデル化するシミュレーション環境を実装します。私たちは、アプローチがテキストベースのユーザーの好みを考慮しながら、RLポリシーを改善し、したがって適応介入における個別化を向上させることができることを示します。

2025-01-13T00:03:20