About
arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。
※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。
リスト件数: 47件
リストから抽出されたキーワード: Graph Convolutional Networks, Federated Learning, Large Language Models
MixGCN: Scalable GCN Training by Mixture of Parallelism and Mixture of Accelerators
http://arxiv.org/abs/2501.01951v1
Cheng Wan, Runkao Tao, Zheng Du, Yang Katie Zhao, Yingyan Celine Lin
Georgia Institute of Technology, Rutgers University, University of Minnesota Twin Cities
グラフ畳み込みネットワーク(GCN)は、グラフベースの学習タスクにおいて優れた性能を示しています。しかし、完全なグラフ上でGCNを訓練することは、以下の2つの課題により特に難しいです。(1)関連する特徴テンソルがメモリを簡単に膨らませ、現代のアクセラレータの通信帯域をブロックしてしまうこと、(2)GCNのトレーニングにおける計算ワークフローが疎行列と密行列の操作を交互に行うため、計算リソースの効率的な利用が複雑になることです。スケーラブルな分散フルグラフGCNトレーニングに関する既存の解決策は主にパーティション並列性を採用しており、これは最初の課題の一部しか解決できず、スケールアウトした通信量を引き起こすため不満足です。これに対処するために、我々はMixGCNを提案し、GCNのトレーニングにおいて前述の2つの課題を同時に解決することを目指します。最初の課題に対処するために、MixGCNは並列性の混合を統合します。理論的および経験的な分析は、その一定の通信量と強化されたバランスの取れたワークロードを検証しています。第二の課題に対処するために、我々はGCNのトレーニング用の専用アクセラレータと、細粒度のパイプラインを備えた疎および密アクセラレータの混合を考慮します。広範な実験により、MixGCNがトレーニングの効率とスケーラビリティを向上させることが示されています。
2025-01-03T18:54:46
MADGEN -- Mass-Spec attends to De Novo Molecular generation
http://arxiv.org/abs/2501.01950v1
Yinkai Wang, Xiaohui Chen, Liping Liu, Soha Hassoun
Tufts University
MS/MSスペクトルの注釈(構造的化学同定の割り当て)は、生物サンプルの巨大な分子多様性と参考データベースの限られた範囲のため、重要な課題のままです。現在のところ、ほとんどすべてのスペクトル測定は構造注釈なしで「ダークケミカルスペース」に留まっています。注釈の改善を目指して、私たちはMADGEN(Mass-spec Attends to De Novo Molecular GENeration)を提案します。これは、質量分析データに基づいて新規の分子構造を生成するためのスキャフォールドベースの手法です。MADGENは2つの段階で動作します:スキャフォールドの取得と、スキャフォールドから始まるスペクトル条件付きの分子生成です。最初の段階では、MS/MSスペクトルが与えられると、スキャフォールドの取得をランキング問題として定式化し、対比学習を用いて質量スペクトルと候補分子スキャフォールドを整列させます。第二の段階では、取得したスキャフォールドから始まり、MS/MSスペクトルを用いて注意ベースの生成モデルをガイドし、最終的な分子を生成します。私たちのアプローチは、分子生成の探索空間を制約し、その複雑さを減少させ、生成の精度を向上させます。私たちは、三つのデータセット(NIST23、CANOPUS、MassSpecGym)でMADGENを評価し、予測スキャフォールドリトリーバーおよびオラクルリトリーバーとのMADGENのパフォーマンスを評価しました。生成プロセス全体にわたってスペクトル情報を統合するために注意を使用することの効果を示し、オラクルリトリーバーで強力な結果を達成しました。
2025-01-03T18:54:26
Cold-Start Recommendation towards the Era of Large Language Models (LLMs): A Comprehensive Survey and Roadmap
http://arxiv.org/abs/2501.01945v1
Weizhi Zhang, Yuanchen Bei, Liangwei Yang, Henry Peng Zou, Peilin Zhou, Aiwei Liu, Yinghui Li, Hao Chen, Jianling Wang, Yu Wang, Feiran Huang, Sheng Zhou, Jiajun Bu, Allen Lin, James Caverlee, Fakhri Karray, Irwin King, Philip S. Yu
Rajiv Gandhi University, Tsinghua University, Inria Paris-Rocquencourt, Institute for Clarity in Documentation, The Thørväld Group, Palmer Research Laboratories, The Kumquat Consortium, None
コールドスタート問題は、推薦システムにおける長年の課題の一つであり、新規またはインタラクションが制限されたユーザーやアイテムを正確にモデル化し、より良い推薦を提供することに焦点を当てています。インターネットプラットフォームの多様化とユーザーおよびアイテムの指数関数的な増加により、コールドスタート推薦(CSR)の重要性がますます明らかになっています。同時に、大規模言語モデル(LLM)は驚異的な成功を収め、ユーザーおよびアイテム情報のモデル化において強力な能力を持っており、コールドスタート推薦に新たな可能性を提供しています。しかし、CSRに関する研究コミュニティには、この分野における包括的なレビューや考察がまだ不足しています。これに基づき、本論文では大規模言語モデルの時代の文脈に立ち、CSRのロードマップ、関連文献、将来の方向性について包括的なレビューと議論を提供します。具体的には、既存のCSRがコンテンツ特徴、グラフ関係、ドメイン情報、さらには大規模言語モデルが持つ世界知識を利用する開発経路の探求を行い、CSRに関する研究および産業コミュニティに新たな洞察を提供することを目指しています。コールドスタート推薦に関連するリソースは、コミュニティのために集められ、継続的に更新されています。詳細はhttps://github.com/YuanchenBei/Awesome-Cold-Start-Recommendationをご覧ください。
2025-01-03T18:51:18
Abstractive Text Summarization for Contemporary Sanskrit Prose: Issues and Challenges
http://arxiv.org/abs/2501.01933v1
Shagun Sinha
この論文は、現代サンスクリット散文のための抽象的要約モデルを提示しています。第一章「序論」では、この研究の動機、研究の質問、および概念的枠組みが示されています。サンスクリットは、リソースが少ない屈折言語です。この論文が調査する重要な研究課題は、サンスクリットの抽象的テキスト要約を開発する際の課題が何かということです。この重要な研究課題に答えるために、四つの異なるテーマに基づいたサブ質問が提起されています。第二章「文献レビュー」では、これまでの先行研究を調査しています。第三章「データ準備」では、第三のテーマから残りの三つの質問に答えています。ここでは、言語モデルと要約モデルのトレーニングのためのデータ収集と前処理の課題について報告しています。第四章では、モデルのトレーニングと推論、そしてそこで得られた結果が報告されています。この研究は、サンスクリットの抽象的テキスト要約のためのパイプラインを開始し、開発の各段階で直面した課題を報告しています。各テーマに基づく研究課題は、重要な研究課題に答えるために解決されました。
2025-01-03T18:12:13
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding
http://arxiv.org/abs/2501.01926v1
Jiaming Li, Jiacheng Zhang, Zequn Jie, Lin Ma, Guanbin Li
Sun Yat-sen University, The University of Hong Kong, Meituan
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクにおける視覚と言語の理解において驚異的な能力を示しています。その成功にもかかわらず、LVLMは複雑な生成タスクにおける幻覚生成に苦しんでおり、視覚入力と生成されたコンテンツの間に不一致をもたらしています。この問題に対処するために、いくつかのアプローチでは、対比的デコーディングや注意の修正など、推論時の介入を導入し、言語の先入観への過剰依存を減少させています。しかし、これらのアプローチは、偽のインターモーダリティ相関から生じる幻覚を見逃しています。本論文では、トレーニング不要の方法でLVLMにおける幻覚を軽減するために、インターモーダリティ相関キャリブレーションデコーディング(IMCCD)手法を提案します。この方法では、特有の対比的デコーディングメカニズムによって幻覚を軽減するために、クロスモーダルバリューエンハンスドデコーディング(CMVED)モジュールを設計しています。歪んだ分布の推定中に、CMVEDは重要なクロスモーダル注意重みと関連する価値ベクトルをマスクすることで、ユニモーダルな過剰依存と誤解を招くインターモーダリティ相関の両方に対処します。さらに、コンテンツ駆動の注意精製(CDAR)モジュールがクロスモーダルな注意重みを精製し、LVLMが重要な視覚コンテンツに焦点を当てるように導きます。さまざまな幻覚ベンチマークに関する実験結果は、LVLMのテキスト生成における幻覚を減少させる上で、既存の最先端技術に対して我々の手法の優位性を検証しています。私たちのコードは、https://github.com/lijm48/IMCCD で入手可能です。
2025-01-03T17:56:28
Mingling with the Good to Backdoor Federated Learning
http://arxiv.org/abs/2501.01913v1
Nuno Neves
Universidade de Lisboa, Faculdade de Ciências, LASIGE
連合学習(FL)は、複数の主体がデータセットのプライバシーを保ちながらモデルを共同で訓練することを可能にする分散型の機械学習技術です。しかし、その分散型の性質は様々なセキュリティ上の懸念を引き起こしており、これらはますます高度な防御策によって対処されています。これらの保護策は、悪意のあるモデル更新を排除するために、さまざまなデータソースや指標を利用し、攻撃の影響を最小限に抑えたり排除したりすることを目指しています。本論文では、FLにバックドアをインストールし、さまざまな防御を回避できる汎用的な攻撃手法を設計する可行性を探ります。具体的には、MIGOと呼ばれる攻撃者戦略に焦点を当てています。この戦略は、正当な更新と微妙に融合するモデル更新を生成することを目的としています。その結果、バックドアがグローバルモデルに徐々に統合され、攻撃が終了した後も長期間その持続性が保たれ、十分な曖昧性を生み出し、防御の効果を妨げることが多いです。MIGOは、5つのデータセットと異なるモデルアーキテクチャで3種類のバックドアを埋め込むために使用されました。その結果は、MIGOが主なタスクの有用性を維持しながら、非常に高いバックドアの精度(90%を超える)を一貫して達成することで、これらのバックドアがもたらす重大な脅威を示しています。さらに、MIGOは、いくつかの最先端の手法を含む10種類の防御に対して強力な回避能力を示しました。4つの他の攻撃戦略と比較した場合、MIGOはほとんどの構成で一貫してそれらを上回りました。特に、攻撃者がクライアントのわずか0.1%を制御している極端なシナリオにおいても、攻撃者が十分なラウンドの間持続できれば、成功したバックドアの挿入が可能であることを示す結果が得られました。
2025-01-03T17:30:59
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
http://arxiv.org/abs/2501.01904v1
Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
Renmin University of China, Baichuan AI, BAAI
最近、大規模言語モデル(LLM)に基づくゆっくり考える推論システムが、推論中の思考時間を延ばすことで広く注目を集めています。この能力を多視覚大規模言語モデル(MLLM)に適応させることへの関心も高まっています。MLLMが異なるモダリティ間でより複雑なデータセマンティクスを扱うため、マルチモーダルゆっくり考えるシステムを実装することは直感的により難しいと考えられます。この問題に対処するため、本稿では、少量のテキスト長文思考データで高性能MLLMをファインチューニングするという簡単なアプローチを探ります。その結果、マルチモーダルゆっくり考えるシステム「Virgo」(長い思考を伴う視覚推論)が実現しました。この長文推論プロセスは自然言語で表現され、MLLMに効果的に転送できることがわかりました。さらに、テキスト推論データは、視覚推論データよりもMLLMのゆっくり考える能力を引き出すのに効果的であるようです。この研究は初歩的なものであるものの、ゆっくり考える能力が言語モデルコンポーネントに根本的に関連しており、モダリティやドメインを超えて転送可能であることを示しています。この発見は、より強力なゆっくり考える推論システムの開発を導くために活用できます。リソースは https://github.com/RUCAIBox/Virgo で公開しています。
2025-01-03T17:14:16
QuArch: A Question-Answering Dataset for AI Agents in Computer Architecture
http://arxiv.org/abs/2501.01892v1
Shvetank Prakash, Andrew Cheng, Jason Yik, Arya Tschand, Radhika Ghosal, Ikechukwu Uchendu, Jessica Quaye, Jeffrey Ma, Shreyas Grampurohit, Sofia Giannuzzi, Arnav Balyan, Fin Amin, Aadya Pipersenia, Yash Choudhary, Ankita Nayak, Amir Yazdanbakhsh, Vijay Janapa Reddi
Harvard University, Indian Institute of Technology Bombay, North Carolina State University, Qualcomm AI Research, Google Deepmind
QuArchを紹介します。これは、コンピュータアーキテクチャに対する言語モデルの理解を評価・強化することを目的として設計された、1500の人間検証済みの質問-回答ペアのデータセットです。このデータセットは、プロセッサ設計、メモリシステム、パフォーマンス最適化などの分野をカバーしています。我々の分析では、重要なパフォーマンスギャップが明らかになりました。最高のクローズドソースモデルは84%の精度を達成しているのに対し、トップの小型オープンソースモデルは72%にとどまっています。メモリシステム、相互接続ネットワーク、ベンチマーキングにおいて顕著な困難が観察されます。QuArchによるファインチューニングは、小型モデルの精度を最大8%向上させ、AI駆動のコンピュータアーキテクチャ研究の前進に向けた基盤を築きます。データセットとリーダーボードは、https://harvard-edge.github.io/QuArch/ にあります。
2025-01-03T16:55:53
Evaluating Scenario-based Decision-making for Interactive Autonomous Driving Using Rational Criteria: A Survey
http://arxiv.org/abs/2501.01886v1
Zhen Tian, Zhihao Lin, Dezong Zhao, Wenjing Zhao, David Flynn, Shuja Ansari, Chongfeng Wei
University of Glasgow
自律走行車(AV)は、安全性、信頼性、および脱炭素化の観点から、道路輸送の移動性の進展を大幅に促進することができます。しかし、動的で多様な環境内でのインタラクティブな安全性と効率を確保することは、大規模なAVの導入に対する主要な障壁のままです。近年、深層強化学習(DRL)が進んだAIベースのアプローチとして注目されており、AVはデータやインタラクションから適応的に意思決定戦略を学ぶことができるようになっています。DRL戦略は、適応性のおかげで、複雑で動的、かつ予測不可能な運転環境を扱うために、従来のルールベースの方法よりも適していると言えます。しかし、異なる運転シナリオは、高速道路での障害物回避や交差点での特定の出口への到達など、異なるシナリオ特有の意思決定アルゴリズムを必要とする独自の課題を提示します。多くのDRLアルゴリズムがインタラクティブな意思決定に対して提案されていますが、さまざまなシナリオにわたるこれらのDRLアルゴリズムの合理的なレビューは不足しています。したがって、車両利用者や車両製造者の観点を含む複数の視点からこれらのアルゴリズムを評価するためには、包括的な評価が必要です。この調査は、自律運転におけるDRLアルゴリズムの適用を典型的なシナリオでレビューし、道路の特徴と最近の進展を要約します。シナリオには、高速道路、オンランプ合流、ラウンドアバウト、および信号のない交差点が含まれます。さらに、DRLベースのアルゴリズムは、運転の安全性、運転の効率性、訓練の効率性、利他的であること、解釈可能性(DDTUI)の5つの合理的な基準に基づいて評価されます。DDTUIの各基準は、レビューされたアルゴリズムとの関係で具体的に分析されます。最後に、将来のDRLベースの意思決定アルゴリズムに対する課題がまとめられます。
2025-01-03T16:37:52
LCFed: An Efficient Clustered Federated Learning Framework for Heterogeneous Data
http://arxiv.org/abs/2501.01850v1
Yuxin Zhang, Haoyu Chen, Zheng Lin, Zhe Chen, Jin Zhao
Fudan University, The University of Hong Kong, IEEE
クラスタリング連合学習(CFL)は、連合学習(FL)におけるデータの非均質性によって引き起こされるパフォーマンスの課題に対処するために、類似したデータ分布を持つエッジデバイスをクラスターに編成し、各グループに特化した共同モデルトレーニングを可能にします。しかし、既存のCFLアプローチは知識共有をクラスター内に厳密に制限しており、クラスター内トレーニングとグローバル知識の統合が欠如しているため、最適でないパフォーマンスを招いています。さらに、従来のクラスタリング手法は、エッジデバイスの数が増えると特に大きな計算オーバーヘッドを引き起こします。本論文では、これらの課題に対処するために、効率的なCFLフレームワークであるLCFedを提案します。モデルのパーティショニングを活用し、各サブモデルに対して異なる集約戦略を採用することで、LCFedは効果的にグローバル知識をクラスター内共同トレーニングに組み込み、最適なトレーニングパフォーマンスを達成します。さらに、LCFedは低ランクモデルに基づく計算効率の良いモデル類似性測定方法をカスタマイズしており、最小限の計算オーバーヘッドでリアルタイムのクラスター更新を可能にします。広範な実験により、LCFedはテスト精度とクラスタリング計算効率の両方において最先端のベンチマークを上回ることが示されています。
2025-01-03T14:59:48
Multi-Agent Conversational Online Learning for Adaptive LLM Response Identification
http://arxiv.org/abs/2501.01849v1
Xiangxiang Dai, Yuejin Xie, Maoli Liu, Xuchuang Wang, Zhuohua Li, Huanyu Wang, John C. S. Lui
The Chinese University of Hong Kong, Huazhong University of Science and Technology, University of Massachusetts Amherst, Huawei Technologies Co., Ltd.
大規模言語モデル(LLM)の驚くべき生成能力は、さまざまなアプリケーション向けの自動応答生成への関心を高めています。ユーザーの好みの動的な性質とLLMの応答性能の不確実性を考慮すると、効率的なオンライン学習アルゴリズムを設計して、最適なLLM応答(すなわち、高品質でありながらユーザーの好みにも合致する応答)を特定することが重要です。既存の多くのオンラインアルゴリズムは中央集約型のアプローチを採用しており、より効率的でパーソナライズされたLLM応答の特定のために明示的なユーザーの好みを活用することに失敗しています。これに対して、本論文では\textit{MACO}(\underline{M}ulti-\underline{A}gent\underline{C}onversational \underline{O}nline Learning for Adaptive LLM Response Identification)を紹介します: 1) オンラインのLLM応答特定プロセスは、複数のローカルエージェント(スマートフォンなど)によって加速され、データプライバシーが向上します。 2) ユーザーの好みを引き出すための会話を適応的に行う新しい会話メカニズムが提案されており(例えば、生成された応答において深刻なトーンよりもユーモラスなトーンを好む場合など)、好みの推定における不確実性を最小限に抑えます。私たちの理論的な分析は、\cadi\が累積的な後悔に関してほぼ最適であることを示しています。さらに、\cadi\は従来の計算集約的な「G-最適デザイン」を排除することによって、通信コストと計算の複雑さを削減します。GoogleとOpenAIからのテキストベクトル表現のための2つの異なる埋め込みモデルと組み合わせたオープンLLM \textit{Llama}を用いた広範な実験は、\cadi\がオンラインLLM応答特定において現在の最先端技術と比較して大幅に優れていることを示しています。
2025-01-03T14:59:38
Practical machine learning is learning on small samples
http://arxiv.org/abs/2501.01836v1
Marina Sapir
限られた観察に基づいて、機械学習は未来においても成立すると考えられる依存関係を識別します。これはどう可能になるのでしょうか?統計的学習理論は、そのアプローチを正当化するために無限に増加する訓練サンプルを想定しています。しかし現実には、学習のための無限の時間や無限の一般集団は存在しません。ここでは、実践的な機械学習は、基盤となる依存関係が比較的「滑らか」であるという暗黙の仮定に基づいていると主張します。つまり、閉じたデータポイントを持つケース間でのフィードバックに急激な違いはないと考えられます。この観点から、学習は訓練セットを「滑らかに」近似する仮説の選択を含むべきです。これを「実践的学習パラダイム」として形式化します。このパラダイムには、学習者の記述のための用語と規則が含まれています。ここでは、人気のある学習者(ローカルスムージング、k-NN、決定木、ナイーブベイズ、分類と回帰のためのSVM)がこのパラダイムの実装であることを示します。
2025-01-03T14:38:07
ASKCOS: an open source software suite for synthesis planning
http://arxiv.org/abs/2501.01835v1
Zhengkai Tu, Sourabh J. Choure, Mun Hong Fong, Jihye Roh, Itai Levin, Kevin Yu, Joonyoung F. Joung, Nathan Morgan, Shih-Cheng Li, Xiaoqi Sun, Huiqian Lin, Mark Murnin, Jordan P. Liles, Thomas J. Struble, Michael E. Fortunato, Mengjie Liu, William H. Green, Klavs F. Jensen, Connor W. Coley
MIT, BMS, Novartis, AstraZeneca
機械学習の進展と大規模な反応データセットの利用可能性により、過去十年間でコンピュータ支援合成計画(CASP)のためのデータ駆動型モデルの開発が加速しました。ここでは、合成計画のためのオープンソースソフトウェアスイートであるASKCOSの最新バージョンについて詳述します。このツールは、いくつかの研究の進展を自由に利用できる実用的なツールとして提供します。4つの単段階逆合成モデルが、インタラクティブな計画モードと自動計画モードの両方の基盤を形成しています。逆合成計画は、反応条件の推奨、反応結果の予測、溶解度予測、量子力学的記述子の予測などの補助的な機能を含む、実現可能性評価と経路評価のための他のモジュールによって補完されています。ASKCOSは、数百人の医薬品、合成、およびプロセス化学者の日常業務を支援し、専門家の意思決定を補完してきました。私たちは、ASKCOSのようなCASPツールが現代の化学研究において重要な部分を占めており、それらがますます有用性とアクセス性を提供することを信じています。
2025-01-03T14:38:03
MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning
http://arxiv.org/abs/2501.01834v1
Pu Yang, Bin Dong
Peking University, Beijing International Center for Mathematical Research, Center for Machine Learning Research
画像キャプショニングは、コンピュータビジョンと自然言語処理の交差点に位置する重要なタスクであり、さまざまな分野で幅広い応用があります。診断レポートの生成のような複雑なタスクには、深層学習モデルがドメイン固有の画像キャプションデータセットだけでなく、文脈の正確さを提供するために関連する一般的な知識の取り入れも必要です。既存のアプローチには内在的な限界があります。特殊化されたモデルはドメイン固有の詳細を捉えるのが得意ですが一般化に欠け、一方で大規模な言語モデル(LLMs)に基づくビジョン・ランゲージモデル(VLMs)は一般的な知識を活用できますが、ドメイン固有の適応に苦労しています。これらの制限に対処するため、本論文では、ドメイン固有の知識と一般的な知識を効果的に統合するために設計された新たなエージェント強化モデルコラボレーションフレームワーク、すなわち \textbf{MoColl} を提案します。具体的には、複雑な画像キャプショニングタスクを一連の相互接続された質問応答のサブタスクに分解するアプローチを取ります。訓練可能な視覚質問応答(VQA)モデルを専門的なツールとして使用し、画像コンテンツに基づいてタスク特化の質問に応答し、ドメイン固有の視覚分析に集中します。同時に、一般的な知識を持ったLLMベースのエージェントがこれらの質問を作成し、得られた質問-応答ペアを一貫したキャプションに統合します。VQAモデルを活用する役割を越えて、エージェントはその訓練をさらにガイドし、ドメイン固有の能力を強化します。放射線レポート生成に関する実験結果は、提案されたフレームワークの有効性を確認し、生成されたレポートの質において顕著な改善を示しています。
2025-01-03T14:38:01
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
http://arxiv.org/abs/2501.01830v1
Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun
自動化されたレッドチーミングは、大規模言語モデル(LLM)の脆弱性を発見する上で重要なアプローチとなっています。しかし、既存のほとんどの方法は孤立した安全上の欠陥に重点を置いており、動的な防御に適応し、複雑な脆弱性を効率的に発見する能力が制限されています。この課題に対処するために、私たちはAuto-RTを提案します。これは、悪意のあるクエリを通じて効果的にセキュリティの脆弱性を発見するために、複雑な攻撃戦略を自動的に探索し最適化する強化学習フレームワークです。具体的には、探索の複雑さを減少させ、戦略の最適化を改善するために、2つの主要なメカニズムを導入します。1) 早期終了探索は、高ポテンシャルな攻撃戦略に焦点を当てることで探索を加速します。 2) 中間ダウングレードモデルを持つ進行的報酬追跡アルゴリズムは、成功した脆弱性の悪用に向けた探索軌道を動的に洗練します。様々なLLMにおける広範な実験により、探索の効率を大幅に改善し、攻撃戦略を自動的に最適化することで、Auto-RTはより幅広い脆弱性を検出し、既存の手法と比較して検出速度を速め、成功率を16.63%向上させることが示されました。
2025-01-03T14:30:14
The Proof is in the Almond Cookies
http://arxiv.org/abs/2501.01827v1
Remi van Trijp, Katrien Beuls, Paul Van Eecke
Sony Computer Science Laboratories, Université de Namur, Vrije Universiteit Brussel
この論文は、料理レシピ(および一般的な手順説明)を処理する方法についてのケーススタディを提示します。これにより、ロボットや人工的な料理アシスタントがキッチンで人間のシェフをサポートすることが可能になります。このようなAIアシスタントは、高齢者や身体に障害のある人々の自立を維持したり、プロのキッチンでのストレスを軽減したりするのに大いに役立つでしょう。私たちは、人間の意味形成プロセスを模倣した新しい計算レシピ理解アプローチを提案します。これは物語に基づいたものであり、具体例としてアーモンドクレッセントクッキーの英語のレシピを使用します。私たちは、言語処理、オントロジー、メンタルシミュレーションなどのさまざまな知識源を統合することで、レシピを豊かな物語構造としてモデル化できることを示します。このような物語構造を使用して、(a) ゼロ照応などのレシピ言語の課題に対処する、(b) ロボットの計画プロセスを最適化する、(c) AIシステムが現在のタスクをどれだけ理解しているかを測定する、(d) レシピの注釈を言語に依存しないものにすることが可能になることを示します。
2025-01-03T14:25:35
SDPO: Segment-Level Direct Preference Optimization for Social Agents
http://arxiv.org/abs/2501.01821v1
Aobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fei Huang
Nankai University, Alibaba Inc.
大規模言語モデル(LLM)を活用したソーシャルエージェントは、人間の社会的行動をシミュレートすることができますが、複雑な目標指向の社会対話を処理するには不十分です。直接的な嗜好最適化(DPO)は、さまざまなエージェントタスクにおいてLLMの行動を人間の嗜好に合わせるのに効果的であることが証明されています。既存のDPOベースの手法は、マルチターンインタラクションにおいてターンレベルとセッションレベルの方法に分かれています。ターンレベルの方法は過度に細かく、個別のターンにのみ焦点を当てている一方、セッションレベルの方法は粗すぎて、しばしばトレーニングノイズを引き起こします。これらの制限に対処するために、インタラクション内の特定の重要なセグメントに焦点を当ててマルチターンエージェントの行動を最適化し、トレーニングノイズを最小限に抑えるセグメントレベル直接嗜好最適化(SDPO)を提案します。SOTOPIAベンチマークでの評価は、SDPO調整されたエージェントが既存のDPOベースの手法やGPT-4oのような専有のLLMを一貫して上回っていることを示しており、LLMベースのエージェントの社会的知性を向上させるSDPOの可能性を強調しています。私たちはコードとデータをhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPOで公開します。
2025-01-03T14:09:46
End-to-End Long Document Summarization using Gradient Caching
http://arxiv.org/abs/2501.01805v1
Rohit Saxena, Hao Tang, Frank Keller
University of Edinburgh, Institute for Language, Cognition and Computation, School of Informatics
長文要約のためのトランスフォーマーベースのエンコーダ-デコーダモデルのトレーニングは、トレーニング中の二次的なメモリ消費のために重大な課題を提示します。テスト時に入力長を拡張するためのいくつかのアプローチが提案されていますが、これらのアプローチでのトレーニングは依然として困難であり、入力ドキュメントの切り捨てを必要とし、トレーニング条件とテスト条件の不一致を引き起こします。本研究では、既存のトランスフォーマーベースのエンコーダ-デコーダモデルの全体のドキュメントを切り捨てずに使用してエンドツーエンドトレーニングを可能にするアプローチ、CachED(勾配キャッシングを用いたエンコーダ-デコーダモデル)を提案します。具体的には、入力ドキュメントに対して非重複スライディングウィンドウを適用し、その後デコーダで融合します。バックプロパゲーション中に、勾配はデコーダでキャッシュされ、隠れベクトルを再計算することでチャンクでエンコーダを通過します。これは勾配チェックポイントに似ています。長文要約の実験では、BARTをCachED BARTに拡張し、トレーニング中に50万トークン以上を処理し、追加のパラメーターを使用することなく優れたパフォーマンスを達成しました。
2025-01-03T13:32:57
BERT4MIMO: A Foundation Model using BERT Architecture for Massive MIMO Channel State Information Prediction
http://arxiv.org/abs/2501.01802v1
Ferhat Ozgur Catak, Murat Kuzlu, Umit Cali
University of Stavanger, Old Dominion University, University of York
マッシブMIMO(Multiple-Input Multiple-Output)は、高度な無線通信技術であり、多数のアンテナを使用して通信システムの全体的な性能を容量、スペクトル、およびエネルギー効率の観点から向上させます。MIMOシステムの性能は、チャネル状態情報(CSI)の質に大きく依存します。したがって、CSIを予測することは、通信システムの性能を向上させるために不可欠であり、特にMIMOシステムにおいては、無線チャネルの主要な特性である伝播、フェージング、散乱、および経路損失を表しています。本研究は、BERTにインスパイアされた基盤モデルとして、マッシブMIMOシステムからの高次元CSIデータを処理するために特別に設計されたBERT4MIMOを提案します。BERT4MIMOは、ディープラーニングとアテンションメカニズムを通じて、さまざまな移動シナリオやチャネル条件下でのCSI再構築において優れた性能を提供します。実験結果は、さまざまな無線環境におけるBERT4MIMOの有効性を示しています。
2025-01-03T13:22:19
Creating Artificial Students that Never Existed: Leveraging Large Language Models and CTGANs for Synthetic Data Generation
http://arxiv.org/abs/2501.01793v1
Mohammad Khalil, Farhad Vadiee, Ronas Shakya, Qinyi Liu
本研究では、合成タブularデータ生成のためのAIおよび深層学習技術、特に生成的対抗ネットワーク(GAN)と大規模言語モデル(LLM)の成長する可能性を探ります。質の高い学生データへのアクセスは、学習分析を進める上で重要ですが、プライバシーの懸念や世界中の厳格なデータ保護規制がその利用と入手を制限しています。合成データは有望な代替手段を提供します。私たちは、合成データを利用して学習分析モデルに役立つ人工学生を生成できるかどうかを調査します。人気のGANモデルCTGANと、GPT2、DistilGPT2、DialoGPTの3つのLLMを使用して、合成のタブular学生データを生成します。私たちの結果は、これらの方法が実際の学生データに似た高品質の合成データセットを生成する強い可能性を持っていることを示しています。私たちの発見を検証するために、合成データの統計的および予測的パフォーマンスを評価する包括的なユーティリティ評価指標を適用し、使用された異なる生成モデル、特にLLMのパフォーマンスを比較します。私たちの研究は、学習分析コミュニティに合成データの利用に関する貴重な洞察を提供し、学習分析データ生成のための新しい革新的アプローチで方法論的ツールボックスを拡張するための基盤を築くことを目指しています。
2025-01-03T12:52:51
Can Synthetic Data be Fair and Private? A Comparative Study of Synthetic Data Generation and Fairness Algorithms
http://arxiv.org/abs/2501.01785v1
Qinyi Liu, Oscar Deho, Farhad Vadiee, Mohammad Khalil, Srecko Joksimovic, George Siemens
University of Bergen, University of South Australia
機械学習の学習解析(LA)への利用が増加する中、アルゴリズムの公平性やプライバシーに関する重要な懸念が浮上しています。合成データはプライバシーを強化し、LAモデルの公平性を改善する二重目的のツールとして登場しています。しかし、先行研究では公平性とプライバシーの間に逆相関があることが示唆されており、両方を最適化することが難しいことがわかっています。本研究では、どの合成データ生成器がプライバシーと公平性のバランスを最もうまく取れるか、また通常実データに適用される前処理公平性アルゴリズムが合成データに対して有効かを調査します。私たちの結果は、DEbiasing CAusal Fairness (DECAF)アルゴリズムがプライバシーと公平性の間で最良のバランスを達成することを示しています。しかし、DECAFは予測精度に反映されるように、効用において苦労しています。特に、合成データに前処理公平性アルゴリズムを適用すると、実データに適用した時よりも公平性がさらに向上することがわかりました。これらの発見は、合成データ生成と公平性の前処理を組み合わせることが、公正なLAモデルを作成するための有望なアプローチであることを示唆しています。
2025-01-03T12:35:58
Quantifying A Firm's AI Engagement: Constructing Objective, Data-Driven, AI Stock Indices Using 10-K Filings
http://arxiv.org/abs/2501.01763v1
Lennart Ante, Aman Saggu
既存のAI関連上場投資信託(ETF)に関する分析に基づき、AI関連としてどの株が適格であるかを決定するための選択基準はしばしば不明瞭であり、あいまいな言葉や主観的な判断に依存していることが明らかになりました。本論文では、2011年から2023年の間にNASDAQ上場の3,395社の年次10-K報告書を分析する自然言語処理(NLP)技術を用いた新しい客観的なデータ駆動型アプローチを提案します。この分析により、AI関連用語の頻度と文脈に基づいて、各企業のAIへの関与を二項指標と重み付けされたAIスコアを使用して定量化します。これらの指標を用いて、AI投資に関する異なる視点を提供する4つのAI株指数-均等加重AI指数(AII)、サイズ加重AI指数(SAII)、および2つの時間割引AI指数(TAII05およびTAII5X)を構築します。我々は、OpenAIのChatGPTのローンチに関するイベントスタディを通じて方法論を検証し、AIへの関与が高い企業が顕著に大きい正の異常収益を得たことを示し、我々のAI指標の予測力を支持する分析を行います。私たちの指標は、リスクとリターンのプロファイル、市場の反応性、全体的なパフォーマンスにおいて、14の既存のAIテーマETFおよびナスダック総合指数に匹敵するか、それを上回るパフォーマンスを示し、より高い平均日次リターンとリスク調整後の指標を達成しつつ、ボラティリティの増加は見られませんでした。これらの結果は、我々のNLPベースのアプローチが既存のAI関連ETF商品に対して信頼性があり、市場に応じて反応し、コスト効果の高い代替手段を提供することを示唆しています。我々の革新的な方法論は、投資家、資産管理者、政策立案者が企業データを使用して他のテーマ型ポートフォリオを構築する際の指針にもなり、より透明でデータ駆動型かつ競争力のあるアプローチへの貢献となります。
2025-01-03T11:27:49
Automating Legal Concept Interpretation with LLMs: Retrieval, Generation, and Evaluation
http://arxiv.org/abs/2501.01743v1
Kangcheng Luo, Quzhe Huang, Cong Jiang, Yansong Feng
Peking University, Wangxuan Institute of Computer Technology
法的記事は、常に変化する社会に適応するために曖昧な概念を含むことがよくあります。これらの概念に対する詳細な解釈を提供することは法的実務者にとって重要な任務であり、法的専門家による綿密で専門的な注釈を必要としますが、スケールで収集するのは時間がかかり高価です。本論文では、過去の司法判例から関連情報を自動的に取得し、曖昧な法的概念を解釈するための新しい検索強化生成フレームワークであるATRIを紹介します。さらに、専門家の関与なしに生成された概念解釈の評価を自動化するための新しいベンチマーク「法的概念の含意」を提案します。自動評価は、生成された解釈が大規模言語モデル(LLM)が曖昧な法的概念を理解するのに効果的に支援できることを示しています。法的専門家による多面的な評価は、私たちの概念解釈の質が人間の専門家によって書かれたものと同等であることを示しています。我々の研究は、LLMを活用して法的実務者が曖昧な法的概念を解釈するのを支援することに強い意味を持っています。
2025-01-03T10:11:38
How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models
http://arxiv.org/abs/2501.01741v1
Simone Corbo, Luca Bancale, Valeria De Gennaro, Livia Lestingi, Vincenzo Scotti, Matteo Camilli
Politecnico di Milano
言語は、根深いステレオタイプの伝播や差別の手段です。私たちの日常生活に浸透している大規模言語モデル(LLM)は、毒性のある応答を生成する傾向がある場合、深刻な被害を引き起こす可能性があります。この問題に対処する標準的な方法は、LLMを調整することですが、これは問題を緩和するだけで、決定的な解決策とはなりません。したがって、調整努力の後でもLLMをテストすることが、倫理基準に関する残留の逸脱を検出するために重要です。私たちは、LLMの毒性傾向を自動的にテストするためのフレームワーク「EvoTox」を提案します。これにより、調整が行われている場合でも、LLMが毒性のある応答にどれだけ押し込まれるかを定量的に評価する方法を提供します。このフレームワークは、テスト対象システム(SUT)とSUTの応答をより高い毒性に向けて誘導するプロンプトジェネレーターという2つのLLM間の相互作用を利用した反復進化戦略を採用しています。毒性レベルは、既存の毒性分類器に基づく自動化されたオラクルによって評価されます。私たちは、増加する複雑さを持つ4つの最先端LLM(70-130億パラメータ)を評価対象として定量的および定性的な実証評価を行います。私たちの定量的評価は、ランダムサーチ、キュレーションされた毒性プロンプトのデータセット、敵対的攻撃に基づく既存のベースライン手法に対して、EvoToxの4つの代替バージョンのコスト効果を評価します。私たちの定性的評価では、人間の評価者が生成されたプロンプトの流暢さと、テストセッション中に収集された応答の知覚された毒性を評価します。結果は、検出された毒性レベルに関して、選択されたベースライン手法に比べて有効性が著しく高いことを示しています(ランダムサーチに対して効果量1.0まで、敵対的攻撃に対して0.99まで)。さらに、EvoToxは限られたコストオーバーヘッド(平均22%から35%)を生じます。
2025-01-03T10:08:49
Augmentation Matters: A Mix-Paste Method for X-Ray Prohibited Item Detection under Noisy Annotations
http://arxiv.org/abs/2501.01733v1
Ruikang Chen, Yan Yan, Jing-Hao Xue, Yang Lu, Hanzi Wang
Xiamen University, University College London, Fujian Key Laboratory of Sensing and Computing for Smart City, School of Informatics
自動X線禁止アイテム検出は公共の安全にとって重要です。既存の深層学習に基づく方法はすべて、トレーニング用のX線画像の注釈が正しいと仮定しています。しかし、アイテムが重なり合うことが一般的な大規模X線画像において、正しい注釈を取得することは非常に難しく、場合によっては不可能です。その結果、X線画像はノイズのある注釈に簡単に汚染され、既存の方法のパフォーマンスが低下します。本論文では、ノイズのある注釈(カテゴリーノイズおよびバウンディングボックスノイズの両方)から頑健な禁止アイテム検出器を訓練するという難しい問題をデータ拡張の新しい視点から取り組み、効果的なラベル対応混合パッチペースト拡張方法(Mix-Paste)を提案します。具体的には、各アイテムパッチに対して、異なる画像から同じカテゴリラベルの数個のアイテムパッチを混ぜ、画像内の元のパッチを混合パッチで置き換えます。これにより、生成された画像内に正しい禁止アイテムが含まれる確率が高まります。同時に、混合プロセスはアイテムの重なりを模倣し、モデルがX線画像の特徴を学習できるようにします。さらに、混合操作によって追加アイテムの潜在的なポジティブ予測に対応する大きな損失を抑制するアイテムベースの大損失抑制(LLS)戦略を設計しました。ノイズのある注釈の下でのX線データセットにおける我々の方法の優位性を示します。また、ノイズのあるMS-COCOデータセットにおいて、我々の方法の一般化能力を評価します。これらの結果は、ノイズのある注釈に対処するためのデータ拡張の大きな可能性を明確に示しています。ソースコードは https://github.com/wscds/Mix-Paste で公開されています。
2025-01-03T09:51:51
Combined Hyper-Extensible Extremely-Secured Zero-Trust CIAM-PAM architecture
http://arxiv.org/abs/2501.01732v1
Shivom Aggarwal, Shourya Mehra, Safeer Sathar
顧客アイデンティティおよびアクセス管理(CIAM)システムは、企業インフラのセキュリティを確保する上で重要な役割を果たします。しかし、これらのシステムを実装する際の複雑さは、ポジティブな投資利益率(RoI)を確保し、高額な遅延を避けるために慎重なアーキテクチャ計画を必要とします。アクティブで持続的なサイバー脅威の蔓延と、AI、クラウドコンピューティング、地理的に分散した顧客層の進歩が相まって、適応型かつゼロトラストセキュリティフレームワークへのパラダイムシフトが求められています。本論文では、大規模企業向けに特別に設計された「Combined Hyper-Extensible Extremely-Secured Zero-Trust(CHEZ)CIAM-PAMアーキテクチャ」を紹介します。このCHEZ PLCIAM-PAMフレームワークは、連邦アイデンティティ管理(プライベートおよびパブリックアイデンティティ)、パスワードレス認証、適応型マルチファクター認証(MFA)、マイクロサービスベースのPEP(ポリシー権限ポイント)、多層RBAC(ロールベースアクセス制御)、および多層信頼システムを統合することによって、重要なセキュリティギャップに対処します。この未来を見据えた設計には、エンドツーエンドのデータ暗号化と、最新のAIベースの脅威検知システムとのシームレスな統合も含まれており、厳格な規制基準への準拠を確保しています。
2025-01-03T09:49:25
Proposing Hierarchical Goal-Conditioned Policy Planning in Multi-Goal Reinforcement Learning
http://arxiv.org/abs/2501.01727v1
Gavin B. Rens
Stellenbosch University
ヒューマノイドロボットは、スパースな報酬を伴う多数のタスクをマスターする必要があり、強化学習(RL)にとって課題となります。これに対処するために、RLと自動プランニングを組み合わせた方法を提案します。私たちのアプローチでは、短期の目標条件付きポリシー(GCP)を階層的に整理し、高レベルのアクション(HLA)を使用したモンテカルロ木探索(MCTS)プランニングを行います。計画プロセスでは、原始的なアクションの代わりにHLAを生成します。エージェントのライフタイムの間に維持される単一のプランツリーは、目標達成に関する知識を保持します。この階層構造は、サンプルの効率を高め、HLAを再利用し将来のアクションを予測することによって推論を加速します。私たちの階層的目標条件付きポリシープランニング(HGCPP)フレームワークは、GCP、MCTS、および階層的RLを独自に統合しており、複雑なタスクにおける探索とプランニングの改善が期待されます。
2025-01-03T09:37:54
LLMs & Legal Aid: Understanding Legal Needs Exhibited Through User Queries
http://arxiv.org/abs/2501.01711v1
Michal Kuk, Jakub Harasta
Frank Bold Society, z.s., Masaryk University
この論文は、チェコの専門グループFrankBoldが行った実験の初期分析を提示しており、GPT-4を用いた法的質問へのユーザーインタラクションを探求しています。2023年5月3日から2023年7月25日までの間に、1,252人のユーザーが3,847件の質問を提出しました。大規模言語モデル(LLM)の正確性、事実性、あるいは幻覚傾向に主に焦点を当てた研究とは異なり、私たちの分析はインタラクションのユーザー質問の側面に焦点を当てています。GPT-4を用いたゼロショット分類を使って、質問を次の3つのカテゴリに分類しました。(1)ユーザーが自分の問題について事実情報を提供したか(29.95%)しなかったか(70.05%)、(2)法的情報を求めたか(64.93%)あるいは行動のアドバイスを求めたか(35.07%)、(3)モデルの回答を形作ったりコントロールしたりするための要件を課したか(28.57%)しなかったか(71.43%)。我々はユーザーのニーズに関する定量的および定性的な洞察を提供し、LLMとのユーザーエンゲージメントの理解を深める貢献をしています。
2025-01-03T09:12:35
MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders
http://arxiv.org/abs/2501.01709v1
Jiajun Cao, Yuan Zhang, Tao Huang, Ming Lu, Qizhe Zhang, Ruichuan An, Ningning MA, Shanghang Zhang
Peking University, NIO, The University of Sydney
視覚エンコーダは、視覚と言語のモデル(VLM)の基本的なコンポーネントであり、それぞれがさまざまな事前学習された視覚基盤モデルから得られる独自の強みを示しています。これらのエンコーダのさまざまな能力を活用するために、最近
2025-01-03T09:10:34
The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters
http://arxiv.org/abs/2501.01705v1
Chulun Zhou, Qiujing Wang, Mo Yu, Xiaoqian Yue, Rui Lu, Jiangnan Li, Yifan Zhou, Shunchi Zhang, Jie Zhou, Wai Lam
The Chinese University of Hong Kong, WeChat AI, Tencent Inc, NJIT, Johns Hopkins University
心の理論(ToM)は、人間が他者の心の状態を理解し解釈するための基本的な心理的能力です。人間は、過去の相互作用から得られた広範な文脈情報から因果的な手がかりや間接的な手がかりを統合することによって、他者の思考を推測します。言い換えれば、人間のToMは他者の背景や人生の物語を理解することに大きく依存しています。残念ながら、この側面は、短い物語を使って評価される既存の機械のToM能力のベンチマークでは大きく見落とされています。本論文では、ToMにおける長い個人的背景の理解の重要性を検証し、そのような現実的な評価シナリオにおける大規模言語モデル(LLM)の性能を評価します。これを達成するために、古典小説の登場人物に基づいた1,035のToM質問から成る新しいベンチマーク「CharToM-QA」を導入します。我々の人間による研究では、パフォーマンスにおいて顕著な格差があることが明らかになりました。同じ教育を受けた参加者グループは、小説を読んでいる場合と読んでいない場合で大きな違いを示しました。同時に、最近のo1モデルを含む最新のLLMに関する実験では、LLMがこれらの物語を事前学習中に見たにもかかわらず、依然として人間よりも著しく性能が劣ることを示しています。これは、ToM推論に必要な微妙な文脈情報を捉える上での現在のLLMの限界を浮き彫りにしています。
2025-01-03T09:04:45
AgentRefine: Enhancing Agent Generalization through Refinement Tuning
http://arxiv.org/abs/2501.01702v1
Dayuan Fu, Keqing He, Yejie Wang, Wentao Hong, Zhuoma Gongque, Weihao Zeng, Wei Wang, Jingang Wang, Xunliang Cai, Weiran Xu
大規模言語モデル(LLM)ベースのエージェントは、人間のように複雑なタスクを実行する能力があることを証明しています。しかし、オープンソースのLLMとGPTシリーズのような商用モデルの間には、依然として大きなギャップがあります。本論文では、指示調整を通じてLLMのエージェント一般化能力を向上させることに焦点を当てています。まず、既存のエージェントトレーニングコーパスは、保持された評価セットで満足のいく結果を示す一方で、保持されたセットには一般化できないことを確認しました。これらのエージェントチューニング作業は、深刻なフォーマットエラーに直面し、長期間同じ間違いにとどまってしまうことがよくあります。我々は、一般化能力の低下が、いくつかの手動エージェント環境に対する過学習と新しい状況への適応不足から来ていることを分析しました。彼らは誤った行動ステップに苦しみ、経験から学ぶことができず、既存の観察-行動関係をただ記憶するだけです。この洞察にインスパイアされ、我々はエージェントチューニングのための新しいAgentRefineフレームワークを提案します。核心的なアイデアは、モデルが軌道内の観察を通じて自らの間違いを修正することを学ぶことを可能にすることです。具体的には、多様な環境とタスクを包含するエージェント合成フレームワークを提案し、強力なLLMに環境フィードバックに応じてそのエラー行動を修正させます。AgentRefineは、多様なエージェントタスクにおける一般化能力の点で最先端のエージェントチューニング作業を大幅に上回ります。また、摂動に対してもより高いロバスト性を持ち、推論において多様な思考を生成することができます。我々の発見は、エージェント一般化と自動修正との相関関係を確立し、将来の研究のための新しいパラダイムを提供します。
2025-01-03T08:55:19
VidFormer: A novel end-to-end framework fused by 3DCNN and Transformer for Video-based Remote Physiological Measurement
http://arxiv.org/abs/2501.01691v1
Jiachen Li, Shisheng Guo, Longzhen Tang, Cuolong Cui, Lingjiang Kong, Xiaobo Yang
University of Electronic Science and Technology of China, Yangtze Delta Region Institute
顔の動画に基づくリモート生理信号測定、別名リモート光血流計測(rPPG)は、顔の動画から顔の血流の変化を予測することを含みます。ほとんどの深層学習ベースの手法は良好な結果を達成していますが、畳み込みニューラルネットワーク(CNN)やトランスフォーマーの本質的な限界のために、小規模データセットと大規模データセットのパフォーマンスのバランスをとるのに苦労することが多いです。本論文では、3次元畳み込みニューラルネットワーク(3DCNN)とトランスフォーマーモデルを統合した新しいエンドツーエンドのフレームワークであるVidFormerを紹介します。最初に、従来の皮膚反射モデルの分析を行い、その後、rPPG信号の再構築のための強化されたモデルを導入します。この改善されたモデルに基づいて、VidFormerは3DCNNとトランスフォーマーを利用して、それぞれ入力データから局所的およびグローバルな特徴を抽出します。VidFormerの時空間特徴抽出能力を強化するために、3DCNNとトランスフォーマーに特化した時空間アテンションメカニズムを組み込みます。さらに、3DCNNとトランスフォーマー間の情報交換と融合を促進するモジュールを設計します。五つの公開データセットでの評価により、VidFormerが現在の最先端(SOTA)手法よりも優れていることが示されました。最後に、各VidFormerモジュールの重要な役割を議論し、民族、メイクアップ、運動がそのパフォーマンスに与える影響を検討します。
2025-01-03T08:18:08
Adaptive Few-shot Prompting for Machine Translation with Pre-trained Language Models
http://arxiv.org/abs/2501.01679v1
Lei Tang, Jinghui Qin, Wenxuan Ye, Hao Tan, Zhijing Yang
最近、コンテキスト内学習を備えた大規模言語モデル(LLM)がニューラル機械翻訳を扱う上で注目すべき可能性を示しています。しかし、既存の証拠は、LLMがプロンプトに敏感であり、固定プロンプトを任意の入力に適用することが下流の機械翻訳タスクにとって最適ではないことを示しています。この問題に対処するために、私たちは様々なソース入力文に対して適切な翻訳デモンストレーションを自動的に選択する適応型少数ショットプロンプティング(AFSP)フレームワークを提案します。これにより、LLMの翻訳能力を引き出し、より良い機械翻訳を実現します。まず、LLMの埋め込みに基づいて翻訳デモンストレーションの検索モジュールを構築し、整合された平行翻訳コーパスからトップkの意味的に類似した翻訳デモンストレーションを取得します。他の埋め込みモデルを使用して意味的デモンストレーションを取得するのではなく、展開されたLLMの埋め込み層に基づくハイブリッドデモンストレーション検索モジュールを構築し、より意味的に関連した翻訳デモンストレーションを取得するためのより良い入力表現を構築します。さらに、ソース入力とターゲット出力の間でより良い意味的一貫性を確保するために、展開されたLLM自身に翻訳デモンストレーションの助けを借りてターゲット言語で複数の出力候補を生成させ、これらの候補を再ランキングさせます。加えて、最新の言語に対するAFSPフレームワークの効果をより良く評価し、ニューラル機械翻訳の研究の境界を広げるために、5,528の平行な中国語-英語文からなる高品質の外交的中国語-英語平行データセットを構築しました。最後に、提案された外交的中国語-英語平行データセットと国連平行コーパス(中国語-英語部分)に関する広範な実験は、私たちの提案したAFSPの効果と優位性を示しています。
2025-01-03T07:47:59
BARTPredict: Empowering IoT Security with LLM-Driven Cyber Threat Prediction
http://arxiv.org/abs/2501.01664v1
Alaeddine Diaf, Abdelaziz Amara Korba, Nour Elislem Karabadji, Yacine Ghamri-Doudane
Badji Mokhtar-Annaba University, University of La Rochelle, National Higher School of Technology and Engineering -Annaba, Labouratoire Reseaux et Systemes (LRS), Laboratoire De Technologies Des Systemes Energetiques (LTSE)
様々な分野におけるモノのインターネット(IoT)技術の統合は、運用の進展をもたらしましたが、最近のIoTデバイスに対する広範なサイバー攻撃から明らかなように、サイバーセキュリティの脅威に新たな脆弱性をもたらしました。侵入検知システムは、ネットワーク内で観察された特定のパターンや異常によって引き起こされるリアクティブなものが多いです。この課題に対処するために、本研究は悪意のある活動を予測し、事前に軽減するためのプロアクティブなアプローチを提案しています。これは、潜在的な損害が発生する前に防ぐことを目的としています。この論文では、事前訓練された大規模言語モデル(LLM)によって強化された革新的な侵入予測フレームワークを提案します。このフレームワークは、ネットワークトラフィックを予測するための微調整された双方向および自己回帰変換器(BART)モデルと、予測されたトラフィックを評価するための微調整された双方向エンコーダ表現からの変換器(BERT)モデルの2つのLLMを統合しています。BARTの双方向機能を活用し、このフレームワークはこれらの予測の中から悪意のあるパケットを特定します。CICIoT2023 IoT攻撃データセットを用いて評価した結果、我々のフレームワークは予測性能において顕著な向上を示し、98%という印象的な全体精度を達成しました。これは、IoTネットワークが直面するサイバーセキュリティの課題に対する強力な応答を提供します。
2025-01-03T06:37:39
EAUWSeg: Eliminating annotation uncertainty in weakly-supervised medical image segmentation
http://arxiv.org/abs/2501.01658v1
Wang Lituan, Zhang Lei, Wang Yan, Wang Zhenbin, Zhang Zhenwei, Zhang Yi
Sichuan University, A*STAR
弱監視医療画像セグメンテーションは、正確なピクセルごとのラベルではなく、大まかな注釈のみを必要とするため、専門家の作業負担を軽減し、注目を集めています。進展は見られますが、ラベル効率の高い方法と完全監視の方法との間には依然としてかなりのパフォーマンスギャップがあり、これはこれらの弱いラベルの不確実性に起因しています。この問題に対処するために、我々は注釈の不確実性を排除する新しい弱い注釈方法と、その学習フレームワークEAUWSegを提案します。具体的には、まず病変のために2つのポリゴンを単にラベル付けすることで、制限されたポリゴン注釈(BPAnno)を提案します。次に、制限されたポリゴンを2つの別々の注釈として明示的に扱う適応型学習メカニズムを提案し、モデルの学習のために対抗的な監視信号を提供します。続いて、信頼性のある監視信号を不確実な領域のピクセルに提供するために、分類ガイドの信頼性ジェネレーターを組み込んだ信頼性補助一貫性学習器を設計し、同じカテゴリー内のピクセル間の特徴表現の一貫性と、制限されたポリゴン注釈にカプセル化されたクラス特有の情報を活用します。実験結果は、EAUWSegが既存の弱監視セグメンテーション方法を上回ることを示しています。さらに、完全監視された方法と比較して、提案された方法は優れたパフォーマンスを提供するだけでなく、注釈の作業負担もはるかに少なくて済みます。これは我々のアプローチの優位性と効果を強調しています。
2025-01-03T06:21:02
AVATAR: Adversarial Autoencoders with Autoregressive Refinement for Time Series Generation
http://arxiv.org/abs/2501.01649v1
MohammadReza EskandariNasab, Shah Muhammad Hamdi, Soukaina Filali Boubrahimi
Utah State University
データ拡張は、データ不足に対処し、一般化を改善することによって、機械学習タスクのパフォーマンスを大幅に向上させることができます。しかし、時系列データの生成には独特の課題があります。モデルは、実際のデータ分布を反映する確率分布を学習するだけでなく、固有の時間的依存関係を保持するために、各時間ステップでの条件付き分布も捉える必要があります。これらの課題に対処するため、私たちはAVATARというフレームワークを導入します。このフレームワークは、敵対的オートエンコーダー(AAE)と自己回帰学習を組み合わせ、両方の目標を達成します。具体的には、私たちの技術はオートエンコーダーをスーパーバイザーと統合し、デコーダーが時系列データの時間的動態を学習するのを助けるために新しい監視損失を導入します。さらに、オートエンコーダーの潜在表現の集約事後を事前のガウス分布に効率的に整合させるための「分布損失」と呼ばれる別の革新的な損失関数も提案します。さらに、私たちのフレームワークは、合成損失を使用してすべてのネットワークを同時にトレーニングする共同トレーニングメカニズムを採用し、時系列生成の二重目的を達成します。私たちは、多様な特性を持つさまざまな時系列データセットにわたってこの技術を評価します。実験は、さまざまな定性的および定量的な指標によって評価され、生成されたデータの品質と実用性の両方で大幅な改善を示しています。
2025-01-03T05:44:13
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding
http://arxiv.org/abs/2501.01645v1
Heqing Zou, Tianze Luo, Guiyang Xie, Victor, Zhang, Fengmao Lv, Guangcong Wang, Junyang Chen, Zhuochen Wang, Hansheng Zhang, Huaijian Zhang
Nanyang Technological University, Southwest Jiaotong University, Great Bay University, Shenzhen University, TikTok
マルチモーダル大規模言語モデルは、多くの有望な実世界の応用により、深い視覚理解の分野で人気のあるトピックとなっています。しかし、1時間以上にわたる動画理解(長時間動画理解)は、1)困難な長期動画分析、2)非効率的な大規模モデルアプローチ、3)大規模ベンチマークデータセットの欠如のため、まだ十分に探求されていません。これらの中で、本論文では長時間動画理解モデルを評価するために設計された大規模な1時間動画ベンチマーク、HLV-1Kの構築に焦点を当てます。HLV-1Kは、14,847の高品質な質問応答(QA)および多肢選択質問応答(MCQA)ペアを含む1009本の1時間の動画で構成されており、時間を意識したクエリと多様なアノテーションが含まれています。これは、フレームレベル、イベント内レベル、イベント間レベル、および長期推論タスクをカバーしています。私たちは既存の最先端の手法を使用してこのベンチマークを評価し、異なるレベルやさまざまなタスクで深い長時間動画理解能力をテストするための価値を示します。これには、長時間ライブ動画、会議の録画、映画などの深い理解といった、より粒度の細かい次世代の長時間動画理解タスクの促進が含まれます。
2025-01-03T05:32:37
Artificial Intelligent Implications on Health Data Privacy and Confidentiality
http://arxiv.org/abs/2501.01639v1
Ahmad Momani
人工知能(AI)の医療への迅速な統合は、医療診断、パーソナライズされた医療、および業務効率を革命的に変えています。しかし、これらの進展に伴い、患者のデータプライバシー、倫理的考慮、および規制コンプライアンスに関する重要な課題が浮上しています。本論文では、AIが医療に与える二重の影響を検討し、その変革の潜在能力と敏感な健康情報を保護することの重要性を浮き彫りにします。データプライバシーとセキュリティを確保するための規制の枠組みとして、健康保険の携行性と責任に関する法律(HIPAA)の役割を探求し、AI駆動の医療における堅牢な保護措置と倫理基準の重要性を強調します。糖尿病性網膜症、腫瘍学、データ共有を巡る論争におけるAIの応用などのケーススタディを通じて、本研究はAI導入の倫理的および法的な複雑さを強調します。患者の信頼とプライバシーを維持しつつイノベーションを促進するバランスの取れたアプローチが不可欠です。研究結果は、医療におけるAIの潜在能力を責任を持って倫理的に引き出すために、継続的な教育、透明性、および規制の枠組みの遵守の重要性を強調しています。
2025-01-03T05:17:23
A non-ergodic framework for understanding emergent capabilities in Large Language Models
http://arxiv.org/abs/2501.01638v1
Javier Marin
大型言語モデルは、予期せずにスケールにおいて出現する能力を持っていますが、なぜそしてどのようにそれらが出現するのかを説明するための理論的枠組みが必要です。私たちは、言語モデルが実際には非エルゴード系であることを証明し、能力の出現を説明するためにスチュアート・カウフマンの隣接可能性理論(TAP)に基づいた数学的枠組みを提供します。私たちのリソース制約のあるTAP方程式は、構造的、トレーニング的、コンテクスト的な制約がどのように相互作用し、意味空間における位相転移を通じてモデルの能力を形作るかを示しています。異なる3つの言語モデルを用いた実験を通じて、能力が制約の相互作用と経路依存の探求に導かれた離散的な遷移を通じて出現することを証明します。この枠組みは、言語モデルにおける出現を理解するための理論的基盤を提供し、能力の出現を導くことができるアーキテクチャの開発をガイドします。
2025-01-03T05:11:41
ICPC: In-context Prompt Compression with Faster Inference
http://arxiv.org/abs/2501.01625v1
Ziyang Yu, Yuyu Liu
Southern University of Science and Technology
最近の大規模言語モデル(LLM)の成功にもかかわらず、LLMへの長いプロンプトの入力は、LLMの入力サイズが固定であるため、依然として課題です。この問題を解決するために、冗長なトークンを削除することでプロンプトの圧縮は有望な解決策となります。しかし、既存の研究でLLMを使用することは、追加の計算リソースを必要とし、メモリのオーバーヘッドを引き起こします。この問題に対処するために、我々はICPC(インコンテキストプロンプト圧縮)という新しいスケーラブルなプロンプト圧縮手法を提案します。この手法はプロンプトの長さを適応的に減らします。ICPCの主なアイデアは、エンコーダを使用してプロンプト内の各単語が出現する確率を計算し、情報関数を通じて各単語が持つ情報を計算することです。これにより、プロンプト圧縮中の情報損失を効果的に減少させ、圧縮速度を向上させます。経験的に、ICPCはさまざまなカテゴリの長いテキストを効果的に圧縮でき、それによって異なるタイプのNLPタスクにおいてより良い性能と速度を達成できることを示します。
2025-01-03T03:46:51
Merging Context Clustering with Visual State Space Models for Medical Image Segmentation
http://arxiv.org/abs/2501.01618v1
Yun Zhu, Dong Zhang, Yi Lin, Yifei Feng, Jinhui Tang
Nanjing University of Science and Technology, The Hong Kong University of Science and Technology, Nanjing Medical University
医療画像セグメンテーションは、グローバルおよびローカルな特徴表現の集約を必要とし、長距離および短距離の特徴相互作用の両方を扱うための現在の方法論に課題をもたらしています。最近、ビジョンマンプ(ViM)モデルが、線形の複雑性で長距離特徴の反復に優れることから、モデルの複雑さに対処するための有望な解決策として登場しました。しかし、既存のViMアプローチは、空間トークンを直接フラット化することによって短距離のローカル依存関係を保持する重要性を見落としており、動的な空間コンテキスト情報のキャプチャを制限する固定スキャニングパターンに制約されています。これらの課題に対処するために、コンテキストクラスタリングモジュールを既存のViMモデルに組み込む「コンテキストクラスタリングViM(CCViM)」というシンプルでありながら効果的な方法を提案します。この方法は、画像トークンを明示的にウィンドウにセグメント化し、適応可能なローカルクラスタリングを実現します。我々の方法は、長距離および短距離の特徴相互作用を効果的に組み合わせ、医療画像セグメンテーションタスクのための空間的な文脈表現を強化します。Kumar、CPM17、ISIC17、ISIC18、Synapseといったさまざまな公共データセットでの広範な実験評価により、我々の方法が現行の最先端手法に比べて優れた性能を示すことが確認されました。コードはhttps://github.com/zymissy/CCViMで入手可能です。
2025-01-03T03:25:30
Google is all you need: Semi-Supervised Transfer Learning Strategy For Light Multimodal Multi-Task Classification Model
http://arxiv.org/abs/2501.01611v1
Haixu Liu, Penghao Jiang, Zerui Tao
The University of Sydney
デジタル画像データのボリュームが増加するにつれて、画像分類の有効性が高まります。本研究では、1から19の範囲(12を除く)の複数のカテゴリに関連付けられる可能性のある画像の複雑さに対処するために、1つの画像に複数のラベルを割り当てるように設計された堅牢なマルチラベル分類システムを紹介します。私たちは、先進的な画像認識アルゴリズムと自然言語処理(NLP)モデルを融合させるマルチモーダル分類器を提案し、これらの異なるモダリティを統合するための融合モジュールを組み込んでいます。テキストデータを統合する目的は、視覚分析だけでは完全に把握できない文脈的理解を提供することで、ラベル予測の精度を向上させることです。提案した分類モデルは、画像処理のための畳み込みニューラルネットワーク(CNN)と、テキスト記述(すなわちキャプション)を解析するためのNLP技術を組み合わせています。このアプローチには、各モデルコンポーネントが消失実験を通じて検証され、分析される厳格な訓練および検証フェーズが含まれています。初期結果は、分類器の精度と効率性を示しており、自動画像ラベリングシステムとしての潜在能力を強調しています。
2025-01-03T03:11:17
Few-shot Implicit Function Generation via Equivariance
http://arxiv.org/abs/2501.01601v1
Suizhi Huang, Xingyi Yang, Hongtao Lu, Xinchao Wang
Shanghai Jiao Tong University, National University of Singapore
暗黙的神経表現(INRs)は、連続信号を表現するための強力なフレームワークとして登場しました。しかし、限られたトレーニングデータのため、多様なINR重みを生成することは依然として難しい課題です。私たちは、「Few-shot Implicit Function Generation」という新しい問題設定を提案し、わずか数例から機能的に一貫した多様なINR重みを生成することを目指しています。これは、同じ信号でも最適なINRsが初期化によって大きく変わる可能性があるため、挑戦的です。この問題に対処するために、限られたデータから新しいINRsを生成できるフレームワーク「EquiGen」を提案します。基本的なアイデアは、機能的に類似したネットワークが重みの置換を通じて互いに変換可能であり、同じ同変性グループを形成できるということです。これらの重みを同変性のある潜在空間に投影することで、少数の例でもこれらのグループ内で多様な生成を可能にします。EquiGenは、コントラスト学習と滑らかな拡張を通じて訓練された同変エンコーダー、同変性ガイドの拡散プロセス、および同変サブスペース内での制御された摂動を通じてこれを実装します。2D画像と3D形状のINRデータセットに関する実験は、私たちのアプローチが少数ショットのシナリオでその機能的特性を保持しながら多様なINR重みを効果的に生成することを示しています。
2025-01-03T02:23:55
Prism: Mining Task-aware Domains in Non-i.i.d. IMU Data for Flexible User Perception
http://arxiv.org/abs/2501.01598v1
Yunzhe Li, Facheng Hu, Hongzi Zhu, Quan Liu, Xiaoke Zhao, Jiangang Shen, Shan Chang, Minyi Guo
Shanghai Jiao Tong University, Nanyang Technological University, Ant Group, Donghua University
ユーザーの知覚アプリケーションは、オンライン予測のために慣性計測ユニット(IMU)データを利用しています。しかし、モバイルデバイスから収集されたIMUデータの非独立同分布(non-i.i.d)特性に制約されているため、ほとんどのシステムは制御された環境(特定のユーザーの特定の姿勢など)でしかうまく機能せず、アプリケーションのシナリオが制限されています。モバイルデバイスでの制御されていないオンライン予測、いわゆる柔軟なユーザー知覚(FUP)問題を解決することは魅力的ですが、困難です。本論文では、「Prism」と呼ばれる新しいスキームを提案します。このスキームは、モバイルデバイス上で高いFUP精度を得ることができます。Prismの核心は、IMUデータセットに埋め込まれたタスク認識ドメインを発見し、特定された各ドメインに対してドメイン認識モデルを訓練することです。この目的のために、特定の下流知覚タスクに関して潜在ドメインを推定するための期待値最適化(EM)アルゴリズムを設計しました。最後に、テストサンプルとすべての特定されたドメインを特徴空間で比較することで、最適なモデルを自動的に選択することができます。私たちはPrismをさまざまなモバイルデバイス上で実装し、広範な実験を行いました。結果は、Prismが低遅延で最高のFUPパフォーマンスを達成できることを示しています。
2025-01-03T02:07:42
PSYCHE: A Multi-faceted Patient Simulation Framework for Evaluation of Psychiatric Assessment Conversational Agents
http://arxiv.org/abs/2501.01594v1
Jingoo Lee, Kyungho Lim, Young-Chul Jung, Byung-Hoon Kim
最近の大規模言語モデル(LLM)の進展により、人間に似た応答を生成する会話エージェントの開発が加速しています。精神科評価は通常、精神科医と患者との間で複雑な会話のやり取りを伴うため、臨床評価における精神科医の役割をシミュレーションすることを目的としたLLMベースの精神科評価会話エージェント(PACA)の開発に対する関心が高まっています。しかし、PACAと患者との相互作用の臨床的適切さをベンチマーキングするための標準化された方法はまだ十分に探求されていません。ここでは、1)臨床的関連性、2)倫理的安全性、3)コスト効率、4)定量的評価を実現するために設計された新しいフレームワークであるPSYCHEを提案します。これは、シミュレーションされた患者のプロファイル、歴史、行動を定義する多面的な精神的構築に基づいて精神科患者をシミュレーションすることによって実現され、PACAがその評価を期待されます。私たちは、10人の認定精神科医との研究を通じてPSYCHEの効果を検証し、シミュレーションされた患者の発言に関する詳細な分析を用いてサポートします。
2025-01-03T01:38:46
BLAST: A Stealthy Backdoor Leverage Attack against Cooperative Multi-Agent Deep Reinforcement Learning based Systems
http://arxiv.org/abs/2501.01593v1
Yinbo Yu, Saihao Yan, Xueyu Yin, Jing Fang, Jiajia Liu
Northwestern Polytechnical University
最近の研究によると、協調型マルチエージェント深層強化学習(c-MADRL)はバックドア攻撃の脅威にさらされています。一度バックドアトリガーが観察されると、それは悪意のある行動を実行し、失敗や悪意のある目標に繋がることがあります。しかし、既存のバックドア攻撃はいくつかの問題を抱えています。例えば、即席のトリガーパターンは隠密性に欠け、バックドアは追加のネットワークによって訓練またはアクティブ化されるか、すべてのエージェントがバックドア化されてしまうことです。これを受けて、本論文では、c-MADRLに対する新しいバックドアレバレッジ攻撃を提案します。BLASTは、単一のエージェントにバックドアを埋め込むことで、全体のマルチエージェントチームを攻撃します。まず、私たちは手動で注入された固定視覚パターンや即席の状態の代わりに、バックドアトリガーとして敵の時空間行動パターンを導入し、悪意のある行動を実行する期間を制御します。この方法は、BLASTの隠密性と実用性を保証できます。次に、私たちは一方的なガイダンスを介してバックドアエージェントの元の報酬関数をハックし、BLASTを注入します。これにより、単一のバックドアエージェントを介して全体のマルチエージェントシステムをこじ開けることができる「レバレッジ攻撃効果」を実現します。私たちは、2つの人気のあるc-MADRL環境(SMACとPursuit)で、3つの古典的c-MADRLアルゴリズム(VDN、QMIX、およびMAPPO)に対してBLASTを評価し、2つの既存の防御メカニズムと比較しました。実験結果は、BLASTが高い攻撃成功率を達成しながら、低いクリーンパフォーマンスのばらつき率を維持できることを示しています。
2025-01-03T01:33:29
(WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges
http://arxiv.org/abs/2501.01588v1
Mohamed Hisham Abdellatif
Cairo University
大規模言語モデル(LLM)は、人間のようなテキストを理解し生成する能力が印象的であるため、さまざまな分野で不可欠なツールとなっています。複数選択肢の質問(MCQ)に正確に回答する能力は、特に自動化されたチュータリングシステムや評価プラットフォームにおいて教育において重要な価値を持っています。しかし、LLMをMCQタスクに効果的に対応させることは、幻覚や不明確なプロンプトのために依然として課題です。本研究では、MicrosoftのPHI-3\cite{Abdin2024}という、コンパクトでありながら効率的なLLMのMCQ回答の可能性を探ります。我々の貢献には、TruthfulQAデータセットに基づいたモデルのファインチューニング、モデル性能を向上させるための最適化されたプロンプトの設計、および困惑度や精度、F1スコアといった従来の指標を用いた評価が含まれます。結果は、ファインチューニング後のPHI-3.5のMCQ処理能力に著しい改善が見られ、困惑度が4.68から2.27に減少し、精度が62%から90.8%に上昇したことを示しています。この研究は、適応学習システムや教育評価における効率的なモデルの重要性を強調し、特にテスト準備、生徒のフィードバック、個別化学習などの分野での教室への広範な統合への道を開きます。
2025-01-03T00:56:46