About
arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。
※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。
リスト件数: 45件
リストから抽出されたキーワード: Transformer-based Contrastive Learning, Diffusion Models, Federated Learning
An analytic theory of creativity in convolutional diffusion models
http://arxiv.org/abs/2412.20292v1
Mason Kamb, Surya Ganguli
私たちは、畳み込み拡散モデルにおける創造性の最初の解析可能で解釈可能かつ予測的な理論を得ました。実際に、スコアベースの拡散モデルは、訓練データから大きく離れた非常に創造的な画像を生成することができます。しかし、最適スコアマッチング理論は、これらのモデルが記憶された訓練サンプルしか生成できないはずだと示唆しています。この理論と実験のギャップを調和させるために、私たちは、(1) 最適スコアマッチングを防ぐことによって組み合わせ的な創造性の形を誘導する局所性と同変性という2つのシンプルな帰納的バイアスを特定しています。これにより、(2) 完全に解析的で完全に機械的に解釈可能な同変局所スコア(ELS)マシンが実現され、(3) 訓練なしで訓練された畳み込みのみの拡散モデル(ResNetsやUNetsのような)の出力を高い精度で定量的に予測することができます(CIFAR10、FashionMNIST、MNISTで中央値$r2$はそれぞれ$0.90、0.91、0.94$)。私たちのELSマシンは、拡散モデルが異なる画像位置で異なる局所訓練セットパッチを混ぜ合わせることによって、指数的に多くの新しい画像を生成する、局所的一貫性のあるパッチモザイクモデルの創造性を明らかにします。私たちの理論はまた、事前訓練された自己注意機能付きUNetsの出力を部分的に予測し(CIFAR10で中央値$r2 \sim 0.75$)、局所パッチモザイクから意味的な整合性を切り出す注意の興味深い役割を明らかにします。
2024-12-28T22:33:29
Transformer-Based Contrastive Meta-Learning For Low-Resource Generalizable Activity Recognition
http://arxiv.org/abs/2412.20290v1
Junyao Wang, Mohammad Abdullah Al Faruque
University of California, Irvine
深層学習は人間の活動認識(HAR)に広く採用されていますが、さまざまなユーザーやシナリオに対してトレーニングされたモデルを一般化することは、分布の変化(DS)によって困難です。HARにおける本質的な低リソースの課題、すなわち、人間が関与する十分なデータの収集とラベリングは非常にコストがかかるため、DSへの対応がさらに難しくなります。私たちは、一般化可能なHARのための新しいトランスフォーマーベースのコントラストメタラーニングアプローチであるTACOを提案します。TACOは、モデルの一般化能力を明示的に考慮してトレーニング中に仮想ターゲットドメインを合成することによってDSに対処します。さらに、トランスフォーマーのアテンションメカニズムを用いて表現力のある特徴を抽出し、メタ最適化の中に教師ありコントラスト損失関数を組み込むことで、表現学習を強化します。私たちの評価は、TACOがさまざまな低リソースのDSシナリオで著しく優れたパフォーマンスを達成することを示しています。
2024-12-28T21:57:12
High-fidelity social learning via shared episodic memories enhances collaborative foraging through mnemonic convergence
http://arxiv.org/abs/2412.20271v1
Ismael T. Freire, Paul Verschure
Donders Institute for Brain, Cognition and Behaviour, Radboud University, Alicante Institute of Neuroscience, Universidad Miguel Hernandez de Elche
社会的学習は文化的進化の重要な基盤であり、個人が他者を観察し模倣することで知識を獲得することを可能にします。その効果の中心には、特定の行動シーケンスをエンコードして学習と意思決定を促進するエピソード記憶があります。本研究は、集合的採餌におけるエピソード記憶と社会的学習の相互関係を探ります。エピソード記憶に保存された完全な行動シーケンスを共有できる順次エピソード制御(SEC)エージェントを用いて、社会的学習の頻度と忠実度の変動が協力的採餌パフォーマンスにどのように影響を与えるかを調査します。さらに、集団内での社会的学習のエピソード記憶の内容と分布に与える影響を分析します。高忠実度の社会的学習は、リソースの収集効率と分配を一貫して向上させ、その効果は記憶の長さにかかわらず持続します。対照的に、低忠実度の学習は非社会的学習よりも優れたパフォーマンスを発揮せず、多様で効果のない記憶パターンを広げるだけです。記憶の指標を用いた新しい分析は、高忠実度の社会的学習が記憶のグループ整合性や公平なリソース分配をも促進することを明らかにし、低忠実度の条件ではパフォーマンス向上に結びつかず記憶の多様性が増すことを示しています。また、このタスクにおけるエピソード記憶の長さに最適な範囲を特定し、それを超えるとパフォーマンスが頭打ちになることも示しています。これらの結果は、記憶のグループ整合性と分配に対する社会的学習の重要な影響を強調し、文化的進化を促進する認知メカニズムを探るための神経計算モデルの可能性を明らかにしています。
2024-12-28T20:55:38
How To Think About End-To-End Encryption and AI: Training, Processing, Disclosure, and Consent
http://arxiv.org/abs/2412.20231v1
Mallory Knodel, Andrés Fábrega, Daniella Ferrari, Jacob Leiken, Betty Li Hou, Derek Yen, Sam de Alfaro, Kyunghyun Cho, Sunoo Park
New York University, Cornell University
エンドツーエンド暗号化(E2EE)は、全世界の何十億ものユーザーに強力な機密性およびプライバシーの保証をもたらし、通信を保護するための金標準となりました。しかし、E2EEシステムを含む人工知能(AI)モデルの広範な統合に向けた現在の動きは、いくつかの深刻なセキュリティの懸念を引き起こしています。本研究は、AIモデルとE2EEアプリケーションの(不)適合性を批判的に検証します。我々は、(1) E2EEアプリケーション内でのAI "アシスタント"の統合、および(2) AIモデルのトレーニングに使用するE2EEデータの使用、という2つの側面でこの問題を探ります。それぞれの潜在的なセキュリティの含意を分析し、E2EEのセキュリティ保証との対立を特定します。次に、AI統合がE2EEが約束する機密性を損なう可能性があることを考慮し、E2EEアプリケーションにおけるAIモデルの統合の法的含意を分析します。最後に、我々は技術的および法的分析に基づく詳細な推奨リストを提供します。これには、E2EEセキュリティを維持するために優先すべき技術設計の選択、サービス提供者がE2EEセキュリティを正確に表現する方法、AI機能のデフォルトの動作およびユーザーの同意を求める際のベストプラクティスが含まれています。私たちは、この論文がAIの急速な展開とE2EEが提供するセキュリティとの間に生じる緊張についての情報に基づいた議論を活性化し、新しいAI機能の責任ある開発を導くことを期待しています。
2024-12-28T17:59:21
Leveraging Large Language Models for Enhancing Autonomous Vehicle Perception
http://arxiv.org/abs/2412.20230v1
Athanasios Karagounis
自律走行車(AV)は、その周囲を解釈するために高度な知覚システムに依存しており、安全なナビゲーションと意思決定のための基盤となっています。大規模言語モデル(LLM)をAV知覚フレームワークに統合することは、動的環境、センサーフュージョン、および文脈的推論における課題に対処する革新的なアプローチを提供します。この論文では、LLMをAV知覚に組み込むための新しいフレームワークを提案し、高度な文脈理解、シームレスなセンサー統合、および強化された意思決定サポートを可能にします。実験結果は、LLMがAV知覚システムの精度と信頼性を大幅に向上させることを示しており、安全でよりインテリジェントな自律走行技術への道を切り開いています。従来の方法を超えた知覚の範囲を拡大することで、LLMはより適応的で人間中心の運転エコシステムの構築に寄与し、自律走行車の運用をより信頼性が高く透明にします。これらの進展は、人間のドライバーと自律システムの関係を再定義し、理解の向上とパーソナライズされた意思決定を通じて信頼を促進します。さらに、記憶モジュールと適応学習メカニズムを統合することで、LLMはAV知覚における継続的な改善を導入し、車両が時とともに進化し、変化する環境やユーザーの好みに適応できるようにします。
2024-12-28T17:58:44
Decoding Emotion: Speech Perception Patterns in Individuals with Self-reported Depression
http://arxiv.org/abs/2412.20213v1
Guneesh Vats, Priyanka Srivastava, Chiranjeevi Yarra
現在の研究は、インドの人口における自己報告された抑うつ症状と感情的なスピーチの知覚の関係を調査しています。PANASとPHQ-9を使用して、それぞれ現在の気分と抑うつを評価しました。参加者の感情的反応性は、提示された感情的スピーチ音声に対して、バレンスと覚醒の尺度で記録されました。中立的な感情を描いた音声ファイルを除き、抑うつ群と非抑うつ群の間で感情刺激について有意差は観察されませんでした。抑うつ群のPANASスコアが非抑うつ群より有意に高いことは、先天的な気分が現在の気分状態に影響を与えることを示しています。以前の研究結果とは対照的に、この研究では抑うつ群によるポジティブな感情的反応性の低下は観察されませんでした。しかし、結果は、悲しみや怒りを描写したスピーチ刺激に対する感情的反応性の一貫性を示しました。
2024-12-28T16:54:25
Building a Rich Dataset to Empower the Persian Question Answering Systems
http://arxiv.org/abs/2412.20212v1
Mohsen Yazdinejad, Marjan Kaedi
質問応答システムは、質問に対して短く、正確で具体的な回答を提供します。これまで、多くの堅牢な質問応答システムが英語向けに開発されてきましたが、ペルシャ語のようなリソースが少ない言語には標準データセットがほとんどありません。本研究では、ペルシャ語のための包括的なオープンドメインデータセットを提案します。このデータセットはNextQuADと呼ばれ、7,515のコンテキスト、23,918の質問と回答を含んでいます。その後、ParsBERTとXLM-RoBERTaという2つの事前学習済み言語モデルを用いて、このデータセットにBERTベースの質問応答モデルを適用しました。これら2つのモデルの結果は、平均ロジットを使用してアンサンブルされました。開発セットに対する評価では、0.95の正確な一致(EM)と0.97のF1スコアを示しました。また、NextQuADを他のペルシャ語データセットと比較するために、NextQuADで訓練された私たちのモデルは、PersianQAとParSQuADという2つの他のデータセットで評価されました。比較の結果、提案されたモデルはそれぞれPersianQAとParSQuAD-manualでEMを0.39と0.14増加させる一方、ParSQuAD-automaticではわずかにEMが0.007低下しました。
2024-12-28T16:53:25
Towards Real-Time 2D Mapping: Harnessing Drones, AI, and Computer Vision for Advanced Insights
http://arxiv.org/abs/2412.20210v2
Bharath Kumar Agnur
この論文では、ドローン画像と機械学習、コンピュータビジョンを組み合わせた先進的なマッピングシステムを紹介し、さまざまな地形における速度、精度、適応性の課題を克服します。特徴検出、画像マッチング、ステッチングなどのプロセスを自動化することにより、システムは最小限の遅延でシームレスで高解像度のマップを生成し、防衛作戦における戦略的な利点を提供します。Pythonで開発されたこのシステムは、画像処理にOpenCV、効率的な計算にはNumPy、並列実行にはConcurrent.futuresを利用しています。特徴検出にはORB(Oriented FAST and Rotated BRIEF)が使用され、FLANN(Fast Library for Approximate Nearest Neighbors)は正確なキーポイントマッチングを保証します。ホモグラフィー変換により、重なり合った画像が整列され、歪みのない地図がリアルタイムで生成されます。この自動化により手動介入が排除され、急速に変化する環境において重要なライブ更新が可能です。多様性を考慮して設計されたこのシステムは、さまざまな照明条件と厳しい地形の下でも信頼性を持って機能し、航空宇宙および防衛アプリケーションに非常に適しています。テストでは、従来の方法と比較して処理速度と精度に顕著な改善が見られ、状況認識と情報に基づく意思決定の向上をもたらしています。このスケーラブルなソリューションは、最先端の技術を活用して、ミッションにおいて重要な運用のための実用的で信頼できるデータを提供します。
2024-12-28T16:47:18
Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems
http://arxiv.org/abs/2412.20201v1
Wen-Dong Jiang, Chih-Yung Chang, Hsiang-Chuan Chang, Ji-Yuan Chen, Diptendu Sinha Roy
弱監視モニタリング異常検出(WSMAD)は、スマートシティモニタリングにおいて重要なタスクである異常を特定するために弱監視学習を利用します。しかし、既存のマルチモーダルアプローチは、その複雑性のためにエッジデバイスのリアルタイム性や解釈可能性の要件を満たせないことがよくあります。本論文では、TCVADS(2段階クロスモーダルビデオ異常検出システム)を提案します。このシステムは知識蒸留とクロスモーダル対比学習を活用し、エッジデバイス上で効率的、正確かつ解釈可能な異常検出を実現します。TCVADSは2つの段階で動作します:粗粒度の迅速分類と微粒度の詳細分析です。第一段階では、TCVADSがビデオフレームから特徴を抽出し、それを時系列分析モジュールに入力します。このモジュールは教師モデルとして機能します。次に、知識蒸留を通じて洞察を簡素化された畳み込みネットワーク(生徒モデル)に転送し、二値分類を行います。異常を検出すると、第二段階がトリガーされ、精密なマルチクラス分類モデルを使用します。この段階では、CLIPを使用してテキストと画像とのクロスモーダル対比学習を行い、解釈可能性を高め、特別に設計された三重テキスト関係を通じて精緻な分類を達成します。実験結果は、TCVADSがモデル性能、検出効率、および解釈可能性において既存の手法を大幅に上回り、スマートシティモニタリングアプリケーションに貴重な貢献を提供することを示しています。
2024-12-28T16:24:35
Federated Unlearning with Gradient Descent and Conflict Mitigation
http://arxiv.org/abs/2412.20200v1
Zibin Pan, Zhichao Wang, Chi Li, Kaiyan Zheng, Boqi Wang, Xiaoying Tang, Junhua Zhao
フェデレーテッドラーニング(FL)は近年多くの注目を集めています。しかし、クライアントはFLにおいて自分のデータを共有する必要がないにもかかわらず、グローバルモデル自体はクライアントのローカルデータを暗黙的に記憶する可能性があります。したがって、プライバシー漏洩のリスクを軽減し、「忘れられる権利」を実装するために、ターゲットクライアントのデータをFLのグローバルモデルから効果的に削除する必要があります。フェデレーテッドアンラーニング(FU)は、完全な再訓練なしでデータを削除する有望な方法と考えられています。しかし、アンラーニングの過程で勾配の競合により、モデルの有用性が著しく低下することがあります。さらに、モデルの有用性を回復するためのポストトレーニングを行う際、モデルはもともとアンラーニングされた内容に戻りやすくなる傾向があります。これらの問題に対処するために、私たちは直交最急降下法によるフェデレーテッドアンラーニング(FedOSD)を提案します。まず、勾配の上昇の収束問題を克服するために、アンラーニング用のクロスエントロピー損失を設計します。そして、他のクライアントの勾配と競合しないように、かつターゲットクライアントの勾配に最も近い条件で、アンラーニングのための最急降下方向を計算します。これにより、効果的にアンラーニングを行い、モデルの有用性の低下を軽減します。アンラーニング後には、アンラーニングの達成を維持することによってモデルの有用性を回復します。最後に、いくつかのFLシナリオでの広範な実験により、FedOSDがアンラーニングとモデルの有用性の観点で最先端のFUアルゴリズムを上回ることが確認されました。
2024-12-28T16:23:10
Lower bounds on transformers with infinite precision
http://arxiv.org/abs/2412.20195v1
Alexander Kozachinskiy
このノートでは、VC次元技術を使用して、無限精度の1層ソフトマックストランスフォーマーに対する最初の下限を証明します。これをするために、Peng、Narayanan、Papadimitriouによって考慮された関数合成タスクと、Sanford、Hsu、Telgarskyによって考慮されたSUM$_2$タスクの2つのタスクを扱います。
2024-12-28T16:09:25
Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker
http://arxiv.org/abs/2412.20193v1
Jiangdong Fan, Hongcai He, Paul Weng, Hui Xu, Jie Shao
University of Electronic Science and Technology of China, Duke Kunshan University, Sichuan Artificial Intelligence Research Institute
模倣学習における主要なボトルネックは、大量の専門家デモンストレーションが必要であることであり、それは高価であったりアクセスが困難であったりします。厳密な品質要件なしに補助的なデモンストレーションから学ぶことが、この課題に対処するための強力なパラダイムとして浮上しています。しかし、従来の方法では、専門家データでないものを排除することでその可能性を十分に活用できていないことがよくあります。私たちの重要な洞察は、たとえ専門家の分布の外にあるデモンストレーションであっても、学習したポリシーより優れている場合、ポリシーの性能を向上させることができるということです。この可能性を利用するために、私たちは「行動ランカーを用いたメタ学習による模倣学習(ILMAR)」という新しいアプローチを提案します。ILMARは、限られた専門家デモンストレーションセットとともに補助的デモンストレーションに対して加重行動クロー二ング(加重BC)を実装します。これは、アドバンテージ関数の機能を利用して、補助的デモンストレーションからの知識を選択的に統合します。補助的デモンストレーションをより効果的に活用するために、ILMARにメタゴールを導入して、現在のポリシーと専門家ポリシーの間の距離を明示的に最小化することでアドバンテージ関数の機能を最適化します。広範なタスクを用いた包括的な実験により、ILMARは非最適デモンストレーションを扱う際に従来の方法に比べて著しく優れていることが示されています。コードは https://github.com/F-GOD6/ILMAR で入手可能です。
2024-12-28T16:06:44
Real-time Calibration Model for Low-cost Sensor in Fine-grained Time series
http://arxiv.org/abs/2412.20170v1
Seokho Ahn, Hyungjin Kim, Sungbok Shin, Young-Duk Seo
University of Maryland, College Park
センサーからの正確な測定は重要ですが、データは通常、低コストで低技術のシステムから収集されるため、しばしば不正確です。そのため、さらなるキャリブレーションが必要です。この目的のために、まず実際の低技術センサー条件下での効果的なキャリブレーションのための3つの要件を特定します。これらの要件に基づいて、我々はTESLAというモデルを開発します。TESLAは、対数ビン注意を利用した効果的なセンサーキャリブレーションのためのトランスフォーマーです。TESLAは、高性能の深層学習モデルであるトランスフォーマーを使用してキャリブレーションを行い、非線形の要素を捉えます。その核となるのは、注意の複雑性を最小限に抑えるために、対数ビニングを採用していることです。TESLAは、ハードウェア制約のあるシステムにおいても、長いシーケンスやより細かい時間系列であっても、一貫したリアルタイムのキャリブレーションを実現します。実験結果は、TESLAが精度、キャリブレーション速度、エネルギー効率において既存の新しい深層学習モデルや新たに作成された線形モデルよりも優れていることを示しています。
2024-12-28T14:58:46
LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System
http://arxiv.org/abs/2412.20166v1
Hyucksung Kwon, Kyungmo Koo, Janghyeon Kim, Woongkyu Lee, Minjae Lee, Hyungdeok Lee, Yousub Jung, Jaehan Park, Yosub Song, Byeongsu Yang, Haerang Choi, Guhyun Kim, Jongsoon Won, Woojae Shin, Changhyun Kim, Gyeongcheol Shin, Yongkee Kwon, Ilkon Kim, Euicheol Lim, John Kim, Jungwook Choi
Hanyang University, Solution Advanced Technology, SK hynix, KAIST
大規模言語モデル(LLM)の拡張は、数百億のパラメータを持ち、計算リソース、特にデータ移動とメモリ帯域幅に対して重大な課題を提示します。数万トークンのシーケンスを処理する長いコンテキストのLLMは、注意層の複雑さとキー・バリューキャッシュのサイズがコンテキストの長さに比例するため、メモリシステムに対する要求をさらに高めます。プロセッシング・イン・メモリ(PIM)は、計算をデータに移動させることによってメモリ帯域幅を最大化し、メモリ帯域幅の課題に対応できますが、PIMはモジュールあたりの限られたメモリ容量と固定機能ユニットPIMアーキテクチャおよび静的メモリ管理の柔軟性のなさにより、長いコンテキストのLLMを加速するために必ずしもスケーラブルではありません。本研究では、ハードウェア・ソフトウェア共同設計を通じて長いコンテキストのLLMを加速するマルチノードPIMアーキテクチャであるLoL-PIMを提案します。具体的には、マルチPIMモジュール間でパイプライン並列性を活用する方法を提案し、動的なPIMメモリ管理を可能にし、さまざまなコンテキスト長に対してPIMの利用効率を向上させる直接PIMアクセス(DPA)コントローラー(またはPIM用DMA)を提案します。私たちは、商業用のPIMベースのコンパイラを拡張したLoL-PIM用のMLIRベースのコンパイラを開発し、ソフトウェアの変更が実装され評価された一方で、ハードウェアの変更はシミュレーターでモデル化されました。評価の結果、LoL-PIMは長いコンテキストのLLM推論のスループットを大幅に改善し、レイテンシを低減し、マルチGPUおよびGPU-PIMシステムの両方を上回る(それぞれ最大8.54倍および16.0倍のスピードアップ)ことが示され、これにより実世界のアプリケーションにおけるLLMのより効率的な展開が可能になります。
2024-12-28T14:38:16
StyleAutoEncoder for manipulating image attributes using pre-trained StyleGAN
http://arxiv.org/abs/2412.20164v1
Andrzej Bedychaj, Jacek Tabor, Marek Śmieja
ディープ条件生成モデルは、高品質な画像を生成し、その属性を編集するための優れたツールです。しかし、最新の生成モデルをゼロからトレーニングすることは非常に高価であり、大規模な計算リソースを必要とします。本論文では、スタイルオートエンコーダ(StyleAutoEncoder、StyleAE)という軽量なオートエンコーダモジュールを紹介します。これは事前トレーニングされた生成モデルのプラグインとして機能し、画像の要求された属性を操作することを可能にします。提案された方法は、限られた計算リソースでディープ生成モデルをトレーニングするためのコスト効果的な解決策を提供し、さまざまなアプリケーションにおいて有望な技術となります。私たちは、現在最も優れた生成モデルの1つであるスタイルGAN(StyleGAN)と組み合わせて、スタイルオートエンコーダを評価します。我々の実験は、スタイルオートエンコーダが、可逆的正規化フローに基づく最先端のアルゴリズムと同等以上に画像属性を操作するのに効果的であることを示しています。しかし、スタイルオートエンコーダはよりシンプルで、速く、ニューラルネットワークの設計においてより自由度を提供します。
2024-12-28T14:30:48
Topic-Aware Knowledge Graph with Large Language Models for Interoperability in Recommender Systems
http://arxiv.org/abs/2412.20163v1
Minhye Jeon, Seokho Ahn, Young-Duk Seo
Inha University
知識グラフを用いたレコメンダーシステムの利用は、データのスパース性やコールドスタート問題に対処するための一般的なアプローチの一つとなっています。最近の大規模言語モデル(LLM)の進展は、知識グラフ内でのサイド情報やコンテキスト情報の処理に新たな可能性を提供しています。しかし、ドメイン専門家の介入が必要であり、システムの特性の違いから、さまざまなシステム全体での一貫した統合は依然として困難です。これらの問題に対処するために、我々はLLMを使用してサイド情報とコンテキスト情報の両方から、一般的なトピックと特定のトピックの両方を抽出する一貫したアプローチを提案します。まず、一般的なトピックがサイド情報から反復的に抽出され、更新されます。次に、コンテキスト情報を使用して特定のトピックが抽出されます。最後に、特定のトピック抽出プロセス中に生成された同義的なトピックに対処するために、洗練アルゴリズムを利用してこれらの問題を効果的に処理し、解決します。このアプローチにより、一般的なトピックは多様なアイテム特性にわたる広範な知識を捉え、一方で特定のトピックは詳細な属性を強調し、アイテムの意味的特徴やユーザーの嗜好についてのより包括的な理解を提供します。実験結果は、多様な知識グラフにおけるレコメンデーション性能の大幅な改善を示しています。
2024-12-28T14:27:45
Stable-TTS: Stable Speaker-Adaptive Text-to-Speech Synthesis via Prosody Prompting
http://arxiv.org/abs/2412.20155v1
Wooseok Han, Minki Kang, Changhun Kim, Eunho Yang
KAIST, AITRICS
スピーカー適応型テキスト音声合成(TTS)は、パーソナライズされた音声アシスタントサービスなど、幅広いアプリケーションのために注目を集めています。いくつかのアプローチが提案されていますが、これらはしばしばターゲット音声サンプルの量または質に対して高い感度を示します。これらの制限を克服するために、我々はStable-TTSを提案します。これは、高品質の事前学習データセットの小さなサブセットを利用する新しいスピーカー適応型TTSフレームワークであり、これを「事前サンプル」と呼びます。具体的には、Stable-TTSは、事前サンプルの高品質の韻律を活用することで韻律の一貫性を達成し、ターゲットスピーカーの音色を効果的に捉えます。さらに、ターゲットサンプルに過剰適合しないよう、事前サンプルの合成能力を維持するためにファインチューニング中に事前保持損失を採用しています。広範な実験により、限られた量の音声サンプルやノイズが含まれるターゲット音声サンプルの下でも、Stable-TTSの効果ivenessが示されています。
2024-12-28T13:54:30
TradingAgents: Multi-Agents LLM Financial Trading Framework
http://arxiv.org/abs/2412.20138v1
Yijia Xiao, Edward Sun, Di Luo, Wei Wang
自動問題解決において、大規模言語モデル(LLM)によって駆動されるエージェントの社会を用いた重要な進展がありました。金融分野では、主に特定のタスクを処理する単一エージェントシステムや、独立してデータを収集するマルチエージェントフレームワークに焦点が当てられてきました。しかし、マルチエージェントシステムがリアルワールドのトレーディング会社の協調的なダイナミクスを再現する可能性は十分に探求されていません。TradingAgentsは、トレーディング会社に触発された新しい株式取引フレームワークを提案します。このフレームワークは、ファンダメンタル分析者、センチメント分析者、テクニカル分析者、リスクプロファイルの異なるトレーダーなどの専門的な役割を持つLLM駆動のエージェントで構成されています。このフレームワークには、市場の状況を評価するブル及びベアリサーチエージェント、エクスポージャーを監視するリスク管理チーム、議論や歴史的データから洞察を統合して情報に基づいた意思決定を行うトレーダーが含まれています。動的で協調的な取引環境をシミュレートすることで、このフレームワークは取引パフォーマンスの向上を目指しています。詳細なアーキテクチャと広範な実験により、ベースラインモデルに対する優位性が明らかになり、累積リターン、シャープレシオ、最大ドローダウンにおいて顕著な改善が示され、金融取引におけるマルチエージェントLLMフレームワークの可能性が強調されています。
2024-12-28T12:54:06
M-MAD: Multidimensional Multi-Agent Debate Framework for Fine-grained Machine Translation Evaluation
http://arxiv.org/abs/2412.20127v1
Zhaopeng Feng, Jiayuan Su, Jiamei Zheng, Jiahan Ren, Yan Zhang, Jian Wu, Hongwei Wang, Zuozhu Liu
Zhejiang University, National University of Singapore
最近の大規模言語モデル(LLM)の進展は、LLMを裁判官として用いるパラダイムを生み出し、人間らしい判断を提供する可能性を示しています。しかし、機械翻訳(MT)評価の分野では、現在のLLMを裁判官として用いる手法は、学習された自動評価指標には及びません。本論文では、先進的なLLMを裁判官として用いるMT評価のための体系的なLLMベースのマルチエージェントフレームワークである多次元マルチエージェント討論(M-MAD)を提案します。我々の研究結果は、M-MADが次の方法で重要な進展を遂げることを示しています。(1) ヒューリスティックなMQM基準を明確な評価次元に分離し、詳細な評価を実現する。(2) マルチエージェント討論を用いてLLMの協調的推論能力を活用する。(3) 次元特有の結果を最終評価判断に統合し、堅牢で信頼性の高い結果を保証する。包括的な実験により、M-MADは既存のすべてのLLMを裁判官として用いる手法を上回るだけでなく、最先端の参照ベースの自動指標とも競争できることが示されました。たとえGPT-4o miniのような最適でないモデルであってもです。詳細なアブレーションと分析は、我々のフレームワーク設計の優位性を浮き彫りにし、LLMを裁判官として用いるパラダイムに新たな視点を提供します。我々のコードとデータは、https://github.com/SU-JIAYUAN/M-MAD で公開されています。
2024-12-28T12:11:28
SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis
http://arxiv.org/abs/2412.20104v1
Wenkun He, Yun Liu, Ruitao Liu, Li Yi
Tsinghua University, Shanghai Qi Zhi Institute, Shanghai Artificial Intelligence Laboratory
リアルな人間と物体の相互作用モーションを合成することは、VR/ARや人間のアニメーションにおいて重要な問題です。一般的に研究されているシナリオが単一の人間または手が一つの物体と相互作用することに焦点を当てているのに対し、我々は任意の数の人間、手、物体を含むより一般的な多体設定に取り組みます。この複雑さは、体同士の高い相関や相互影響のためにモーションの同期に大きな課題をもたらします。これらの課題に対処するため、我々はSyncDiffという新しい手法を提案します。これは、同期されたモーション拡散戦略を使用した多体相互作用合成のための新しい方法です。SyncDiffは、単一の拡散モデルを使用して多体モーションの共同分布をキャプチャします。モーションの忠実度を向上させるため、周波数領域のモーション分解スキームを提案します。さらに、異なる体のモーションの同期を強調するための新しい一連のアライメントスコアを導入します。SyncDiffは、明示的な同期戦略を通じてデータサンプルの尤度とアライメントの尤度の両方を共同で最適化します。様々な多体構成の4つのデータセットにおける広範な実験は、既存の最先端モーション合成手法に対してSyncDiffの優位性を実証しています。
2024-12-28T10:12:12
RFPPO: Motion Dynamic RRT based Fluid Field - PPO for Dynamic TF/TA Routing Planning
http://arxiv.org/abs/2412.20098v1
Rongkun Xue, Jing Yang, Yuyang Jiang, Yiming Feng, Zi Yang
既存のローカル動的経路計画アルゴリズムは、地形追従/地形回避、または大中型固定翼航空機の動的障害物回避に直接適用した場合、リアルタイム性能、長距離計画、および大中型航空機の動的制約要件を同時に満たすことができません。この問題に対処するために、本論文では動的TF/TA経路計画のための運動動的RRTベースの流体場 - PPOを提案します。まず、近接ポリシー勾配アルゴリズムのアクションおよび状態空間を、擾乱流場と人工ポテンシャル場アルゴリズムを用いて再設計し、航空機の動力学モデルを構築し、このモデルに基づいて状態遷移プロセスを設計します。さらに、障害物回避、地形追従、地形回避、安全飛行の戦略を奨励するための報酬関数を設計します。実際のDEMデータに基づく実験結果は、我々のアルゴリズムが動的制約に従った衝突のない軌道計画を通じて長距離飛行タスクを完了できることを示しており、事前のグローバル計画を必要としません。
2024-12-28T09:42:02
From Worms to Mice: Homeostasis Maybe All You Need
http://arxiv.org/abs/2412.20090v1
Jesus Marco de Lucas
Instituto de Física de Cantabria, CSIC, Universidad de Cantabria
この簡潔で投機的なコメントでは、機械学習におけるニューラルネットワークに触発されたアイデアを探ります。刺激的および抑制的な接続を含む単純なニューラルXORモチーフが、生物の神経回路における関連する可塑性の基盤を提供し、ホメオスタシスを唯一の指針原則とする可能性を提案します。このXORモチーフは、到達信号と参照信号の間の不一致を単に示し、神経回路の学習における損失関数の基盤を提供し、同時にこれらの到達信号の伝播を停止することでホメオスタシスを調節します。コアモチーフは、興奮性ニューロンと抑制性ニューロンの比率が4:1であり、「ウィナー・テイクス・オール」(WTA)メカニズムのような広範な神経パターンを支援しています。私たちは、異なる複雑さを持つさまざまな生物の公開コネクトームにおけるXORモチーフの普及を調査し、C. elegansの数十から、いくつかのショウジョウバエの神経節における数百万、さらにはマウスV1視覚皮質における数千万以上にわたることを発見しました。もしこの仮説が確認されれば、我々の仮説は機械学習モデルに類似した三つの重要なコンポーネントのうちの二つを特定します:アーキテクチャと損失関数です。そして、我々は、関連する種類の生物学的神経可塑性は、進化を通じて生物の複雑さが増すにもかかわらず持続し適応してきた基本的な制御または調整システムによって単純に駆動されると提案します。
2024-12-28T09:17:09
An archaeological Catalog Collection Method Based on Large Vision-Language Models
http://arxiv.org/abs/2412.20088v1
Honglin Pang, Yi Chang, Tianjing Duan, Xi Yang
Jilin University
考古学のカタログは、遺物の画像、形態的な説明、発掘情報などの重要な要素を含んでおり、遺物の進化や文化的継承を研究するために不可欠です。これらのデータは出版物に広く散在しており、自動収集方法が必要です。しかし、既存の大規模視覚言語モデル(VLM)およびその派生データ収集方法は、考古学のカタログを処理する際に正確な画像検出とモダリティの一致に関する課題に直面しており、自動収集が難しくなっています。これらの問題に対処するために、私たちは大規模視覚言語モデルに基づく新しい考古学カタログ収集方法を提案します。この方法は、文書の位置特定、ブロックの理解、ブロックの一致という3つのモジュールから構成されています。DabagouおよびMiaozigouの陶器カタログからの実際のデータ収集と比較実験を通じて、私たちのアプローチの効果を実証し、考古学カタログの自動収集に対する信頼できる解決策を提供します。
2024-12-28T09:10:41
On the Validity of Traditional Vulnerability Scoring Systems for Adversarial Attacks against LLMs
http://arxiv.org/abs/2412.20087v1
Atmane Ayoub Mansour Bahar, Ahmad Samer Wazan
この研究は、Common Vulnerability Scoring System (CVSS)のような確立された脆弱性指標が、大規模言語モデル(LLMs)に対する攻撃、特に敵対的攻撃(AAs)の評価においてどれほど効果的であるかを調査します。この研究では、一般的な指標要因と特定の指標要因の両方が脆弱性スコアの決定に与える影響を探求し、これらの指標の潜在的な改善に関する新たな視点を提供します。
この研究は定量的アプローチを採用し、56種類の敵対的攻撃に対する脆弱性スコアの変動係数を計算し比較しました。攻撃はさまざまな研究論文から収集され、オンラインデータベースを通じて取得され、複数の脆弱性指標を用いて評価されました。スコアは、3つの異なるLLMによって評価された値の平均をとることによって決定されました。
結果は、既存のスコアリングシステムが異なる攻撃間で最小限の変動を持つ脆弱性スコアを生成することを示しており、多くの指標要因はLLMsに対する敵対的攻撃を評価するには不十分であることを示唆しています。これは特に、CVSSのような事前定義された値セットを持つ文脈特有の要因に当てはまります。これらの発見は、現在の脆弱性指標、特に硬直した値を持つものがLLMsに対するAAsの評価において限界があるという仮説を支持しており、そのため、このような攻撃に特化したより柔軟で一般化された指標の開発の必要性を強調しています。
この研究は、特に最近注目を集めている大規模言語モデルに対する敵対的攻撃の文脈において、確立された脆弱性指標の効果と適用可能性についての新たな分析を提供します。広範なテストと計算を通じて、この研究はこれらの指標の限界を強調し、LLMsに特化した脆弱性評価フレームワークの改善と洗練のための新たな道を切り開いています。
2024-12-28T09:08:37
MAFT: Efficient Model-Agnostic Fairness Testing for Deep Neural Networks via Zero-Order Gradient Search
http://arxiv.org/abs/2412.20086v1
Zhaohui Wang, Min Zhang, Jingran Yang, Bojie Shao, Min Zhang
East China Normal University
ディープニューラルネットワーク(DNN)は、さまざまな応用において強力な性能を示しており、意思決定システムでの利用が増えています。しかし、DNNにおける公正性に関する懸念は常に存在します。個々の公正性に関する効率的なホワイトボックス公平性テスト手法が提案されています。それにもかかわらず、ブラックボックス手法の開発は停滞しており、既存の手法の性能はホワイトボックス手法に比べて大きく劣っています。本論文では、モデル非依存型公正性テスト(MAFT)と呼ばれる新しいブラックボックス個別公正性テスト手法を提案します。MAFTを活用することで、実務者は特定のアルゴリズムやアーキテクチャに依存することなく、ディープラーニングモデルにおける差別を効果的に特定し、対処することができます。我々のアプローチは、シンボル実行のような非自明な手順ではなく、勾配推定や属性摂動のような軽量な手順を採用しているため、既存の手法よりもはるかにスケーラブルで適用可能です。MAFTは最先端のホワイトボックス手法と同じ効果を達成しながら、大規模ネットワークへの適用可能性を改善することを示しています。既存のブラックボックスアプローチと比較して、我々のアプローチは公正性の違反を発見する上での効果(約14.69倍)および効率(約32.58倍)において優れた性能を示しています。
2024-12-28T09:07:06
Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset
http://arxiv.org/abs/2412.20072v2
Chongjian Yue, Xinrun Xu, Xiaojun Ma, Lun Du, Zhiming Ding, Shi Han, Dongmei Zhang, Qi Zhang
Peking University, Chinese Academy of Sciences, Microsoft, Ant Group
大規模言語モデル(LLM)は、テキスト理解や表形式の推論タスクにおいて優れた性能を示しています。しかしながら、テキストデータと表データを含むハイブリッドテキストを理解し分析する能力は、未だ探求されていません。このハイブリッドテキストは、ハイブリッド長文書(HLD)の形で現れることが多く、LLMのトークン制限を大幅に超えています。そのため、私たちは自動情報抽出フレームワーク(AIE)を適用し、LLMがHLDを処理できるようにし、HLDからの情報抽出の4つの重要な側面を分析する実験を行います。得られた結果は以下の通りです:1) HLDの有用な部分を選択して要約する効果的な方法。2) 簡単な表のシリアル化方法でLLMが表を理解するのに十分であること。3) ナイーブなAIEは多くの複雑なシナリオに適応可能であること。4) HLDにおけるLLMを強化するための有用なプロンプトエンジニアリング。HLDにおけるデータセットの不足の問題に対処し、今後の研究をサポートするために、私たちは「金融報告数値抽出(FINE)」データセットも提案します。このデータセットとコードは、添付ファイルで公開されています。
2024-12-28T07:54:14
On the Compositional Generalization of Multimodal LLMs for Medical Imaging
http://arxiv.org/abs/2412.20070v1
Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
The Chinese University of Hong Kong, Shenzhen
マルチモーダル大規模言語モデル(MLLMs)は医療分野において大きな可能性を秘めていますが、特定の医療分野でのデータ不足がその能力を制限することが多く、MLLMsが一般化のためにどのような種類の画像を使用できるかを理解する必要があります。現在の研究では、異なるタスクが互いに利益をもたらす可能性があるため、マルチタスクトレーニングが単一タスクよりも優れていることが示唆されていますが、これらのタスク内の内部関係を見落としてしまうことが多く、特定のタスクを強化するためのデータセット選択に関する限られた指針しか提供していません。この現象を分析するために、私たちは合成一般化(CG)—モデルが学習した要素を再結合することで新しい組み合わせを理解する能力—を指導フレームワークとして採用しようとしました。医療画像はモダリティ、解剖領域、およびタスクによって正確に定義できるため、CGを探る環境を自然に提供します。したがって、私たちは包括的な実験のために106の医療データセットを集めてMed-MATを作成しました。実験結果は、MLLMsがCGを使用して未見の医療画像を理解できることを確認し、CGがマルチタスクトレーニングで観察される一般化の主な推進要因の一つであることを特定しました。さらに、追加の研究では、CGがデータが限られたデータセットを効果的にサポートし、さまざまなバックボーンにおいて一貫したパフォーマンスを提供することが示され、その多用途性と広範な適用性が強調されました。Med-MATは、https://github.com/FreedomIntelligence/Med-MAT で公開されています。
2024-12-28T07:50:00
The Emotional Spectrum of LLMs: Leveraging Empathy and Emotion-Based Markers for Mental Health Support
http://arxiv.org/abs/2412.20068v1
Alessandro De Grandi, Federico Ravenda, Andrea Raballo, Fabio Crestani
Università della Svizzera italiana
メンタルヘルスサービスの需要の増加は、特にセンシティブなデータの利用可能性が限られている心理的会話AIの分野において、革新的なソリューションの必要性を浮き彫りにしています。本研究では、説明可能な感情プロファイルと共感的な会話モデルを組み合わせた新しい心理評価アプローチに基づくメンタルヘルスサポート向けのシステムの開発を探求しました。これにより、特に即時の専門知識が利用できない場合に、従来のケアを強化する有望なツールを提供します。私たちの研究は、互いに内在的に関連する二つの主要な部分に分けることができます。まず、RACLETTEという会話システムを紹介します。このシステムは、ユーザーの感情状態を理解し、会話中に共感的な応答を生成する際に、最先端のベンチマークと比較して優れた感情的正確性を示しながら、ユーザーのインタラクションを通じて徐々に感情プロファイルを構築します。次に、ユーザーの感情プロファイルがメンタルヘルス評価の解釈可能な指標としてどのように使用されるかを示します。これらのプロファイルは、異なる精神障害に関連する特性感情パターンと比較できるため、予備的なスクリーニングおよび支援への新しいアプローチを提供します。
2024-12-28T07:42:29
VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition
http://arxiv.org/abs/2412.20064v1
Lan Chen, Haoxiang Yang, Pengpeng Shao, Haoyu Song, Xiao Wang, Zhicheng Zhao, Yaowei Wang, Yonghong Tian
Anhui University, Tsinghua University, Harbin Institute of Technology, Peking University, Peng Cheng Laboratory
RGBおよびイベントカメラを活用したパターン認識は、ファインチューニング戦略を利用した深層ニューラルネットワークを展開することで、パフォーマンスを大幅に向上させることができます。大規模モデルの成功した適用にインスパイアされたこのような大規模モデルの導入は、マルチモーダルタスクのパフォーマンスをさらに向上させるものと考えられます。しかし、これらのモデルを完全にファインチューニングすることは非効率的であり、LoRAやアダプターなどの軽量ファインチューニング手法が提案され、効率とパフォーマンスの良いバランスを実現しています。当社の知識の限りでは、事前にトレーニングされた基盤モデルに基づくRGB-イベント認識のためのパラメータ効率の良いファインチューニング(PEFT)を実施した研究は現在存在しません。この問題に対処するために、本論文では、RGB-イベントベースの分類のために事前にトレーニングされた基盤視覚モデルを適応させる新しいPEFT戦略を提案します。具体的には、RGBフレームとイベントストリームを考慮し、ビジョン基盤モデルViTに基づいてRGBおよびイベント特徴を抽出し、モダリティ固有のLoRAチューニング戦略を適用します。また、二重モダリティのフレーム差も考慮し、フレーム差のバックボーンネットワークを介して動きの手がかりをキャッチします。これらの特徴は連結され、高レベルのトランスフォーマー層に供給されて、モダリティ共有のLoRAチューニングを通じて効率的なマルチモーダル特徴学習が行われます。最終的に、これらの特徴を連結し、分類ヘッドに供給して効率的なファインチューニングを達成します。ソースコードと事前トレーニングされたモデルは、\url{https://github.com/Event-AHU/VELoRA}で公開される予定です。
2024-12-28T07:38:23
CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation
http://arxiv.org/abs/2412.20048v1
Ji-Hoon Kim, Hong-Sun Yang, Yoon-Cheol Ju, Il-Hwan Kim, Byeong-Yeol Kim, Joon Son Chung
Korea Advanced Institute of Science and Technology, 42dot Inc.
この作業の目標は、同じ話者のアイデンティティを維持しながら、複数の言語で自然な音声を生成すること、つまりクロスリンガル音声合成と呼ばれるタスクです。クロスリンガル音声合成の主要な課題は言語と話者の絡み合いの問題であり、これによりクロスリンガルシステムの品質がイントラリンガルシステムに比べて劣ることが原因となっています。本論文では、CrossSpeech++を提案し、言語と話者情報を効果的に分離し、クロスリンガル音声合成の品質を大幅に向上させます。この目的のために、複雑な音声生成パイプラインを言語依存と話者依存の2つの単純なコンポーネントに分けます。言語依存のジェネレーターは、特定の話者属性に偏らない言語的変動を生成します。話者依存のジェネレーターは、話者のアイデンティティを特徴付ける音響的変動をモデル化します。各情報タイプを別々のモジュールで処理することにより、私たちの方法は言語と話者の表現を効果的に分離できます。さまざまな指標を用いて広範な実験を行い、CrossSpeech++がクロスリンガル音声合成において著しい改善を達成し、既存の手法を大きく上回ることを示しました。
2024-12-28T06:32:49
Enhancing Diffusion Models for Inverse Problems with Covariance-Aware Posterior Sampling
http://arxiv.org/abs/2412.20045v1
Shayan Mohajer Hamidi, En-Hui Yang
逆問題は、科学と工学の多くの分野に存在します。コンピュータビジョンの例としては、インペインティングやデブレリング、スーパー解像度といったタスクが逆問題として効果的にモデル化できます。最近、デノイジング拡散確率モデル(DDPM)が、追加のタスク特化型トレーニングなしでノイズのある線形逆問題に対して有望な解決策を提供することが示されています。具体的には、DDPMによって提供される事前情報を使用して、尤度を近似することによって事後分布からサンプリングすることができます。文献では、尤度の近似は逆過程の条件付き密度の平均に基づいて行われることが多く、これはトウィード公式を使用して取得できます。尤度のより良い近似を得るために、本論文ではまず逆過程の共分散の閉形式の公式を導き出します。次に、既存の事前トレーニングされたDDPMから容易に取得できるように、この共分散を近似する有限差分法に基づく方法を提案します。これにより、既存のアプローチと比較して複雑さを増加させないようにします。最後に、逆過程の平均と近似した共分散に基づいて、尤度への新しい近似を提示します。この方法を共分散対応拡散事後サンプリング(CA-DPS)と呼びます。実験結果は、CA-DPSがハイパーパラメータの調整を必要とせずに再構成性能を大幅に改善することを示しています。論文のコードは、補足資料に掲載されています。
2024-12-28T06:17:44
BaiJia: A Large Scale Role-Playing Agent Corpus of Chinese Historical Charcaters
http://arxiv.org/abs/2412.20024v1
Ting Bai, Jiazheng Kang, Jiayang Fan
Beijing University of Posts and Telecommunications
私たちは、BaiJiaと呼ばれる包括的な大規模ロールプレイングエージェントコーパスを紹介します。これは、さまざまな中国の歴史的人物を含んでいます。このコーパスは、AI主導の歴史的ロールプレイエージェントに利用できる低リソースデータの先駆的なコンパイルとして注目に値します。BaiJiaは、異なる形態やモダリティでの断片的な歴史的テキスト記録の課題に対処し、さまざまなキャラクターの情報、例えば伝記、文学、家族関係、歴史的事件などを統合しています。私たちは、BaiJiaエージェントコーパスがさまざまな基盤となるLLMのロールプレイ能力を強化し、歴史的ロールプレイタスクの文脈におけるLLMの開発と評価を促進する上での効果を示すために、広範な実験を行いました。このエージェントコーパスは、baijia.onlineで入手可能です。
2024-12-28T05:01:26
Calibre: Towards Fair and Accurate Personalized Federated Learning with Self-Supervised Learning
http://arxiv.org/abs/2412.20020v1
Sijia Chen, Ningxin Su, Baochun Li
University of Toronto
パーソナライズされたフェデレーテッドラーニングの文脈において、既存のアプローチは、転送可能な表現を抽出するためにグローバルモデルをトレーニングし、それに基づいて任意のクライアントが限られた数のデータサンプルでパーソナライズされたモデルをトレーニングできるようにしています。自己教師あり学習(SSL)は、生成されるグローバルモデルが一般的で、すべてのクライアントに対するパーソナライズを公平に促進するため、有望な方向性と見なされています。しかし、クライアント間でデータが異質である場合、SSLを用いてトレーニングされたグローバルモデルは、高品質のパーソナライズされたモデルを学習することができません。本論文では、修正なしでSSLを用いてトレーニングされたグローバルモデルの生成する表現が不明瞭なクラス境界を持つことを示します。その結果、各クライアント内でのパーソナライズ学習は低い精度のモデルを生成します。精度を向上させるため、かつ公平性の利点を損なうことなくSSLを改善するために、Calibreという新しいパーソナライズされたフェデレーテッドラーニングフレームワークを提案します。Calibreは、より一般的な表現とよりクライアント固有の表現との間で適切なバランスを保つことによって、SSLの表現をキャリブレーションするように設計されています。Calibreは理論的に健全な特性に基づいて設計されており、(1) クライアント固有のプロトタイプロスを補助的なトレーニング目的として導入し、(2) クライアント間でそのようなプロトタイプに導かれた集約アルゴリズムを導入します。非独立同分布(non-i.i.d)設定の広範な実験結果において、Calibreはクライアント間の平均精度と公平性の両面で最先端のパフォーマンスを達成することを示しています。コードリポジトリ: https://github.com/TL-System/plato/tree/main/examples/ssl/calibre.
2024-12-28T04:43:39
ProtCLIP: Function-Informed Protein Multi-Modal Learning
http://arxiv.org/abs/2412.20014v1
Hanjing Zhou, Mingze Yin, Wei Wu, Mingyang Li, Kun Fu, Jintai Chen, Jian Wu, Zheng Wang
多モダリティ前学習パラダイムは、タンパク質配列と生物学的記述を整合させることによって、一般的なタンパク質表現を学習し、様々な下流応用において有望なパフォーマンスを達成しました。しかし、これらの研究は、整合したタンパク質-テキストペアデータの不適切な使用と、効果的な機能に基づく前学習パラダイムの欠如のために、言語による監視を受けた視覚基礎モデルの驚異的な成功を再現することができませんでした。これらの問題に対処するために、本論文では、プロパティ駆動のサンプリング戦略を用いて「ProtAnno」と呼ばれる大規模なタンパク質-テキストペアデータセットを作成し、新しい機能に基づくタンパク質前学習パラダイムを導入します。具体的には、サンプリング戦略はサンプルの信頼度とプロパティのカバレッジに基づいて選択確率を決定し、大規模なノイズの多いデータに対抗する際にデータの質と量のバランスを取ります。さらに、タンパク質特有の機能メカニズムの重要性に動機付けられ、提案されたパラダイムは、二つのセグメント単位の前学習目標によってタンパク質の静的および動的機能セグメントを明示的にモデル化し、機能に基づいた方法で詳細な情報を注入します。これらの革新を活用して、我々は機能に配慮したタンパク質埋め込みを包括的に表現する多モダリティ基盤モデル「ProtCLIP」を開発しました。タンパク質の機能分類、変異の影響予測、クロスモーダル変換、意味的類似性推論、タンパク質-タンパク質相互作用予測を含む5種類の22の異なるタンパク質ベンチマークにおいて、我々のProtCLIPは一貫して最先端の性能を達成し、五つのクロスモーダル変換ベンチマークで平均75%、GO-CCで59.9%、GO-BPのタンパク質機能予測で39.7%の顕著な改善を示しました。実験結果は、ProtCLIPがタンパク質の多モダリティ基盤モデルとしての驚異的な潜在能力を持つことを検証しています。
2024-12-28T04:23:47
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System
http://arxiv.org/abs/2412.20005v1
Yujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen
Zhejiang University, Ant Group, Tongji University
私たちは、Webや生のPDF書籍から知識を抽出し、さまざまな分野(科学、ニュースなど)をサポートする、ドッカー化されたスキーマ指向の知識抽出システムOneKEを紹介します。具体的には、OneKEは複数のエージェントと設定可能な知識ベースで設計されています。異なるエージェントはそれぞれの役割を果たし、さまざまな抽出シナリオをサポートします。設定可能な知識ベースは、スキーマ構成、エラーケースのデバッグと修正を容易にし、さらなる性能向上を実現します。ベンチマークデータセットに対する経験的評価は、OneKEの有効性を示し、ケーススタディは複数のドメインにわたる多様なタスクへの適応性をさらに明らかにし、広範な応用の可能性を強調します。私たちは、Codeをhttps://github.com/zjunlp/OneKEでオープンソース化し、動画をhttp://oneke.openkg.cn/demo.mp4で公開しました。
2024-12-28T04:01:30
Adaptive Parameter-Efficient Federated Fine-Tuning on Heterogeneous Devices
http://arxiv.org/abs/2412.20004v1
Jun Liu, Yunming Liao, Hongli Xu, Yang Xu, Jianchun Liu, Chen Qian
University of Science and Technology of China, University of California at Santa Cruz
フェデレーテッドファインチューニング(FedFT)は、分散された方法で事前訓練された言語モデルを微調整するために提案されています。しかし、実際のアプリケーションで効率的なFedFTには、リソースの制約とシステムの非均質性という2つの重要な課題があります。既存の研究は、低ランク適応(LoRA)などのパラメータ効率的なファインチューニング方法に依存していますが、重大な制限があります。ここで、FedFTの固有の特性に基づいて、出力に近い位置に高ランクのLoRAレイヤーを追加することで、リソース消費を節約しながら、同等のファインチューニング性能を達成できることを観察しました。そこで、LoRAレイヤーの数(LoRAの深さ)と各LoRAレイヤーのランク(ランク分布)を決定する困難に直面する新しいLoRAベースのFedFTフレームワーク「LEGEND」を提案します。LoRAの深さとランク分布の間の結びついた関係を分析し、非均質なデバイス向けの効率的なLoRA構成アルゴリズムを設計することで、ファインチューニング効率を向上させます。80台の商業デバイスを使用した物理プラットフォームで、広範な実験を実施しました。結果は、LEGENDが先進的なソリューションと比較して、ターゲット精度を達成する際に1.5-2.8倍のスピードアップを実現し、通信コストを約42.3%節約できることを示しています。
2024-12-28T04:00:42
Comprehensive Review of EEG-to-Output Research: Decoding Neural Signals into Images, Videos, and Audio
http://arxiv.org/abs/2412.19999v1
Yashvir Sabharwal, Balaji Rama
脳波計測(EEG)は神経科学において非常に貴重なツールであり、高い時間分解能で脳の活動についての洞察を提供します。最近の機械学習と生成モデリングの進展により、EEGを用いて画像、動画、音声などの知覚体験を再構築する応用が進んでいます。本論文では、EEGからの出力に関する研究を系統的にレビューし、最先端の生成手法、評価指標、データの課題に焦点を当てます。PRISMAガイドラインを使用して1800件の研究を分析し、分野における重要なトレンド、課題、機会を特定しました。これらの結果は、敵対的生成ネットワーク(GANs)、変分オートエンコーダ(VAEs)、トランスフォーマーなどの先進的なモデルの可能性を強調し、標準化されたデータセットと被験者間の一般化の必要性を際立たせています。さらなる研究のためのロードマップが提案されており、デコーディング精度を向上させ、現実の応用を広げることを目指しています。
2024-12-28T03:50:56
From Generalist to Specialist: A Survey of Large Language Models for Chemistry
http://arxiv.org/abs/2412.19994v1
Yang Han, Ziping Wan, Lu Chen, Kai Yu, Xin Chen
Shanghai Jiao Tong University, Suzhou Laboratory
大規模言語モデル(LLM)は、私たちの日常生活を大きく変革し、自然言語処理(NLP)における新たなパラダイムを確立しました。しかし、LLMが広範なウェブベースのテキストで事前学習されることは、特に化学の分野における高度な科学発見には不十分です。専門的な化学データの不足と、2Dグラフ、3D構造、スペクトルなどのマルチモーダルデータの複雑さは、独自の課題を呈しています。いくつかの研究が化学における事前学習モデル(PLM)をレビューしていますが、化学に特化したLLMに関する体系的な調査が明らかに欠如しています。本論文では、ドメイン特有の化学知識やマルチモーダル情報をLLMに組み込む方法論を概説し、化学ツールを用いるエージェントとしての化学LLMの概念化を行い、科学研究の加速に対するその潜在能力を調査します。さらに、LLMの化学能力を評価するための既存のベンチマークをまとめます。最後に、現在の課題を批判的に検討し、将来の研究の有望な方向性を特定します。この包括的な調査を通じて、研究者が化学LLMの発展の最前線に留まり、分野における革新的な応用を促進することを目指しています。
2024-12-28T03:40:25
An Ordinary Differential Equation Sampler with Stochastic Start for Diffusion Bridge Models
http://arxiv.org/abs/2412.19992v1
Yuang Wang, Pengfei Jin, Li Zhang, Quanzheng Li, Zhiqiang Chen, Dufan Wu
Tsinghua University, Massachusetts General Hospital, Harvard Medical School
拡散ブリッジモデルは、純粋なガウスノイズではなく、劣化した画像から生成過程を初期化することで、画像の修復や翻訳などの条件付き画像生成タスクにおいて有望な性能を示しています。しかし、既存の拡散ブリッジモデルはしばしば確率微分方程式(SDE)サンプラーに依存しており、これにより加速のために高次の常微分方程式(ODE)ソルバーを使用する拡散モデルに比べて推論速度が遅くなってしまいます。このギャップを軽減するために、我々は拡散ブリッジモデルのための確率的スタートを持つ高次ODEサンプラーを提案します。逆プロセスの初めにおける確率フローODE(PF-ODE)の特異な挙動を克服するために、最初の逆ステップで後方サンプリングアプローチが導入されました。このサンプリングは、劣化した画像から生成軌道へのスムーズな遷移を保証しながら、離散化誤差を減少させるように設計されました。この確率的スタートに続いて、Heunの第二次ソルバーがPF-ODEを解くために適用され、高い知覚品質を達成し、神経関数評価(NFE)を大幅に削減しています。我々の方法は、事前学習済みの拡散ブリッジモデルと完全に互換性があり、追加の訓練を必要としません。超解像、JPEG復元、Edges-to-Handbags、DIODE-Outdoorなどの画像修復や翻訳タスクにおける広範な実験により、我々のサンプラーは視覚品質とFréchet Inception Distance(FID)の両方において最先端の手法を上回ることが実証されました。
2024-12-28T03:32:26
Delayed Random Partial Gradient Averaging for Federated Learning
http://arxiv.org/abs/2412.19987v1
Xinyi Hu
Zhejiang University
フェデレーテッドラーニング(FL)は、プライバシーを保護しながら、複数のクライアントが協力して共有モデルを訓練できる分散型機械学習のパラダイムです。しかし、実世界のFLシステムのスケーリングは、しばしば以下の2つの通信ボトルネックによって制限されます:(a) エッジデバイスの計算能力の向上により大規模な深層ニューラルネットワーク(DNN)の展開が可能になる一方で、大規模DNNの頻繁な送信には限られた帯域幅の制約があること;(b) 高い遅延コストがFLの性能を大きく低下させること。これらのボトルネックを踏まえ、私たちはFLを強化するために遅延ランダム部分勾配平均化(DPGA)を提案します。DPGAのもとでは、クライアントはサーバーに部分的なローカルモデルの勾配のみを共有します。ローカルモデルで共有される部分のサイズは、粗く初期化された更新率によって決定され、その後時間的次元で洗練されます。さらに、DPGAは計算と通信を並行して行うことでシステムの実行時間を大幅に短縮します。私たちは、CIFAR-10/100の非IIDデータセットで実験を行い、私たちの手法の有効性を示します。
2024-12-28T03:14:27
The Fifth International Verification of Neural Networks Competition (VNN-COMP 2024): Summary and Results
http://arxiv.org/abs/2412.19985v1
Christopher Brix, Stanley Bak, Taylor T. Johnson, Haoze Wu
このレポートは、2024年の第5回国際ニューラルネットワーク検証コンペティション(VNN-COMP 2024)をまとめたものであり、これは第7回国際AI検証シンポジウム(SAIV)と併催され、36回目の国際コンピュータ支援検証会議(CAV)と同時に開催されました。VNN-COMPは毎年開催されており、最先端のニューラルネットワーク検証ツールの公正かつ客観的な比較を促進し、ツールインターフェースの標準化を支援し、ニューラルネットワーク検証コミュニティを結集することを目的としています。この目的のために、ネットワーク用の標準化フォーマット(ONNX)と仕様(VNN-LIB)が定義され、ツールは同等のコストハードウェアで評価され(AWSインスタンスに基づく自動評価パイプラインを使用)、ツールのパラメータは最終テストセットが公開される前に参加者によって選択されました。2024年のセッションでは、8つのチームが12の通常ベンチマークと8つの拡張ベンチマークの多様なセットに参加しました。このレポートでは、ルール、ベンチマーク、参加ツール、結果、およびこのコンペティションのイテレーションから得られた教訓をまとめています。
2024-12-28T03:07:00
Will you donate money to a chatbot? The effect of chatbot anthropomorphic features and persuasion strategies on willingness to donate
http://arxiv.org/abs/2412.19976v1
Ekaterina Novozhilova, Jiacheng Huang, Le He, Ziling Li, James Cummings
この研究は、チャットボットの擬人化と説得戦略がユーザーの認識や寄付の可能性に与える影響の背後にある因果メカニズムを探求しています。2(擬人化されたチャットボット vs. 非擬人化チャットボット)× 2(感情的な vs. 論理的な説得戦略)という被験者間実験(N=76)では、参加者は非営利の慈善団体を代表するチャットボットと対話しました。結果は、擬人化されたチャットボットとのインタラクションが知覚された擬人性を引き起こすことを示唆していますが、寄付への意欲を高めることはないことがわかりました。実際、名前や物語といった一般的に使用される擬人化の特徴が、寄付の文脈においてAIエージェントに対する否定的な態度を引き起こすことが分かりました。私たちの結果は、論理的な説得アプローチと組み合わさった非擬人化チャットボットの好ましさを示しており、チャットボットとのインタラクションにおける一貫性の重要性を強調し、人間同士の関与を反映しています。私たちは、最近のAIシステムの規制を考慮し、機械のアイデンティティを持つチャットボットと人間のアイデンティティを持つチャットボットという一般的なシナリオを探ることからの移行の重要性について議論します。
2024-12-28T02:17:46
MobileNetV2: A lightweight classification model for home-based sleep apnea screening
http://arxiv.org/abs/2412.19967v1
Hui Pan, Yanxuan Yu, Jilun Ye, Xu Zhang
szu.edu.cn, columbia.edu
本研究は、心電図(ECG)および呼吸信号から抽出された特徴を活用した新しい軽量ニューラルネットワークモデルを提案し、早期の睡眠時無呼吸症候群(OSA)スクリーニングを実現します。ECG信号は睡眠段階を予測するための特徴スペクトログラムを生成するために使用され、呼吸信号は睡眠関連呼吸異常を検出するために利用されます。これらの予測を統合することにより、方法はより正確に無呼吸低呼吸指数(AHI)を算出し、正確なOSA診断を促進します。この方法は、3つの公開睡眠時無呼吸データベース(Apnea-ECGデータベース、UCDDBデータセット、MIT-BIHポリソムノグラフィーデータベース)で検証されました。結果は、全体的なOSA検出精度が0.978であることを示し、モデルの堅牢性を際立たせています。呼吸イベント分類では、精度0.969、受信者動作特性曲線(ROC-AUC)の下の面積0.98を達成しました。睡眠段階分類では、UCDDBデータセットにおいて、全ての睡眠段階でROC-AUCが0.85を超え、睡眠の再現率は0.906に達し、REMと覚醒状態の特異度はそれぞれ0.956および0.937でした。本研究は、軽量ニューラルネットワークとマルチ信号分析を統合して正確でポータブル、かつコスト効率の高いOSAスクリーニングの可能性を強調し、自宅での健康モニタリングシステムやウェアラブルデバイスへのさらなる採用の道を開きます。
2024-12-28T01:37:25
Bridging Context Gaps: Enhancing Comprehension in Long-Form Social Conversations Through Contextualized Excerpts
http://arxiv.org/abs/2412.19966v1
Shrestha Mohanty, Sarah Xuan, Jacob Jobraeel, Anurag Kumar, Deb Roy, Jad Kabbara
私たちは、小グループでの録音された会話における理解力を強化することに焦点を当てています。これらの会話は、人々を結びつけ、重要な社会問題に関する個人的な物語や経験を共有するための場を提供します。これらの会話から情報を整理し伝える一つの方法は、次の会話で強調された抜粋を共有することです。これにより、他のグループの人々がこれらの経験に慣れ親しんでいない場合でも、関連する問題に対する集団的理解を促進することができます。そこで生じる主な課題は、ある会話から抜粋された内容を別の場面で共有する際に、元の会話で以前に導入された重要な文脈や要素が欠落している可能性があることです。この問題は、会話が長くなり、テーマや共有された経験が豊かになるほど悪化します。これに対処するために、私たちは大規模言語モデル(LLMs)がどのようにこれらの抜粋を社会的に関連する文脈を提供することで豊かにできるかを探ります。理解、可読性、共感を向上させるための効果的な文脈化のアプローチを提示します。我々は、主観的および客観的な評価を通じて、理解における有意な改善を示します。LLMsは貴重な文脈を提供できますが、重要な社会的側面を捉えるのには苦労します。我々は今後の研究を支援するために、人間によって注釈された重要な抜粋(HSE)データセットを公開します。さらに、文脈豊かな抜粋がより焦点を絞った包括的な会話の要約を提供できる方法を示します。
2024-12-28T01:29:53
DepthMamba with Adaptive Fusion
http://arxiv.org/abs/2412.19964v1
Zelin Meng, Zhichen Wang
マルチビュー深度推定は、さまざまなベンチマークにおいて素晴らしい性能を達成しています。しかし、現在のほとんどのマルチビュースystemは、理想的なカメラ位置が与えられることに依存しており、多くの現実世界のシナリオ、たとえば自動運転などでは利用できません。本研究では、さまざまなノイズのあるポーズ設定の下で深度推定システムを評価するための新しいロバスト性ベンチマークを提案します。驚くべきことに、現在のマルチビューフィルの深度推定方法やシングルビューとマルチビューの融合方法は、ノイズのあるポーズ設定が与えられた場合に失敗することがわかりました。この課題に対処するために、シングルビューとマルチビューの結果を融合する二系統のネットワークアーキテクチャを提案します。具体的には、特徴抽出のバックボーンとしてmambaを導入し、二つのブランチ間で最もロバストな推定結果を自動的に選択するアテンションベースの融合方法を提案します。したがって、提案する方法は、動的なオブジェクトやテクスチャのない領域などのいくつかの困難なシーンで良好に機能します。アブレーション研究はバックボーンと融合方法の有効性を証明し、困難なベンチマーク(KITTIとDDAD)での評価実験は、提案された方法が最先端の方法と比較して競争力のある性能を達成することを示しています。
2024-12-28T01:17:47