工具-HuggingFace模型快速下载
这篇博客介绍了使用专用多线程下载器快速下载huggingface上的模型。
归纳分类整理
这篇博客介绍了使用专用多线程下载器快速下载huggingface上的模型。
这篇博客介绍了FinRpt论文的阅读笔记。
这篇博客介绍了交通隐患大模型的研究。
| 论文 | 概述 | 年份 |
|---|---|---|
| SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events | 一个视频问答数据集和一个名为 Eclipse 的高效一瞥网络(Efficient glimpse network)侧重于因果推理和事件理解模型(主要是监督学习和网络架构设计)。 | 2021 |
| MAPLM: A Real-World Large-Scale Vision-Language Benchmark for Map and Traffic Scene Understanding (代码) | 一个用于自动驾驶和 HD 地图的多模态视觉-语言基准,侧重于数据构建和使用 CLIP/LLaMA-2 等进行视觉指令微调(visual instruction-tuning),这是一种监督或自监督学习范式。 | 2024 CVPR |
| Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning (代码, 论文) | 提出了基于多变量合作博弈论和 Banzhaf 交互的 HBI 模型。核心是对比学习(Contrastive Learning)和网络架构设计(Token 合并模块),以及博弈论概念的应用。对比学习属于自监督学习范畴。 | 2023 CVPR |
| Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering (代码, 论文) | 通过引入因果推断(Causal Inference)的机制,来解决现有视觉问答(VQA)模型在事件级(Event-Level)任务中存在的跨模态虚假相关性(spurious correlations)和对事件动态理解不足的问题,从而实现更鲁棒、更具因果意识的推理 | 2023-IEEE |
| Discovering the Real Association: Multimodal Causal Reasoning in Video Question Answering | 它超越了传统视频问答(VideoQA)的统计关联范式,将因果推理(Causal Reasoning)引入多模态领域。通过提出一个基于因果表示的框架,该方法能够显式地发现视频和文本模态之间真正的、稳定的因果关联(Real Association),从而有效地消除数据中普遍存在的视觉冗余和文本局部性的虚假相关性(Spurious Correlations)。 | 2023 CVPR |
视频中的交通事件认知与推理是一项重要的任务,在智能交通、辅助驾驶和自动驾驶等领域有着广泛的应用。在本文中,我们创建了一个新颖的数据集 SUTD-TrafficQA (Traffic Question Answering),该数据集以视频问答(Video QA)的形式呈现,基于收集到的 10,080 个真实场景(in-the-wild)视频和注释的 62,535 个问答对,旨在衡量复杂交通场景中因果推理和事件理解模型的认知能力。
项目页面:https://github.com/SUTDCV/SUTD-TrafficQA
FinRpt:Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation
论文 代码
该论文首次提出了股权研究报告(Equity Research Report, ERR)的自动生成任务,并创建了一个完整的、面向该任务的开放基准 FinRpt。此外,作者还提出了一个基于大型语言模型(LLM)的多智能体框架 FinRpt-Gen 作为基线解决方案,旨在解决金融领域长文本生成中数据稀缺、评估复杂和推理难度大的挑战。
实验结果表明:
记录11月有价值的bug。
这篇博客介绍了选用Xinference作为RAGFlow的模型推理框架的技术说明。
这篇博客介绍了安装和配置VSCode+LaTeX(含环境变量_配置_详细过程)
安装 MySQL 关系型数据库管理系统的操作指南;
这篇博客介绍了SFT(有监督微调)、RLHF(强化学习)、RAG(检索增强生成)的技术说明。