热点
关于我们
xx
xx
"
评估指标
" 相关文章
RAG知识库评估与调试实战指南:上下文丢失×信息忽略×多轮对话崩溃
掘金 人工智能
2025-05-23T06:23:04.000000Z
Subject-Driven Image Evaluation Gets Simpler: Google Researchers Introduce REFVNLI to Jointly Score Textual Alignment and Subject Consistency Without Costly APIs
MarkTechPost@AI
2025-05-02T20:05:39.000000Z
ICLR 2025 | 缺乏金标准时的大语言模型评论基准测试
智源社区
2025-04-25T06:43:12.000000Z
让 LLM 来评判 | 评估你的评估结果
Hugging Face
2025-04-09T10:06:26.000000Z
最新文化建设评估标准公布,明确六类加分项,发挥智库作用、鼓励国际交流等被专章写进
深度财经头条
2025-03-21T09:31:30.000000Z
亚洲四国及美国老年人自主经济来源与总体财务健康状况分析报告
互联网数据资讯网-199IT
2025-03-14T23:01:19.000000Z
DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT
智源社区
2025-02-23T12:37:14.000000Z
让 LLM 来评判 | 评估你的评估结果
智源社区
2025-02-11T03:22:24.000000Z
让 LLM 来评判 | 评估你的评估结果
Hugging Face
2025-02-10T16:15:18.000000Z
揭秘大模型强推理能力幕后功臣“缺陷”,过程级奖励模型新基准来了
量子位
2025-01-19T07:41:41.000000Z
面向B站商业化场景的广告标题智能推荐
哔哩哔哩技术
2025-01-14T09:21:58.000000Z
RAG-Check: A Novel AI Framework for Hallucination Detection in Multi-Modal Retrieval-Augmented Generation Systems
MarkTechPost@AI
2025-01-12T06:30:50.000000Z
自动评估基准 | 设计你的自动评估任务
智源社区
2024-12-26T13:19:18.000000Z
自动评估基准 | 设计你的自动评估任务
Hugging Face
2024-12-26T10:39:17.000000Z
Virtual Personas for Language Models via an Anthology of Backstories
BAIR
2024-11-26T06:02:14.000000Z
评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024
智源社区
2024-11-09T08:05:23.000000Z
70B大模型训练秘方③:1000次超参数优化实验的发现
OneFlow
2024-11-05T10:44:57.000000Z
Appealing to the Public
少点错误
2024-10-23T19:08:05.000000Z
Embodied Agent Interface: An AI Framework for Benchmarking Large Language Models (LLMs) for Embodied Decision Making
MarkTechPost@AI
2024-10-16T04:06:06.000000Z
Drug. Discov. Today. | 深度生成模型探索类药物化学空间前沿
智源社区
2024-09-16T05:08:16.000000Z