测试场景

测试任务是：输入一个长播客的转录文稿，然后根据播客简介和转录内容，识别每个说话人各是谁、以及哪些ASR结果的说话人实际上是同一个。平均输出长度25.8k token（以gpt-4o的tokenizer计算），长度的标准差12.4k token。

数据集经过了难度筛选，剔除掉OpenAI、Anthropic、Google三家最强模型的成功率都很低的case。真值经过人工标定，有些真值可能无法从输入中推断，所以理论准确率上限低于100%。数据集是直接从我自用的场景捞了一批，可能有少量标注错误。

任务prompt距离实际应用进行了一些简化，整体为推理模型而设计，只提供参考思路，不硬性规定CoT步骤。

以下是一个对话录音的语音识别结果，其中包含多个说话人，不同的说话人由speaker id区分。你需要根据整个对话的语音识别结果，识别对话中是否有提到每个说话人是谁，以及他的身份信息和个人介绍。如果能够确认说话人的名字和个人信息，则进行输出，如果不能确认，则对应字段输出为空。不要添加没有发言的嘉宾信息，即没有speaker_id的说话人。有些时候一个说话人可能由于语音识别的问题被识别为多个不同的speaker id，此时需要将这些speaker id合并为同一个speaker id，并输出为is_same_to字段。以下是语音识别结果：```text{asr_result_text}```该录音中有 {speaker_num} 个说话人。该视频的标题为：{video_title}以下是这个对话的相关信息，其中可能包含有说话人的名字和身份信息。```text{video_info_text}```speaker的名字或ID的拼写应该以以上信息中的文字为准。识别说话人的方式：pattern 1:* 对话中提到某个嘉宾的名字，此时直接使用嘉宾的名字作为speaker_name。pattern 2:* 如果对话内容和频道默认信息都不能识别出说话人，则从视频的标题中尝试分析主要的发言人。pattern 3:* 对于仍然无法识别出说话人的情况，分配以下默认的speaker_name:    * 对于不知道名字，主要发言是配合演示的助手或者AI助手，为他们分配 助手1 助手2 AI助手1 等speaker_name。    * 对于不知道名字，主要发言是向主要发言人提问的观众，为他们分配 观众1 观众2 等speaker_name。    * 对于不知道名字，只在开头部分介绍各个嘉宾的人，为他们分配 司仪 的speaker_name。    * 其他无法识别出名字的，则使用 嘉宾1 嘉宾2 等speaker_name。整个识别过程可以参考以下过程---Step 1:分析对话中哪些speaker id可能是同一个说话人。对于同一个说话人被识别为多个speaker id的情况，一般在这些speaker id对话的切换过程中没有提问和问答、回应等。可以根据这些信息进行推断。有些时候多个说话人之间会进行抢话，但只有有明确的其他证据表明这确实是不同的人时，才把某些不完整的句子的来回切换作为不同的说话人。当总说话人数量较多，且经常出现一句完整的话被拆分为多个说话人时，要优先怀疑这些说话人可能是同一个人被识别成了多个的情况。Step 2:对于Step 1去重后的每个说话人，逐个尝试匹配上面的规则pattern，如果匹配成功，则采用对应pattern的分析结果确定其speaker_name，跳过后续pattern的匹配。要对于每一个说话人都进行分析，不要遗漏。real speaker [index]:contain_speaker_id_list: speaker_xx, speaker_yy, ...  # 哪些speaker id是该说话人pattern 1: 分析是否符合该规则，如果符合则终止匹配后续pattern，否则继续匹配patternpattern 2: ......最终以json输出每个说话人的身份信息如果不确定一个speaker的名字或ID，则在speaker_name中填入他的描述，例如主持人、嘉宾1、某某人的XX 等等。{{    "speaker_info_list": [        {{            "speaker_id": "speaker_1",            "speaker_name": "speaker name",            "speaker_info": "该说话人的身份，不要包括其他信息。"        }},        {{            "speaker_id": "speaker_2",            "speaker_name": "",            "speaker_info": ""        }},        {{            "speaker_id": "speaker_xx",            "is_same_to": "speaker_xx"        }}    ]}}