DIFrauD - 领域无关欺诈检测基准
数据集概述
语言: 英语
许可证: MIT
数据量: 10K 多语言性: 单语 任务类别: 文本分类、零样本分类 标签: 欺诈检测、欺骗检测、钓鱼、假新闻、基准、意见垃圾邮件、多领域 数据集配置 数据集包含以下配置及其对应的数据文件: Fake News 训练集: fake_news/train.jsonl 测试集: fake_news/test.jsonl 验证集: fake_news/validation.jsonl Job Scams 训练集: job_scams/train.jsonl 测试集: job_scams/test.jsonl 验证集: job_scams/validation.jsonl Phishing 训练集: phishing/train.jsonl 测试集: phishing/test.jsonl 验证集: phishing/validation.jsonl Political Statements 训练集: political_statements/train.jsonl 测试集: political_statements/test.jsonl 验证集: political_statements/validation.jsonl Product Reviews 训练集: product_reviews/train.jsonl 测试集: product_reviews/test.jsonl 验证集: product_reviews/validation.jsonl SMS 训练集: sms/train.jsonl 测试集: sms/test.jsonl 验证集: sms/validation.jsonl Twitter Rumours 训练集: twitter_rumours/train.jsonl 测试集: twitter_rumours/test.jsonl 验证集: twitter_rumours/validation.jsonl 数据集详细信息 总样本数: 95854 欺骗性样本数: 37282 非欺骗性样本数: 58572 数据集包含7个独立领域: Phishing 总数: 15272 欺骗性: 6074 非欺骗性: 9198 Fake News 总数: 20456 欺骗性: 8832 非欺骗性: 11624 Political Statements 总数: 12497 欺骗性: 8042 非欺骗性: 4455 Product Reviews 总数: 20971 欺骗性: 10492 非欺骗性: 10479 Job Scams 总数: 14295 欺骗性: 599 非欺骗性: 13696 SMS 总数: 6574 欺骗性: 1274 非欺骗性: 5300 Twitter Rumours 总数: 5789 欺骗性: 1969 非欺骗性: 3820 每个子目录/配置包含三个文件:train.jsonl, test.jsonl, 和 validation.jsonl,分别包含训练集、测试集和验证集。 分割比例: 训练集: 80% 测试集: 10% 验证集: 10% 采样过程: 随机采样,种子为42,按领域分层采样。 字段 每个jsonl文件包含两个字段: text: 字符串,包含欺骗性或真实性的声明或主张。 label: 整数,表示文本是否欺骗性,1表示欺骗性,0表示非欺骗性。 处理和清洗 每个数据集都经过Cleanlab清洗,移除了非英语条目、解析错误条目、空条目、重复条目、长度小于2个字符或超过1000000个字符的条目。标签经过手动校正和修正。 布局 数据集目录布局如下: difraud fake_news/ train.jsonl test.jsonl validation.jsonl README.md ... sms/ train.jsonl test.jsonl validation.jsonl README.md README.md LICENSE.txt 许可证 数据集发布在MIT许可证下,可以自由使用和修改。 引用 如果该数据集对你的研究有用,请考虑引用。