关于鉴AI文工具准确率的测试

作者：关于鉴AI文工具准确率的测试

测试了一下AI生成文本检测工具检测是否准确。先说结论就是目前市面上的AI检测工具无法准确判断中文文本是否由AI生成（尤其是类似散文诗风格的文本），工具检测结果无法作为决定性的判断依据。使用工具为腾讯朱雀大模型检测工具（以下以A代指）和一个叫AI检测的微信小程序（以下以B代指）。经测试这两个工具是一众AI检测工具中检测中文文本正确率相对比较高的。测试对象为本人近10年前写的一篇小说的开头和一则散文的开头，给大语言模型的指令是模仿风格续写。以下即各模型生成续写结果由工具检测出的AI占比。小说续写原文 A:0% B:6% deepseek A:0% B:86% 阿里通义千问QwQ A:0% B:5% 百度文心一言 A:100% B:95% GEMINI A:100% B:87% chatGPT A:100% B:8% GROK A:100% B:92% 散文续写原文 deepseek A:0% B:1% 阿里通义千问 A:0%B:4% 百度文心一言 A:100% B:9% GEMINI A:100% B:8% chatGPT A:100% B:6% GROK A:100% B:9% （之后测试了一下AI生成短诗，检测准确率更低）尝试总结AI生成文本可能存在的特点：明显的：Markdown符号、英文标点符号、突然插入的外语单词、大量数字与专业术语不那么明显的：思维跳跃、不合逻辑的展开、离奇的比喻、文末阐述哲思升华主题另附几段AI生成文本内容可作风格参考 #文手 #同人文 #网文 #文稿 #写手 #网络小说 #约稿 #接稿 #大语言模型 #AI写作

文章详情

关于鉴AI文工具准确率的测试

推荐阅读