点名批评文心一言,本次通过API生成的英文文章,出错率高达60%!
什么概念?
生产100篇文章,最多只有40篇正常的,60篇不是有中文字段,就是语法错误,大模型技术还是不成熟。
故而,返工处理。
一个一个检查看花了眼,怎么办?
MySQL数据库导出json格式,去掉顶部底部的数据库版本型号,只保留如下json格式;
[
{每一个数据集}
]
然后运行脚本,脚本会将有中文字段的文章id输出到同名txt文件中。
代码:
<?php
$jsonFile = 'laomao.json';
$jsonData = file_get_contents($jsonFile);
$data = json_decode($jsonData, true);
$chinesePattern = '/[\x{4e00}-\x{9fa5}]/u';
$idsWithChinese = [];
foreach ($data as $record) {
$hasChinese = false;
foreach ($record as $key => $value) {
if (is_string($value) && preg_match($chinesePattern, $value)) {
$hasChinese = true;
break;
}
}
if ($hasChinese && isset($record['id'])) {
$idsWithChinese[] = $record['id'];
}
}
$txtFile = 'laomao.txt';
file_put_contents($txtFile, implode("\n", $idsWithChinese));
unlink($jsonFile);
echo "处理完成,包含中文字符的记录ID已保存到 {$txtFile}\n";
?>
如果你的文章不是以id为表字段名,那你自己改一下。
发表回复