php批量检查中文脚本

点名批评文心一言,本次通过API生成的英文文章,出错率高达60%

什么概念?

生产100篇文章,最多只有40篇正常的,60篇不是有中文字段,就是语法错误,大模型技术还是不成熟。

故而,返工处理。

一个一个检查看花了眼,怎么办?

MySQL数据库导出json格式,去掉顶部底部的数据库版本型号,只保留如下json格式;

[

{每一个数据集}

]

然后运行脚本,脚本会将有中文字段的文章id输出到同名txt文件中。

代码:

<?php  
$jsonFile = 'laomao.json';  
$jsonData = file_get_contents($jsonFile);  
$data = json_decode($jsonData, true);  
$chinesePattern = '/[\x{4e00}-\x{9fa5}]/u';  
$idsWithChinese = [];  
foreach ($data as $record) {  
    $hasChinese = false;  
    foreach ($record as $key => $value) {  
        if (is_string($value) && preg_match($chinesePattern, $value)) {  
            $hasChinese = true;  
            break;
        }  
    }  
    if ($hasChinese && isset($record['id'])) {  
        $idsWithChinese[] = $record['id'];  
    }  
}  
$txtFile = 'laomao.txt';  
file_put_contents($txtFile, implode("\n", $idsWithChinese));  
unlink($jsonFile);  
  
echo "处理完成,包含中文字符的记录ID已保存到 {$txtFile}\n";  
?>

如果你的文章不是以id为表字段名,那你自己改一下。


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注