剪裁无效的Unicode

Question

大家好，
我有一个以几个字符结尾的字符串，当PostgreSQL接收到这些字符时，会导致进程最终终止。不幸的是，我不确定字符串/总是/以这些字符结尾，或者我将使用substringxtractor。

我得到这个错误：
编码“utf8”的字节序列无效：0xc0 0x80

所以我想做的是修剪它们。问题是-如何在不使用Python的情况下做到这一点？

我不能将它们复制/粘贴到attributetrimmer中，因为fme用特殊的“替换字符”来表示它们-https://en.wikipedia.org/wiki/specials_28unicode_block%29替换字符-这意味着Trimmer正在搜索和寻找替换的是特殊的Unicode字符（），不是我要删除的实际内容。

如果我进入源数据库并选择原始编码中的字符并粘贴它，它只是粘贴一个空间。

关于这种剪裁，attributetrimmer文档中没有任何内容。

使用regexp和特定代码点的StringReplacer-https://www.regular-expressions.info/unicode.html码位-不起作用，因为FME显式不允许\u修饰符。或\p修饰符。

如果我真的绝望了，我可能会写一些巨蟒来做，但我需要保持它相当轻量，因为它将运行数百万个功能。

有人对如何处理这个有什么建议吗？

注：FME 2016.0

谢谢，
乔纳森

Answer 1 · 2018-01-10T16:47:16Z

最佳答案

回答通过乔纳森 ·1月10日，2018年下午4:47

我通过使用“负”regex解决了这个问题-我查找的字符不是单词（\w）、空格（\s）或引号。它们必须是最后两个字符中的一个或两个。如果它们符合这些标准，它们就会被删除。

regex是：

[^\w\s“]0,2$

我更喜欢显式搜索指定的字符，但除此之外，这似乎奏效了。欢迎提出建议。

添加注释 · 共享

10 4000 需要字符左侧字符超过个字符

附件：最多可使用10个附件（包括图像），每个附件最多4.0 MB，总计4.0 MB。

Answer 2 · 2018-01-19T22:36:56Z

你好，乔纳森，我今天也遇到了类似的问题。

我的数据编码为UTF-8，问题和你的相似。我认为根本原因是FME太直观，而且是WYSIWYG导向的（你看到的就是你得到的）。但是，FME数据检查员没有显示不可打印和特殊字符（甚至没有在日志文件中发出警告）。

请尝试两种不同的解决方案：

#1.本公司：使用textEncoder（到url percent encoding）以显示任何隐藏字符；使用StringReplacer删除有问题的字符；最后使用textcoder恢复URL百分比编码。

或

#2.第2部分：使用StringReplacer删除不可打印和不需要的字符；我已选择删除不可打印的范围\ X 0000-\X 001F以及一些在我的数据中不常见的扩展ASCII字符。在StringReplacer中，我检查了每一次出现的情况，并将其替换为“空白”或什么都没有。[\x 0000-\x 001f \x 007f-\x 00bf]

Answer 3 · 2018-01-10T18:21:27Z

回答通过勒纳萨菲亚搏在线 ·1月10日，2018年下午6:21

您好!@乔纳森

是否尝试将字符复制/粘贴到StringReplacer并运行翻译？字符将不显示…以用户友好的方式，但是变压器可能会正确地保存和处理它们。

另一种选择是修剪字符串的最后一个字符，用提取其代码字符代码提取程序，请检查代码是否为0x80-如果是，应修剪原始字符串的最后两个字符。

您可能还想尝试检查原始字符串是否可以用utf-8表示，使用属性编码器-如果确实没有支持的字符，这个属性编码器会失败的。

您是否已使用数据检查器可视化数据？DI中显示的问题属性编码是什么？

添加注释 · 显示3· 共享

10 4000 需要字符左侧字符超过个字符

附件：最多可使用10个附件（包括图像），每个附件最多4.0 MB，总计4.0 MB。

勒纳萨菲亚搏在线 ·1月10日，2018年下午6:22 0

共享

向上：看起来您可能正在处理双字节字符： https://stackoverflow.com/questions/3911536/utf-8-unicode-whats-with-0xc0-and-0x80您的数据语言是什么？

乔纳森 ·1月11日，2018年上午9:17 0

共享

您好! @勒纳萨菲亚搏在线（二）谢谢你的想法。
我试过复制/粘贴到StringReplacer中；看我原来的问题。
substringxtractor->charactercodeextrator=两者都返回“65533”。
attributeEncoder-此字符没有UTF-8表示（如果是双字节chractor，则为双字节chractor）；这就是问题所在。di表示为utf-8，并使用。有关详细信息，请参阅原始问题。
语言是英语，但实际上它是一种数据格式，似乎偶尔会终止这个奇怪的字节对中的字符串。

勒纳萨菲亚搏在线乔纳森 ·1月11日，2018年下午7:57 0

共享

您好! @乔纳森
感谢您的回复-我现在更好地理解您所做的测试步骤（我没有忽略您最初的描述，只是不确定一些细节）。
所以，如果utf-8确实不支持该字符， 属性编码器将无法转码-整个翻译也将失败。我希望属性编码器有端口-然后它将过滤掉所有问题字符串，以便您在转换失败的情况下进行修剪。我们正在添加所有变压器的端口（所有新变压器都是用），请但更新所有现有变压器需要时间。
你的雷杰克斯解决方案太棒了！理想情况下，您希望使用regex查找特定的字节…我不确定FME是否能支持这一点。你能试试吗 [\xc0][\x80]表达？

Answer 4 · 2018-01-10T15:30:47Z

回答通过 egomm公司 ·1月10日，2018年下午3:30

你能用一些regex来提取除无效字符之外的所有内容吗？我发现在过去排除非打印字符更容易。

您知道要删除的字符的代码吗？

您可以使用相关代码而不是0021在字符串替换器中尝试使用语法[\x 0021]，而不必使用任何代码替换。

添加注释 · 显示1· 共享

10 4000 需要字符左侧字符超过个字符

附件：最多可使用10个附件（包括图像），每个附件最多4.0 MB，总计4.0 MB。

乔纳森 ·1月10日，2018年下午4:26 0

共享

谢谢你的想法 @egomm公司.我用\x语法尝试了regex，问题是我不知道密码。
我的代码来自错误： 0XC0 0X80-但是如果您尝试将它们放入一个regexp中，它将不会接受它们（字段变为红色）-“x”不是有效的十六进制（09a-f）。

剪裁无效的Unicode

4答复

回答这个问题

相关问题