联接表列时,不再需要完全匹配。 模糊匹配允许你比较单独列表中项目,如果它们彼此接近,则将它们联接。 甚至可以设置匹配的容错或 相似性阈值。
模糊匹配的常见用例是使用自由格式文本字段,例如,在调查时,最喜欢的水果的问题可能有拼写错误、单数、复数、大写、小写和其他不完全相同的变体。
仅文本列的合并操作支持模糊匹配。 Power Query 使用 Jaccard 相似性算法测量实例对之间的相似性。
过程
-
若要打开查询,请找到以前从 Power Query 编辑器加载的查询,在数据中选择一个单元格,然后选择"查询>编辑"。 有关详细信息,请参阅在 Power Query Excel (创建、编辑和) 。
-
选择"主页>合并>合并查询"。 也可以选择"合并查询"作为"新建"。 此时会显示"合并"对话框,主表位于顶部。
-
选择要用于模糊匹配的列。 本示例选择"名字"。
-
从下拉列表中选择辅助表,然后选择相应的模糊匹配列。 本示例选择"名字"。
-
选择"联接类型"。 有几种不同的联接方式。 "左外部"是默认值,也是最常见的。 有关每种联接类型的信息,请参阅合并查询。
-
选择 "使用模糊匹配"执行合并,选择 "模糊匹配选项", 然后从以下选项中进行选择:
-
相似性阈值 指示需要两个值的相似性才能匹配。 最小值 0.00 会导致所有值相互匹配。 最大值 1.00 仅允许精确匹配。 默认值为 0.80。
-
忽略大小写 指示应该以区分大小写或不区分大小写的方式比较文本值。 默认行为不区分大小写,这意味着忽略大小写。
-
最大匹配数 控制将针对每个输入行返回的最大匹配行数。 例如,如果只想为每个输入行查找一个匹配行,请指定值 1。 默认行为是返回所有匹配项。
-
转换表 指定保存映射表的另一个查询,以便某些值可以自动映射为匹配逻辑的一部分。 例如,使用值为"Microsoft"和"MSFT"的"From"和"To"文本列定义一个两列表,这两个值将被视为相同的 (相似度分数 1.00) 。
-
-
Power Query 将分析这两个表,并显示一条消息,说明它进行了多少个匹配。 在示例中,所选内容匹配第一个表中的 4 行中的 3 行。 如果不使用模糊匹配,则 4 行中只有 2 行匹配。
-
如果满意,请选择"确定"。 如果没有,请尝试不同的模糊合并选项 来自定义体验。
-
如果满意,请选择"确定"。