本地源文件：docs/string__bm.md

Boyer–Moore 算法

前置知识：前缀函数与 KMP 算法．

KMP 算法将前缀匹配的信息用到了极致，

而 BM 算法背后的基本思想是通过后缀匹配获得比前缀匹配更多的信息来实现更快的字符跳转．

引入

想象一下，如果我们的模式字符串 𝑝𝑎𝑡pat，被放在文本字符串 𝑠𝑡𝑟𝑖𝑛𝑔string 的左手起头部，使它们的第一个字符对齐．

𝑝𝑎𝑡:𝙴𝚇𝙰𝙼𝙿𝙻𝙴𝑠𝑡𝑟𝑖𝑛𝑔:𝙷𝙴𝚁𝙴 𝙸𝚂 𝙰 𝚂𝙸𝙼𝙿𝙻𝙴 𝙴𝚇𝙰𝙼𝙿𝙻𝙴… ⇑pat:EXAMPLEstring:HERE IS A SIMPLE EXAMPLE… ⇑

在这里做定义，往后不赘述：

𝑝𝑎𝑡pat 的长度为 𝑝𝑎𝑡𝑙𝑒𝑛patlen，特别地对于从 0 开始的串来说，规定 𝑝𝑎𝑡𝑙𝑎𝑠𝑡𝑝𝑜𝑠 =𝑝𝑎𝑡𝑙𝑒𝑛 −1patlastpos=patlen−1 为 𝑝𝑎𝑡pat 串最后一个字符的位置；

𝑠𝑡𝑟𝑖𝑛𝑔string 的长度 𝑠𝑡𝑟𝑖𝑛𝑔𝑙𝑒𝑛stringlen，𝑠𝑡𝑟𝑖𝑛𝑔𝑙𝑎𝑠𝑡𝑝𝑜𝑠 =𝑠𝑡𝑟𝑖𝑛𝑔𝑙𝑒𝑛 −1stringlastpos=stringlen−1．

假如我们知道了 𝑠𝑡𝑟𝑖𝑛𝑔string 的第 𝑝𝑎𝑡𝑙𝑒𝑛patlen 个字符 𝑐ℎ𝑎𝑟char（与 𝑝𝑎𝑡pat 的最后一个字符对齐）考虑我们能得到什么信息：

观察 1

如果我们知道 𝑐ℎ𝑎𝑟char 这个字符不在 𝑝𝑎𝑡pat 中，我们就不用考虑 𝑝𝑎𝑡pat 从 𝑠𝑡𝑟𝑖𝑛𝑔string 的第 11 个、第 22 个……第 𝑝𝑎𝑡𝑙𝑒𝑛patlen 个字符起出现的情况，，而可以直接将 𝑝𝑎𝑡pat 向下滑动 𝑝𝑎𝑡𝑙𝑒𝑛patlen 个字符．

观察 2

更一般地，如果出现在 𝑝𝑎𝑡pat 最末尾（也就是最右边）的那一个 𝑐ℎ𝑎𝑟char 字符的位置是离末尾端差了 𝑑𝑒𝑙𝑡𝑎1delta1 个字符，

那么就可以不用匹配，直接将 𝑝𝑎𝑡pat 向后滑动 𝑑𝑒𝑙𝑡𝑎1delta1 个字符：如果滑动距离少于 𝑑𝑒𝑙𝑡𝑎1delta1，那么仅就 𝑐ℎ𝑎𝑟char 这个字符就无法被匹配，当然模式字符串 𝑝𝑎𝑡pat 也就不会被匹配．

因此除非 𝑐ℎ𝑎𝑟char 字符可以和 𝑝𝑎𝑡pat 末尾的那个字符匹配，否则 𝑠𝑡𝑟𝑖𝑛𝑔string 要跳过 𝑑𝑒𝑙𝑡𝑎1delta1 个字符（相当于 𝑝𝑎𝑡pat 向后滑动了 𝑑𝑒𝑙𝑡𝑎1delta1 个字符）．并且我们可以得到一个计算 𝑑𝑒𝑙𝑡𝑎1delta1 的函数 𝑑𝑒𝑙𝑡𝑎1(𝑐ℎ𝑎𝑟)delta1(char)：

𝐢𝐧𝐭 𝑑𝑒𝑙𝑡𝑎1(𝐜𝐡𝐚𝐫 𝑐ℎ𝑎𝑟)𝐢𝐟 char不在pat中 || char是pat上最后一个字符𝐫𝐞𝐭𝐮𝐫𝐧 𝑝𝑎𝑡𝑙𝑒𝑛𝐞𝐥𝐬𝐞𝐫𝐞𝐭𝐮𝐫𝐧 𝑝𝑎𝑡𝑙𝑎𝑠𝑡𝑝𝑜𝑠−𝑖// i为出现在pat最末尾的那一个char出现的位置，即pat[i]=charint delta1(char char)if char不在pat中 || char是pat上最后一个字符return patlenelsereturn patlastpos−i// i为出现在pat最末尾的那一个char出现的位置，即pat[i]=char

需要注意，显然这个表只需计算到 𝑝𝑎𝑡𝑙𝑎𝑠𝑡𝑝𝑜𝑠 −1patlastpos−1 的位置．

现在假设 𝑐ℎ𝑎𝑟char 和 𝑝𝑎𝑡pat 最后一个字符匹配到了，那我们就看看 𝑐ℎ𝑎𝑟char 前一个字符和 𝑝𝑎𝑡pat 的倒数第二个字符是否匹配：

如果是，就继续回退直到整个模式串 𝑝𝑎𝑡pat 完成匹配（这时我们就在 𝑠𝑡𝑟𝑖𝑛𝑔string 上成功得到了一个 𝑝𝑎𝑡pat 的匹配）；

或者，我们也可能会在匹配完 𝑝𝑎𝑡pat 的倒数第 𝑚m 个字符后，在倒数第 𝑚 +1m+1 个字符上失配，这时我们就希望把 𝑝𝑎𝑡pat 向后滑动到下一个可能会实现匹配的位置，当然我们希望滑动得越远越好．

观察 3(a)

在 观察 2 中提到，当匹配完 𝑝𝑎𝑡pat 的倒数 𝑚m 个字符后，如果在倒数第 𝑚 +1m+1 个字符失配，为了使得 𝑠𝑡𝑟𝑖𝑛𝑔string 中的失配字符与 𝑝𝑎𝑡pat 上对应字符对齐，

需要把 𝑝𝑎𝑡pat 向后滑动 𝑘k 个字符，也就是说我们应该把注意力看向之后的 𝑘 +𝑚k+m 个字符（也就是看向 𝑝𝑎𝑡pat 滑动 k 之后，末段与 𝑠𝑡𝑟𝑖𝑛𝑔string 对齐的那个字符）．

而 𝑘 =𝑑𝑒𝑙𝑡𝑎1 −𝑚k=delta1−m，

所以我们的注意力应该沿着 𝑠𝑡𝑟𝑖𝑛𝑔string 向后跳 𝑑𝑒𝑙𝑡𝑎1 −𝑚 +𝑚 =𝑑𝑒𝑙𝑡𝑎1delta1−m+m=delta1 个字符．

然而，我们有机会跳过更多的字符，请继续看下去．

观察 3(b)

如果我们知道 𝑠𝑡𝑟𝑖𝑛𝑔string 接下来的 𝑚m 个字符和 𝑝𝑎𝑡pat 的最后 𝑚m 个字符匹配，假设这个子串为 𝑠𝑢𝑏𝑝𝑎𝑡subpat，

我们还知道在 𝑠𝑡𝑟𝑖𝑛𝑔string 失配字符 𝑐ℎ𝑎𝑟char 后面是与 𝑠𝑢𝑏𝑝𝑎𝑡subpat 相匹配的子串，而假如 𝑝𝑎𝑡pat 对应失配字符前面存在 𝑠𝑢𝑏𝑝𝑎𝑡subpat，我们可以将 𝑝𝑎𝑡pat 向下滑动一段距离，

使得失配字符 𝑐ℎ𝑎𝑟char 在 𝑝𝑎𝑡pat 上对应的字符前面出现的 𝑠𝑢𝑏𝑝𝑎𝑡subpat（合理重现，plausible reoccurrence，以下也简称 pr）与 𝑠𝑡𝑟𝑖𝑛𝑔string 的 𝑠𝑢𝑏𝑝𝑎𝑡subpat 对齐．如果 𝑝𝑎𝑡pat 上有多个 𝑠𝑢𝑏𝑝𝑎𝑡subpat，按照从右到左的后缀匹配顺序，取第一个（rightmost plausible reoccurrence，以下也简称 rpr）．

假设此时 𝑝𝑎𝑡pat 向下滑动的 𝑘k 个字符（也即 𝑝𝑎𝑡pat 末尾端的 𝑠𝑢𝑏𝑝𝑎𝑡subpat 与其最右边的合理重现的距离），这样我们的注意力应该沿着 𝑠𝑡𝑟𝑖𝑛𝑔string 向后滑动 𝑘 +𝑚k+m 个字符，这段距离我们称之为 𝑑𝑒𝑙𝑡𝑎2(𝑗)delta2(j)：

假定 𝑟𝑝𝑟(𝑗)rpr(j) 为 𝑠𝑢𝑏𝑝𝑎𝑡 =𝑝𝑎𝑡[𝑗 +1…𝑝𝑎𝑡𝑙𝑎𝑠𝑡𝑝𝑜𝑠]subpat=pat[j+1…patlastpos] 在 𝑝𝑎𝑡[𝑗]pat[j] 上失配时的最右边合理重现的位置，𝑟𝑝𝑟(𝑗) <𝑗rpr(j)<j（这里只给出简单定义，在下文的算法设计章节里会有更精确的讨论），那么显然 𝑘 =𝑗 −𝑟𝑝𝑟(𝑗), 𝑚 =𝑝𝑎𝑡𝑙𝑎𝑠𝑡𝑝𝑜𝑠 −𝑗k=j−rpr(j), m=patlastpos−j．

所以有：

𝐢𝐧𝐭 𝑑𝑒𝑙𝑡𝑎2(𝐢𝐧𝐭 𝑗)// j为失配字符在pat上对应字符的位置𝐫𝐞𝐭𝐮𝐫𝐧 𝑝𝑎𝑡𝑙𝑎𝑠𝑡𝑝𝑜𝑠−𝑟𝑝𝑟(𝑗)int delta2(int j)// j为失配字符在pat上对应字符的位置return patlastpos−rpr(j)

于是我们在失配时，可以把把 𝑠𝑡𝑟𝑖𝑛𝑔string 上的注意力往后跳过 max(𝑑𝑒𝑙𝑡𝑎1,𝑑𝑒𝑙𝑡𝑎2)max(delta1,delta2) 个字符

过程

箭头指向失配字符 𝑐ℎ𝑎𝑟char：

𝑝𝑎𝑡:𝙰𝚃-𝚃𝙷𝙰𝚃𝑠𝑡𝑟𝑖𝑛𝑔: … 𝚆𝙷𝙸𝙲𝙷-𝙵𝙸𝙽𝙰𝙻𝙻𝚈-𝙷𝙰𝙻𝚃𝚂.--𝙰𝚃-𝚃𝙷𝙰𝚃-𝙿𝙾𝙸𝙽𝚃… ⇑pat:AT-THATstring: … WHICH-FINALLY-HALTS.--AT-THAT-POINT… ⇑

𝙵F 没有出现 𝑝𝑎𝑡pat 中，根据 观察 1 ，𝑝𝑎𝑡pat 直接向下移动 𝑝𝑎𝑡𝑙𝑒𝑛patlen 个字符，也就是 7 个字符：