关联规则的增量式更新算法.pdf

关联删更新 1 、冯玉才冯割琳 1 r 5 l l 、0 华中理工大学计算饥系武汉4 3 0 0 7 4 摘要关联规则的开采是一个重要的数据开采问题．目前已经提出了许多耳法用于高鼓地发现大规模数据库中的关联规则，而对关联规则维护问题的研完工作却艰少．在用户开采关联规则的交互过程中，为了找到真正令其感兴趣的规则，用户将需要不断调整两个描述用户兴趣程度的闽值最小主持度和最小可信度．本文提出了两种增量式更蘸导法 I UA i n c r e me n t a l u p d a t i n g a l g o r i t h m 和 P I UA p a r a l l e l i n c r e me n t a l u p d a t i n g a l g o r i t h m ，用来解决这一关联规且 - I 高鼓维护问题． 1 ，．差．，．掣，塑，型查兰翩晾。瓠龋中圈法分类 3 3 书『【数据开采 Da t a Mi n i n g 又称数据库中的知识发现 KD D k n o wl e d g e d i s c o v e r y i n d a t a b a s e s ，已经被认为是数据库研究中的一十极富应用前景的新领域．这一领域可以定义为在大规模数据库中高效地发现潜在可用的模式 P a t t e r n s 或规则 R u l e s ．推动数据开采迅猛发展的是大型零售组织所面临的决策支持问题．条型码技术的发展已经使得超级市场能够收集和存储数量巨大的销售数据．一条这样的数据记录通常都包括与某个客户相关的交易 Tr a n s a c t i o n s 日期、交易中所购物品项目 i t e m s 等等．通过对往的大量交易数据进行分析就能昭获得有关客户购买模式的有用信息，从而提高商业决策的质量． _ I 在交易数据项目之间开采关联规则的问题 Mi n i n g As s o c i a t i o n Ru l e s 是 R． Ag r a wa l 等人在文献 [ 1 中首先引入的．有一十关联规则的例子就是 “ 9 0 的客户在购买面包和黄油的同时也会购买牛奶” ，其直观的意义是，客户在购买某些东西的时候有多大的倾向也会购买另外一些东西．找出所有类似这佯的规则，对于确定市场策略是很有价值的．关联规则的其他应用还包括附加邮递、目录设计、追加销售、仓储规划以及基于购买模式对客户进行划分等等．这些应用中的数据库都是极其庞大的，因此．不仅需要设计高效的算法来开采关联规则，而且也迫切需要设计高敷的算法来更新、维护和管理已开采出来的关联规则．目前大量的研究工作主要集中在开采算法方面口．而对更新算法方面的研究工作却很少．口本文主要考虑当最小支持度 mi n s u p mi n i mu m s u p p o r t 和最小可信度 mi n c o n f m[ n l mu m c o n f i d e n c e 发生变化时当前交易数据库中关联规则的更新问题，提出了两种高技的增量式更新算法 1 UA i n c r e me n t a l u D d a t i n g a l g o r i t h m 和 P I UA p a r a l l e l i n c r e me n t a l u p d a t i n g a l g o r i t h m ．详细的问题描述在第 1节给出．第 2节描述 1 UA算法和 P I UA算法．性能分析则在第 3 节讨论．第 4节作出总结． 1 问题描述 1 ． 1 关联规则的开采关联规则开采问题的形式化描述如下 l l _ ] 假设一{ i ⋯i⋯ ⋯i 是卅十不同项目的一个集合．给定一十交易数据库 D，其中每一个交易是中一组项目的集合．即．每一十交易都与一十唯一的标识符 T I D相联．如果对于 J中的一个子集 x．有 x ．我们就说一个交易包含 x．一条关联规则 A s s o c i a t i o n R u l e 就是一个形如 x y 的蕴涵式，其中 x亡J ， y亡J ．而且 xny一．如果 D 中 c ％的包含 x 的交易同时也包含 y．则关联规则 x y在 D 中以可信度 C o n fi d e n c e 成立如果 D 中％的交易包含 xUy，则关联规则 x y在 D 中具有支持度 S u p p o r t ．关联规则的开采问题就是生成所有具有用户指定本文研究得到国家 8 6 3高科技项目基金资助．作者冯玉才， 1 9 4 5 年生．教授，博士导师，主要研究领域为数据库，多媒体， G I S 冯刳琳， 1 9 7 0年生，博士生，主要研究领域为数据开采本文通讯联系人冯玉才，武汉 4 3 0 0 7A，华中理工大学计算机系本文 1 9 9 7 0 4 - 2 2 收到原稿， 1 9 9 7 0 7 1 8 收到修改稿维普资讯软件学报 9 卷的最小支持度和最小可信度的关联规则，即这些关联规则的支持度和可信度分别不小于最小支持度和最小可信度．关联规则的开采问题可以分解成下两个子同题 ①找出交易数据库 D 中所有具有用户指定最小支持度的项目集 i t e mt ，，的一个非空子集．具有最小支持度的项目集称为频繁项目集 F r e q u e n t I t e ms e t s ，反之就称为非频繁项目集． ②利用频繁项目集生成所需要的关联规则．对于每一个频繁项目集 A，找出 A的所有非空子集 n ，如果比率 s u P p o r t A ／ s u p p o r t a ≥mi n c o n f ，就生成关联规则口似 --a ．由于第 2个子同题较为容易和直观，目前大量的研究工作主要都集中在第 1 个子同题上．． 1 ． 2 相关工作在已经提出的许多算法中， R． Ag r a wa l 等人在文献[ 2 ] 中提出的 Ap r i o r i 算法是最有影响的．除了最初提出的性能较 Ap r l o r i 差的 AI S算法及其面向 S Q L 的变体 S E T M_ ] ～，目前已知的大多数算法都是以 Ap r i o r i 为核心，或是其变体，或是其扩展．口 Ap r i o r i 是一种宽度优先算法，通过对数据库 D的多趟 P a s s 扫描来发现所有的频繁项目集，在每一趟 k中只考虑具有同一长度 k 即项目集中所含项目的个数的所有项目集．在第 1 趟扫描中， A p r i o r i 算法计算中所有单个项目的支持度，生成所有长度为 1 的频繁项目集．在后续的每一趟 k中，首先以前一趟中所发现的所有频繁项目集为基础，生成所有新的候选项目集 C a n d i d a t eI t e ms e t s ，即潜在的频繁项目集，然后扫描数据库 D，计算这些候选项目集的支持度，最后确定候选项目集中哪一些真正成为频繁项目集．重复上述过程直到再也发现不了新的频繁项目集．算法高效的关键在于生成较小的候选项目集，也就是尽可能不生成和计算那些不可能成为频繁项目集的候选项目集． _ 2 ．为了实现这一点，所有已知的算法都利用了这样一个基本性质，即一个频繁项目集的任一子集必定也是频繁项目集． 1 ． 3 关联规刚的更新 D． W． C h e u n g等人首先考虑了关联规则的高效更新同题．他们考虑的同题是给定交易数据库 D B，候定最小支持度不变，当一个新的交易数据集 d b添加到 DB中去时，如何生成 DBU 中的关联规则．他们提出了增量式更新算法 F UP， F UP的基本框架和 Ap r i o r i 是一致的． [ ] 本文的目的在于，考虑当交易数据库 D保持不变，而最小支持度和最小可信度发生变化时，关联规则的高效更新同题．事实上，为了发现事先未知的关联规则，用户必然需要通过对最小支持度和最小可信度这两个闽值的不断调整来逐步聚焦到那些真正令其感兴趣的关联规则上去，这将是一个动态的交互过程，因此，迫切需要高技的更新算法来满足用户对较快的响应时间的需求．显然，对于最小可信度发生变化时的关联规则的更新同题就如同 1 ． 1 节的第 2个子同题一样直观，因此，我们主要考虑最小支持度发生变化时关联规则的高效更新问题，并且这一问题也归结为发现在新的最小支持度下的所有频繁项目集．对于这一更新同题，一种可能的方法就是将关联规则的开采算法如 Ap r i 3 i 以新的最小支持度重新运行一遍．这种方法虽然简单明了．却有着明显的不足．因为最初用来发现旧的频繁项目集的计算都将被浪费，所有的频繁项目集都必须从头开始计算．本文提出的增量式更新算法 1 UA和 P 1 UA将利用从旧的频繁项目集所获得的信息来高效发现所有新的频繁项目集． 2 增量式更新算法 I L I A和 P I U A 给定交易数据库 D，一十项目集的支持度可以就认为是所有包含该项目集的交易的数目．设旧的最小支持度为，厶为这时所有频繁 k项目集 f r e q u e n t k - i t e ms e t s ，即长度为 k的频繁项目集的集合， 1 ． 2 ⋯ ．， m1 ，这里为所有频繁项目集长度中的最大者．同样地，对于新的最小支持度，设厶为所有频繁 k项目集的集合， k 1 ， 2 ⋯ ．，辨对于每一个项目集都有一个域 c o u n t 用来保存它的支持度计数．当最小支持度发生改变时，可以分为如下两种情况；，原有的一些频繁项目集可能失去最小支持度 I ② 1 f o r l } ．所以原来所有的频繁项目集厶在新的最小支持度下仍然是频繁项目集，因此在每一趟中扫描交易数据库 D计算候选项目集的支持度计数时．我们就没有必要再考虑一遍厶对应的候选项目集．如果更进一步希望避免叉重新生成一遍厶对应的候选项目集，我们可以考虑采取以空间换时间的策略，只要在 Ap r i o r i 算法中的每一趟 k ．保存相应的 c 。一 L D即可．在第 1 趟扫描中， I UA 算法只对原来不在 L_ 中的单个项目进行支持度计算，井确定出所有新的频繁 1 项目集 L 1 ，然后通过￡ - U L1 得到￡ - ．在后续的每一趟中．包括两个阶段．首先生成计算厶所需的候选项目集 c a n d i d a t e i t e ms e t s ，即长度为的候选项目集．设 c 为所有候选项目集的集台一种质朴的增量式方法就是我们利用 Ap r i o r [ 算法中的 a p r i o r i g e n 函数0 按如下方式来生成 C t C a p r i o r i g e n L k l ’ 一Lj ．为了更好地利用从旧的频繁项目集所获得的信息来高教地发现所有新的频繁项目集，我们提出了一种新的生成所有候选项目集 C 的方法，这一新方法的关键就在于我们发掘的如下一个重要事实．在第 1 趟中，所有的频繁 1项目集已经被分成两个不相交的集合 L 1 和 L 又因为一个频繁项目集的任一子集必定也是频繁项目集，所以频繁项目集 c中的每一单个项目i 所对应的频繁 1项目集 { 或者从 L 1 中取．或者从 L_ 中取．根据这一点．我就可以将具有新的最小支持度 S 的所有频繁项目集分成 3类 ① 对于其中的每一个频繁项目集一{ ， i ． i 1 ， V J 1 ≤J ≤ ，必有 ∈L - ；对于其中的每一个频繁项目集 f 一， i z _ ．川i ， V J 1 ≤J ≤ ，必有 { ∈L．； ⑧对于其中的每一个频繁项目集 f 一 { i - i ．． - ． r ．i} ，必有两个非空子集 r 和％使得 r ． Uc 。一c 岫 n c 一，而且 c l cLI ， CLl ” ．因此我们就得到厶的一个分划，厶由 3 个互不相交的子集构成．我们将所有第①类频繁项目集构成的集台记为，第②类记为雎，第③类记为．同时与之相对应的候选项目集构成的集合分别记为 C i ， c j ， c { ．其中 C { 之中可以去掉原有频繁 k 项目集厶．这样生成的第① 类频繁项目集构成的集合记为础，即有一 U厶．于是．我们有厶 ’ 一 U U ．而且 nL i 一， Ll n 一， L { n 一．对于 C i 和 C l ，我们直接利用 A p r i o r i 算法中的 a p r i o r i g e n函数按如下方式生成 C i a p r [ o r i g e n L i I 一厶； C i a p r i o r i g e n 雎一 1 ．我们提出一个新的候选项目集生成函数 i u a g e n L 来生成 c i ．事实上，中的每一个候选项目集只需将一个第①类频繁 J 项目集 1 ≤ ≤ 一1 和一个第 ②类频繁一J 项目集进行简单的拼接即可．这里假定这一对项目集都不为空． i u a g e n 函数分为两步 1 拼接 i n s e r t i n t o cj s e l e c t声． i t e mi ，户 i t e m2 ，．．．，声 i t e mj ， g ． i t e ml ，／ t e rn2 ⋯． q ．啪 j ho rn ，雕 2 修剪 f or a i l i t e ms e t s c ∈C d o f o r a i l 一 1 一 s u b s e t s o f d o 】 f“在 i 一】 t h e n d e l e t e f r o m ci l 将所有的第④类频繁 J 项目集与相对应的第②类频繁一J 项目集通过 [ u a g e n 函数进行拼接，就得到 c { 现在，我们来说明候选项目集生成函数 i u a g e n 的正确性，也就是成立．正如前面所定义的，中的每一个频繁项目集都是由两个不相交的非空子集和 c 组成．又由于一个频繁项目集的任一子集必定也是频繁项目集．因此和 f z 必然都是频繁项目集．而 i u a g e n L 中的拼接步就相当于将每一个第① 类频繁 J 项目集分别和每一个第②类频繁幢--j 项目集进行集台的“ 并” 操作，从而生成所有潜在的频繁项目集．为了避免重复生成相同的候选项目集，我们只需将第①类频繁 J项目集从 1到幢一1 迭代．通过迭代．我们就考虑了将频繁 k项目集划分为维普资讯软件学报 9卷两个不相交非空子集的所有组合情况．因此， Ci 必然是的一十超集，亦即 c 。3 “a ．其次，在修剪步． j u a g e n L 删除的只是那些根本不可能出现在中的项目集．在这里，我们也是利用了“ 一十频繁项目集的任一子集必定也是频繁项目集这一基本性质．综上，我们就有 c i 成立．同理可知， c U厶 L ．也是成立的． c J 生成之后，紧接着就扫描数据库 D，最终生成 L ．上述过程一直重复到不再有新的频繁项目集生成为止．我们可以根据 L 一1 ， 2 ， 3 是否为空独立地决定是否还需进入一1 趟计算厶．显然，对的计算总是最后一十结束的．在下面的算法描述中，我们只简单地以判断厶是否为空来决定 I UA 算法是否还需进八曲1 趟． I uA算法的基本框架描述如下所示．算法 2 ．I UA算法 1 L 1 一{ n e w I r e q u e n t I - i t e ms e t s I L 1 一L 1 UL】 l 2 f o r 一2 l 厶1 ≠ | d o b e g i n 3 C a p r ] o r i g e ． L j L L | 4 c l a p r ] o r [ 一 g e n L ] 一L ； 5 翻一 ‘ 6 f o r J 1 I 一 1 F J d o 7 翻一c j Ui u a g e n L } l ／ * 生成所有第③娄候选项目集 * ／ 8 e a d 9 f o r a 1 1 t r a ns a c t io n s t ED do b e g i n 1 0 C , 1 s u b s e t c 1 ． f | ／中包古于交易 l 的候选项目集构成 0】／ I 1 f o r a 1 1 c a n d i da t e s c ∈o 】 d o 1 2 ． c o u n t - F| ／ C rl 中候选项目集的支持度计数加 1* ／ 1 3 C s b s a C t ， f l 1 4 f o r a l l c a n d i da t e s c ∈C d o 1 5 ． o u m- F- F j 1 6 0 s b s e t C ] ， f 1 7 f o r a l t c a nd i d a t e s ∈C d o 1 8 ． C O u n t l 1 9e n d 2 0 朋 c ∈e l ．删埘f ≥一 l 一朋 Un F 2 1 I 3 c ∈c j ． C o u n t ≥ } F 2 2 I 3一 { ∈c j ． C O unt ≥一 } 2 3 工 l U U 2 4e n d 2 5 An s we r U 厶． 2 ． 2 P I UA算法在 1 UA算法中，我们已经将所有的频繁项目集分成了互不相交的 3类，这使得 1 UA算法能够很容易实现基于共享内存 S h a r e d me mo r y 多处理机结构的并行化，即 P 1 UA 算法．事实上，象 P 1 UA这样的基于共享内存多处理机结构的并行算法特别有利于在限时应用中用来加快单个大顺序算法的计算．设有处理机P ， P⋯P ，它们有一个共享内存，都能同样地运行 I UA算法，但只有处理机 P。能够访问外存中的交易数据库 D．让处理机P。 I ， 2 ， 3 负责计算对应的 c 和对，处理机P 同时还负责扫描交易数据库 D． P I UA算法的基本框架可以简单地描述如下算法 3 ． P 1 UA算法 s的情况下， I UA 算法显然将大大优于 Ap r i o r i 算法厂 ]_T] 现在来考虑时s s 的情况．模拟安验是在奔腾1 2 0 上Win d o w s I ， 1 ． I ． 1 N T 4 ． o 下进行的，使用了与文献[ 2 ] 同样的生成程序来合成所需 1 i ＼ 1＼ l 的测试数据 ” 圉 1 显示丁测试数据库包含 1 0 0 o o 6 个数据记录磬 4 ～时的实验结果． 4 r 1 f ■ 卜图1 中3 条折线分别对应旧的最小支持度取值2 ． o o ％．同 l } j 印 1 ． 5 0 ％和0 ． 7 5 ％．测试数据库的有关参数使用文献[ 2 ] 中同样的 l l 1 l ＼记号来表示 l DI 表示交易数据记录的数目} l Tl 表示交易数据记 { 1 { { l 录的平均长度； J f 表示最大的潜在频繁项目集的平均长度； j Lf 1 L _ T _ _ _ L 1 1 表示最大的潜在额繁项目集的数目j N 表示交易项目的个数．而 L J J 一十强 l 试数据库实例则记为T z ．如． D m K，也就是1 D1 m K． I T1 l 5 o ％1 0 o 堑 0 ． 0 5 0 o 2 5 ％一以及 I1 1兰．在我们的实验中 Ⅳ 一 l 。 0 o ， IJ已 I 一 2 0 0 o ．实验结最小支譬度果表明在 1 O 0 0 0 0 个交易敷据记录时， I UA算法比 Ap r i o r i 算法快岢_ s 。。％ Bs L 。％ ● _ s ；。， 5 2 ～6倍，而当交易披据记录增加到 l 0 0 0 0 0 0个时，性能加速比为图l 性骺加速比 1 1 O - I 4 D l O O K 2 ～1 4倍．因此， I L I A算法在增量式更新关联规则的意义上优于 Ap r i o r i 算法．现在，我们来对实验结果作出分析说明．事实上，算法高效的关键在于如何高效地生成较小的候选项目集．在第 1 趟中 A p r i o r i 算法需要对全集，中的所有单十项目进行支持度计数以生成频繁 1 项目集．而 I UA 算法只需要考虑 I --L 中的单个项且．在后续的第趟中．在 A p r i o r l 算法中，所有的候选项臣集为 a p r i o r i g e n 【 L ． I 而在 I UA算法中．厶将从c j中去掉， c 。肯定小于 a．显然厶愈大，则 I UA算法的意义血大．实验结果表明，当频繁项目集的分布在新旧最小支持度两种情况下相差不大时可以获得较高的性能加速比；其次．对于生成对应的那部分候选项目集， I U A算法也优于Ap r i o r i 算法．在 Ap r i o r i 算法中是使用 a p r l o r i g e n函数将两十鞭繁“一1 项目集扩展成为候选量项目集，它需要一1 个连接 J o i n 条件来实现复杂的连接口 ] ．而在 I UA算法中只需使用 i u a 一 n函数对两个子项目集进行简单的拼接即可 - 第 3 ，在修剪步． I UA 算法在生成 c f l ’ 2 ， 3 时，只需对一单独进行检查就能实现有效的修剪，而对应地在 Ap r i o r i 算法中必须检查整个L 才舱确定有效的修剪，因此， A p r i o r i 算法中修剪步的检查范围要比I L I A算法多两倍的f 厶一 L 1 ．即 3*l 厶一． I 一 1 工 L I l 一 I f 雎 I ．当上 2 一．一和 L i 一在单独的情况下分别都可以装进内存，而厶一．却不能装进内存野，这一点尤其具有明显的意义．事实上，这时在 A p r i o r i 算法中已经不能再做有效的修剪，因为不能在内存中得到整个 L一．在模拟实验中，当交易数据记录增加到 1 0 0 0 0 0 0 十，并且出现上情况时．就得到了较高的性能加速比． I UA算法的另外一大优点就是很容易实现基于共享内存多处理机结构的并行化．由于目前主要的并行关联规则开采算法都是基于无共享 S h a r e d n o t h i n g 多处理机结构的 A p r i o r i 算法的井行化_ ‘ - ．因此，对于并行增量式更新算法 P l eA的性能评价．我们就留特以后进一步的工作． 4 结语当用户交互式开采令其真正摩趣的关联规则时，需要频繁调整最小支持度．针对这一问题，本文提出了两种高效的关联规贝【『更新算法 l UA和 P I UA． I l i a算法的基本思想也可用于 D． W． C h e u n g等人所考虑的关联规则更新问题．而且对于增量式开采一般化的关联规则 G e n e r a l i z e d A s s o c i a t i o n R u l e s 或者其他类型的规则如序列模式 t S e q u e n t i a l P a t t e r n s 也是可提供借鉴的．目前，我们正在将Ap r i o r i 算法、 I UA算法以及 F L I p算法集成为一个完整的关联规则开采杀统，并将在自行研制的数据库管理系统D M2 上实麓．维普资讯 3 0 6 软件学报 9 卷参考文献 1 Ag r a wa L R 4 f M i nin g a s s o c iatio n r u l e s he t we e n s e t s o f i t e ms in l a r ge da t a b a s e s ．I nP r o c e e d i ng s o f ACM S I GM OD Co nf e r e n c e o n M a a ng e m e n t o f Da t a，W a s h i n gt o n，DC t M a y 19 93 ． 2 0 7～ 2 1 6 9 Ag r a wa l R ，S r i ka nt R．Fa s t a l g o rit h ms f o r mi ni ng a s s o c i a t i o n r u l e s ．I nPr oc e e d i n gs o f t h e 2 0 t h I n t e r r mt i oa ul Co a f e r e n c e o n Ve r y La r ge Da t a ha s e s，S a n t i a g ot Chi l et S e p t e mb e r 1 9 94 4 8 7～ 4 99’ 3 Ag r a w且 I R，S r l k a n t R．F _衄t a L g o r i t hms f o r mi ni n g a s s oc i a t i o n r u l e s ．I BM Re s e a r c h Re p o r t RJ 9 8 3 9t 1 9 9 4 4 Ag r a wni R，S h a f e r J C．P a r a l l e l mi n i n g o f a s s o c i a t i o n r u l e sd e s i g n，i mp l e me n t a t i o nt a n d e xp e r i e n c e I BM Re s e ar c hRe p o r t RJ 1 0 00 4，1 9 9 9 5 Sfik a n t R，Ag r a wa l R．Mi n i n g g e ne r a l i z ed a s s o c iat i o n r u l e s．I nPr oc e e d i n g s o f t h e Zl s t I n t e r na t i o n a l Co n f e r e n c e O n Ve r y La r ge Da t a lms e s t Z ur i c hSwi t z e r l a n dSe p t e mbe r 1 9 9 4 ． 4 0 7 ～ 4 1 9 6 P a r k J S e t a 1 ．An e f f e c t i v e h * s h b a s ed a ] g o r l t h m f ormi n i ng o f a s s o c i a t i o n r ul e s ．I nP r oce e d i ng s o fACM S I GMODCo n f e r e nc e o n Ma n a g e me n t o f Da t a ， S a n J o s e ，C a l i f o r nia ， M a y 1 9 9 5 ．1 7 5 ～ 1 8 6 7 Se v a s e r e A． An e f fi c i e n t a l g o r i t h ms f or m i n i ng a s s o c i a t i o n r u l e s i n l a r g e d a t ab a s e s ．I nP r o c e e d i n gs o t h e 2 1 s t I n t e r t mt i o r ml Co n f e r e n c e o n Ve r y La r ge Da t a h a s e s，Z0 r ie h，S wl t z e r ] d．Se p t e mbe r 1 9 9 5 ． 4 3 2 ～ 4 4 4 8 Ho ut s ma M ，S wa m i A．Set o r i e n t e d mi n i n g a s s o c iat i o n r u l e s ．I nPr o c e e di ng s o f t h e 1 1 s t I n t e r r mt J o r m[ Con f e r e n c e o n Da ta En g l n e e r ingTa i pa i ，M a r c h 1 9 9 5 ． 2 5 ～ 3 3 9 Tniv o n e n H． Se mp ] i n g l a r g e d a t a b a s e sf o r a s s oc i a t i o n r ul e s ．I n}Pr oc e e d i n g s oft h e 2 2 t hIn t e r n a t i o r m] Co nf e r e n c e o nVe ry La rg e Da t a h a s e s ，B omh a y，I n d i at 1 9 99 ． 1 ～ 1 9 1 0 Ch e u n g D W e t a 1 ．Ma i n t e r m n c e o f d i s c o v e r ed s s oci a t l o n rul e s i n l a r g e d a t a lm s e s ； a n i n c r e me n tal u p d a t i ng t ech n i q u e I n P ro c e e d J n g s o f t he 1 Z t h I n t e r r mt i o n l Co t de ren c e o n Da t a Eng i ne e r i n g，Ne w Or l e a ns t Lo nis a r a t ，1 9 9 9 ．1 06 1 14 1 1 h t t p ／／ www． a l ma d e n ． i b m． c o mi c s ／ q u e s t ／ data／ a s s o c ． g e n ． t a r ． Z 1 9 Ag r a wa l R ，Sr i k a n tR．M i n i n g s e q ue n t ia l p a t t e r n s ．I aPr o c e e d i ng s o ft h e l i s tIn t e r n a t lon a [ Co n f e r e n c e o p t Da t aEn g d n e e r i n g， Ta i p e i ，M a r c h 1 9 9 5 ．3 ～ 1 4 I nc r e me nt a l Up da t i ng Al g or i t hms f o r M i ni ng As s o c i a t i o n Ru l e s FENG Yu c a i FENG J i a n 1 i n De p a r t me n t o Y C o m p u t e r S c i enc e Hu a z h o n g Un i * r ff t y o Y S c i e n c e a n d Te c h n o l o g y Wu h a n 4 3 0 0 7 4 Ab s t