Top > Search Research paper > (In Japanese)最適パターン発見にもとづく高速テキストマイニング

(In Japanese)最適パターン発見にもとづく高速テキストマイニング

Research report code R030000278
Posted date Feb 22, 2005
  • (In Japanese)有村 博紀
  • (In Japanese)九州大学大学院システム情報科学研究院
Research organization
  • (In Japanese)九州大学
Report name (In Japanese)最適パターン発見にもとづく高速テキストマイニング
Technology summary (In Japanese)本研究の目的は,ネットワーク上に蓄積された膨大なテキストと半構造データから,有用な情報を獲得するための高速なテキストデータマイニングシステムを開発することである。ウェブページやXMLデータ等のネットワーク上の大規模テキストデータの利用が急速に進みつつある現在,テキストデータからの効率良いデータマイニング手法の確立が緊急の課題となっている。しかしその一方で,これらの大規模テキストデータは,(1) 明示的な構造をもたない,(2) 多様な電子化文書の,(3) 膨大な量の集積であるという特徴をもっており,関係データベースを対象に開発されてきた従来型のデータマイニング技術をそのまま適用することができないという問題があった。そこで本研究では,従来型技術の活用ではなく,新しい観点からテキストマイニングの問題に正面から取り組み,テキストデータマイニングのための基本技術の研究開発を行なう。さらに,これら基本技術の開発を通じて,大規模テキストデータを対象とした高速テキストマイニングシステムのプロトタイプを構築する。研究の特色として,データマイニングを,人間による大量のデータ解析を支援する効率的な半自動的ツールとしてとらえ,従来の情報検索システムを超えた新しい情報アクセスシステムの開発を目指す。また,計算量理論と計算学習理論との最新の成果を積極的に取り入れて,大量のデータに対してきわめて高速かつ頑健に働くアルゴリズムの開発を目標とする。

※Click image to enlarge.

R030000278_01SUM.gif R030000278_02SUM.gif R030000278_03SUM.gif
Research field
  • Computer system development
  • Computer system operational management
  • System programmings in general
  • Operating systems
  • Database systems
Published papers related (In Japanese)(1) T. Asai, H. Arimura, K. Abe, S. Kawasoe and S. Arikawa, Online Algorithms for Mining Semi-structured Data Stream, Proc. IEEE International Conference on Data Mining (ICDM'02), IEEE Computer Society Press, December 2002. (To appear)
(2) K. Abe, S. Kawasoe, T. Asai, H. Arimura, S. Arikawa, Optimized Substructure Discovery for Semi-structured DataProc. 6th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD-2002), LNAI 2431, Springer-Verlag, 1-14, August 2002.
(3) T. Asai, K. Abe, S. Kawasoe, H. Arimura, H. Sakamoto, S. Arikawa, Efficient Substructure Discovery from Large Semi-structured Data, Proc. Second SIAM International Conference on Data Mining (SDM'02), 158-174, SIAM, 2002.
(4) H. Sakamoto, K. Hirata and H. Arimura, Learning Elementary Formal Systems with Queries, Theoretical Computer Science, 2002. (accepted)
(5) 村上義継,坂本比呂志,有村博紀,有川節夫(九大),HTMLからのテキストの自動切りだしアルゴリズムと実装,情報処理学会論文誌:数理モデル化と応用, Vol.42, No.SIG 14 (TOM 5), 39-49, Dec 2001.
(6) 安積裕樹,川副真治,安部潤一郎,有村博紀,有川節夫(九大),分散記憶型並列計算機における大規模接尾辞配列の構築法,情報処理学会論文誌:数理モデル化と応用, Vol.42, No.SIG 14 (TOM 5), 14-24, Dec 2001.
(7) H. Arimura, H. Sakamoto, S. Arikawa. Efficient Learning of Semi-structured Data from Queries, Proc. the 12th International Conference on Algorithmic Learning Theory (ALT'01), LNAI 2225, 315-331. Springer-Verlag, 2001.
(8) K. Taniguchi, H. Sakamoto, H. Arimura, S. Shimozono and S. Arikawa, Mining Semi-Structured Data by Path Expressions, Proc. the 4th International Conference on Discovery Science, LNAI 2226, 378-388, Springer-Verlag, 2001.
(9) A. Yamamoto, K. Ito, A. Ishino. H. Arimura, Proc. the 11th International Conference on Inductive Logic Programming (ILP'01), LNAI 2157. Springer-Verlag, 2001
(10) T. Kasai, G. Lee, H. Arimura, S. Arikawa, K. Park, Linear-time Longest-Common-Prefix Computation in Suffix Arrays and Its Applications, Proc. the 12th Annual Symposium on Combinatorial Pattern Matching (CPM'01), LNCS 2089, 181-192, Springer-Verlag, 2001.
(11) H. Arimura, H. Asaka, H. Sakamoto, S. Arikawa, Efficient Discovery of Proximity Patterns with Suffix Arrays (Extended Abstract), Proc. the 12th Annual Symposium on Combinatorial Pattern Matching (CPM'01), Short talk. LNCS 2089, 152-156, Springer-Verlag, 2001.
(12) H. Sakamoto, H. Arimura, and S. Arikawa, Extracting Partial Structures from HTML Documents, Proc. the 14th Florida Artificial Intelligence Research Symposium (FLAIRS'2001), Florida, AAAI, 264-268, May, 2001.
(13) H. Arimura and S. Jain (eds.), Proc. the 11th International Workshop on Algorithmic Learning Theory (ALT'00), LNAI 1968, Springer-Verlag, Sydney, Dec. 2000.
(14) H. Arimura, J. Abe, R. Fujino, H. Sakamoto, S. Shimozono, S. Arikawa, Text Data Mining: Discovery of Important Keywords in the Cyberspace, Proc. Kyoto International Conference on Digital Libraries 2000, Kyoto University, British Library and National Science Foundation (U.S.A.), 121-126, 2000.
(15) H. Sakamoto, H. Arimura, S. Arikawa, Identification of Tree Translation Rules from Examples, Proc. the 5th International Colloquium on Grammatical Inference (ICGI 2000), LNAI 1891, Springer-Verlag, 241-255, Sep. 2000.
(16) 安部潤一郎,藤野亮一,下薗真一,有村博紀,有川節夫,テキストデータからの高速データマイニング人工知能学会誌, Vol.15, No.4, 2000年7月
(17) H. Arimura, H. Sakamoto, and S. Arikawa, Learning Term Rewriting Systems from Entailment, 10th International Conference on Inductive Logic Programming (ILP2000) Work-in-Progress paper session, July 2000.
(18) H. Arimura, Text Data Mining with Optimized Pattern Discovery, Proc. the 17th Machine Intelligence - Life Long Learning and Discovery in Procedural and Declarative Knowledge, K. Furukawa, S. Muggleton. D. Michie, and L. DeRaedt (eds.), Bury St. Edmunds, UK, 19-21 July 2000.
(19) R. Fujino, H. Arimura, S. Arikawa, Discovering Unordered and Ordered Phrase Association Patterns for Text Mining, Proc. 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD2000), LNAI 1805, 281-293, Springer-Verlag, Nara, Apr. 2000.
(20) S. Shimozono, H. Arimura, and S. Arikawa, Efficient Discovery of Optimal Word-Association Patterns in Large Text Databases, New Generation Computing, 18, 49-60, 2000.
(21) A. Yamamoto and H. Arimura, Inductive Logic Programming: From Logic of Discovery to Machine Learning, Special Issue on Surveys on Discovery Science, (Eds.) S. Miyano, IEICE Transaction on Infomation and System, E83-D (1), 10-18, 2000.
(22) 有村博紀,坂本比呂志,データマイニングにおける最適パターン発見,応用数理,応用数理学会, 2002。(予定)
(23) 池田大輔・坂本比呂志・有村博紀,ウェブデータマイニング,システム/制御/情報「データマイニング特集号」,システム制御情報学会,第46巻第4号, Apr. 2002.
(24) 坂本比呂志,有村博紀,Webマイニング,特集「テキストマイニング」,人工知能学会誌, Vol.16, No.2, 2001年3月.
(25) 那須川哲哉,河野浩之,有村博紀,テキストマイニング基盤技術,特集「テキストマイニング」,人工知能学会誌, Vol.16, No.2, 2001年3月.
Research project
  • Precursory Research for Embryonic Science and Technology.;Information and Human Activity
Information research report
  • (In Japanese)有村 博紀. 最適パターン発見にもとづく高速テキストマイニング. 「さきがけ研究21」研究報告会 「情報と知」領域 講演要旨集 第III期研究者(研究期間:1999-2002),2002. p.37 - 46.