Hatena::Groupsresearch

shibataismの日記

2010-01-23

021 - A comparative study on feature selection in text categorization

| 10:33

Y Yang, JO Pedersen

MACHINE LEARNING-INTERNATIONAL, 1997 - Citeseer


http://scholar.google.com/scholar?hl=en&q=A+comparative+study+on+feature+selection+in+text+categorization&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


document classificationにおける次元圧縮。

term vectorを使うとdimensionが大きすぎるので何とか減らしたい。

どの指標で減らすと一番、精度が落ちずに計算量が減るか。


  • DF(document freq)、IG(Information gain)、CHI(chi-square)が良い。common termsだけを上手く残せるから。
  • カテゴリー情報を使ってもあまりパフォーマンスに影響しない。
  • MI(mutual information)はlow-freqに大きなバイアスがかかるので、あまり良い手法ではない。

020 - Similarity index based on local paths for link prediction of complex networks

| 10:31

L Lü, CH Jin, T Zhou

Physical Review E, 2009 - APS


http://scholar.google.com/scholar?hl=en&q=Similarity+index+based+on+local+paths+for+link+prediction+of+complex+networks&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


common neighbor, Katz Indexと提案手法のlocal pathを比較。

local pathはKatzと同程度に精度がよく、かつ、計算量がものすごく少ない。


Introの英語が良く出来すぎているので、ぱくれる。

019 - Ontology-Based Link Prediction in the LiveJournal Social Network

| 10:29

D Caragea, V Bahirwani, W Aljandal, WH

Proceedings of Association …, 2009 - aaai.org


http://scholar.google.com/scholar?hl=en&q=Ontology-Based+Link+Prediction+in+the+LiveJournal+Social+Network&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


ユーザーのブログ記事へのタグをfeatureにしてlink prediction。面白い。

タグの重なりからのfeature:ontology-featureとgraph-based featureを組み合わせ。

AUCとかweka implementationは要調査。

018 - Link Prediction based on Structural Properties of Online Social Networks

| 10:26

T Murata, S Moriyasu

New Generation Computing, 2008 - Springer


http://scholar.google.com/scholar?hl=en&q=Link+Prediction+based+on+Structural+Properties+of+Online+Social+Networks&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


010_Linben_2003.pdfを重み付きリンクに拡張。手法的には010と全く同じ。

2章の記述はとても使える。


以下は読むべし。

6) Kashima, H., Abe, N., “A Parameterized Probabilistic Model of Network Evo- lution for Supervised Link Prediction,” in Proc. of the Sixth IEEE Int. Conf.

on Data Mining(ICDM’06), 2006.

017 - Combining collective classification and link prediction

| 10:23

M Bilgic, GM Namata, L Getoor

Workshop on Mining Graphs …, 2007 - linqs.cs.umd.edu


http://scholar.google.com/scholar?hl=en&q=Combining+collective+classification+and+link+prediction&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


document classificationとlink predictionは表裏一体だという主張。

実際にシミュレーションをする。DCLPを相互に繰り返すと安定する。

015 - Link prediction using supervised learning

| 10:21

M Al Hasan, V Chaoji, S Salem, M Zaki

SDM'06: Workshop on Link …, 2006 - Citeseer


http://scholar.google.com/scholar?hl=en&q=Link+prediction+using+supervised+learning&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


トポロジカルな指標でlink prediction

SVM, k-means等を比較。データはco-authorship。

SVM(RBF kernel)が一番。

featureはkw match, #neighbour, #papers, shortest path等が良い指標。

逆に、clustering coefficient, author keywordはあまり良くない指標。

014 - Discriminative probabilistic models for relational data

| 10:19

B Taskar, P Abbeel, D Koller

Eighteenth Conference on Uncertainty in …, 2002


http://scholar.google.com/scholar?q=Discriminative+probabilistic+models+for+relational+data&hl=en&btnG=Search&as_sdt=2001&as_sdtp=on


Relational Markov Network(RMN)を提案。

難しい。良く分からん。

Link, Section, NBでtext-classification。


以下は読むべし。

Probabilistic classification and clustering in relational data

B. Taskar, E. Segal, and D. Koller.

In Proc. IJCAI01, pages 870– 876, Seattle, Wash., 2001.

http://scholar.google.com/scholar?hl=en&q=Probabilistic+classification+and+clustering+in+relational+data&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0

2010-01-19

108 - Automatically clustering WordNet senses

12:09

Christopher Thad Hughes and Sushant Prakash

http://www.stanford.edu/class/cs229/projects2006.html


wordnetの語の自動分類。

107 - Extracting Meeting Topics Using Speech And Documents

| 12:08

Katherine Brainard, Tim Chang, and Kari Lee

http://www.stanford.edu/class/cs229/projects2006.html


会話の自動分類。CALOの話。

語を減らしてfeatureのdimensionを上手く下げる+k-means.

TFIDFを使ったfeatureを入れると良く分類できる。

106 - Language Classification in Multilingual Documents

| 12:07

Gorkem Ozbek, Itamar Rosenn and Eric Yeh

http://www.stanford.edu/class/cs229/projects2006.html


Morph/Morph-tactics classification。

NBと比べても微妙。

105 - Extending WordNet using Generalized Automated Relationship Induction.

| 12:05

Lawrence McAfee, Nuwan Senaratna, and Todd Sullivan.

http://www.stanford.edu/class/cs229/projects2007.html


語の関係性を拡張。

[1] Snow, R. & Jurafsky, D. & Ng, A. Y. (2005) Learning syntactic patterns for automatic hypernym discovery. NIPS 2005.

は読むべし。

104 - Using WordNet and Clustering for Semantic Role Labeling

| 12:04

Richard Fulton and Ebrahim Parvand

http://www.stanford.edu/class/cs229/projects2007.html


Semantic Role labeling。良い論文。

LRをbaseline, k-means/discriminative algorithmも。

wordnet内での距離を用いて学習する。

103 - Semantic Taxonomy Induction from Semi-Structured Text

| 12:02

Ian Yik Oon Quek, Yi-hao Kao, Jui-Yi Kao

http://www.stanford.edu/class/cs229/projects2007.html


よく分からん。taxonomyを自動構築、拡張したいらしい。

下記は読むべし。

[1] Rion Snow, Daniel Jurafsky, and Andrew Y. Ng. Semantic Taxonomy Induction from Heterogenous Evidence. In Proceedings of the 44th Annual Meeting of the Association for Computational Linguistics. 2006.

101 - Internet Article Comment Classifier.

| 12:00

Matt Jones, Eric Ma, Prasanna Vasudevan.

http://www.stanford.edu/class/cs229/projects2008.html


BBSのコメントが有用なものかどうかを分類。

013 - Statistical relational learning for link prediction

| 10:33

A Popescul, LH Ungar

Workshop on Learning Statistical Models from …, 2003 - Citeseer


http://scholar.google.co.jp/scholar?hl=en&q=Statistical+relational+learning+for+link+prediction&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


link predictionの問題は、1)特定の静的なグラフの中のlinkがunobservedという場合と、2)新しくダイナミックにノードが追加されるという場合がある。

応用としては、citation recommendation。


citation/author/publishedinをfeatureとしてlink prediction。

アルゴリズムはlogistic regression。

012 - Hierarchical structure and the prediction of missing links in networks

| 10:29

A Clauset, C Moore, MEJ Newman

stat, 2008 - arxiv.org


http://scholar.google.co.jp/scholar?hl=en&q=Hierarchical+structure+and+the+prediction+of+missing+links+in+networks&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


Newmanグループ。hierarchical structureはlink predictionにも有効。

APPENDIX D: PREDICTING MISSING CONNECTIONSが面白い。


AUC statisticの定義

AUC statistic can be interpreted as the probability that a ran- domly chosen missing connection (a true positive) is given a higher score by our method than a randomly chosen pair of unconnected vertices (a true negative). Thus, the degree to which the AUC exceeds 1/2 indicates how much better our predictions are than chance.

011 - Link prediction in relational data (2003)

| 10:22

B. Taskar, M.-F.Wong, P. Abbeel, and D. Koller.

Neural Information Processing Systems Conference, 2003

http://scholar.google.co.jp/scholar?hl=en&q=Link+prediction+in+relational+data&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


link prediction, label prediction, その組み合わせを実装。

LRの方が、RMN(下記)よりは精度良かった。

Relational Markov Network[14]は読む必要有り。

http://scholar.google.co.jp/scholar?hl=en&q=Discriminative+probabilistic+models+for+relational+data&btnG=Search&lr=&as_sdt=2000&as_ylo=&as_vis=0

010 - The link prediction problem for social networks

| 10:19

D Liben-Nowell, J Kleinberg

Proceedings of the twelfth, 2003


http://scholar.google.co.jp/scholar?hl=en&q=The+link+prediction+problem+for+social+networks&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


Link Predictionの定義は参考になる。

co-authorshipについて予測。topological measureでlinkの有無を予測。

common neighbor, jaccard, shortest pathなど基本的なもの多し。

確率ランクを出して予測。

2010-01-16

005 - Support vector machines for text categorization

| 12:27

A Basu, C Watters, M Shepherd

HICSS'03, 2003 - Citeseer

http://scholar.google.com/scholar?hl=en&q=Support+Vector+Machines+for+Text+Categorization&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


丁寧な論文。IDFで不要な語を足切りしたら、分類の精度が良くなったという論文。

009 - Text categorization with support vector machines: learning with many relevant

| 12:22

T Joachims, C Nedellec, C Rouveirol

Machine Learning: ECML-98, 1998 - Springer

http://scholar.google.com/scholar?hl=en&as_sdt=2000&q=Text+categorization+with+Support+Vector+Machines%3A+Learning+with+many+relevant+features


英文をパクると良い、良い英文。

[11]にあるinformation gainに関する論文は読む必要あり。

A comparative study on feature selection in text categorization

Y Yang, JO Pedersen

MACHINE LEARNING-INTERNATIONAL …, 1997 - Citeseer

008 - A loss function analysis for classification methods in text categorization

| 12:11

F Li, Y Yang

MACHINE LEARNING-INTERNATIONAL WORKSHOP, 2003 - aaai.org

http://scholar.google.com/scholar?hl=en&q=A+Loss%09Function%09Analysis%09for%09Classification%09Methods+in%09Text+Categorization&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0

目的関数(あるいはコスト関数)を変えると、LRでもSVMよりも良いパフォーマンスになる。既存研究よりも良い結果が出た。

006 - Inductive learning algorithms and representations for text categorization

| 12:08

S Dumais, J Platt, D Heckerman, M

Proceedings of CIKM98, 1998 - portal.acm.org

http://scholar.google.com/scholar?hl=en&q=Inductive+Learning+Algorithms+and+Representations+for+Text+Categorization&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


文章キレイ。

5つの手法を、学習スピード、分類スピード、分類精度で比較。SVMが一番いい。

introが参考になる。text categorizationには3方法あって、1)experts-based, 2)rule-based, 3)statistical & machine learning。

004 - Tackling the poor assumptions of naive bayes text classifiers

12:07

JD Rennie, L Shih, J Teevan, D Karger

MACHINE LEARNING, 2003 - aaai.org

http://scholar.google.com/scholar?hl=en&q=Tackling+the+Poor+Assumptions+of+Naive+Bayes+Text+Classifiers&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


Naive Bayesの問題点を指摘し、改善提案。

1)classごとのトレーニングデータ数が違うと、boundaryの選定に影響する。まだ研究過程のbiasの問題。

2)featureが独立だと仮定している点。

003 - A comparison of event models for naive bayes text classification

| 12:05

A McCallum, K Nigam

98 workshop on learning for text categorization, 1998

http://scholar.google.com/scholar?hl=en&q=A+Comparison+of+Event+Models+for+Naive+Bayes+Text+Classification&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


vocabulary sizeが精度に与える影響。

multi-variate とmultinominalの復習をしよう。

multinominalはvocabulary sizeが大きいと精度良し。

multi-variateは逆にvocabulary sizeが小さいと精度良し。

以下は読む必要有り。

Thorsten Joachims. Text categorization with Support Vetor Machines: Learning with many relevant features. In ECML-98, 1998.

http://scholar.google.com/scholar?hl=en&q=Text+categorization+with+Support+Vetor+Machines%3A+Learning+with+many+relevant+features&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0

002 - A re-examination of text categorization methods

| 12:04

Y Yang, X Liu

Proceedings of the 22nd annual international ACM, 1999

http://scholar.google.com/scholar?hl=en&q=A+re-examination+of+text+categorization+methods&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


SVM, knn, NNet, LLSF, NBの比較。SVM, knn, LLSFが精度良い。

micro average / macro averageという比較は要復習。

001 - Machine Learning in Automated Text Categorization

| 12:03

FABRIZIO SEBASTIANI

ACM Computing Surveys (CSUR)

Volume 34 , Issue 1 (March 2002) Pages: 1 - 47

http://scholar.google.com/scholar?hl=en&q=Machine+Learning+in+Automated+Text+Categorization&btnG=Search&as_sdt=2000&as_ylo=&as_vis=0


超大作。レビュー論文。記述方法、表現方法は参考になる。

2002年なので内容は今となっては古いが、一番教科書的で便利。

2010-01-15

To Do

| 09:13

  • Read printed papers
  • Find out papers relating to "citation analysis" or "patent analysis"
  • Find out papers relating from Matsuo-san's list

Tags for categorizing papers

| 08:30

  • Machine Learning
  • Information Retrieval
  • Document Classification
  • Term Classification
  • Citation Analysis
  • Patent Analysis