Y Yang, JO Pedersen
MACHINE LEARNING-INTERNATIONAL, 1997 - Citeseer
document classificationにおける次元圧縮。
term vectorを使うとdimensionが大きすぎるので何とか減らしたい。
どの指標で減らすと一番、精度が落ちずに計算量が減るか。
L Lü, CH Jin, T Zhou
Physical Review E, 2009 - APS
common neighbor, Katz Indexと提案手法のlocal pathを比較。
local pathはKatzと同程度に精度がよく、かつ、計算量がものすごく少ない。
Introの英語が良く出来すぎているので、ぱくれる。
D Caragea, V Bahirwani, W Aljandal, WH
Proceedings of Association …, 2009 - aaai.org
ユーザーのブログ記事へのタグをfeatureにしてlink prediction。面白い。
タグの重なりからのfeature:ontology-featureとgraph-based featureを組み合わせ。
AUCとかweka implementationは要調査。
T Murata, S Moriyasu
New Generation Computing, 2008 - Springer
010_Linben_2003.pdfを重み付きリンクに拡張。手法的には010と全く同じ。
2章の記述はとても使える。
以下は読むべし。
6) Kashima, H., Abe, N., “A Parameterized Probabilistic Model of Network Evo- lution for Supervised Link Prediction,” in Proc. of the Sixth IEEE Int. Conf.
on Data Mining(ICDM’06), 2006.
M Bilgic, GM Namata, L Getoor
Workshop on Mining Graphs …, 2007 - linqs.cs.umd.edu
document classificationとlink predictionは表裏一体だという主張。
M Al Hasan, V Chaoji, S Salem, M Zaki
SDM'06: Workshop on Link …, 2006 - Citeseer
トポロジカルな指標でlink prediction
SVM, k-means等を比較。データはco-authorship。
featureはkw match, #neighbour, #papers, shortest path等が良い指標。
逆に、clustering coefficient, author keywordはあまり良くない指標。
B Taskar, P Abbeel, D Koller
Eighteenth Conference on Uncertainty in …, 2002
Relational Markov Network(RMN)を提案。
難しい。良く分からん。
Link, Section, NBでtext-classification。
以下は読むべし。
Probabilistic classification and clustering in relational data
B. Taskar, E. Segal, and D. Koller.
In Proc. IJCAI01, pages 870– 876, Seattle, Wash., 2001.
Christopher Thad Hughes and Sushant Prakash
http://www.stanford.edu/class/cs229/projects2006.html
wordnetの語の自動分類。
Machine Learning, Document Classification |
Katherine Brainard, Tim Chang, and Kari Lee
http://www.stanford.edu/class/cs229/projects2006.html
会話の自動分類。CALOの話。
語を減らしてfeatureのdimensionを上手く下げる+k-means.
TFIDFを使ったfeatureを入れると良く分類できる。
Machine Learning, Term Classification |
Gorkem Ozbek, Itamar Rosenn and Eric Yeh
http://www.stanford.edu/class/cs229/projects2006.html
Morph/Morph-tactics classification。
NBと比べても微妙。
Machine Learning, Term Classification |
Lawrence McAfee, Nuwan Senaratna, and Todd Sullivan.
http://www.stanford.edu/class/cs229/projects2007.html
語の関係性を拡張。
[1] Snow, R. & Jurafsky, D. & Ng, A. Y. (2005) Learning syntactic patterns for automatic hypernym discovery. NIPS 2005.
は読むべし。
Machine Learning, Term Classification |
Richard Fulton and Ebrahim Parvand
http://www.stanford.edu/class/cs229/projects2007.html
Semantic Role labeling。良い論文。
LRをbaseline, k-means/discriminative algorithmも。
wordnet内での距離を用いて学習する。
Machine Learning, Term Classification |
Ian Yik Oon Quek, Yi-hao Kao, Jui-Yi Kao
http://www.stanford.edu/class/cs229/projects2007.html
よく分からん。taxonomyを自動構築、拡張したいらしい。
下記は読むべし。
[1] Rion Snow, Daniel Jurafsky, and Andrew Y. Ng. Semantic Taxonomy Induction from Heterogenous Evidence. In Proceedings of the 44th Annual Meeting of the Association for Computational Linguistics. 2006.
David Li, Jeffrey Schlosser
http://www.stanford.edu/class/cs229/projects2008.html
経済記事が株価に与える影響を機械学習。
Matt Jones, Eric Ma, Prasanna Vasudevan.
http://www.stanford.edu/class/cs229/projects2008.html
BBSのコメントが有用なものかどうかを分類。
Link Prediction, Machine Learning, Citation Analysis |
A Popescul, LH Ungar
Workshop on Learning Statistical Models from …, 2003 - Citeseer
link predictionの問題は、1)特定の静的なグラフの中のlinkがunobservedという場合と、2)新しくダイナミックにノードが追加されるという場合がある。
応用としては、citation recommendation。
citation/author/publishedinをfeatureとしてlink prediction。
アルゴリズムはlogistic regression。
Citation Analysis, Link Prediction |
A Clauset, C Moore, MEJ Newman
stat, 2008 - arxiv.org
Newmanグループ。hierarchical structureはlink predictionにも有効。
APPENDIX D: PREDICTING MISSING CONNECTIONSが面白い。
AUC statisticの定義
AUC statistic can be interpreted as the probability that a ran- domly chosen missing connection (a true positive) is given a higher score by our method than a randomly chosen pair of unconnected vertices (a true negative). Thus, the degree to which the AUC exceeds 1/2 indicates how much better our predictions are than chance.
Citation Analysis, Link Prediction |
B. Taskar, M.-F.Wong, P. Abbeel, and D. Koller.
Neural Information Processing Systems Conference, 2003
link prediction, label prediction, その組み合わせを実装。
LRの方が、RMN(下記)よりは精度良かった。
Relational Markov Network[14]は読む必要有り。
Citation Analysis, Link Prediction |
D Liben-Nowell, J Kleinberg
Proceedings of the twelfth, 2003
Link Predictionの定義は参考になる。
co-authorshipについて予測。topological measureでlinkの有無を予測。
common neighbor, jaccard, shortest pathなど基本的なもの多し。
確率ランクを出して予測。
Machine Learning, Document Classification |
A Basu, C Watters, M Shepherd
HICSS'03, 2003 - Citeseer
丁寧な論文。IDFで不要な語を足切りしたら、分類の精度が良くなったという論文。
Machine Learning, Document Classification |
T Joachims, C Nedellec, C Rouveirol
Machine Learning: ECML-98, 1998 - Springer
英文をパクると良い、良い英文。
[11]にあるinformation gainに関する論文は読む必要あり。
A comparative study on feature selection in text categorization
Y Yang, JO Pedersen
MACHINE LEARNING-INTERNATIONAL …, 1997 - Citeseer
Machine Learning, Document Classification |
F Li, Y Yang
MACHINE LEARNING-INTERNATIONAL WORKSHOP, 2003 - aaai.org
目的関数(あるいはコスト関数)を変えると、LRでもSVMよりも良いパフォーマンスになる。既存研究よりも良い結果が出た。
Machine Learning, Document Classification |
T Zhang, FJ Oles
Information Retrieval, 2001 - Springer
SVM以外にももっと良い線形分類器が作れないかという論文。長いし難しい。
Machine Learning, Document Classification |
S Dumais, J Platt, D Heckerman, M
Proceedings of CIKM98, 1998 - portal.acm.org
文章キレイ。
5つの手法を、学習スピード、分類スピード、分類精度で比較。SVMが一番いい。
introが参考になる。text categorizationには3方法あって、1)experts-based, 2)rule-based, 3)statistical & machine learning。
JD Rennie, L Shih, J Teevan, D Karger
MACHINE LEARNING, 2003 - aaai.org
Naive Bayesの問題点を指摘し、改善提案。
1)classごとのトレーニングデータ数が違うと、boundaryの選定に影響する。まだ研究過程のbiasの問題。
2)featureが独立だと仮定している点。
Document Classification, Machine Learning |
A McCallum, K Nigam
98 workshop on learning for text categorization, 1998
vocabulary sizeが精度に与える影響。
multi-variate とmultinominalの復習をしよう。
multinominalはvocabulary sizeが大きいと精度良し。
multi-variateは逆にvocabulary sizeが小さいと精度良し。
以下は読む必要有り。
Thorsten Joachims. Text categorization with Support Vetor Machines: Learning with many relevant features. In ECML-98, 1998.
Machine Learning, Document Classification |
Y Yang, X Liu
Proceedings of the 22nd annual international ACM, 1999
SVM, knn, NNet, LLSF, NBの比較。SVM, knn, LLSFが精度良い。
micro average / macro averageという比較は要復習。
Machine Learning, Document Classification |
FABRIZIO SEBASTIANI
ACM Computing Surveys (CSUR)
Volume 34 , Issue 1 (March 2002) Pages: 1 - 47
超大作。レビュー論文。記述方法、表現方法は参考になる。
2002年なので内容は今となっては古いが、一番教科書的で便利。
diary |
diary, Information Retrieval, Machine Learning, Document Classification, Term Classification, Citation Analysis, Patent Analysis |