<?xml version="1.0" encoding="UTF-8"?>
 <rdf:RDF xmlns="http://purl.org/rss/1.0/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:cc="http://web.resource.org/cc/" xmlns:syn="http://purl.org/rss/1.0/modules/syndication/" xmlns:admin="http://webns.net/mvcb/">
  <channel rdf:about="http://pinboard.in">
    <title>Pinboard (junya)</title>
    <link>https://pinboard.in/u:junya/public/</link>
    <description>recent bookmarks from junya</description>
    <items>
      <rdf:Seq>	<rdf:li rdf:resource="https://dropbox.tech/infrastructure/balancing-quality-and-coverage-with-our-data-validation-framework"/>
	<rdf:li rdf:resource="https://rmarkdown.rstudio.com/"/>
	<rdf:li rdf:resource="http://prehyou2015.hatenablog.com/entry/2016/05/16/102809"/>
	<rdf:li rdf:resource="https://segment.com/blog/measuring-the-roi-of-support/"/>
	<rdf:li rdf:resource="http://aylien.com/"/>
	<rdf:li rdf:resource="http://qiita.com/ynakayama/items/56757e10e5288fa23853"/>
	<rdf:li rdf:resource="http://qiita.com/ynakayama/items/234ad00ae520030217ab"/>
	<rdf:li rdf:resource="http://qiita.com/ynakayama/items/300460aa718363abc85c"/>
	<rdf:li rdf:resource="http://qiita.com/ynakayama/items/aa4596fa44b4872bd326"/>
	<rdf:li rdf:resource="http://tjo.hatenablog.com/entry/2014/09/10/232037"/>
	<rdf:li rdf:resource="http://www.githubarchive.org/"/>
	<rdf:li rdf:resource="http://d.hatena.ne.jp/echizen_tm/20110721/1311253494"/>
	<rdf:li rdf:resource="http://d.hatena.ne.jp/echizen_tm/20100904/1283615020"/>
	<rdf:li rdf:resource="http://d.hatena.ne.jp/echizen_tm/20110807/1312727512"/>
	<rdf:li rdf:resource="http://d.hatena.ne.jp/echizen_tm/20110813/1313243793"/>
	<rdf:li rdf:resource="http://ibisforest.org/index.php?FrontPage"/>
	<rdf:li rdf:resource="http://www.kamishima.net/jp/research.html"/>
	<rdf:li rdf:resource="http://www.slideshare.net/takahi-i/hadoop-conference-japan-2011"/>
	<rdf:li rdf:resource="http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html"/>
	<rdf:li rdf:resource="http://www.unixuser.org/~euske/python/fooling/index.html"/>
	<rdf:li rdf:resource="http://alpha.mixi.co.jp/blog/?p=144"/>
	<rdf:li rdf:resource="http://www.unixuser.org/~euske/python/pdfminer/index.html"/>
	<rdf:li rdf:resource="http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html"/>
	<rdf:li rdf:resource="http://www.slideshare.net/yto/perl-122546/"/>
      </rdf:Seq>
    </items>
  </channel><item rdf:about="https://dropbox.tech/infrastructure/balancing-quality-and-coverage-with-our-data-validation-framework">
    <title>Balancing quality and coverage with our data validation framework - Dropbox</title>
    <dc:date>2025-03-28T04:32:32+00:00</dc:date>
    <link>https://dropbox.tech/infrastructure/balancing-quality-and-coverage-with-our-data-validation-framework</link>
    <dc:creator>junya</dc:creator><description><![CDATA[- Dropboxでは、製品やサービスの利用データを55PBを超えるHadoopベースのデータレイクに保存しており、様々なビジネス目的で利用されている
- データの品質は非常に重要であり、過去は各チームで異なるアプローチを取っていたため、品質問題を見逃していた可能性があった
- 2018年に専任のデータエンジニアリングチームを設置し、データレイクのデータ検証を行うフレームワークを構築した
- データ検証フレームワークの設計では以下の点に注力した:
  - 80/20の原則に基づき、最も一般的な品質問題をカバーすることを目標とした
  - SQLを使用することで、誰もが開発と保守が容易に行えるようにした
  - ルールをGitのコードとして管理することで、変更履歴の確認が容易になった
- Airflowのオペレーターを使ってデータ検証SQLを実行し、問題があれば即座にアラートを送信する仕組みを構築した
- 検証結果は一時テーブルに格納し、問題がなければ本番テーブルにデータを移行する仕組みを導入した
- この取り組みにより、データ品質インシデントが95%減少し、大きな成果を上げることができた
- 今後は、従来のパイプラインにも検証機能を追加し、分析機能の強化も計画している]]></description>
<dc:subject>case team datamining</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:fb097607f66d/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:case"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:team"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="https://rmarkdown.rstudio.com/">
    <title>R Markdown</title>
    <dc:date>2019-01-28T03:54:30+00:00</dc:date>
    <link>https://rmarkdown.rstudio.com/</link>
    <dc:creator>junya</dc:creator><description><![CDATA[R Markdown documents are fully reproducible. Use a productive notebook interface ⧉ to weave together narrative text and code to produce elegantly formatted output. Use multiple languages ⧉ including R, Python, and SQL.]]></description>
<dc:subject>markdown datamining visualization writing</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:136c4fd14b6d/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:markdown"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:visualization"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:writing"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://prehyou2015.hatenablog.com/entry/2016/05/16/102809">
    <title>プリキュア600話分のサブタイトルを分析したら見えてきた事。テキストマイニング分析より - プリキュアの数字ブログ</title>
    <dc:date>2016-05-19T07:30:32+00:00</dc:date>
    <link>http://prehyou2015.hatenablog.com/entry/2016/05/16/102809</link>
    <dc:creator>junya</dc:creator><description><![CDATA[プリキュアのサブタイトル600話分をテキストマイニング分析を行った所、
 

１：プリキュアサブタイトルには「！」が特に多く使用されている。
２：初期（2004～2006）は「戦い」をイメージする語句が使用されていた。
３：同じく初期は、敵キャラ、サブキャラクタがサブタイトルに出てくる傾向にあった。
４：中期（2007～2012）は「妖精名」が多く使用されていた。
５：近年（2013～2016）は「感情」に関する語句が多く使用されている。
６：年代と共に、サブタイトルが「戦い」から「感情」をイメージするものに変遷している。

 という傾向にあることが判りました。]]></description>
<dc:subject>datamining animation precure</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:85f03430539d/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:animation"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:precure"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="https://segment.com/blog/measuring-the-roi-of-support/">
    <title>Measuring the ROI of Support</title>
    <dc:date>2016-04-24T11:30:04+00:00</dc:date>
    <link>https://segment.com/blog/measuring-the-roi-of-support/</link>
    <dc:creator>junya</dc:creator><description><![CDATA[In this post, I’ll outline my major questions about our success team at Segment and the queries I used to investigate them. We used BIME Analytics since they have a number of out-of-the-box dashboards for Zendesk. I’ve included links to queries were appropriate!

]]></description>
<dc:subject>saas product datamining</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:baa615694e9c/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:saas"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:product"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://aylien.com/">
    <title>AYLIEN</title>
    <dc:date>2014-12-09T02:50:02+00:00</dc:date>
    <link>http://aylien.com/</link>
    <dc:creator>junya</dc:creator><description><![CDATA[Text Analysis, Sentiment Analysis.]]></description>
<dc:subject>service nlp datamining</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:d50218f5ad4a/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:service"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:nlp"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://qiita.com/ynakayama/items/56757e10e5288fa23853">
    <title>textmining - 文書の特徴をベクタライズする - Qiita</title>
    <dc:date>2014-11-13T14:10:20+00:00</dc:date>
    <link>http://qiita.com/ynakayama/items/56757e10e5288fa23853</link>
    <dc:creator>junya</dc:creator><dc:subject>datamining machinelearning</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:67eb105bc3b2/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:machinelearning"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://qiita.com/ynakayama/items/234ad00ae520030217ab">
    <title>textmining - 青空文庫の作品から TF-IDF を指標として特徴となる語彙を抽出する - Qiita</title>
    <dc:date>2014-11-13T14:01:23+00:00</dc:date>
    <link>http://qiita.com/ynakayama/items/234ad00ae520030217ab</link>
    <dc:creator>junya</dc:creator><dc:subject>datamining tf-idf</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:b84e44e0d047/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:tf-idf"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://qiita.com/ynakayama/items/300460aa718363abc85c">
    <title>tfidf - 特徴抽出と TF-IDF - Qiita</title>
    <dc:date>2014-11-13T13:58:18+00:00</dc:date>
    <link>http://qiita.com/ynakayama/items/300460aa718363abc85c</link>
    <dc:creator>junya</dc:creator><dc:subject>datamining machinelearning tf-idf</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:88bddd60f50e/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:machinelearning"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:tf-idf"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://qiita.com/ynakayama/items/aa4596fa44b4872bd326">
    <title>textmining - テキストマイニングの流れとその準備 - Qiita</title>
    <dc:date>2014-11-13T13:57:48+00:00</dc:date>
    <link>http://qiita.com/ynakayama/items/aa4596fa44b4872bd326</link>
    <dc:creator>junya</dc:creator><dc:subject>ruby datamining</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:f586506b0bb0/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:ruby"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://tjo.hatenablog.com/entry/2014/09/10/232037">
    <title>KDD2014に行ってきました - 銀座で働くData Scientistのブログ</title>
    <dc:date>2014-09-11T07:22:56+00:00</dc:date>
    <link>http://tjo.hatenablog.com/entry/2014/09/10/232037</link>
    <dc:creator>junya</dc:creator><dc:subject>kdd datamining</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:8891a8439a4c/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:kdd"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://www.githubarchive.org/">
    <title>GitHub Archive</title>
    <dc:date>2013-03-26T10:36:16+00:00</dc:date>
    <link>http://www.githubarchive.org/</link>
    <dc:creator>junya</dc:creator><description><![CDATA[Open-source developers all over the world are working on millions of projects: writing code & documentation, fixing & submitting bugs, and so forth. GitHub Archive is a project to record the public GitHub timeline, archive it, and make it easily accessible for further analysis.]]></description>
<dc:subject>github bigdata visualization datamining</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:45c1a4f0cc50/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:github"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:bigdata"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:visualization"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://d.hatena.ne.jp/echizen_tm/20110721/1311253494">
    <title>簡単分類ツールfutabaを作ってみた - EchizenBlog-Zwei</title>
    <dc:date>2012-02-16T04:52:24+00:00</dc:date>
    <link>http://d.hatena.ne.jp/echizen_tm/20110721/1311253494</link>
    <dc:creator>junya</dc:creator><description><![CDATA[しばらく前に作ったライブラリtsubomiのサンプルとして簡単分類ツールfutabaを作ってみた。あくまでtsubomiのサンプルなので高性能というわけではないが、ちょっとしたマイニングに使うには便利かもしれない。
本ツールは事前に用意した学習データ(クラス名と素性ベクトルのペア集合)から重みベクトルを学習させ、新しい入力(素性ベクトル)を学習時に与えたクラスのいずれかに分類するという一般的な分類ツールとなっている。クラスをアイテムとみなすことでレコメンデーション、類似文検索用途でも利用が可能。]]></description>
<dc:subject>datamining machinelearning</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:72acef542694/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:machinelearning"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://d.hatena.ne.jp/echizen_tm/20100904/1283615020">
    <title>CSAを使った全文検索ライブラリtsubomiを公開してみる - EchizenBlog-Zwei</title>
    <dc:date>2012-02-16T04:52:03+00:00</dc:date>
    <link>http://d.hatena.ne.jp/echizen_tm/20100904/1283615020</link>
    <dc:creator>junya</dc:creator><description><![CDATA[しばらく前から作っていた全文検索ライブラリtsubomiを公開しておく。
本ライブラリは接尾辞配列(Suffix Array)というアルゴリズムを使っていて、入力として与えたキーワードを含む行をテキストデータから探して、その行と出現位置を取得できる。さらに圧縮接尾辞配列(Compressed Suffix Array)による圧縮もサポートしているのでインデックスサイズを小さく抑えることができる。
本ライブラリは検索のためのAPIのほかに、インデックス作成、圧縮、検索を行うツールが付属している。ツールを使うだけでも、ある程度のことができる。]]></description>
<dc:subject>software datamining</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:d988659043a3/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:software"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://d.hatena.ne.jp/echizen_tm/20110807/1312727512">
    <title>電撃文庫の新刊はどれを買うべきかを機械学習で求めてみた - EchizenBlog-Zwei</title>
    <dc:date>2012-02-16T04:49:29+00:00</dc:date>
    <link>http://d.hatena.ne.jp/echizen_tm/20110807/1312727512</link>
    <dc:creator>junya</dc:creator><description><![CDATA[最近はものすごい数のライトノベルが出版されている。中でも大手の電撃文庫では毎月１０冊以上もの新刊が発売されるためどれを買ったらいいか困ってしまう。
そんなときこそ機械学習の出番ではないか！というわけで先日作った簡単分類ツールfutabaを使って今月の電撃文庫はどれを購入すべきかを判定してみたよ。

具体的なツールの使い方は前回の記事を参考にしていただくとして、本記事では結果だけをまとめておく。興味が湧いたらぜひ分類ツールfutabaを使ってみてほしい。]]></description>
<dc:subject>lightnovel datamining @5</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:fb183b99b543/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:lightnovel"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:@5"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://d.hatena.ne.jp/echizen_tm/20110813/1313243793">
    <title>ロリではないスポ根ラノベ「Let it BEE!」を読んだ - EchizenBlog-Zwei</title>
    <dc:date>2012-02-16T04:48:15+00:00</dc:date>
    <link>http://d.hatena.ne.jp/echizen_tm/20110813/1313243793</link>
    <dc:creator>junya</dc:creator><description><![CDATA[スポ根ラノベといえばアニメが絶賛放映中のロウきゅーぶ！が話題だが、今回読んだのはロリどころか萌え成分も特に無い正統派スポ根ライトノベル「Let it BEE!」。
先日、機械学習で今月読むべき電撃新刊を推薦したところ本作が選ばれた。よって本当に機械学習で私にあったラノベを見つけることができるのかを検証するために本作を購入して読んでみた次第。]]></description>
<dc:subject>lightnovel datamining machinelearning @4</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:e4964b4473b5/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:lightnovel"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:machinelearning"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:@4"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://ibisforest.org/index.php?FrontPage">
    <title>FrontPage - 機械学習の「朱鷺の杜Wiki」</title>
    <dc:date>2012-02-02T00:31:15+00:00</dc:date>
    <link>http://ibisforest.org/index.php?FrontPage</link>
    <dc:creator>junya</dc:creator><dc:subject>datamining</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:fa7fafcf7c4e/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://www.kamishima.net/jp/research.html">
    <title>神嶌 敏弘: 研究紹介</title>
    <dc:date>2012-02-02T00:31:09+00:00</dc:date>
    <link>http://www.kamishima.net/jp/research.html</link>
    <dc:creator>junya</dc:creator><dc:subject>datamining</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:89bb2bc9678d/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://www.slideshare.net/takahi-i/hadoop-conference-japan-2011">
    <title>ミクシィにおけるHadoopの利用 - Hadoop conference Japan 2011</title>
    <dc:date>2011-09-29T04:08:15+00:00</dc:date>
    <link>http://www.slideshare.net/takahi-i/hadoop-conference-japan-2011</link>
    <dc:creator>junya</dc:creator><dc:subject>presentation hadoop datamining</dc:subject>
<dc:source>https://pinboard.in/</dc:source>
<dc:identifier>https://pinboard.in/u:junya/b:43d6f5b296d6/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:presentation"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:hadoop"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html">
    <title>Introduction to Information Retrieval</title>
    <dc:date>2008-04-13T19:19:12+00:00</dc:date>
    <link>http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html</link>
    <dc:creator>junya</dc:creator><dc:subject>book datamining information programming algorithm</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:5f0481a6fa36/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:book"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:information"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:programming"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:algorithm"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://www.unixuser.org/~euske/python/fooling/index.html">
    <title>風鈴、あるいは文字列検索フレームワーク</title>
    <dc:date>2008-02-22T07:41:07+00:00</dc:date>
    <link>http://www.unixuser.org/~euske/python/fooling/index.html</link>
    <dc:creator>junya</dc:creator><description><![CDATA[Fooling (風鈴) は Python と ありあわせのライブラリでつくった 文字列検索のためのフレームワークです。数千〜数十万件の文書の中から 日本語の文字列を検索・表示するのに向いています。 F
]]></description>
<dc:subject>python software datamining</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:52051ced8234/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:python"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:software"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://alpha.mixi.co.jp/blog/?p=144">
    <title>mixi Engineers’ Blog » mixiのスモールワールド性の検証</title>
    <dc:date>2008-02-22T03:13:17+00:00</dc:date>
    <link>http://alpha.mixi.co.jp/blog/?p=144</link>
    <dc:creator>junya</dc:creator><dc:subject>community datamining web2.0</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:833b4e6f39bb/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:community"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:web2.0"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://www.unixuser.org/~euske/python/pdfminer/index.html">
    <title>PDFMiner</title>
    <dc:date>2007-12-31T08:21:04+00:00</dc:date>
    <link>http://www.unixuser.org/~euske/python/pdfminer/index.html</link>
    <dc:creator>junya</dc:creator><description><![CDATA[PDFMiner is a suite of programs that help extracting or analyzing text data from PDF documents.
]]></description>
<dc:subject>python pdf software datamining</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:65cda0b72e81/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:python"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:pdf"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:software"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html">
    <title>Webページの本文抽出 (nakatani @ cybozu labs)</title>
    <dc:date>2007-10-30T06:50:11+00:00</dc:date>
    <link>http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html</link>
    <dc:creator>junya</dc:creator><dc:subject>html library ruby web datamining</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:70e971629ee7/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:html"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:library"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:ruby"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:web"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
<item rdf:about="http://www.slideshare.net/yto/perl-122546/">
    <title>Perlで入門テキストマイニング » SlideShare (share powerpoint presentations online, slideshows, slide shows, download presentations, widgets, MySpace codes)</title>
    <dc:date>2007-10-03T02:19:57+00:00</dc:date>
    <link>http://www.slideshare.net/yto/perl-122546/</link>
    <dc:creator>junya</dc:creator><dc:subject>perl presentation datamining</dc:subject>
<dc:identifier>https://pinboard.in/u:junya/b:bdbebf6b596e/</dc:identifier>
<taxo:topics><rdf:Bag>	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:perl"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:presentation"/>
	<rdf:li rdf:resource="https://pinboard.in/u:junya/t:datamining"/>
</rdf:Bag></taxo:topics>
</item>
</rdf:RDF>