マイブログ リスト

医療言語処理講座

2012年9月2日日曜日

コンピュータサイエンスからデータサイエンスへ、そしてビックデータサイエンスへ

 先月828日から3日間「Cloud Week 2012@北海道大学 ~クラウド技術の最先端を探る~」が開催され、夏休み時期でもあり自主研修で参加しました。


 主催者である北海道大学情報基盤センター長の高井 昌彰氏の挨拶の中で、今は“コンピュータサイエンス”の時代から“データサイエンス”の時代に変化しているとありました。


コンピュータサイエンスはなじみが深い言葉で、日本語では計算機科学となるわけですね。


Wikiによればその範囲は、C.シャノンの情報理論やA.チューリングのチューリングマシンなど基礎理論からプログラミング言語、分散コンピューティングや並列コンピューティング、コンピュータの土台であるオペレーティングシステム、社会インフラであるコンピュータネットワーク、セキュリティに欠かせない暗号理論、大量のデータを扱うためのデータベース技術、そして私たちの仕事や生活を支援する人工知能技術や抽象的な問題を可視化するコンピュータグラフィックスなど、その応用範囲は広いです[1]


一方、データサイエンスは“コンピュータでデータを扱って、人間の役に立つようにする分野”と定義しています[2]


一言でいえば“データマイニング”がデータサイエンスの核ですね。その対象分野はコンピュータサイエンスとも重なりますが、データ化、データベースなどデータそのものを対象して、統計学的なデータ分析の手法、そのデータをもとに思考する人工知能技術やデータをもとにシュミレーションする技術などが含まれます。


こうしてみると明らかに社会(時代)はデータサイエンスに向かっているように思います。


現在、インターネット上に様々な情報が存在し、医療機関の情報システムの中にも大量の情報が詰まっています。これをうまく利用して新しい医療の時代が現れると思います。


時代はデータサイエンスからビックデータサイエンスに進んでいる・・・


ビッグデータサイエンスが対象とする分野は、従来の分野に加えて自由記述文書からトピックの抽出や知識世界を俯瞰するオントロジーやトピックマップが加わっていくのではないでしょうか。




参考URL
[1]http://ja.wikipedia.org/wiki/%E8%A8%88%E7%AE%97%E6%A9%9F%E7%A7%91%E5%AD%A6
[2]http://heartland.geocities.jp/ecodata222/ed/edj1.html

2012年8月11日土曜日

外部記憶装置とクラウドサービス


 先月721日に山形医科大学病院で「医用画像管理セミナー(初級)in山形」が開催され、講義に行ってきました。私の担当は「コンピュータの基礎」でコンピュータの5大要素についての講義です。

 コンピュータの5大要素はご存じのとおり入力装置、制御装置、記憶装置、演算装置と出力装置を指しますが、記憶装置の中の外部記憶装置について講義の際にふと気づいたことがありました。外部記憶装置として磁気テープやCD-RそしてUSBメモリなどを挙げてきましたが、最近ではUSBメモリを持ちあることはほとんどなくなりました。変わってDropboxEvernoteを使う機会が多くなっています。“外部記憶装置もクラウド化しているな~”と、話をしながら頭の中を過ぎっていきました。

 そんなわけで外部記憶装置とクラウドサービスをIT用語辞典(http://e-words.jp)で調べてみた。

外部記憶装置【external storage unit】(補助記憶装置)とは、「コンピュータ内でデータやプログラムを記憶する装置。ハードディスクやフロッピーディスク、MOCD-R、磁気テープなどがこれにあたる。磁気的に記録を行うものが多いため、記憶容量が大きく、電源を供給しなくても記録が消えないという特徴があるが、動作が遅く、CPU(中央処理装置)からは内容を直接読み書きすることができない。」さらに「長期的な保存には外部記憶装置が利用される。」とあります。

 一方、クラウドサービス【cloud service】(IT用語辞典、11.7.6更新情報)とは、「従来は手元のコンピュータに導入して利用していたようなソフトウェアやデータ、あるいはそれらを提供するための技術基盤(サーバなど)を、インターネットなどのネットワークを通じて必要に応じて利用者に提供するサービス。「ASPサービス」「SaaS」「PaaS」などとほぼ同様の概念だが、これらを包含したより包括的な概念で、何らかのコンピューティング資源(ソフトウェア、ハードウェア、処理性能、記憶領域、ファイル、データなど)をネットワークを通じて利用する形態の総称として用いられることが多い。」ということです。

つまり外部記憶領域としてクラウドサービスが当然該当することになわけでうね。次回のスライドに加えようか。。。

2012年3月13日火曜日

Javaによる医療言語処理入門が発売されました。

この本はJava言語の超初心者でも簡単に医療言語処理のプログラムを作成できるように構成された教科書です。
つまり学部生でもJavaの勉強をしながら言語処理の基礎を勉強できます。


indexOf()やsubstring()など十数個のメソッドの知識で医療言語処理のプログラムを作成することができます。
つまり、覚えることが多すぎると、本来のアルゴリズムを考えるべき時間が削減されてしまいます。このほんは、アルゴリズムに重点を置いています。


本書では各機能を20行程度のプログラム(メソッド)にまとめて,分かりやすさに配慮しています。


各章で作り上げたメソッドを組み合わせることによりn-gramモデルやtf-idfの処理を容易に医療言語処理プログラムが作成することができます。


本書では医療用語の抽出やtf-idfによる文書の類似性を求めるアルゴリズムまで扱っています。
つまり、Javaの勉強を始めて次のテーマを考えている初学者,医療言語処理について興味を持つ大学生やビジネスに応用するための基本を知りたいという開発者などにお勧めです。


この本を書店でお求めになる場合、Java言語のコーナーではなく、医療統計などのコーナーに置いてあるようです。書店で検索して棚をご確認ください。


http://www.pilar-edit.com/shop/products/detail.php?product_id=96 

2012年1月26日木曜日

Javaによる医療言語処理入門 近日発売

Java超初心者のための医療言語処理の入門書
(^_^) なるほど、"Hello World!"の次はこうすれば言語処理ができるのか・・・・

医療分野初学者のための医療言語処理の入門書
(^▽^)/ なるほど、医療言語はおもしろい!と思えるはず。

Java勉強中の学生のための医療言語処理の入門書
(∩_∩)! 短いプログラムがわかりやすい。20行程度でいろんな機能が実現できてる。

そんな入門書が近日発売されます。