• Japanese

MENU

共通認証システム 三田キャンパス 慶應義塾公式ウェブサイト 慶應義塾の電力使用状況

提言

Big Dataと統計学教育 ―実践編―

三田ITC 所長:新保 一成


前号のITC年報で、米国統計学会の機関誌Chanceの“Taking a Chance in Classroom”と題するコラム 1)で提案された「Big Data時代の学部統計学カリキュラムに導入すべき5つのキーエレメント」を紹介した。それは以下の5項目である。

(1)データについて創造的に、ただし建設的に考える。単にデータ・フォーマットを変換する(たとえば、ExcelデータをCSVに変換する)にとどまらず、そのデータがどのように使われることが多いかを考慮してデータの形を再編成することも含む“Data Tidying”と呼ばれるデータ保持デザインについて学ぶ。
(2)データの保持に関連して、メモリーとハードディスクの違いなどコンピューターの基本的なアーキテクチャーとその拡張性を理解し、リレーショナル・データベース管理システム(RDBMS)に問い合わせできる能力を身につける。
(3)コマンド方式のインタフェース環境でR、Python、Juliaなどのコンピューター言語によって統計計算を実施する。(どのような言語であれ)プログラムをコーディングできる能力に重きをおくべきで、その必要性が増している。これが、再現不可能なポイント&クリック・パラダイムから学生を解放する。
(4)大規模で、厄介で、複雑で、チャレンジングなデータセットと格闘する。
(5)再現性に関する倫理的規範を実践する。このコラムにおいて著者は、Rのdplyrパッケージを使って(1)~(4)を実践して見せ、その実例事態がRMarkdownを使うことによって再現可能になっている。

そもそもこのような提案がなされた背景には、Big Data時代に特にビジネス分野において、データ分析ができる人材、データを使って考えることができる経営者と管理職の無視することのできない規模の人手不足が予測されるからであった 2)。つまりこれらの提案の実施は三田でこそ必要なものということだ。そこで今年度春学期の三田の授業(商学部)で演習レポートという形で上記5つのエレメントを実践してみたので、その結果を報告したい。

まず、学生自身が必要な道具を自身のPCにインストールしなければならないのだが、この入口の時点でつまずいた。R、RStudio、そしてdplyer、tidyr、ggplot2、RSQLiteなどのRパッケージが最低限必要である。これらはすべ世界中で広く使われているオープンソースのプログラムである。オープンソースということなので、これらのプログラムは残念ながらWindowsやMac OSなどの商用オペレーティング・システムからすれば動作が保証された公認ソフトウエアではない。問題が起きたのはすべてWindowsマシンで、インストール時、実行時の権限がユーザーにない、漢字のユーザー名でトラブルが生じるなどがほとんどであった。学生はWebで公開されている情報などを参考に対応するものの、機種によって対処できないなど、Windows上に環境を構築するのには異常に手間がかかるという印象である。ちなみにMac OS上では一切問題が生じなかった。PC購入時にプリインストールされているOffice環境だけが使えればOKという三田のユーザーにとって、PCの機種選択にオープンウェアの利用可能性や科学計算の能力などは頭にないのかもしれない。この辺に関して三田ITCが情報を提供できたらよいのではないかと感じた次第である。

次はキーエレメントの1と2に関連する問題である。学生は、授業のWebページに用意されたデータをダウンロードし、それをプログラムから読む。Webページ閲覧ソフトからデータをダウンロードするとユーザーのダウンロード・フォルダに保存されるのが普通のようであるが、そこにデータを貯めこんだままにしておく学生がとても多い。そうした状態のままRを起動して、ファイル名だけを指定してデータを読もうとするものだから、「データがありません」とエラーが出る。インストールに手間取った学生は、これもPCの問題だと思い込み、自分のPCでは課題ができませんと泣きついてくる。あるいは文字列のどこかに全角文字を入力し同じ問題を起こす。あるいは、データをSQLiteのデータベースで提供したときには、それを直接ダブルクリックしても開けないので、「データがおかしい」ので課題ができないと文句を言ってくる。こと情報処理に関しては、問題が生じた原因が自分にあるとは考えないようである。商学部の学生の多くが日吉で「情報リテラシー基礎」を履修して三田に進級すると聞いているが、新しい時代の情報リテラシーとは何であるかを再検討する必要もありそうだ。

次はキーエレメントの3、4、5に関わる問題だ。対話形式とバッチ型形式の両方でプログラムを実行できるプログラムも多く、Rもその一つである。RMarkdownで作成してPDFで配布している講義ノート兼演習・課題の解説にはサンプルコードを提示している。多くの学生は、PDFファイルのサンプルコードをRのコマンドラインにコピペし、適当に修正して課題をこなしている。決して、コマンド群をファイルに保存してバッチ処理をしないので、何度も同じ作業を繰り返す。プログラムをコーディングする、再現不可能なポイント&クリック・パラダイムから学生を解放するという目的に適っているのかどうかはなはだ疑問である。ただ一人だけ、RMarkdownでレポートを作成して提出した学生がいたことは喜ばしいかぎりである。

私にとってははじめての試みなので、今後も粘り強く続けていかなければばらないだろう。どうもやっかいな授業らしいと履修者が減るかもしれない。それとも内容は理解できないけどコピペでなんとかなる楽単と思われるかもしれない。いずれにしても、少々やっかいでも役に立つことを伝えていかなければならない。


1)Nicholas J. Hortona, Benjamin S. Baumerb and Hadley Wickham, “Taking a Chance in the Classroom: Setting the Stage for Data Science: Integration of Data Management Skills in Introductory and Second Courses in Statistics,”Chance, 2015.
2)Nicole Lazar, “The Big Picture: Big Data Hits the Big Time,”Chance, 2012.

最終更新日: 2016年10月4日

内容はここまでです。