• Japanese

MENU

共通認証システム 三田キャンパス 慶應義塾公式ウェブサイト 慶應義塾の電力使用状況

提言

Big Dataと統計学教育

三田ITC 所長:新保 一成


米国のオバマ政権は2012年3月29日に”Big Data Research and Development Initiative.”を発表して、このBig Daraプロジェクトに2億ドル以上の資金を拠出するとアナウンスした 1)。これを受けて米国統計学会(American Statistical Sociaty, ASA)のChance誌にNicole Lazarは、”Big Data Hits the Big Time”というコラムを寄せている 2)。このコラムでLazarは、オバマ政権のBig Data Initiativeのゴールを次のように要約している。
(1)大量のデータを収集し、保存し、保持し、管理し、分析し、共有するために必要なコア技術の最先端を進展させる。
(2)これらの技術を科学、工学における発見のペースを加速し、国の安全保障を強化し、教育と学習に転換するために利用する。
(3)Big Data技術の開発と使用に必要な労働力を増強する。
特に3番目の点に関して、大手シンクタンクのマッキンゼーは、2018年でデータ分析に米国内で必要な人材が政府予測の50~60%程度の14~19万人も不足すると予測し、さらにデータを使ってどのような分析をしたらよいのかを理解し、分析の結果を解釈できる経営者や管理職は150万人も不足するだろうと指摘している。マッキンゼーはもっぱらビジネスの世界に注目しているが、医療、公衆衛生などBig Dataの分析が必要な分野は他にもたくさんあり、データ分析の能力を持った人材の人手不足はもっと深刻であろう、とLazarは推測している。米国には統計学部があるが、統計学の博士号取得者は年間300人に過ぎないので、コンピューター・サイエンスや計量経済学などの統計学以外の分野で勉強してきたものたちでデータ分析の人手不足を埋めるしかない。特に、データで考えることができる経営者や管理職を育てるためには、学部の早い段階から訓練を強化していく必要性をこのコラムでは訴えている。

2015年のChance誌でHortonらは、”Taking a Chance in Classroom”と題するコラムの中で 3)、Big Data時代の学部統計学のカリキュラムに導入すべき5つのキーエレメントを提案している。
(1)データについて創造的に、ただし建設的に考える。単にデータ・フォーマットを変換する(たとえば、ExcelデータをCSVに変換する)にとどまらず、そのデータがどのように使われることが多いかを考慮してデータの形を再編成することも含む”Data Tidying”と呼ばれるデータ保持デザインについて学ぶ。
(2)データの保持に関連して、メモリーとハードディスクの違いなどコンピューターの基本的なアーキテクチャーとその拡張性を理解し、リレーショナル・データベース管理システム(RDBMS)に問い合わせできる能力を身につける。
(3)コマンド方式のインタフェース環境でR、Python、Juliaなどのコンピュター言語によって統計計算をする。(どのような言語であれ)プログラムをコーディングできる能力に重きをおくべきで、必要性が増している。これが、再現不可能なポイント&クリック・パラダイムから学生を解放する。
(4)大規模で、厄介で、複雑で、チャレンジングなデータベースセットと格闘する。
(5)再現性に関する倫理的規範。このコラムにおいてHortonらは、Rのdplyrパッケージを使って(1)~(4)を実践して見せている。さらに、その実例事態がRのMarkdownを使うことによって再現可能になっているという。

Big Dataの時代にデータ分析ができる人材、データで考えることができる経営者と管理職の人手不足が予測されるのは米国に固有のことではなく、日本においても他人事ではない。私の専門分野は計量経済学で、商学部で2年生の必修科目になっている統計学を担当している。ゆえに、データで考えることができる経営者や管理職になるための基礎を提供するのはわれわれの役目と言ってよい。はたしてHortonらが提唱する5つのエレメントを授業に導入できているだろうかと自問すれば、200人から300人を対象とする必修の授業では難しいと言わざるをを得ない。
国連や世界銀行などの国際機関の中には、公表するデータの巨大化と更新速度の向上にともなってデータ抽出用のAPIを提供する機関も増えてきた。一方でこのようなAPIは、Rやその他の言語と組み合わせてプログラムの中で使うことによって効率的にデータをコンピューターの内外に保持することができる。Hortonらの指摘する(3)がいかに重要であるかがわかる。統計学の授業において、個々の学生に実習させることは難しいににしても、実例を示すことによって意識付けをして、コンピュータ言語とSQLを学ぶきっかけを与えることが重要なのだろう。


1) https://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf
2)Nicole Lazar, “The Big Picture: Big Data Hits the Big Time,”Chance, 2012.
3)Nicholas J. Hortona, Benjamin S. Baumerb and Hadley Wickhamc,“Taking a Chance in the Classroom: Setting the Stage for Data Science: Integration of Data Management Skills in Introductory and Second Courses in Statistics ,”Chance, 2015.

最終更新日: 2015年9月4日

内容はここまでです。