データサイエンティストとは？
仕事内容や必要な技術、データ活用の課題を紹介

2022.08.29 2024.01.17 デジタルビジネスシェルパ

近年では、データ活用を重視する企業が増加し、データサイエンティストの果たす役割が注目を集めています。本記事では、データサイエンティストに関して、その仕事内容や、機械学習・レポーティングなどの技術、サイロ化などデータ活用における課題と解決策について解説します。

データサイエンティストとは

データサイエンティストとは、アルゴリズムや統計解析などを用いてデータを解析する専門家のことです。主にビッグデータを企業が活用できるデータに整える業務と、データを分析し戦略を立案する業務を担います。
データを収集・蓄積する大規模なデータベースの構築や運用、データを活用するためのITスキル、ビッグデータの解析を行う統計学の知見などが必要です。収集時には不規則に入力されている膨大なデータを、構造化しながら解析可能な状態に整理し、分析により解析結果を導き出します。データサイエンティストにより解析された結果は、企業の経営上の意思決定や事業戦略の策定などに活用されます。

データサイエンティストが誕生した背景

データサイエンスという言葉は、1974年にデンマークのコンピューター学者ピーターナウア氏が著書「Concise Survey of Computer Methods」で言及したのが初めてとされています。1990年代頃からはデータセットの大規模化が進み、パターンを見つけるプロセスとして「データマイニング」が行われるようになりました。機械学習においても、それまでの知識をもとにする学習ではなくデータをもとに学習する形へ移行しています。
2000年代には個人のパソコン所有が増加し、世界的にインターネット利用者が増加したこともあり、世界中でさまざまなデータが使用・やりとりされるようになります。さらにオートエンコーダを利用したディープラーニングが発明され、人工知能（AI）の技術が大幅に向上しました。

2000年代後半には、機械学習や人工知能の技術力向上から膨大な量のビッグデータの取り扱いが可能になりました。そのため、データを分析・活用したマーケティングや経営判断が広まり、ビッグデータを扱うデータサイエンティストへ注目が集まっています。
従来ではデータの統計、収集、分析を行う担当者が別々でした。ところがビッグデータの進化により、分析担当者がデータを途中から処理するだけでは必要なデータが収集・抽出されず、精度の高い結果が得られにくくなりました。そこで、データ収集時から専門的な知識のある担当者に任せるため、担当を統合してデータサイエンティストが生まれたとされています。

需要が大きく人材は希少なため、日本でも2016年末に文部科学省により「データサイエンス教育強化拠点コンソーシアム」が組織され、データサイエンティストを養成する大学が増加しています。

データアナリストとの違い

データサイエンティストは、統計学や機械学習を用いてデータ分析を行います。データアナリストもデータ分析をするため、違いがわかりにくいかもしれません。
データサイエンティストが分析モデルの構築を中心としている技術者よりの職種で、データアナリストは分析結果をビジネスに活用する働きが求められるビジネスよりの職種であるという違いがあります。

データサイエンティストは、主に機械学習を使用して分析を行うため、機械学習の分析処理に必要なデータのクレンジング作業をしなければなりません。また、機械学習での分析スキルが求められ、音声ファイルや画像ファイルなどの非構造化データを扱うケースもあります。
データアナリストの場合は、すでに整理された構造化データに対し、統計学を用いて分析を行うケースが多くみられます。統計学の知識のほか、ExcelやBIツールなどを活用するスキルが必要です。

データサイエンティストの必要性

ビジネスにおいて、企業は顧客や売上データなど膨大な量のデータを取り扱う必要があります。現在ではSNSやスマートフォン情報、インターネット上からデータを収集するケースも多くみられます。これら膨大な量のビッグデータは、入力内容が統一されていない場合が多いため、データを活用する際には注意しなければなりません。
あらゆる情報が集められているビッグデータを適切に分析し活用できると、売上金額の予測、問題点・課題点の発見などが可能になります。マーケティング活動の効率化や新しい事業活動などにデータを活かせるようになるでしょう。

また、機械学習には、取り扱うデータ量が多いほど分析の予測精度が上がる特徴があります。そのような中、ビッグデータの分析結果をもとに企業の意思決定をする「データドリブン経営」にも注目が集まっています。
ビッグデータ分析を専門知識のあるデータサイエンティストに任せると、適切なデータクレンジングによりデータの欠損部分、誤記などを削除、修正してから精度の高いデータ分析結果を得ることが可能です。データ活用のための機械学習に通じたデータサイエンティストは、データ活用が経営の鍵を握る現在、欠かせない存在となってきています。
多くの企業で、データサイエンティストが必要とされていますが、国内でデータサイエンスを教える教育機関は近年やっと増えてきたという事情もあり、人材の供給が追い付いていない状況です。

データサイエンティストの仕事内容

データサイエンティストには、企業のデータ分析を行う環境の構築や経営上の課題を抽出すること、データの収集や分析などの仕事があります。企業経営に重要なデータを幅広く取り扱う仕事内容について以下で解説していきます。

企業のデータ分析のための環境構築

データサイエンティストには、データ分析だけでなく分析するための環境を構築する仕事もあります。業務システムやSNSなどからデータを収集するにはバッチ処理を行います。業務システムやSNSから収集するデータは、様式が統一されていないため、そのままでは分析作業に適しません。そのため、収集したデータを分析しやすい形式へ自動変換する必要があります。
収集した膨大なデータの蓄積には、Hadoop・MySQL・NoSQLなど、蓄積するデータの特徴に合ったデータベース環境の構築が必要です。さらに、データベースからデータを取り出すための環境として、BIツールやHive・pigなどの操作環境を構築します。そうすることで、必要に応じたデータ分析が実施できます。

企業の課題抽出

企業の経営上の課題を発見し解決へと導くためには、データ分析の前に企業が達成すべき目的を明確にしてから課題を見つけ出します。この段階では、ビジネススキルが必要です。
例えば、売り上げが落ち込んでいる店舗では「売り上げ増加」という目的を明確化できるかもしれません。その上で、売り上げが減少している原因の仮説を立てます。
ここでは、「顧客数が減少している」「客単価が減少している」の仮説を立てたとします。この仮説を立てたあとには、これら仮説を検証するためデータ収集・分析が必要です。さらに、顧客数の減少に関して、減っているのは新規顧客かリピーターか、顧客数が減っている特定の時間帯や曜日はあるのかといった点も分析していけるでしょう。
課題を具体的に抽出することで、解決につながる戦略を立案しやすくなります。

データの収集と分析

企業の課題抽出の段階で仮説立案したあとには、仮説を実証するために必要なデータを収集する方法を決定します。収集後には、分析できる状態にするためデータのクレンジングなど加工を行わなければなりません。データの収集から加工まで終わったら、やっと分析が可能になります。データベースや分析ツールを活用し、さまざまな方法で分析を行います。
データサイエンティストは主に機械学習を使用するため、機械学習用の高度なモデルを構築し、運用しなければなりません。データを準備してからモデルを構築して運用を行うのが一般的なフローですが、ツールを使用するとデータの準備とモデルの構築を自動で行うことも可能です。欠損値や外れ値の処理といった「データ準備」、特徴量エンジニアリング、モデルを用いた学習などの「モデル作成」を自動化し、完成したモデルをシステムに組み込むだけで簡単に運用や分析ができるようになります。

レポーティングと提言

データ分析を終えたら、わかりやすいレポートを作成して結果を伝えることが大切です。レポートを見る人の業務知見も考慮に入れながら、分析結果をどのようにまとめるのが効果的かを検討しなければなりません。
分析対象のデータ項目を整理してKPI（重要指標）を設定します。KPIは過不足のないように設定することが大切です。多過ぎるとポイントがぼやけてしまいますが、必要な項目が欠けていると正確な分析ができません。
KPIの項目の変化をダッシュボード上などに可視化して、意思決定者に共有する必要があるでしょう。
レポート作成後は、分析で得た情報から解決策を提言します。目標となるモデルを提示するのも一案です。

データサイエンティストに必要な7つの技術

データサイエンティストには、7つの技術が必要とされています。以下では、機械学習、ディープラーニング、レポートなど、データサイエンティストに必要な技術の種類や特徴について解説します。

機械学習

データサイエンティストは、主に機械学習を用いた高度な分析を行います。機械学習を活用するには、使用される言語や機械学習の手法に関する知識やスキルを身につけなければなりません。機械学習・AIの分野でよく使用される言語はPythonで、汎用言語のためデータ分析以外にも活用されます。
機械学習モデルを開発し、欠損値の処理などをしたデータを入れて、多様なパターンを覚えさせる必要があります。その際、データをそのまま入れるのではなく、データの特徴を数値化した「特徴量」を指定しなければなりません。たとえば、人間と猿を区別させたいなら、それぞれの身長や体重などを数値化できるでしょう。
データによっては、どの特徴量を選択すべきか判断が難しいものもあり、データサイエンティストの能力が試されることになります。

ディープラーニング

ディープラーニングは、機械学習をさらに発展させた技術です。機械学習では、人間が事前にデータを与えて学習させる必要がありますが、ディープラーニングでは不要です。人間の脳の働きをモデルにして作られているため、取得したデータの特徴から自動的に学習できます。
細かく指定されたデータで学習する機械学習とは異なり、ディープラーニングの場合は、ラベル付けされた画像（たとえば人間と猿の画像）を多数準備して読み取らせるだけで、データの法則やパターンから判別方法を把握します。
ディープラーニングは、膨大なデータで学習できる場合に、その分析能力が発揮される技術です。データが少ない場合には、高い判断能力や予測精度が望めないため、データが数万程度の場合にはオープンソースデータなどを追加してデータを取得させ、分析精度を上げる必要があります。ディープラーニングを分析手法として活用するには、その知識も身につけなければなりません。

レポーティング

データサイエンティストには、データを分析する統計学などのスキルだけでなく、集計・分析の結果を図や表を活用して可視化し、わかりやすくレポートにまとめるスキルも必要です。経営層に分析結果から浮き彫りになった課題が何かを理解してもらい、課題の解決策や今後のビジネス戦略を提案するには、レポーティングのスキルが求められます。分析や提案自体は優れたものであっても、意思決定者にとって理解しやすい伝え方をしなければ、受け入れてもらえないためです。

プログラミング

データサイエンティストは自分でコーディングをして統計ツールを作成する場合がありますが、SASなどの統計用ツールを使用する場合もあります。統計用ツールを使用するためには、データ管理や分析などでよく使用されるSAS、R言語、Pythonなどのスキルを身につけることが大切です。R言語はオープンソースの統計解析に特化したプログラミング言語のため、簡単な記述で本格的なデータ分析が可能です。
Pythonは汎用性の高いプログラミング言語です。データ分析や機械学習にもよく使われますが、Webアプリケーションの開発などほかの用途でも活用されます。

ビッグデータ処理

ビッグデータは通常のデータと比べてはるかに容量が多いデータです。データサイエンティストは主にビッグデータを取り扱うため、処理に必要なスキルも求められます。ビッグデータの収集、蓄積、分析はパソコン1台だけでは処理できません。そのため、複数のパソコンをつなげて並列処理を行い、1台だけでは長時間かかる処理を複数台に分散させます。この処理には、ApacheやSparkなどの分散処理に使用されるトレーニングフレームワークを構築するスキルが必要です。

DWHやETL

DWH（データウェアハウス）は、データを時系列に保存していく仕組みをしている「データの倉庫」です。さまざまなアプリケーションからデータを収集・統合でき、大量のデータから必要なデータを簡単に抽出できるなど、データ分析に適した特徴があります。
ETLは「Extract（抽出）」「Transform（変換）」「Load（書き出し）」の略語で、データベースやシステムからデータを取り出してDWHに保存するプロセスのことです。企業には販売、生産などのさまざまなデータがあります。基幹システムを通してこの各システムに分散しているデータを抽出しDWHに保存するには、このプロセスを簡単に実行できるETLツールの開発が必要です。
DWHとETLを活用するスキルも、データを活用するデータサイエンティストに必要なスキルです。

データベース

データサイエンティストが使用するデータはデータベースで管理するため、データベースからSQLでデータを抽出するなど、データベース利用に関するスキルも身につける必要があります。また、何度も条件指定されるカラムにインデックスを設計しておくなど、データベースの処理速度を改善するチューニングをするスキルも重要です。データベースのパフォーマンスを考えた使い方ができないとデータの処理速度は落ちて、サーバーに大きな負荷を与えることになります。そのため、パフォーマンスを考慮して設計することが大切です。

データサイエンティストがデータを活用する上での課題

データサイエンティストがデータを活用する際に気を付けなければならないのは、情報のサイロ化やデータの準備に時間がかかる点です。問題がある場合には、データの管理や活用状況を変えることで改善が見込めるでしょう。

情報のサイロ化

データを活用する際の業務効率化を妨げるケースがあるのが、情報のサイロ化です。サイロとは、もともとは家畜の飼料や農作物などを貯蔵する、作物ごとに独立した倉庫のことです。情報のサイロ化は、このサイロのように部門ごとのデータが独立していて、他部門との連携が取れていないケースを指します。
部門ごとに異なるシステムを使っている企業では、部門を超えてデータの確認や処理ができません。各部門のデータを必要なときにすぐ取り出せないと、データサイエンティストがデータを抽出して活用する際の業務効率は低下します。迅速な判断が必要なときでも、データ抽出から分析までに時間がかかり意思決定が遅くなるおそれがあります。

データの選定や準備に時間がかかる

データサイエンティストは、さまざまなデータを収集、加工してから分析を行います。多くの場合、ビッグデータなど膨大な量のデータを選定や準備することになるため、かなりの時間を要します。データをDWHに保存している場合には、快適に運用するためのパフォーマンスチューニングにも時間がかかるでしょう。

データプラットフォームの導入で高度なアナリティクスが可能に

データプラットフォームを導入すると、サイロ化の解消やデータ準備の時間短縮が可能になります。データプラットフォームとは、クラウド上に蓄積された膨大なデータを一元管理できるデータ分析基盤のことです。導入すると、クラウド上の大容量ストレージにビッグデータをはじめとするあらゆるデータを格納できます。
クラウド上に全てのデータを格納しているので、これまで部門ごとにデータがサイロ化していたのが解消されて、データの共有が可能になります。また、DWHを使用しているときとは異なり、チューニングの必要がありません。データの前準備にかかる時間を削減でき、データ分析により多くの時間をかけられるようになるため、高度なアナリティクスが可能になります。

まとめ

データサイエンティストは、企業の膨大なデータを管理・分析して、その解析結果を経営上の判断などに活用するための専門家のことです。データを分析するだけでなく、ビッグデータを収集、運用するためのデータベース構築など分析環境の構築から、データベース、DWHの管理など、幅広い業務を行っています。

クラウド型のデータプラットフォーム「Snowflake」は、クラウド上の大容量ストレージ「データレイク」にビッグデータなどのさまざまなデータを格納して、サイロ化されていたデータを一元化、統合でき、効率的にデータの分析、共有が行えます。データサイエンティストが効率よく業務を進めるのを強力にサポートするでしょう。