{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "FvmCSsJKfX3W" }, "source": [ "## $\\Large{Data\\; Analysis\\; Overview}$" ] }, { "cell_type": "markdown", "metadata": { "id": "HgSUznZTfX3Z" }, "source": [ "在正式踏入機器學習/深度學習領域之前,首先要讓大家了解的就是人工智慧/資料科學專案的進行流程(見下圖)。\n", "無論是機器學習或是深度學習領域,最不可或缺的成分就是資料本身,然而資料也並非取得後就可以直接拿來作為機器學習的訓練資料,而是需要經過資料前處理、資料轉換、甚至作一些視覺化的探索來幫助我們對資料的狀況有一個概觀性的了解,因此在實際學習如何應用模型之前,我們需要先了解如何使用Python程式語言對資料作處理以及探索,讓後續模型的使用上能夠更順利。" ] }, { "cell_type": "markdown", "metadata": { "id": "Z7rfnzBBfX3a" }, "source": [ "\n", "\n", "\n", "[source](https://www.researchgate.net/publication/315442481_Big_Data_and_Health_Economics_Opportunities_Challenges_and_Risks)" ] }, { "cell_type": "markdown", "metadata": { "id": "EWZ8MgiwfX3a" }, "source": [ "# Introduction of Libraries\n", "\n", "以下為幾個在Python程式語言中作資料處理/分析不可或缺的套件。" ] }, { "cell_type": "markdown", "metadata": { "id": "dNMoaJPHfX3b" }, "source": [ "---\n", "\n", "\n", "## Numpy\n", "\n", "事實上無論何種資料都可以被表示成有結構的數值形式,例如音訊是一連串有順序的數值、表單可以想像成兩個維度(列/欄)的矩陣等。\n", "雖然在原生python中就有提供列表(list)的物件類型,但是列表在處理大量資料的效能卻非常差,這時就不能不提到Numpy這個套件了,它提供了多維陣列(n-dimension array)的物件類型,可以平行化地幫助我們進行矩陣運算或數值操作。由於它優秀的效能與靈活度,有許多其他的套件皆選擇使用Numpy的多維陣列作為底層的物件類型,可以說是使用Python作科學運算最底層的基石。\n", "\n", "- [Numpy 官方網頁](https://numpy.org/)" ] }, { "cell_type": "markdown", "metadata": { "id": "8G6N9ADqfX3b" }, "source": [ "---\n", "\n", "\n", "## Pandas" ] }, { "cell_type": "markdown", "metadata": { "id": "AvxrOmwEfX3c" }, "source": [ "在所有資料類型中,大家最熟悉的應該就是表單類型的資料,由於資料的格式大多固定,這樣的資料類型又被稱為「結構化資料」。\n", "平常我們已經很習慣使用Excel等試算表軟體來開啟與處理這類型的資料,而Pandas套件就被稱為是Python程式語言中的Excel,它同樣奠基在Numpy套件之上,並且提供比較高階的資料結構像是DataFrame與Series讓使用者可以快速進行操作。無論是讀取資料、欄位運算、排序、合併資料、甚至是繪圖等都難不倒它,在資料科學的領域內它一定是你不可或缺的好朋友。\n", "\n", "- [Pandas 官方網頁](https://pandas.pydata.org/)" ] }, { "cell_type": "markdown", "metadata": { "id": "O-iTpcGqfX3c" }, "source": [ "---\n", "\n", "\n", "\n", "## Matplotlib & Seaborn" ] }, { "cell_type": "markdown", "metadata": { "id": "M8PtDSpPfX3c" }, "source": [ "比起直接觀察數字,人類對於圖形的理解更加快速,因此很多時候我們會透過資料視覺化的方式讓我們對資料之間的關聯有所掌握,以及作最終成果的呈現。如果我們想使用Python作圖的話第一個想到的一定是Matplotlib套件。\n", "同樣是基於Numpy的套件,Matplotlib可以幫助我們進行靜態的2D圖形繪製,像是折線圖、直方圖、散佈圖,也能客製化地調整與增加各種物件,並將圖形儲存成常見的圖片類型格式(ex. PNG, SVG, BMP)。\n", "\n", "而Seaborn則是以Matplotlib為基礎的高階繪圖套件,可以快速且簡單地畫出美觀的圖形,另外Seaborn也提供了其他常用的進階統計圖表,因此也成為進行資料分析時幾乎必備的繪圖套件之一。\n", "\n", "- [Matplotlib 官方網頁](https://matplotlib.org/)\n", "- [Seaborn 官方網頁](https://seaborn.pydata.org/)" ] }, { "cell_type": "markdown", "metadata": { "id": "Doyu26QNfX3d" }, "source": [ "---" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.10" }, "colab": { "provenance": [] } }, "nbformat": 4, "nbformat_minor": 0 }