φυβλαςのβλογ
บล็อกของ phyblas



ใช้ h5py เพื่อบันทึกอาเรย์ numpy เป็นไฟล์ hdf5
เขียนเมื่อ 2018/01/04 23:52
ในเนื้อหา numpy บทที่ 39 ได้อธิบายถึงการบันทึกอาเรย์ลงไฟล์ https://phyblas.hinaboshi.com/numa39

แต่ว่านอกจากวิธีนั้นแล้วยังมีอีกวิธีที่น่าสนใจ นั่นคือบันทึกในรูปแบบไฟล์ hdf5

hdf คือรูปแบบการจัดเก็บไฟล์แบบไบนารีชนิดหนึ่ง ปัจจุบันใช้รุ่นที่เรียกว่า hdf5 ชื่อสกุลไฟล์มักเขียนเป็น .h5

สามารถใช้ในไพธอนได้โดยใช้มอดูล hdf5 ซึ่งสามารถติดตั้งได้ง่ายด้วย pip
pip install h5py

จากนั้นก็สามารถใช้ได้ทันที มอดูลนี้ที่จริงนอกจากเรื่องบันทึกและเปิดไฟล์แล้วก็ยังใช้ทำอะไรอย่างอื่นได้อีก แต่ในที่นี้จะไม่พูดถึง จะอธิบายแค่เรื่องการใช้เพื่อบันทึกและเปิดไฟล์เท่านั้น

การใช้งานจะคล้ายกับการใช้คำสั่ง np.savez ของ numpy คือใช้เซฟหลายอาเรย์ลงในไฟล์เดียว แต่มีวิธีการเขียนที่ยุ่งยากกว่าหน่อย

เริ่มจากการบันทึกอาเรย์ลงไฟล์ เขียนได้ดังนี้
import h5py
import numpy as np

xx = np.random.random(1000000)
yy = np.random.random([1000,1000])
h5f = h5py.File('hy.h5','w')
h5f.create_dataset('x',data=xx)
h5f.create_dataset('y',data=yy)
h5f.close()

ขั้นตอนเริ่มจากเปิดไฟล์ขึ้นมาด้วย h5py.File จากนั้นก็ทำการบันทึกไฟล์ โดยปิดท้ายจะต้องปิดไฟล์ด้วยเมธอด .close ด้วย คล้ายกับคำสั่งเปิดปิดไฟล์ด้วย open ซึ่งเป็นฟังก์ชันพื้นฐานของไพธอน (รายละเอียด https://phyblas.hinaboshi.com/tsuchinoko17)

ดังนั้นจะเขียนในรูป with ก็ได้เช่นกัน เพื่อความสะดวกไม่ต้องพะวงเรื่องปิดไฟล์ตอนท้าย ดังนั้น ๔ บรรทัดสุดท้ายนั้นอาจเขียนแทนด้วย ๓ บรรทัดตามนี้
with h5py.File('hy.h5','w') as h5f:
    h5f.create_dataset('x',data=xx)
    h5f.create_dataset('y',data=yy)

อาร์กิวเมนต์ตัวแรกคือที่อยู่และชื่อของไฟล์ ส่วนตัวที่ ๒ คือชนิดของการเปิดไฟล์ ในที่นี้เปิดเพื่อเขียน ดังน้นคือ w

ในระหว่างที่ไฟล์เปิดอยู่ก็ใช้เมธอด .create_dataset เพื่อป้อนข้อมูลลงไฟล์ โดยอาร์กิวเมนต์ตัวแรกคือชื่อของชุดข้อมูล ตั้งเป็นอะไรก็ได้ จากนั้นใส่อาเรย์ที่ต้องการบันทึกลงไปที่คีย์เวิร์ด data



จากนั้นเวลาเปิดอ่านไฟล์ก็ทำในลักษณะคล้ายกัน คือใช้ h5py.File เหมือนกัน แต่เลือกโหมดเป็น r หรือจะไม่ใส่ r ก็ได้เพราะ r คือค่าตั้งต้นอยู่แล้ว

เวลาที่อ่านข้อมูลจากไฟล์ก็เปิดในลักษณะเช่นเดียวกับดิกชันนารี คือใส่ชื่อของชุดข้อมูล แต่จะต้องต่อด้วย [:] ลงไปด้วย ไม่เช่นนั้นข้อมูลจะยังไม่ถูกอ่านเข้าไปในตัวแปรทันที

เขียนได้ดังนี้
h5f = h5py.File('hy.h5')
xx = h5f['x'][:]
yy = h5f['y'][:]
h5f.close()


สำหรับเรื่องความเร็วนั้นลองมาทดสอบกันดู

เขียนโปรแกรมสำหรับเปรียบเทียบความเร็วของการใช้วิธีการต่างๆในการบันทึก โดยจะเปรียบเทียบที่อาเรย์ขนาดต่างๆกันด้วย เพราะผลที่ได้อาจไม่เหมือนกัน

ในที่นี้มี ๔ วิธี คือใช้ np.save np.savez h5py และ fits สกุลไฟล์ คือ .npy .npz .h5 และ .fits

คำสั่ง np.save จะบันทึกแยกไฟล์ ไฟล์ละอาเรย์ ส่วน np.savez จะเป็นการบันทึกรวมกี่อาเรย์ก็ได้ในไฟล์เดียว เช่นเดียวกับ h5

ส่วน fits เป็นไฟล์ข้อมูลไบนารีรูปแบบนึง สามารถบันทึกและเปิดได้ผ่านมอดูล astropy แต่ในที่นี้จะไม่อธิบายรายละเอียด แค่จะยกมาใช้เทียบเฉยๆ

เขียนได้ดังนี้ สามารถดูแล้วเปรียบเทียบลักษณะการเขียนของแต่ละวิธีไปด้วยได้
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time,h5py,os
from astropy.io import fits

chuefile = 'xy'

def saveh5f(x,y,n):
    h5f = h5py.File(chuefile+'%d.h5'%n,'w')
    h5f.create_dataset('x',data=x)
    h5f.create_dataset('y',data=y)
    h5f.close()

def savenpy(x,y,n):
    np.save(chuefile+'_x%d.npy'%n,x)
    np.save(chuefile+'_y%d.npy'%n,y)

def savenpz(x,y,n):
    np.savez(chuefile+'%d.npz'%n,x=x,y=y)

def savefits(x,y,n):
    if(os.path.isfile(chuefile+'%d.fits'%n)): os.remove(chuefile+'%d.fits'%n)
    fits.HDUList([fits.PrimaryHDU(x),fits.ImageHDU(y)]).writeto(chuefile+'%d.fits'%n)



for f in [saveh5f,savenpy,savenpz,savefits]:
    ttt = []
    ttt_std = []
    nnn = 10**np.arange(3,9)
    for n in nnn:
        x = np.random.random(n)
        y = np.random.random(int(n/10))
        tt = []
        for i in range(5):
            t1 = time.time()
            f(x,y,n)
            tt.append(time.time()-t1)
        ttt.append(tt)
    ttt = np.log10(np.array(ttt))
    std = np.array(ttt).std(1)
    mean = np.array(ttt).mean(1)
    nnn = np.log10(nnn)
    plt.plot(nnn,mean)
    plt.fill_between(nnn,mean-std,mean+std,alpha=0.3)

plt.xlabel('log(จำนวนข้อมูล)',family='Tahoma')
plt.ylabel('log(เวลา)',family='Tahoma')
plt.legend(['h5','npy','npz','fits'])
plt.show()



จากผลการวัดจะเห็นได้ว่าใช้ h5 จะช้ากว่าใช้ npy ถ้าขนาดอาเรย์เล็ก แต่จะกลายเป็นเร็วพอๆกันขึ้นมาเมื่อขนาดอาเรย์ใหญ่

แต่ h5 จะสะดวกกว่าเพราะเก็บอาเรย์ทั้งหมดลงในไฟล์เดียว เหมือนกับ npz แต่ว่าหากใช้ npz จะช้ากว่า ดังนั้นใช้ h5 จึงคุ้ม



จากนั้นลองเปรียบเทียบตอนเปิดอ่านข่้อมูลดู
def loadh5f(n):
    with h5py.File(chuefile+'%d.h5'%n,'r') as h5f:
        x = h5f['x'][:]
        y = h5f['y'][:]
    return x,y

def loadnpy(n):
    x = np.load(chuefile+'_x%d.npy'%n)
    y = np.load(chuefile+'_y%d.npy'%n)
    return x,y

def loadnpz(n):
    xy = np.load(chuefile+'%d.npz'%n)
    return xy['x'],xy['y']

def loadfits(n):
    hdulist = fits.open(chuefile+'%d.fits'%n)
    return hdulist[0].data,hdulist[1].data

for f in [loadh5f,loadnpy,loadnpz,loadfits]:
    ttt = []
    ttt_std = []
    nnn = 10**np.arange(3,9)
    for n in nnn:
        tt = []
        for i in range(5):
            t1 = time.time()
            x,y = f(n)
            tt.append(time.time()-t1)
        ttt.append(tt)
    ttt = np.log10(np.array(ttt))
    std = np.array(ttt).std(1)
    mean = np.array(ttt).mean(1)
    nnn = np.log10(nnn)
    plt.plot(nnn,mean)
    plt.fill_between(nnn,mean-std,mean+std,alpha=0.3)

plt.xlabel('log(จำนวนข้อมูล)',family='Tahoma')
plt.ylabel('log(เวลา)',family='Tahoma')
plt.legend(['h5','npy','npz','fits'])
plt.show()


ผลที่ได้จะเห็นว่า h5 ช้ากว่า npy เฉพาะตอนอาเรย์เล็ก แต่เร็วพอๆกันตอนอาเรย์ใหม่ และ npz ก็ช้าสุดอีกเช่นกัน

แต่ที่เร็วสุดกลับเป็น fits ซึ่งไม่ว่าข้อมูลจะใหญ่แค่ไหนก็ใช้เวลาไม่ค่อยต่างกัน



โดยสรุปก็คือ ข้อดีของการใช้ h5py ก็คือสามารถบันทึกและเปิดไฟล์ที่ประกอบด้วยอาเรย์ทีละหลายตัวได้เหมือนกับ np.savez แต่มีความเร็วเท่ากับ np.save ดังนั้นเหมาะที่จะใช้แทน np.savez



อ้างอิง


-----------------------------------------

囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧

ดูสถิติของหน้านี้

หมวดหมู่

-- คอมพิวเตอร์ >> เขียนโปรแกรม >> python >> numpy

ไม่อนุญาตให้นำเนื้อหาของบทความไปลงที่อื่นโดยไม่ได้ขออนุญาตโดยเด็ดขาด หากต้องการนำบางส่วนไปลงสามารถทำได้โดยต้องไม่ใช่การก๊อปแปะแต่ให้เปลี่ยนคำพูดเป็นของตัวเอง หรือไม่ก็เขียนในลักษณะการยกข้อความอ้างอิง และไม่ว่ากรณีไหนก็ตาม ต้องให้เครดิตพร้อมใส่ลิงก์ของทุกบทความที่มีการใช้เนื้อหาเสมอ

สารบัญ

รวมคำแปลวลีเด็ดจากญี่ปุ่น
python
-- numpy
-- matplotlib

-- pandas
-- pytorch
maya
การเรียนรู้ของเครื่อง
-- โครงข่าย
     ประสาทเทียม
บันทึกในญี่ปุ่น
บันทึกในจีน
-- บันทึกในปักกิ่ง
บันทึกในไต้หวัน
บันทึกในยุโรปเหนือ
บันทึกในประเทศอื่นๆ
เรียนภาษาจีน
qiita
บทความอื่นๆ

บทความแบ่งตามหมวด



ติดตามอัปเดตของบล็อกได้ที่แฟนเพจ

  ค้นหาบทความ

  บทความแนะนำ

หลักการเขียนทับศัพท์ภาษาจีนกลาง
g ในภาษาญี่ปุ่นออกเสียง "ก" หรือ "ง" กันแน่
ค้นพบระบบดาวเคราะห์ ๘ ดวง เบื้องหลังความสำเร็จคือปัญญาประดิษฐ์ (AI)
หอดูดาวโบราณปักกิ่ง ตอนที่ ๑: แท่นสังเกตการณ์และสวนดอกไม้
พิพิธภัณฑ์สถาปัตยกรรมโบราณปักกิ่ง
บ้านเก่าของจางเสวียเหลียงในเทียนจิน
เที่ยวจิ่นโจว ๓ วัน ๒ คืน 23 - 25 พ.ค. 2015
เที่ยวเมืองตานตง ล่องเรือในน่านน้ำเกาหลีเหนือ
บันทึกการเที่ยวสวีเดน 1-12 พ.ค. 2014
แนะนำองค์การวิจัยและพัฒนาการสำรวจอวกาศญี่ปุ่น (JAXA)
เที่ยวฮ่องกงในคืนคริสต์มาสอีฟ เดินทางไกลจากสนามบินมาทานติ่มซำอร่อยโต้รุ่ง
เล่าประสบการณ์ค่ายอบรมวิชาการทางดาราศาสตร์โดยโซวเคนได 10 - 16 พ.ย. 2013
ตระเวนเที่ยวตามรอยฉากของอนิเมะในญี่ปุ่น
เที่ยวชมหอดูดาวที่ฐานสังเกตการณ์ซิงหลง
บันทึกการเที่ยวญี่ปุ่นครั้งแรกในชีวิต - ทุกอย่างเริ่มต้นที่สนามบินนานาชาติคันไซ
หลักการเขียนคำทับศัพท์ภาษาญี่ปุ่น
ทำไมจึงไม่ควรเขียนวรรณยุกต์เวลาทับศัพท์ภาษาต่างประเทศ
ทำไมถึงอยากมาเรียนต่อนอก
เหตุผลอะไรที่ต้องใช้ภาษาวิบัติ?

บทความแต่ละเดือน

2019年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

2018年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

2017年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

2016年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

2015年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

ค้นบทความเก่ากว่านั้น

ไทย

日本語

中文