NDJson or Parquet#

Manifest 文件本质上是一对 Data File 的 metadata. 而一个 Data File 的 metadata 可以被抽象视为一个 schema 不变的 Struct 对象. 那么我们应该选择哪种格式用来存储这个 Struct 对象呢? 一般来说, 我们有两种选择: NDJson 和 Parquet. 下面这个脚本测试了两种格式的读写性能.

ndjson_or_parquet.py

# -*- coding: utf-8 -*-

"""
Benchmark result::

.. code-block:: python

    n_records = 1000000
    {
        "Write ndjson": 1.875375,
        "Read ndjson": 0.356473,
        "Write parquet": 0.25004,
        "Read parquet": 0.288895
    }
"""

import typing as T
import io
import gzip
import json
import random

import polars as pl

from s3manifesto.vendor.timer import DateTimeTimer


T_RECORD = T.Dict[str, T.Any]


def write_ndjson(records: T.List[T_RECORD]) -> bytes:
    df = pl.DataFrame(records)
    buffer = io.BytesIO()
    df.write_ndjson(buffer)
    return gzip.compress(buffer.getvalue())


def read_ndjson(b: bytes) -> T.List[T_RECORD]:
    df = pl.read_ndjson(gzip.decompress(b))
    return df.to_dicts()


def write_parquet(records: T.List[T_RECORD]) -> bytes:
    df = pl.DataFrame(records)
    buffer = io.BytesIO()
    # df.write_parquet(buffer, compression="snappy")
    df.write_parquet(buffer, compression="zstd", pyarrow_options={"use_dictionary": True})
    return buffer.getvalue()


def read_parquet(b: bytes) -> T.List[T_RECORD]:
    df = pl.read_parquet(b)
    return df.to_dicts()


def test_performance():
    # n_records = 1_000
    # n_records = 10_000
    # n_records = 100_000
    n_records = 1_000_000
    # n_records = 10_000_000

    prefix = "s3://mybucket/data"
    records = [
        {
            "prefix": prefix,
            "file": f"{ith}.parquet",
            "size": random.randint(1000 * 1000, 10 * 1000 * 1000),
        }
        for ith in range(1, 1 + n_records)
    ]

    display = True
    # display = False

    result = {}

    # with DateTimeTimer("Write ndjson", display=display) as timer:
    #     b1 = write_ndjson(records)
    # result["Write ndjson"] = timer.elapsed
    # size1 = len(b1)
    #
    # with DateTimeTimer("Read ndjson", display=display) as timer:
    #     records1 = read_ndjson(b1)
    # result["Read ndjson"] = timer.elapsed
    # assert len(records1) == n_records
    # if n_records <= 1000:
    #     assert records1 == records

    with DateTimeTimer("Write parquet", display=display) as timer:
        b2 = write_parquet(records)
    result["Write parquet"] = timer.elapsed
    size2 = len(b2)

    with DateTimeTimer("Read parquet", display=display) as timer:
        records2 = read_parquet(b2)
    result["Read parquet"] = timer.elapsed
    assert len(records2) == n_records
    if n_records <= 1000:
        assert records2 == records

    if display:
        print(f"{n_records = }")
        print(json.dumps(result, indent=4))


test_performance()

结论:

Parquet 是最优选择. 它不仅有最好的 IO 性能, 并且由于其列式存储的特性, 还能选择性地读部分字段, 例如只读 URI 字段用来定位数据文件. 并且将它读到 DataFrame 中做后续处理也更方便.