파이썬 & 오픈소스 개발 Tip과 강좌

이곳은 파이썬과 여러 오픈소스 기반 프레임워크 관련 Tip과 강좌 게시판 입니다. 관련 개발을 진행하면서 알아내신 Tip이나 강좌와 새로운 소식을 적어 주시면 다른 공부하는 분들에게 큰 도움이 됩니다. 감사합니다. SQLER.com은 개발자와 IT전문가의 지식 나눔을 실천하기 위해 노력하고 있습니다.

 

Spark, Parquet 파일 작업 중, Parquet 파일 내부의 meta data를 조회를 리뷰할 필요가 있어서 진행.

생각보다 많은 정보를 parquet의 meta 데이터에서 추출할 수 있었다. 

 

parquet 파일의 meta 정보 추출

 

관련 코드는 아래에서 전체 내용을 참조 가능.

pyspark-basic/parquet-metadata.ipynb at main · CloudBreadPaPa/pyspark-basic (github.com)

 

로드한 Parquet 파일에서 meta 정보 출력

parquet_file.metadata

결과

<pyarrow._parquet.FileMetaData object at 0x7f7e40589310>
  created_by: parquet-cpp-arrow version 4.0.1
  num_columns: 83
  num_rows: 9999
  num_row_groups: 1
  format_version: 1.0
  serialized_size: 19443

 

parquet_file.schema

결과

<pyarrow._parquet.ParquetSchema object at 0x7f7e404b73c0>
required group field_id=-1 schema {
  optional binary field_id=-1 MachineIdentifier (String);
  optional binary field_id=-1 ProductName (String);
  optional binary field_id=-1 EngineVersion (String);
  optional binary field_id=-1 AppVersion (String);
  optional binary field_id=-1 AvSigVersion (String);

...

 

parquet_file.metadata.row_group(0).column(3)

결과

<pyarrow._parquet.ColumnChunkMetaData object at 0x7f7e600f3b30>
  file_offset: 324387
  file_path: 
  physical_type: BYTE_ARRAY
  num_values: 9999
  path_in_schema: AppVersion
  is_stats_set: True
  statistics:
    <pyarrow._parquet.Statistics object at 0x7f7e600f3590>
      has_min_max: True
      min: 4.10.14393.0
      max: 4.9.218.0
      null_count: 0
      distinct_count: 0
      num_values: 9999
      physical_type: BYTE_ARRAY
      logical_type: String
      converted_type (legacy): UTF8
  compression: SNAPPY
  encodings: ('PLAIN_DICTIONARY', 'PLAIN', 'RLE')
  has_dictionary_page: True
  dictionary_page_offset: 317350
  data_page_offset: 317874
  total_compressed_size: 7037
  total_uncompressed_size: 8512

 

parquet_file.metadata.row_group(0).column(3).statistics

결과

<pyarrow._parquet.Statistics object at 0x7f7e600f3810>
  has_min_max: True
  min: 4.10.14393.0
  max: 4.9.218.0
  null_count: 0
  distinct_count: 0
  num_values: 9999
  physical_type: BYTE_ARRAY
  logical_type: String
  converted_type (legacy): UTF8

 

# check memory mapping
pq_array = pa.parquet.read_table(file_path, memory_map=True)
print("RSS: {}MB".format(pa.total_allocated_bytes() >> 20))

결과

RSS: 24MB

 

 

참고자료

pyspark-basic/parquet-metadata.ipynb at main · CloudBreadPaPa/pyspark-basic (github.com)

Reading and Writing the Apache Parquet Format — Apache Arrow v6.0.0

How to use pyarrow to view the metadata information inside a Parquet file | Open Knowledge Base (openkb.info)

No. Subject Author Date Views
Notice Python 무료 강좌 - 기초, 중급, 머신러닝(2021년 1월 업데이트) 코난(김대우) 2021.01.01 683
» parquet 파일의 meta 정보 추출 코난(김대우) 2021.11.16 64
109 embedded SQL - GlueSQL, rust 기반 오픈소스 프로젝트 file 코난(김대우) 2021.10.22 68
108 대규모 머신러닝 프로젝트 Serving에 사용되는 Python WAS, ASGI - uvicorn file 코난(김대우) 2021.10.06 166
107 Apache Arrow 리뷰 file 코난(김대우) 2021.10.05 217
106 autopep8을 이용한 python 린트(linting) 구현 코난(김대우) 2021.09.15 104
105 Python에서 환경변수(environment variable) 처리 코난(김대우) 2021.09.15 57
104 Python에서 random 문자열이나 숫자 가져오는 방법 코난(김대우) 2021.09.15 50
103 Python 중급 강좌 - 9. 비동기 작업(Asynchronous operations): asyncio 코난(김대우) 2021.01.03 353
102 Python 중급 강좌 - 8. 외부 리소스 관리(Managing external resources): with 코난(김대우) 2021.01.03 196
101 Python 중급 강좌 - 7. 파일작업(File read/write) file 코난(김대우) 2021.01.03 260
100 Python 중급 강좌 - 6. 파일시스템(File system) 관리 코난(김대우) 2021.01.03 236
99 Python 중급 강좌 - 5. 다중상속(Mixins - multiple inheritance) 코난(김대우) 2021.01.03 136
98 Python 중급 강좌 - 4. 상속(Inheritance) 코난(김대우) 2021.01.03 83
97 Python 중급 강좌 - 3. 클래스(Class) 코난(김대우) 2021.01.03 107
96 Python 중급 강좌 - 2. 람다(Lamda) file 코난(김대우) 2021.01.03 137
95 Python 중급 강좌 - 1. Python 스타일 가이드: 서식(Formatting)과 린팅(Linting) file 코난(김대우) 2021.01.02 171
94 Python 초급 강좌 목차 - 19. 코드에서 중요한 키(패드워드) 관리 - dotenv 코난(김대우) 2021.01.02 173
93 Python 초급 강좌 목차 - 18. 데코레이터(Decorators) 코난(김대우) 2021.01.02 95
92 Python 초급 강좌 목차 - 17. JSON 데이터 처리 file 코난(김대우) 2021.01.02 225
91 Python 초급 강좌 목차 - 16. 외부 웹서비스 API 호출 file 코난(김대우) 2021.01.02 252





XE Login