ما هو تنسيق بيانات الباركيه؟
ما هو تنسيق بيانات الباركيه؟

فيديو: ما هو تنسيق بيانات الباركيه؟

فيديو: ما هو تنسيق بيانات الباركيه؟
فيديو: PySpark Tutorial : Understanding Parquet 2024, شهر نوفمبر
Anonim

اباتشي ارضية خشبية هو برنامج مجاني ومفتوح المصدر موجه نحو الأعمدة البيانات تخزين صيغة للنظام البيئي Apache Hadoop. إنه متوافق مع معظم البيانات أطر المعالجة في بيئة Hadoop. يوفر كفاءة البيانات أنظمة الضغط والتشفير ذات الأداء المحسن للتعامل مع المعقدات البيانات بكميات كبيرة.

ببساطة ، ما هو تنسيق ملف الباركيه؟

ارضية خشبية ، مفتوح المصدر تنسيق الملف لـ Hadoop. ارضية خشبية يخزن هياكل البيانات المتداخلة في عمود مسطح صيغة . مقارنة بالنهج التقليدي حيث يتم تخزين البيانات في نهج موجه نحو الصف ، ارضية خشبية أكثر كفاءة من حيث التخزين والأداء.

علاوة على ذلك ، ما هو استخدام الباركيه؟ ارضية خشبية هو تنسيق ملف مفتوح المصدر متاح لأي مشروع في نظام Hadoop البيئي. اباتشي ارضية خشبية تم تصميمه من أجل تنسيق التخزين العمودي المسطح الفعال والأداء للبيانات مقارنة بالملفات المستندة إلى الصفوف مثل ملفات CSV أو TSV.

بالإضافة إلى ذلك ، كيف يقوم تنسيق الباركيه بتخزين البيانات؟

البيانات BLOCK كل كتلة في ارضية خشبية الملف هو مخزن في شكل مجموعات صفوف. وبالتالي، البيانات في ارضية خشبية يتم تقسيم الملف إلى مجموعات صفوف متعددة. تتكون مجموعات الصفوف هذه بدورها من مقطع عمود واحد أو أكثر يتوافق مع عمود في ملف البيانات يضع. ال البيانات لكل جزء عمود مكتوب في شكل صفحات.

هل الباركيه الإنسان مقروء؟

مسخ، ارضية خشبية ، و Avro هي أيضًا آلة- مقروء التنسيقات الثنائية ، وهذا يعني أن الملفات تبدو مثل gibberish البشر . اذا احتجت إنسان - مقروء مثل JSON أو XML ، فمن المحتمل أن تعيد النظر في سبب استخدامك لبرنامج Hadoop في المقام الأول.

موصى به: