جدول المحتويات:

ما هي تنسيقات الملفات المختلفة في Hadoop؟
ما هي تنسيقات الملفات المختلفة في Hadoop؟

فيديو: ما هي تنسيقات الملفات المختلفة في Hadoop؟

فيديو: ما هي تنسيقات الملفات المختلفة في Hadoop؟
فيديو: What Is Big Data & Hadoop | Big Data Analytics Explained in 60 Minutes | Hadoop Full Course 2024, ديسمبر
Anonim

لحسن الحظ بالنسبة لك ، استقر مجتمع البيانات الضخمة بشكل أساسي على ثلاثة عناصر محسّنة تنسيقات الملفات للاستخدام في هادوب مجموعات: عمود صف محسن (ORC) ، أفرو ، وباركيه.

بعد ذلك ، قد يتساءل المرء أيضًا ، ما هي الأنواع المختلفة لتنسيقات البيانات؟

هناك ثلاثة أنواع البيانات رسم الخرائط ونظم المعلومات الجغرافية تنسيقات البيانات . كل نوع يتم التعامل معها بشكل مختلف.

أنواع تنسيق البيانات

  • الملفات المستندة إلى الملفات ، ملفات تصميم Microstation (DGN) ، صور GeoTIFF.
  • المستندة إلى الدليل - تغطية ESRI ArcInfo ، تعداد الولايات المتحدة TIGER.
  • اتصالات قواعد البيانات - PostGIS و ESRI ArcSDE و MySQL.

بالإضافة إلى ذلك ، ما هو تنسيق الملف الأفضل في الخلية؟ RCFile هو صف عمودي تنسيق الملف . هذا هو شكل آخر من تنسيق ملف الخلية والذي يوفر معدلات ضغط عالية على مستوى الصفوف. إذا كان لديك متطلبات لأداء عدة صفوف في وقت واحد ، فيمكنك استخدام RCFile صيغة.

مع وضع ذلك في الاعتبار ، ما هي تنسيقات الإدخال الشائعة في Hadoop؟

يقوم InputFormat بإنشاء Inputsplit

  • تنسيق InputFormat الأكثر شيوعًا هو:
  • FileInputFormat- إنها الفئة الأساسية لجميع تنسيق InputFormat المستند إلى الملفات.
  • تنسيق TextInputFormat- هو تنسيق InputFormat الافتراضي لـMapReduce.
  • KeyValueTextInputFormat- إنه مشابه لتنسيق TextInputFormat.
  • اتبع الرابط لمعرفة المزيد حول InputFormat في Hadoop.

ما هو تنسيق ملف orc في Hadoop؟

تنسيق ملف ORC عمود الصف المحسن ( مسخ ) تنسيق الملف يوفر طريقة فعالة للغاية لتخزين بيانات Hive. تم تصميمه للتغلب على قيود الخلية الأخرى تنسيقات الملفات . استخدام ملفات ORC يحسن الأداء عند Hiveis قراءة وكتابة ومعالجة البيانات.

موصى به: