Мазмуну:

Hadoop файл форматтары кандай?
Hadoop файл форматтары кандай?

Video: Hadoop файл форматтары кандай?

Video: Hadoop файл форматтары кандай?
Video: Лекция 4, Виктор Бородаенко, Основы Hadoop, современные подходы к обработке Big data 2024, Май
Anonim

Бактыга жараша, чоң маалымат коомчулугу үч оптималдаштырылган файл форматтары ичинде колдонуу үчүн Hadoop кластерлер: Оптимизацияланган сап мамычасы (ORC), Avro жана паркет.

Андан кийин, маалымат форматтарынын ар кандай түрлөрү кандай деп суралышы мүмкүн?

Үчөө бар маалыматтардын түрлөрү карта түзүү жана ГИС маалымат форматтары . Ар бири түрү башкача каралат.

Маалымат форматтарынын түрлөрү

  • Файлга негизделген- Shapefiles, Microstation Design Files (DGN), GeoTIFF сүрөттөрү.
  • Каталог негизинде - ESRI ArcInfo Coverages, US Census TIGER.
  • Берилиштер базасы байланыштары - PostGIS, ESRI ArcSDE, MySQL.

Кошумча, уюкта кайсы файл форматы эң жакшы? RCFile сап мамычасы Файлдын форматы . Бул дагы бир түрү Hive файл форматы жогорку сап деңгээлинде кысуу чендерин сунуш кылат. Эгер сизде бир убакта бир нече катарларды аткаруу талап кылынса, анда RCFile колдоно аласыз формат.

Муну эске алуу менен, Hadoopто жалпы киргизүү форматтары кайсылар?

InputFormat Inputsplitти түзөт

  • Көбүнчө InputFormat болуп төмөнкүлөр саналат:
  • FileInputFormat- Бул бардык файлга негизделген InputFormat үчүн базалык класс.
  • TextInputFormat- Бул MapReduce демейки InputFormat болуп саналат.
  • KeyValueTextInputFormat- Бул TextInputFormatка окшош.
  • Hadoop ичиндеги InputFormat жөнүндө көбүрөөк билүү үчүн шилтемени басыңыз.

Hadoop ичинде orc файл форматы деген эмне?

ORC файл форматы Оптимизацияланган сап мамычасы ( ORC ) Файлдын форматы Hive маалыматтарын сактоонун жогорку натыйжалуу жолун камсыз кылат. Ал башка уюктун чектөөлөрүн жеңүү үчүн иштелип чыккан файл форматтары . Колдонуу ORC файлдары Hiveis маалыматтарды окуганда, жазганда жана иштетүүдө майнаптуулукту жакшыртат.

Сунушталууда: