본문 바로가기

Bigdata/hadoop

[hive] LzoTextInputFormat 일 때 TextFile을 읽지 못하는 경우

hive table의 InputFormat이 LzoTextInputFormat인 경우에 hive에서는 lzo로 압축된 파일과 일반 텍스트파일을 모두 읽는 것이 가능하다. 하지만 spark에서 해당 테이블을 조회시 lzo로 압축된 데이터는 읽어지지만 텍스트 형식의 파일은 읽지 못하는 경우가 있었다. 확인 결과 spark에서 참조하는 hive-site.xml에 아래의 옵션이 누락되어 발생하는 문제였다.


    lzo.text.input.format.ignore.nonlzo
    false

lzo.text.input.format.ignore.nonlzo는 자동으로 LZO가 아닌 입력을 무시해야하는지 여부를 나타내는 속성이다. 속성이 true(기본값)인 경우 LZO가 아닌 파일은 무시된다. 속성이 false이면 LZO가 아닌 파일은 표준 TextInputFormat을 사용하여 처리된다.

'Bigdata > hadoop' 카테고리의 다른 글

[Hadoop] HDFS에 파일 쓰기  (0) 2017.03.18