32. 파싱 계열 함수의 파싱 개수에 대하여
이전 기사: 31. readr 패키지에 있는 읽기 시리즈 함수의 모든 매개변수 분석
다음 기사: 33. 시리즈 구문 분석 함수의 문자열 구문 분석 정보
구문 분석 함수 계열은 문자형 벡터를 허용하고 논리형, 정수 또는 날짜와 같은 보다 특수화된 벡터를 반환합니다.
이러한 기능을 학습하는 목적은 나중에 readerr가 파일을 구문 분석하는 방법을 더 잘 이해하는 것입니다.
특히 중요한 구문 분석 함수에는 8가지가 있습니다:parse_logical() 및parse_integer(),parse_double(),parse_double(),parse_factor(),parse_factor()및parse_factor()및parse_time().
이러한 함수의 매개변수 목록은 매우 유사합니다. na는 누락된 값으로 구문 분석되는 문자를 지정하고, locale은 지역을 기본값으로 설정하며, locale()을 사용하여 직접 만들 수도 있습니다. 지역, 기본 시간대, 인코딩, 소수점, 큰 표시, 일/월 이름 등과 같은 제어 Trim_ws는 기본적으로 문자 앞뒤의 공백 문자를 제거합니다.
첫 번째 부분은 숫자를 분석하는 것입니다.
숫자와 관련하여 세 가지 주요 문제가 있습니다.
1) 세계 각 지역의 사람들은 숫자를 다른 방식으로 씁니다. 점)은 소수점을 나타내며, 일부는 ","(쉼표)를 사용합니다. 해결책은 독자의 로케일 개념입니다.
2) 숫자 컨텍스트에는 "$1000" 및 "10"과 같은 다른 문자가 있습니다. 이 문제를 해결하려면 pars_number() 함수를 사용하십시오. 이 함수는 숫자 앞뒤에 있는 숫자가 아닌 문자를 무시합니다. 이는 특히 통화 및 백분율에 유용합니다.
3) 읽기 쉽도록 숫자 사이에 그룹화 문자를 추가합니다. 일부 국가에서는 1,000,000,000(미국)과 같이 쉼표를 사용하고 일부 국가에서는 1'000'000과 같이 작은따옴표를 사용합니다. '000(스위스), 일부 국가에서는 1.000.000.000(유럽)과 같이 포인트를 사용합니다. 이것은 pars_number()의 로케일 매개변수를 사용하여 해결할 수 있습니다. parse_number() 함수 기본값: 로케일에 의해 지정된 그룹화 표시는 숫자 내에서 무시됩니다.
요약: 이 책에서는parse_double()과parse_number()에 대해 함께 논의합니다. parse_double()은 상대적으로 엄격한 구문 분석 함수인 반면,parse_number()는 더 유연합니다.
이전 기사: 31. readr 패키지에 있는 읽기 시리즈 함수의 모든 매개변수 분석
다음 기사: 33. 일련 분석 함수의 문자열 구문 분석 정보