DataFrame 꿀팁정리

1. 데이터 프레임 랜덤추출

#https://rfriend.tistory.com/602
#df에서 랜덤으로 1000개를 뽑고 싶을 때
df.sample(n=1000,replace=False) #비복원추출
df.sample(n=1000,replace=False) #복원추출

2. 특정 기간 사이의 데이터만 추출

#https://happy-obok.tistory.com/m/5

from datetime import datetime
Data['timestamp']= pd.to_datetime(Data["timestamp"])
Data = Data[(Data.timestamp >= datetime(start_year,start_month , start_day)) & (Data.timestamp <= datetime(finish_year, finish_month, finish_day))]

3. 데이터 인덱스 차곡차곡

Data.reset_index(drop=True, inplace=True)

4.reset_index 컬럼이름과 함께

Data.reset_index().rename(columns={"index": "index"})

5. 특정 컬럼 제거

#age 컬럼을 삭제한 상태 출력
df.drop('age', axis=1)
#age 컬럼 삭제 내용을 바로 df에 적용 -> inplace=True
df.drop('age', axis=1, inplace=True)

#여러개의 컬럼 한꺼번에 삭제
df.drop(['age','height'], axis=1, inplace=True)

6. 결측치갯수

df.isnull().sum()
df['A'].isnull().sum() #A 컬럼에서 결측치 갯수
df.notnull().sum()

7. 특정 컬럼 기준으로 중복제거

#열을 기준으로 중복제거
df.drop_duplicates(['asin'])

8. 특정 컬럼 기준 특정 문자 지우기

products_copy['price'] = products_copy['price'].str.replace('$','')

9. 공백제거

#양쪽공백 모두 제거
products["description"].str.strip()

10. 개행문자 제거

#feature 줄바꿈제거
products_copy["feature"]= products_copy["feature"].replace(r'\\n','', regex=True)

11. 데이터를 길이기준으로 필터링

#title의 길이가 300 미만인 것만 출력
products_copy[products_copy.title.apply(lambda x: len(str(x))<300)]

12. 특정 값을 포함한 데이터만 추출

#asin이 asin_list에 포함되어있을 경우만
products_reveiw_copy[products_reveiw_copy.asin.apply(lambda x: x in asin_list)]

13. 특정 컬럼 기준으로 merge

review_review_count = pd.merge(review_count_per_asin_df,products_reviewText_df, how='inner', on='asin')

14. 새로운 컬럼 생성과 동시에 list로 된 데이터 추가

#4번째 컬럼에 keywords라는 이름으로 생성, result라는 리스트를 새로운 데이터로 넣기
merged_reivew_q_copy.insert(4,"keywords",result,True)

15. 데이터프레임 컬럼을 문자열이 아니라 리스트단위로 읽기

products.also_buy=products.also_buy.str[1:-1].str.split(',').tolist()

https://stackoverflow.com/questions/45758646/pandas-convert-string-into-list-of-strings

16. 행방향으로 이어붙이기

pd.concat([df1, df2])
#or
df1.append(df2)

17. 특정 컬럼기준 정렬

#오름차순
data.sort_values("reviewCount")
#내림차순
data.sort_values("reviewCount",ascending=False)

18. string 컬럼의 평균길이

df["mergedReview"].str.len().mean()

19. 새로운 컬럼에 리스트로 된 데이터 추가

mergedReview_product.loc[:,'keywords'] = result

20. kw=[(a,1),(b,2)] → 리스트 안에 있는 튜플에서 첫번째 요소만 가져오기

[x[0] for x in kw]

21. 특정 열 문자열 길이 줄이기

#description 열의 길이를 50으로 자르기
description["description"].astype(str).apply(lambda x: x[:50])

22. 날짜 컬럼에서 년도만 추리기

data["year"] = data["year"].apply(lambda x : x[-5:-1]

23. group으로 묶어서 특정 컬럼 통계

df_review.groupby("asin")["review_length"].mean().values
list(df_review.groupby("asin")["review_length"].mean().values)

24. 특정 컬럼 기준으로 새로운 컬럼에 값 추가

price_all['nlp'] = np.where(price_all.description.isnull(), 1,0)

description 컬럼이 nan일 때 1을 붙이고 아닐땐 0

'Programming > Python' 카테고리의 다른 글

Python 리스트를 문자열로 만들기 (0)	2021.06.22
ValueError: Iterable over raw text documents expected, string object received. (0)	2021.06.19
알아두면 좋은 python 함수 - lambda, assert, map, filter (0)	2021.03.25
python set 원소 추가 및 삭제 (0)	2021.03.25
Python skew(), kurt() (0)	2020.10.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Inistory's devlog 💻

DataFrame 꿀팁정리

1. 데이터 프레임 랜덤추출

2. 특정 기간 사이의 데이터만 추출

3. 데이터 인덱스 차곡차곡

4.reset_index 컬럼이름과 함께

5. 특정 컬럼 제거

6. 결측치갯수

7. 특정 컬럼 기준으로 중복제거

8. 특정 컬럼 기준 특정 문자 지우기

9. 공백제거

10. 개행문자 제거

11. 데이터를 길이기준으로 필터링

12. 특정 값을 포함한 데이터만 추출

13. 특정 컬럼 기준으로 merge

14. 새로운 컬럼 생성과 동시에 list로 된 데이터 추가

15. 데이터프레임 컬럼을 문자열이 아니라 리스트단위로 읽기

16. 행방향으로 이어붙이기

17. 특정 컬럼기준 정렬

18. string 컬럼의 평균길이

19. 새로운 컬럼에 리스트로 된 데이터 추가

20. kw=[(a,1),(b,2)] → 리스트 안에 있는 튜플에서 첫번째 요소만 가져오기

21. 특정 열 문자열 길이 줄이기

22. 날짜 컬럼에서 년도만 추리기

23. group으로 묶어서 특정 컬럼 통계

24. 특정 컬럼 기준으로 새로운 컬럼에 값 추가

'Programming > Python' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

DataFrame 꿀팁정리

1. 데이터 프레임 랜덤추출

2. 특정 기간 사이의 데이터만 추출

3. 데이터 인덱스 차곡차곡

4.reset_index 컬럼이름과 함께

5. 특정 컬럼 제거

6. 결측치갯수

7. 특정 컬럼 기준으로 중복제거

8. 특정 컬럼 기준 특정 문자 지우기

9. 공백제거

10. 개행문자 제거

11. 데이터를 길이기준으로 필터링

12. 특정 값을 포함한 데이터만 추출

13. 특정 컬럼 기준으로 merge

14. 새로운 컬럼 생성과 동시에 list로 된 데이터 추가

15. 데이터프레임 컬럼을 문자열이 아니라 리스트단위로 읽기

16. 행방향으로 이어붙이기

17. 특정 컬럼기준 정렬

18. string 컬럼의 평균길이

19. 새로운 컬럼에 리스트로 된 데이터 추가

20. kw=[(a,1),(b,2)] → 리스트 안에 있는 튜플에서 첫번째 요소만 가져오기

21. 특정 열 문자열 길이 줄이기

22. 날짜 컬럼에서 년도만 추리기

23. group으로 묶어서 특정 컬럼 통계

24. 특정 컬럼 기준으로 새로운 컬럼에 값 추가

'Programming > Python' 카테고리의 다른 글

'Programming/Python' 관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역