판다스는 데이터 프레임과 시리즈 두 분류로 나누어 진행합니다.

 

데이터프레임을 처음 보면 흔히 보게되는 표를 떠올립니다. 마찬가지로 행과 열이 존재하며, 2차원의 형태로 이루어져있습니다. 판다스를 이용하면 데이터프레임의 직접적인 조작이 가능해지고, 파일저장, 읽기등의 기능을 수행가능합니다.

 

판다스 패키지의 데이터프레임 클래스입니다. 구성은 다음과 같습니다.

  - class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

 

Import.

우선 판다스를 불러옵니다.

import pandas as pd

 

데이터 프레임 생성방법.

 

1. 딕셔너리를 이용한 생성.

my_dictionary = {"col1":[1,2],"col2":[3,4],"col3":[5,6]}
df = pd.DataFrame(data=my_dictionary)
df

2. 시리즈를 이용하는 방법.

my_dictionary2 = {"col1":[0,1,2,3], "col2": pd.Series([1,2,3],index=[1,2,3])}
df2=pd.DataFrame(data=my_dictionary2, index=[0,1,2,3])
df2

※ 위의 방법의 경우 행은 4개이나, 시리즈 데이터는 3개이다. 데이터 프레임 생성시(2번째 줄) index를 설정하지 않으면 길이가 맞지 않아 정상적으로 생성되지 않는다.

my_dictionary2 = {"col1":[0,1,2,3], "col2": pd.Series([1,2,3],index=[1,2,3])}
df2=pd.DataFrame(data=my_dictionary2)
df2

3. numpy array를 사용하는 방법.

import numpy as np
df3 = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9]]),columns=['col1','col2','col3'])
df3

※dtype을 이용하면 데이터의 타입도 지정 가능하다.

 

 

참고 - 해당 포스팅은 판다스의 데이터프레임 document를 참고하였습니다.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#

 

pandas.DataFrame — pandas 1.4.3 documentation

Column labels to use for resulting frame when data does not have them, defaulting to RangeIndex(0, 1, 2, …, n). If data contains column labels, will perform column selection instead.

pandas.pydata.org

 

+ Recent posts