파이썬 기반 삭제 문자열 케이스

  • 문제 설명

자연 언어 처리 과정에서 종종 텍스트 파일 삭제 원하지 않는 내용에서 읽은 문자열에서 발생했습니다. 처리 방법 파이썬에 따라이 경우 선물는 판독 텍스트 규칙 성을 갖는 데이터뿐만 불필요한 데이터를 제거한다. 기본 프로세스는 다음과 같습니다 텍스트 파일 (텍스트에 저장된 데이터의 각 라인)을 읽고, 각 문자열의 문자열의 시작 부분을 삭제 한 다음 중간 부분 문자열, 청소 후 텍스트 문자열에 기록 된 마지막 파일입니다 제거합니다.

  • 연산
#读取文本文件
def ReadTxtFile( fileName ):
    with open( fileName, mode = 'r', encoding = 'utf-8' ) as fp:
        lineNum = 0
        dataTxt = []
        for line in fp:
            if lineNum < 5: #只读取前5行
                lineNum += 1
                dataTxt.append( line )
            else:
                break
    return dataTxt, lineNum
#删除不需要的子串
def DeletePartTxtData( dataTxt, lineNum ):
    data = []
    ind = 0
    txt =[]
    for i in range( lineNum ):
        txt = str( dataTxt[i] )
        ind = txt.find( 'English' )
        txt1 = txt[ ind-1 : ]
        ind1 = txt1.find( 'http' )
        ind2 = txt1.find( 'end' )
        txt2 = txt1[ : ind1 ] + txt1[ ind2 + 6 :]
        data.append( txt2 )
            
    return data

#读取文本文件,删除不需要的子串后存储到新的文本文件
def ReadWriteTxtFile( fReadName, fWriteName ):
    data, lineNum = ReadTxtFile( fReadName )
    dataTxt = DeletePartTxtData( data, lineNum )
    with open( fWriteName, mode = 'w', encoding = 'utf-8' ) as fp:
        strdata = []
        for i in range( lineNum ):
            strdata = '[' + str(i+1) + ']' + '.' + dataTxt[i]
            fp.write( strdata )

def main():
    ReadWriteTxtFile( 'InitialTxtData.txt', 'TxtData.txt' )
    print( 'over' )

if __name__ == '__main__':
    main()
  • 액세서리

1.InitiTxtData.txt

2.TxtData.txt

 저자 : YangYF

게시 된 145 개 원래 기사 · 원 찬양 (213) ·은 10000 +를 볼

추천

출처blog.csdn.net/s0302017/article/details/103763868