티스토리 뷰
이미지 파일에서 text를 추출해서 text로 검출된 Box 는 지운 다음 pdf로 변환하고, 검출된 부분에 text를 삽입하려고 하는데, OCR 결과가 만족스럽지 않다. 몇개 이미지 파일 box 를 하나씩 수동으로 정의하고 다시 훈련시켜야되는건지 아니면 그냥 OCR 하고 틀린 부분 후처리하는게 빠른지.
그러니까 훈련데이터 좀 만들어서 훈련시킨 다음에 후처리할지. 아니면 그냥 전부 후처리할지 정해야되는데..
어차피 후처리는 해야된다.
자고 일어나서 훈련데이터 한 10페이지만 만들어본 다음에 다시 OCR 해봐야겠다.
728x90
'history | grep' 카테고리의 다른 글
240626/20대 (0) | 2024.06.28 |
---|---|
240624 (0) | 2024.06.24 |
240617/잠수 (0) | 2024.06.19 |
240616/키위 (0) | 2024.06.17 |
240613/ 불법 복제 (0) | 2024.06.14 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 서버점검
- 다이나밍프로그래밍
- create databases;
- 개발자면접
- 로드나인
- DB 생성
- create db
- 다이나믹프로그래밍
- 동적프로그래밍
- 투포인터 연습
- 롱베케이션
- 면접비
- 서버개발
- 최소공통조상
- 그래프
- 면접질문
- node.js
- MySQL
- MOD
- BFS
- 은둔청년체험
- 투포인터
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함