I need to duplicate various kinds of file types, change them a bit so that the original’s md5 hash won’t match the modified one, but keep them readable and not corrupted.
TXT files — that’s obvious. I just add a random string to the end of the file.
PDF file — well I started looking for a java library to edit pdf files, but then I accidentally tried to open a pdf file in notepad++, and thought — why don’t I try to add a random string to the end of the not readable content that I see there. Well, to my surprise it worked and the file wasn’t corrupted.
ZIP file — I’ve tried the same that I did with pdf, and it also worked.
DOCX- the same method stopped working here. Appending just a space (» «) at the end of the binary content of a docx file that I open in a text editor, corrupts the file.
So what I need is:
-
java libraries for modifying office documents :doc, docx, xls, xlsx, ppt, pptx.
-
There are still file types that I need to change there md5 hash output, but I don’t think they are modifiable in java — media files for example, executables and etc..
So, nevertheless, how can i perform what I want on these files? Is there a way to just «touch» the file, change a header or something and make it nonidentical to an untouched one?
edit:
Ok, here’s the motivation — I want to generate massive amount of data as I asked here: How to produce massive amount of data?
At the time of that question, the answers I got there were enough, but not they dont.
-
I need the data to be nonidentical. Pairs of files must fail md5 hash test.
-
i can’t just generate random strings, because I need to simulate real files and documnets.
-
I can’t use existing data dumps, because I need various sizes of these data sets that include various file types. I need something that I’ll give as an input the size, and it will generate the data for me.
So I figured that I should use a starting data set of all the file types that I eventually need, and just duplicate this data set.
I need to duplicate various kinds of file types, change them a bit so that the original’s md5 hash won’t match the modified one, but keep them readable and not corrupted.
TXT files — that’s obvious. I just add a random string to the end of the file.
PDF file — well I started looking for a java library to edit pdf files, but then I accidentally tried to open a pdf file in notepad++, and thought — why don’t I try to add a random string to the end of the not readable content that I see there. Well, to my surprise it worked and the file wasn’t corrupted.
ZIP file — I’ve tried the same that I did with pdf, and it also worked.
DOCX- the same method stopped working here. Appending just a space (» «) at the end of the binary content of a docx file that I open in a text editor, corrupts the file.
So what I need is:
-
java libraries for modifying office documents :doc, docx, xls, xlsx, ppt, pptx.
-
There are still file types that I need to change there md5 hash output, but I don’t think they are modifiable in java — media files for example, executables and etc..
So, nevertheless, how can i perform what I want on these files? Is there a way to just «touch» the file, change a header or something and make it nonidentical to an untouched one?
edit:
Ok, here’s the motivation — I want to generate massive amount of data as I asked here: How to produce massive amount of data?
At the time of that question, the answers I got there were enough, but not they dont.
-
I need the data to be nonidentical. Pairs of files must fail md5 hash test.
-
i can’t just generate random strings, because I need to simulate real files and documnets.
-
I can’t use existing data dumps, because I need various sizes of these data sets that include various file types. I need something that I’ll give as an input the size, and it will generate the data for me.
So I figured that I should use a starting data set of all the file types that I eventually need, and just duplicate this data set.
1346 / 835 / 419 Регистрация: 06.02.2012 Сообщений: 2,606 |
|
1 |
|
14.06.2014, 15:10. Показов 4440. Ответов 12
Добрый день-ночи друзья! Скажите пожалуйста может кто сталкивался с такой ситуацией. Нужно получить MD5 изображения. — Это я сделал. А вот как потом (изменить-записать-присвоить и.т.п) изображению новый MD5?, я так не нашел на свой вопрос ответа, по поиску Google. Если открыть изображение и внести небольшие изменения, т.е поставить туже точку, то соответственно MD5 изменяется. Может кто сталкивался с такой ситуацией, буду премного благодарен. В общем одним словом скажу, нужно изменять одному и тому же изображению постоянно MD5, без потери качества. Спасибо!
0 |
1088 / 831 / 490 Регистрация: 09.04.2014 Сообщений: 1,969 |
|
14.06.2014, 15:21 |
2 |
MD5 это алгоритм подсчета хеша (уникального «идентификатора» конкретного набора данных), его можно посчитать для любого файла.
нужно изменять одному и тому же изображению постоянно MD5, без потери качества. Хеш файла не влияет на содержимое файла, соответсвенно никакого влияния на качество иметь не может
А вот как потом (изменить-записать-присвоить и.т.п) изображению новый MD5? А зачем вам хеш и куда вы его записываете?
0 |
Почетный модератор 28037 / 15768 / 981 Регистрация: 15.09.2009 Сообщений: 67,753 Записей в блоге: 78 |
|
14.06.2014, 15:23 |
3 |
скажем так, по простому, 2+2 всегда 4, и если вы захотите чтоб это было 5 — то это не возможно.
0 |
1346 / 835 / 419 Регистрация: 06.02.2012 Сообщений: 2,606 |
|
14.06.2014, 15:34 [ТС] |
4 |
скажем так, по простому, 2+2 всегда 4, и если вы захотите чтоб это было 5 — то это не возможно. Мне нужно заливать на сайт изображение. Есть проблема, что одно и тоже изображение нельзя заливать более n — раз. Я так понял что их сверяют по MD5 или как там называется? правильно подсчет контрольной суммы? Если не правильно сформулировал, извините поправьте меня. Так вот что в моем случае нужно делать?
0 |
991 / 889 / 354 Регистрация: 24.03.2014 Сообщений: 2,381 Записей в блоге: 2 |
|
14.06.2014, 15:42 |
5 |
Kazbek17, вычисляете MD5, проверяете нет ли такого уже в базе, принимаете решение о загрузке…
0 |
1346 / 835 / 419 Регистрация: 06.02.2012 Сообщений: 2,606 |
|
14.06.2014, 15:48 [ТС] |
6 |
вычисляете MD5, проверяете нет ли такого уже в базе, принимаете решение о загрузке… Если это был мой сайт разговоров нет. Мне нужно так.
0 |
Почетный модератор 28037 / 15768 / 981 Регистрация: 15.09.2009 Сообщений: 67,753 Записей в блоге: 78 |
|
14.06.2014, 15:50 |
7 |
стань владельцем сайта…
0 |
1346 / 835 / 419 Регистрация: 06.02.2012 Сообщений: 2,606 |
|
14.06.2014, 15:57 [ТС] |
8 |
стань владельцем сайта… Ладно, разговор может быть длительный на эту тему. Коротко и ясно, может кто ответить по этому поводу? Что делать куда копать, подскажите пожалуйста если не трудно.
0 |
Почетный модератор 28037 / 15768 / 981 Регистрация: 15.09.2009 Сообщений: 67,753 Записей в блоге: 78 |
|
14.06.2014, 16:01 |
9 |
я вот не знаю, как тебе еще раз объяснить, МД5 для одного и того же файла — есть постоянная и неизменная весч.
0 |
1346 / 835 / 419 Регистрация: 06.02.2012 Сообщений: 2,606 |
|
14.06.2014, 16:09 [ТС] |
10 |
я вот не знаю, как тебе еще раз объяснить, МД5 для одного и того же файла — есть постоянная и неизменная весч. Шутники вы иногда бываете модераторы! Объяснять не нужно, а нужно конкретно сказать, я понял что они есть есть постоянная и неизменная Так делать-то что мне? Как быть, чтобы вы сделали в моей ситуации. Не бывает же безвыходных положений.
0 |
6258 / 3559 / 898 Регистрация: 28.10.2010 Сообщений: 5,926 |
|
14.06.2014, 16:14 |
11 |
Я думаю, что у программиста должна существовать некая профессиональная этика, поэтому советую не давать ТС решений и советов по этой теме. Задача выглядит крайне странно, если сайт не пропускает картинки значит так нужно, а ТС пытается обойти систему.
0 |
1346 / 835 / 419 Регистрация: 06.02.2012 Сообщений: 2,606 |
|
14.06.2014, 16:27 [ТС] |
12 |
Я думаю, что у программиста должна существовать некая профессиональная этика, поэтому советую не давать ТС решений и советов по этой теме. Задача выглядит крайне странно, если сайт не пропускает картинки значит так нужно, а ТС пытается обойти систему. Писец я что пентагон предлагаю взломать, тупо спросил как изменить значение, вы блин из мухи слона раздули, зачем как и что как у прокурора на допросе. Я что-то не законное делаю? Не хотите подсказывать, не отвечайте на мой ответ, не надо искать в каждом человеке потенциального врага. Нагорная проповедь. Не судите, да не судимы будете.
0 |
991 / 889 / 354 Регистрация: 24.03.2014 Сообщений: 2,381 Записей в блоге: 2 |
|
14.06.2014, 16:52 |
13 |
Гм, ну, пережимайте изображения, визуально может ничего не поменяться, а контрольные суммы изменятся.
1 |
IT_Exp Эксперт 87844 / 49110 / 22898 Регистрация: 17.06.2006 Сообщений: 92,604 |
14.06.2014, 16:52 |
13 |